这两天,AI 圈最出圈的中国年轻人,不是创业明星,也不是流量博主,而是一个还没高中毕业的深圳少年。3 月 16 日,月之暗面 Kimi 团队发布论文《Attention Residuals》;同一天,马斯克在 X 上评论“Impressive work from Kimi”。而排在作者名单最前面的 Guangyu Chen,经媒体核实,正是来自深圳、年仅 17 岁的高中生陈广宇;论文附录也显示,他与张宇、苏剑林同为共同一作。
真正让人震一下的,不是“17 岁”这三个字,而是他碰的不是应用层的小修小补,而是大模型最底层的结构问题。按照论文和官方仓库的说明,这项工作瞄准的是大模型里沿用已久的“残差连接”:传统做法会把前面各层的输出一股脑往后累加,层数越深,信息越容易被稀释。Kimi 团队提出的 Attention Residuals(注意力残差),本质上是让模型在“深度维度”上也学会选择,决定该重点参考哪些前层表示;而 Block AttnRes(分块注意力残差) 则是把这个想法做成了可以大规模训练的工程化版本。
这件事之所以会被行业认真看待,不只是因为概念新。Kimi 官方在 X 上给出的说法是,这个结构作为标准残差连接的替代方案,能带来约 1.25 倍的训练算力优势,而推理延迟增加不到 2%;论文则写明,这套方法已经被整合进 Kimi Linear 架构,在 48B 总参数、3B 激活参数、1.4T tokens 的预训练中验证了效果。
换句话说,这不是一句“未来可期”,而是已经做到了“能跑、能训、能见效”。
更关键的是,陈广宇并不是“挂名天才少年”。据深圳媒体转述苏剑林《Attention Residuals 回忆录》的内容,陈广宇和张宇提出了论文里的 Block AttnRes 设计,这一步解决的正是新结构额外带来的显存、通信和计算开销问题,也是这项方法能真正走向大规模训练的关键。说得直白一点,他参与的不是锦上添花,而是决定这项创新能不能落地的那一刀。
但比“少年一作”更耐人寻味的,是他后面的反应。面对突如其来的关注,陈广宇多次强调成果属于团队,希望外界不要“造神”;在社交平台上感慨这项工作可能改变大语言模型历史之后,他很快又写下了一句很有分量的话:“感慨完毕,回归正事。”
这句话,可能比“马斯克点赞”更值得写。
为什么?因为今天太多人想借 AI 做流量,太多人想用一个爆点把自己包装成“下一个天才”,但真正把事情做出来的人,往往没空沉迷于自己的热搜。17 岁当然稀有,但更稀有的是:被全网围观之后,还知道马上把注意力拉回到问题本身。
这其实也是这件事最有价值的地方。它提醒我们,AI 竞争已经不是只看谁会写提示词、谁会做套壳应用、谁更会讲故事了。真正拉开差距的,还是底层能力:能不能读懂论文,能不能参与研究,能不能把一个想法做成工程上可用的东西。马斯克点赞,给的是全球注意力;而“回归正事”,给的是一种更稀缺的气质——不被热度带偏,继续向难题里走。
所以,这篇文章真正想写的,不是“深圳出了一个 AI 天才少年”,而是另一句话:
比起被看见,更重要的是先把事做成。
比起被神化,更重要的是继续解决问题。
比起一夜爆红,更重要的是第二天还能坐回电脑前。
马斯克的点赞,当然很耀眼。
但一个 17 岁少年最厉害的地方,也许恰恰是——他没有停在那条点赞通知上。
他知道,自己该忙正事了。