馬斯克點讚 Kimi 突破 AI 底層架構深圳 17 歲高中生入行一年領銜研究

2026-03-20

Published by

arthur

中國 AI 公司月之暗面（Moonshot AI）旗下 Kimi 團隊於 3 月 16 日發表技術論文《Attention Residuals》，提出顛覆沿用近 10 年殘差連接架構的全新機制，Tesla CEO 馬斯克（Elon Musk）同日晚上在社交平台公開點讚，直言「令人印象深刻」。論文並列第一作者之一，是來自深圳的在讀高中生陳廣宇（Guangyu Chen），今年僅 17 歲，接觸 AI 研究至今不足一年。

傳統殘差連接的瓶頸

現有大型語言模型（LLM）普遍採用「殘差連接（Residual Connection）」架構，原理類似逐層搬運貨物上樓，每上一層就把之前所有資料一併帶走。模型加深後累積資料愈多，早期重要資訊反而愈來愈容易被後層數據稀釋。Kimi 團隊在論文中指出，這種固定均一的累積方式令隱藏狀態隨深度膨脹，削弱每一層的實際影響力，並製造不可逆的資訊損失。

AttnRes 機制如何改寫規則

Kimi 提出的 Attention Residuals（AttnRes）機制，以 softmax 注意力取代固定殘差累積，讓每一層主動從過去各層中篩選當下最有用的資訊並動態分配權重。研究人員進一步提出 Block Attention Residuals（Block AttnRes），將層數分組壓縮，確保跨層注意力在大型模型上具備實用性。在擁有 480 億總參數（30 億激活參數）的 Kimi Linear 架構上，AttnRes 帶來 1.25 倍算力優勢，推理延遲增加低於 2%，下游各項評測任務均有提升。Moonshot AI 已在 GitHub 公開完整技術報告及程式碼。

入行一年的 17 歲研究員

陳廣宇現就讀深圳某高中高三，深入接觸 AI 研究至今不足一年。他最初透過自學論文、追蹤 GitHub 開源項目建立基礎，去年暑假赴三藩市完成 7 週實習，回國後於 11 月加入 Kimi 團隊實習，最終以並列共同第一作者身份完成論文。與他並列的另外兩位作者，分別是 Kimi 高效模型架構核心研發人員張宇，以及旋轉位置編碼（RoPE）提出者蘇剑林。
論文發布後，陳廣宇希望外界減少關注個人，多把目光放在團隊共同攻關的大模型底層技術，並強調成果離不開 34 位其他參與作者及負責模型擴展與基礎設施建設的同事。

Tesla CEO 馬斯克（Elon Musk）3 月 16 日晚上在社交平台公開點讚 Kimi 技術論文《Attention Residuals》，直言「令人印象深刻」。該論文由月之暗面（Moonshot AI）旗下 Kimi 團隊發表，提出顛覆沿用近 10 年殘差連接架構的全新機制。論文並列第一作者之一，是來自深圳的在讀高中生陳廣宇（Guangyu Chen），今年僅 17 歲，接觸 AI 研究至今不足一年。

資料來源：cnBeta、深圳特區報、arXiv