人工智能

馬斯克點讚 Kimi 突破 AI 底層架構 深圳 17 歲高中生入行一年領銜研究

Published by
arthur

中國 AI 公司月之暗面(Moonshot AI)旗下 Kimi 團隊於 3 月 16 日發表技術論文《Attention Residuals》,提出顛覆沿用近 10 年殘差連接架構的全新機制,Tesla CEO 馬斯克(Elon Musk)同日晚上在社交平台公開點讚,直言「令人印象深刻」。論文並列第一作者之一,是來自深圳的在讀高中生陳廣宇(Guangyu Chen),今年僅 17 歲,接觸 AI 研究至今不足一年。

傳統殘差連接的瓶頸

現有大型語言模型(LLM)普遍採用「殘差連接(Residual Connection)」架構,原理類似逐層搬運貨物上樓,每上一層就把之前所有資料一併帶走。模型加深後累積資料愈多,早期重要資訊反而愈來愈容易被後層數據稀釋。Kimi 團隊在論文中指出,這種固定均一的累積方式令隱藏狀態隨深度膨脹,削弱每一層的實際影響力,並製造不可逆的資訊損失。

AttnRes 機制如何改寫規則

Kimi 提出的 Attention Residuals(AttnRes)機制,以 softmax 注意力取代固定殘差累積,讓每一層主動從過去各層中篩選當下最有用的資訊並動態分配權重。研究人員進一步提出 Block Attention Residuals(Block AttnRes),將層數分組壓縮,確保跨層注意力在大型模型上具備實用性。在擁有 480 億總參數(30 億激活參數)的 Kimi Linear 架構上,AttnRes 帶來 1.25 倍算力優勢,推理延遲增加低於 2%,下游各項評測任務均有提升。Moonshot AI 已在 GitHub 公開完整技術報告及程式碼。

入行一年的 17 歲研究員

陳廣宇現就讀深圳某高中高三,深入接觸 AI 研究至今不足一年。他最初透過自學論文、追蹤 GitHub 開源項目建立基礎,去年暑假赴三藩市完成 7 週實習,回國後於 11 月加入 Kimi 團隊實習,最終以並列共同第一作者身份完成論文。與他並列的另外兩位作者,分別是 Kimi 高效模型架構核心研發人員張宇,以及旋轉位置編碼(RoPE)提出者蘇剑林。
論文發布後,陳廣宇希望外界減少關注個人,多把目光放在團隊共同攻關的大模型底層技術,並強調成果離不開 34 位其他參與作者及負責模型擴展與基礎設施建設的同事。

Tesla CEO 馬斯克(Elon Musk)3 月 16 日晚上在社交平台公開點讚 Kimi 技術論文《Attention Residuals》,直言「令人印象深刻」。該論文由月之暗面(Moonshot AI)旗下 Kimi 團隊發表,提出顛覆沿用近 10 年殘差連接架構的全新機制。論文並列第一作者之一,是來自深圳的在讀高中生陳廣宇(Guangyu Chen),今年僅 17 歲,接觸 AI 研究至今不足一年。

資料來源:cnBeta深圳特區報arXiv

Published by
arthur