美團昨天正式發布新一代兆級參數大模型 LongCat-2.0,該模型聲稱是全球首個完全在 5 萬張國產晶片集群上完成訓練及運行的兆級參數人工智能系統,直接回應美國的出口管制措施。
規格達兆級參數 效能逼近 DeepSeek 旗艦
LongCat-2.0 總參數規模達 1.6 兆(平均每個 token 啟用約 480 億個參數),由零開始訓練,原生支援 100 萬個 token 超長上下文視窗,規模與今年 4 月推出的 DeepSeek 最新旗艦模型 V4-Pro 相若,美團表示模型在部分編碼及代理任務評測上,逼近甚至超越 Google Gemini、OpenAI GPT-5.5 及 Anthropic Claude Opus 等多款主流閉源模型。
具體數字方面 LongCat-2.0 在 SWE-bench Pro 編碼評測得分為 59.5,超過 GPT-5.5 的 58.6,但在 FORTE 及 BrowseComp 等更廣泛的代理能力評測上,仍然落後於 Anthropic 旗艦模型 Claude Opus 4.8。公司形容 LongCat-2.0 是「業界首個在 5 萬張國產算力卡集群上,完成全流程訓練與推理的兆級參數模型」,惟未有公開具體使用哪一家晶片供應商的產品。
端到端訓練是關鍵
「端到端」一詞是這次公告的核心,目前不少中國大模型已能在國產硬件上運行推理,即模型訓練完成後回答查詢這個相對輕鬆的環節,但預訓練才是真正的考驗——這個過程需要模型消化龐大的資料集以學習基本模式,運算量極其龐大,一向最依賴頂尖晶片。相比之下 DeepSeek V4-Pro 只在推理環節使用國產晶片,LongCat-2.0 則同時在預訓練及推理兩個環節都採用國產硬件,美團披露預訓練數據消耗超過 35 兆個 token,全程沒有回滾或不可恢復的損失峰值,證明具備在替代硬件平台上進行前沿規模訓練的能力。
美團沒有公開具體晶片供應商的名稱,但後來在微信公眾號另文透露,開發過程之中使用了「華為集合通訊庫」(HCCL)以提升訓練穩定性,這是一套類似 Nvidia 集合通訊庫、負責晶片之間協調的通訊系統,不過這並不等同直接證實訓練晶片本身來自華為,值得留意的是美團人工智能研究團隊早在 2023 年已開始探索使用國產晶片,屬於長期的戰略部署,而非倉促應對出口管制之作。
匿名測試率先驗證實力
美團在正式公開身份之前,曾以「Owl Alpha」的匿名身份,將 LongCat-2.0 部署到 OpenRouter 平台接受盲測,在未有披露模型真實身份及訓練來源的情況下,調用量已躋身全球大模型前三名,直到後來才揭露這就是美團 LongCat-2.0,目前模型規格及技術檔案已於 Hugging Face 上架,惟具體模型權重截至發布當日仍未提供,官方標註「權重即將推出」,意味著外界暫時未能完全獨立驗證公司的所有評測聲稱。
回應美國出口管制的戰略意義
若這項聲稱屬實,將直接觸及懸在中國人工智能產業頭上的戰略問題:能否在沒有 Nvidia 的情況下,建構前沿級的大模型,美國政府以國家安全為理由,限制出口最先進的晶片,北京則投入大量資源發展國產替代方案。這些努力已催生一連串的里程碑,LongCat-2.0 正是硬件推動下,軟件層面的對應成果。
美團跨界押注人工智能基建
以外賣及生活服務起家的美團,在前沿人工智能領域算是不太顯眼的旗手,對於營運全球最大規模即時外送物流業務的公司而言,較便宜且供應自主的人工智能,其吸引力相當具體:路線規劃、需求預測及客戶服務全部均依賴運算能力,一個以本土晶片訓練的模型,可以令這些運算能力免受下一輪出口管制收緊的影響。
模型效能是否真正逼近 DeepSeek V4-Pro 及其他主流模型的水平,有待權重正式發布後由開源社群進行獨立驗證,不過訓練硬件這項聲稱外界較難直接核實,因為這完全依賴美團對自身基礎設施的一方之言,這一點外間應與公司的信心並列看待。
來源:Reuters
