騰訊最新發表推理模型混元-T1(Hunyuan-T1),正式在中國大型語言模型市場開啟新一輪角力。此模型以高效運算、低廉價格和多項評測中與對手 DeepSeek R1 並駕齊驅甚至超越的表現,成功引發業界關注。騰訊透過改良基礎模型、提升長文推理能力、強化訓練流程,以及在多項基準測試中的亮眼成績,明確顯示其挑戰現有 AI 模型格局的企圖心。
混元-T1 是建基於騰訊早前推出、強調高速回應能力的 TurboS 模型。TurboS 採用了融合 Transformer 與 Mamba 架構的混合技術,再配合專家混合(Mixture of Experts,簡稱 MoE)機制,有效提升模型處理長序列數據的效率,並降低記憶體資源消耗。騰訊聲稱,該系統能在相同部署條件下實現雙倍的解碼速度。
騰訊在開發混元-T1 的過程中,大量投入後訓練資源,約 96.7% 的運算力集中於強化學習,專注提升模型對人類偏好的理解與反應能力。除了廣泛收集數學、邏輯推理、科學與程式碼等多領域數據外,團隊還採用「課程式學習」方法,循序漸進地提高資料難度與上下文長度,以強化模型的推理能力與泛化能力。
價格方面,混元-T1 展現出明顯的市場競爭力。其輸入收費為每 1,000,000 個 Token 為 1 人民幣(約港幣 HK$1.08),輸出為每 1,000,000 個 Token 4 人民幣(約港幣 HK$4.32)。相比之下,DeepSeek R1 雖然日抖天輸入費用相同,但其輸出收費高達 16 人民幣(約港幣 HK$17.28);夜間輸入和輸出則分別為 0.25 元(約港幣 HK$0.27)與 4 元(約港幣 HK$4.32)。
騰訊亦在多項語言模型測試中對混元-T1 進行了性能比較,包括綜合知識測驗 MMLU PRO、專業推理 GPQA-diamond、程式碼設計 LiveCodeBench、數學解題 MATH-500、指令遵從 ArenaHard,以及文化與創意表現等。評測結果顯示,混元-T1 不但與 DeepSeek R1 表現相當,在部分項目更超越 GPT 4.5 與 OpenAI 的 o1 模型。例如在 DROP F1 推理測試與 MMLU PRO 綜合知識表現中,混元-T1 的分數為全場最高。
除了第三方公開評測,騰訊亦引用內部人類評估數據,指出混元-T1 的表現與 DeepSeek R1 同樣旗鼓相當,強調其產品在真實應用場景中的可靠性。
混元-T1 已正式推出並提供公開試用,騰訊也同步開設了展示網站,方便用戶直接體驗其回答速度與邏輯能力。
🚀 Introducing Hunyuan-T1! 🌟
Meet Hunyuan-T1, the latest breakthrough in AI reasoning! Powered by Hunyuan TurboS, it's built for speed, accuracy, and efficiency. 🔥
✅ Hybrid-Mamba-Transformer MoE Architecture – The first of its kind for ultra-large-scale reasoning
✅ Strong… pic.twitter.com/83mRrcgvN6— Hunyuan (@TXhunyuan) March 21, 2025
資料來源:Tencent