AI 模型開源化已成趨勢,百度最近就終於正式開源文心 4.5 系列模型,一次推出 10 款模型,涵蓋 47B、3B 參數的混合專家(MoE)模型,以及 0.3B 參數的稠密型模型。

文心 4.5 開源系列針對 MoE 架構提出創新性的多模態異構模型結構,透過跨模態參數共享機制實現模態間知識融合,同時為各單一模態保留專用參數空間。該架構適用於從大語言模型向多模態模型的持續預訓練範式,在保持甚至提升文本任務性能的基礎上,顯著增強多模態理解能力。
模型透過在文本和視覺兩種模態上進行聯合訓練,更好地捕捉多模態資訊中的細微差別,提升在文本生成、圖像理解以及多模態推理等任務中的表現。結合多維旋轉位置編碼,並在損失函數計算時增強不同專家間的正交性。

推理方面,百度提出多專家並行協同量化方法和卷積編碼量化算法,實現效果接近無損的 4-bit 量化和 2-bit 量化。動態角色轉換的預填充、解碼分離部署技術可更充分地利用資源,提升 MoE 模型的推理性能。
實驗結果顯示,文心 4.5 系列模型在多個文本和多模態基準測試中達到 SOTA 水準,在指令遵循、世界知識記憶、視覺理解和多模態推理任務上效果尤為突出。
在文本模型方面,文心 4.5 開源系列基礎能力強、事實準確性高、指令遵循能力強、推理和編程能力出色,在多個主流基準評測中超越 DeepSeek-V3、Qwen3 等模型。在多模態模型方面,該系列擁有卓越的視覺感知能力,同時精通豐富視覺常識,並實現思考與非思考統一,在多模態大模型評測中優於閉源的 OpenAI o1。
在輕量模型上,文心 4.5-21B-A3B-Base 文本模型效果與同量級的 Qwen3 相當,文心 4.5-VL-28B-A3B 多模態模型是目前同量級最好的多模態開源模型,甚至與更大參數模型 Qwen2.5-VL-32B 不相上下。
百度預告將聯合 Hugging Face 等 30+ 開源社區推出 20 節「文心飛槳・開源系列公開課」,攜手產業導師與高校名師打造「文心名師系列・公開課」,並在北京、上海、深圳等 10 餘個城市啟動「文心開源服務站」。
來源:百度
分享到 :
最新影片