性能測試直逼 Deepseek V3、Chat GPT4 地位阿里雲發佈「通義千問」Qwen2.5-Max

作者

arthur
發佈日期

2025-01-31
閱讀時間

3分鐘
字體大小

中國人工智能（AI）市場競爭日趨激烈，Alibaba 阿里雲於大年初一於微信公眾號發表全新旗艦級大型語言模型「通義千問」旗艦版模型 Qwen2.5-Max，並聲稱其在多項指令模型性能測試中，全面壓倒當前全球最強的開源 Mixture-of-Experts（MoE）模型 DeepSeek V3，以及最大型的開源稠密模型 Llama-3.1-405B。

其團隊指出，這款新一代 AI 模型的預訓練數據超過 20 兆 tokens，並於多個全球權威測試基準中錄得優異成績。在測試大學程度知識的 MMLU-Pro、程式設計能力的 LiveCodeBench、綜合能力評估的 LiveBench，以及模擬人類偏好的 Arena-Hard 等評測中，該模型的表現與 OpenAI GPT-4、Anthropic Claude-3.5-Sonnet 及 DeepSeek V3 旗鼓相當，甚至更勝一籌。為進一步驗證 Qwen2.5-Max 的能力，阿里雲將其與 DeepSeek V3、Llama-3.1-405B，以及阿里自家開源的 Qwen2.5-72B 進行對比測試。在 11 項關鍵基準測試中，Qwen2.5-Max 於所有項目均超越對手，足見其在 AI 領域的技術實力。

據外媒報導指出，阿里雲選擇在農曆新年大多數人在休假期間發表 Qwen2.5-Max，突顯出中國人工智慧（AI）新創公司 DeepSeek 在過去數週急速崛起，不僅對海外競爭對手造成壓力，也使其國內對手壓力大增。

來源: wsj

性能測試直逼 Deepseek V3、Chat GPT4 地位阿里雲發佈「通義千問」Qwen2.5-Max

分享到 :

最新影片

Follow 我們 :