中國 AI 擊敗 GPT-4 成榜首多項能力評測表現最好

2024-05-23

Published by

Ngan Ivan

中國權威大語言模型評測機構 SuperCLUE 發布來自中國的大模型 SenseChat V5（日日新5.0）的最新中文基準測試報告，最終獲得 80.03 的總評分，比 GPT-4-Turbo-0125 所得的 79.13 總評分還高，超越了長期霸佔排行榜頭幾位的幾個 GPT-4 大模型成榜首。

SuperCLUE 指出評測的主要內容涉及多個項目，多達 2194 道題目，其中包括計算、邏輯推理、程式碼、工具使用、語言理解、長文本、角色扮演、生成與創作等。除了綜合評測外，SuperCLUE 還有分開文科及理科兩個領域評測。SenseChat V5 的文科評測取得 82.20 總評分，依舊處於第一的位置。理科評測的表現並沒有超越 GPT-4-Turbo-0125 等幾個 GPT-4 的大模型，以 76.78 總評分排第四，僅低於以 81.13 總評分排在第一位的 GPT-4-Turbo-0125。但 SenseChat V5 理科評測的表現依然是國內第一。

SenseChat V5 在許多評測都表現最好，但程式編寫能力明顯落後 GPT-4 很多。與其他國產模型相比，SenseChat V5 每個評分均遠高於平均水平，其寫中文文章方面表現更好。中國近期掀起了價格戰，連百度智能雲的文心大模型 ENIRE Speed、ENIRE Lite 也相繼免費。雖然中國的 AI 要追上 OpenAI 的模型仍然有一段距離，但價格戰所帶來的龐大用戶可以收集大量的數據，相信至少在中文領域上有助追上其他國家的 AI。

資料來源：電腦王阿達、快科技