中國權威大語言模型評測機構 SuperCLUE 發布來自中國的大模型 SenseChat V5(日日新5.0)的最新中文基準測試報告,最終獲得 80.03 的總評分,比 GPT-4-Turbo-0125 所得的 79.13 總評分還高,超越了長期霸佔排行榜頭幾位的幾個 GPT-4 大模型成榜首。
SuperCLUE 指出評測的主要內容涉及多個項目,多達 2194 道題目,其中包括計算、邏輯推理、程式碼、工具使用、語言理解、長文本、角色扮演、生成與創作等。除了綜合評測外,SuperCLUE 還有分開文科及理科兩個領域評測。SenseChat V5 的文科評測取得 82.20 總評分,依舊處於第一的位置。理科評測的表現並沒有超越 GPT-4-Turbo-0125 等幾個 GPT-4 的大模型,以 76.78 總評分排第四,僅低於以 81.13 總評分排在第一位的 GPT-4-Turbo-0125。但 SenseChat V5 理科評測的表現依然是國內第一。
SenseChat V5 在許多評測都表現最好,但程式編寫能力明顯落後 GPT-4 很多。與其他國產模型相比,SenseChat V5 每個評分均遠高於平均水平,其寫中文文章方面表現更好。中國近期掀起了價格戰,連百度智能雲的文心大模型 ENIRE Speed、ENIRE Lite 也相繼免費。雖然中國的 AI 要追上 OpenAI 的模型仍然有一段距離,但價格戰所帶來的龐大用戶可以收集大量的數據,相信至少在中文領域上有助追上其他國家的 AI。
相關文章:
WhatsApp 直接加入 Copilot 教學 輕鬆與 Microsoft AI 助理對話 【教學】iOS 18.1 AI 一鍵清相片路人雜物 旅遊景點不再人頭湧湧 【教學】Midjourney 網頁版免費試玩 無須再連 Discord + 生成圖片全部有紀錄