Apple 推開源小語言模型 DCLM 效能媲美 Google、Meta 相同規模的模型

2024-07-23

Published by

Ngan Ivan

Apple 投入更多資源到人工智能領域的開發項目，當中開源小語言模型是他們目標之一。而最近 Apple 就分別推出了兩款 14 億和 69 億參數的 DCLM 模型。Apple 新推出的小語言模型在基準測試中表現比 Mistral-7B 優勝，效能更與 Google 和 Meta 相同規模的模型不相上下。

圖片來源：Tom’s Guide

圖片來源：iThome

第一款模型為 69 億參數的 DCLM-7B，由 2.6 兆 token 的資料訓練而成。在多語理解測試 MMLU 中 DCLM-7B 與 Map-Neo 有接近的效能，但運算資源耗損少 40%。與私有模型比較，DCLM-7B 得分為 63.7%，與 Mistral-7B-v0.3 相同，接近 Google Gemma 的 64.3%，略低於 Llama 3-8B 的 66.2%。然而 Apple 聲稱 DCLM 模型的耗能低 6.6 倍。第二款模型為 14 億參數的 DCLM-1B，在 Alpaca bench 測試中，效能優於 Hugging Face 的 SmolLM。

這個 DCML（DataComp for Language Models）項目的團隊涉及 Apple、華盛頓大學、特拉維夫大學和豐田研究所的研究人員，但相信除了其訓練數據外不會成為 Apple 產品的一部分。Apple 機械學習團隊的 Vaishaal Shanke 在 X 平台上形容 DCLM 是目前表現最好的真正開源模型，而「真正開源」的意思是指所有模型權重、訓練程式碼和數據集都與模型一同公開。

資料來源：Tom’s Guide、iThome

圖片來源：Medium

相關文章:

【評測】Canon EOS R5 Mark II 全能高像素無反相機 AI 對焦性能大提升 + 人像與風景試相放大睇

【教學】iOS 18.1 AI 一鍵清相片路人雜物　旅遊景點不再人頭湧湧

【評測】Samsung Galaxy Z Fold6 開箱詳細評測　機身輕薄化 + 角邊位界手 + 整體表現中上 + AI 功能更實用 + 定價超貴入手門檻高