Apple 投入更多資源到人工智能領域的開發項目,當中開源小語言模型是他們目標之一。而最近 Apple 就分別推出了兩款 14 億和 69 億參數的 DCLM 模型。Apple 新推出的小語言模型在基準測試中表現比 Mistral-7B 優勝,效能更與 Google 和 Meta 相同規模的模型不相上下。
圖片來源:Tom’s Guide
圖片來源:iThome
第一款模型為 69 億參數的 DCLM-7B,由 2.6 兆 token 的資料訓練而成。在多語理解測試 MMLU 中 DCLM-7B 與 Map-Neo 有接近的效能,但運算資源耗損少 40%。與私有模型比較,DCLM-7B 得分為 63.7%,與 Mistral-7B-v0.3 相同,接近 Google Gemma 的 64.3%,略低於 Llama 3-8B 的 66.2%。然而 Apple 聲稱 DCLM 模型的耗能低 6.6 倍。第二款模型為 14 億參數的 DCLM-1B,在 Alpaca bench 測試中,效能優於 Hugging Face 的 SmolLM。
We have released our DCLM models on huggingface! To our knowledge these are by far the best performing truly open-source models (open data, open weight models, open training code) 1/5
— Vaishaal Shankar (@Vaishaal) July 18, 2024
這個 DCML(DataComp for Language Models)項目的團隊涉及 Apple、華盛頓大學、特拉維夫大學和豐田研究所的研究人員,但相信除了其訓練數據外不會成為 Apple 產品的一部分。Apple 機械學習團隊的 Vaishaal Shanke 在 X 平台上形容 DCLM 是目前表現最好的真正開源模型,而「真正開源」的意思是指所有模型權重、訓練程式碼和數據集都與模型一同公開。
資料來源:Tom’s Guide、iThome
圖片來源:Medium
相關文章:
【評測】HP OmniBook Ultra Flip 14 評測 內建 AI 可幫你作文 【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 AI 耶穌能聽見你的懺悔嗎? 宗教學者這樣說