Elon Musk 最近提到,人工智能公司現正面臨一個日益嚴峻的挑戰:人類知識數據逐漸枯竭。這種情況在去年已經顯現。他建議,科技公司應採用由 AI 模型生成的「合成」數據,以填補數據不足,進一步強化系統。然而 Elon Musk 亦警告,依賴合成數據可能導致「模型崩潰」,即 AI 系統性能下降的風險。
惟 Elon Musk 在接受廣告集團 Stagwell 董事長 Mark Penn 的直播採訪時表示,依賴合成數據可能導致 AI 出現幻覺,因為屆時已經無從稽考到底數據來源純屬幻覺或是真實答案。
目前 OpenAI 的 GPT-4 等 AI 模型主要依賴從互聯網收集的龐大數據進行訓練,透過分析語言模式來預測句子中的下一個詞語。隨著數據日漸枯竭,Elon Musk 認為,解決之道在於運用 AI 自行生成的合成數據(Synthetic data)。Elon Musk 指 AI 可以撰寫文章或提出論點,並為自己評分,透過自我檢討學習完善模型,從而緩解數據來源不足的困境。
Microsoft、Facebook 母公司 Meta、OpenAI 和 Anthropic 等多家科技巨頭,早已開始嘗試利用合成資料訓練 AI 模型。根據科技市場調查調機構 Gartner 估算,2024 年約 60% 的 AI 和數據分析專案已開始使用合成資料作為核心資源。例如 1 月 8 日 Microsoft 開源的 AI 模型「Phi-4」就採用了結合合成資料與現實世界數據訓練。Google 的「Gemma」模型也採用了類似策略,而 Anthropic 則透過部分合成資料,開發出「Claude 3.5 Sonnet」。至於 Meta 則運用 AI 生成數據微調其最新推出的 Llama 系列模型。
儘管如此,專家對這一趨勢持審慎態度。他們指出,倘若過度依賴合成數據,可能會放大既有偏差與錯誤,進而影響 AI 的生成結果準確性,甚至削弱模型的實際應用效果。因此如何在有限的數據資源中平衡創新與可靠性,已成為 AI 發展道路上亟待破解的重要課題。
圖片來源:Scientific American
資料來源:The Guardian、Fortune、Live@X
======
加入 unwire thread 傾傾科技背後黑暗事
========
Samsung Galaxy Book5 Pro 發表 同時提供 Galaxy AI、Copilot+ 人工智能