人工智能

Elon Musk:AI 訓練去年已用光全球所有資料 需自行生成數據繼續訓練

Published by
Oscar

Elon Musk 最近提到,人工智能公司現正面臨一個日益嚴峻的挑戰:人類知識數據逐漸枯竭。這種情況在去年已經顯現。他建議,科技公司應採用由 AI 模型生成的「合成」數據,以填補數據不足,進一步強化系統。然而 Elon Musk 亦警告,依賴合成數據可能導致「模型崩潰」,即 AI 系統性能下降的風險。

 

惟 Elon Musk 在接受廣告集團 Stagwell 董事長 Mark Penn 的直播採訪時表示,依賴合成數據可能導致 AI 出現幻覺,因為屆時已經無從稽考到底數據來源純屬幻覺或是真實答案。

 

 

目前 OpenAI 的 GPT-4 等 AI 模型主要依賴從互聯網收集的龐大數據進行訓練,透過分析語言模式來預測句子中的下一個詞語。隨著數據日漸枯竭,Elon Musk 認為,解決之道在於運用 AI 自行生成的合成數據(Synthetic data)。Elon Musk 指 AI 可以撰寫文章或提出論點,並為自己評分,透過自我檢討學習完善模型,從而緩解數據來源不足的困境。

 

Microsoft、Facebook 母公司 Meta、OpenAI 和 Anthropic 等多家科技巨頭,早已開始嘗試利用合成資料訓練 AI 模型。根據科技市場調查調機構 Gartner 估算,2024 年約 60% 的 AI 和數據分析專案已開始使用合成資料作為核心資源。例如 1 月 8 日 Microsoft 開源的 AI 模型「Phi-4」就採用了結合合成資料與現實世界數據訓練。Google 的「Gemma」模型也採用了類似策略,而 Anthropic 則透過部分合成資料,開發出「Claude 3.5 Sonnet」。至於 Meta 則運用 AI 生成數據微調其最新推出的 Llama 系列模型。

 

儘管如此,專家對這一趨勢持審慎態度。他們指出,倘若過度依賴合成數據,可能會放大既有偏差與錯誤,進而影響 AI 的生成結果準確性,甚至削弱模型的實際應用效果。因此如何在有限的數據資源中平衡創新與可靠性,已成為 AI 發展道路上亟待破解的重要課題。

 

圖片來源:Scientific American

資料來源:The GuardianFortuneLive@X

 

======

加入 unwire thread 傾傾科技背後黑暗事

========


相關文章:
  • Samsung Galaxy Book5 Pro 發表 同時提供 Galaxy AI、Copilot+ 人工智能

  • Published by
    Oscar