Elon Musk：AI 訓練去年已用光全球所有資料　需自行生成數據繼續訓練

2025-01-13

Published by

Oscar

Elon Musk 最近提到，人工智能公司現正面臨一個日益嚴峻的挑戰：人類知識數據逐漸枯竭。這種情況在去年已經顯現。他建議，科技公司應採用由 AI 模型生成的「合成」數據，以填補數據不足，進一步強化系統。然而 Elon Musk 亦警告，依賴合成數據可能導致「模型崩潰」，即 AI 系統性能下降的風險。

惟 Elon Musk 在接受廣告集團 Stagwell 董事長 Mark Penn 的直播採訪時表示，依賴合成數據可能導致 AI 出現幻覺，因為屆時已經無從稽考到底數據來源純屬幻覺或是真實答案。

目前 OpenAI 的 GPT-4 等 AI 模型主要依賴從互聯網收集的龐大數據進行訓練，透過分析語言模式來預測句子中的下一個詞語。隨著數據日漸枯竭，Elon Musk 認為，解決之道在於運用 AI 自行生成的合成數據（Synthetic data）。Elon Musk 指 AI 可以撰寫文章或提出論點，並為自己評分，透過自我檢討學習完善模型，從而緩解數據來源不足的困境。

Microsoft、Facebook 母公司 Meta、OpenAI 和 Anthropic 等多家科技巨頭，早已開始嘗試利用合成資料訓練 AI 模型。根據科技市場調查調機構 Gartner 估算，2024 年約 60% 的 AI 和數據分析專案已開始使用合成資料作為核心資源。例如 1 月 8 日 Microsoft 開源的 AI 模型「Phi-4」就採用了結合合成資料與現實世界數據訓練。Google 的「Gemma」模型也採用了類似策略，而 Anthropic 則透過部分合成資料，開發出「Claude 3.5 Sonnet」。至於 Meta 則運用 AI 生成數據微調其最新推出的 Llama 系列模型。

儘管如此，專家對這一趨勢持審慎態度。他們指出，倘若過度依賴合成數據，可能會放大既有偏差與錯誤，進而影響 AI 的生成結果準確性，甚至削弱模型的實際應用效果。因此如何在有限的數據資源中平衡創新與可靠性，已成為 AI 發展道路上亟待破解的重要課題。

圖片來源：Scientific American

資料來源：The Guardian、Fortune、Live＠X

======

加入 unwire thread 傾傾科技背後黑暗事

========