人工智能

Apple 等多間公司被批評使用 YouTube 影片文本訓練 AI 未獲創作者授權

作者

唐美鳳
發佈日期

2024-07-19
閱讀時間

3分鐘
字體大小

之前曾經有報導指 OpenAI 利用 YouTube 影片去訓練其文字轉影片模型 Sora，現在有消息指 Apple、Nvidia、Anthropic 等公司使用他人創作的公開數據去訓練其 AI 模型。一份由 Proof News 和 Wired 聯合發表的調查報告，指 Apple 使用了數萬條帶有字幕的 YouTube 影片去訓練 Apple Intelligence，這違反了該影片平台的內容政策。

調查指 Apple 和其他公司使用了一個名為 YouTube Subtitles 的數據集，該數據集包括來自 48,000 多條 YouTube 頻道的 173,536 條影片的轉錄文本。數據集中的影片範圍涵蓋 Khan Academy 和 MIT 等教育頻道，到 The Wall Street Journal 等新聞網站，亦包括了為人熟悉的 MrBeast 和 Marques Brownlee 等頂級創作者。

根據 Marques Brownlee 的說法，由於 Apple 並非直接使用影片去訓練 AI，而是通過使用影片轉錄文本的第三方公司提供數據，因此技術上避免了責任。儘管如此，這些數據和轉錄文本仍然對 AI 模型有貢獻，而這些都是創作者投入了時間和金錢的成果，Brownlee 表示這將會是一個長期存在的問題。YouTube 總裁 Neal Mohan 在早前受訪時曾經明確表示，使用 YouTube 影片訓練 AI 模型的公司是明顯違反了該平台的政策。

據報 YouTube Subtitles 數據集是由推廣開放科學規範的非營利研究實驗室 Eleuther AI 創建，有份參與今次調查的 Proof News 特別製作了一個工具，讓創作者可以在數據集中搜索其內容。YouTube Subtitles 數據集並不包括影片中的影象，但包括一些語言的翻譯字幕。

資料及圖片來源：gizmochina

Apple Intelligence