之前曾經有報導指 OpenAI 利用 YouTube 影片去訓練其文字轉影片模型 Sora,現在有消息指 Apple、Nvidia、Anthropic 等公司使用他人創作的公開數據去訓練其 AI 模型。一份由 Proof News 和 Wired 聯合發表的調查報告,指 Apple 使用了數萬條帶有字幕的 YouTube 影片去訓練 Apple Intelligence,這違反了該影片平台的內容政策。
調查指 Apple 和其他公司使用了一個名為 YouTube Subtitles 的數據集,該數據集包括來自 48,000 多條 YouTube 頻道的 173,536 條影片的轉錄文本。數據集中的影片範圍涵蓋 Khan Academy 和 MIT 等教育頻道,到 The Wall Street Journal 等新聞網站,亦包括了為人熟悉的 MrBeast 和 Marques Brownlee 等頂級創作者。
根據 Marques Brownlee 的說法,由於 Apple 並非直接使用影片去訓練 AI,而是通過使用影片轉錄文本的第三方公司提供數據,因此技術上避免了責任。儘管如此,這些數據和轉錄文本仍然對 AI 模型有貢獻,而這些都是創作者投入了時間和金錢的成果,Brownlee 表示這將會是一個長期存在的問題。YouTube 總裁 Neal Mohan 在早前受訪時曾經明確表示,使用 YouTube 影片訓練 AI 模型的公司是明顯違反了該平台的政策。
據報 YouTube Subtitles 數據集是由推廣開放科學規範的非營利研究實驗室 Eleuther AI 創建,有份參與今次調查的 Proof News 特別製作了一個工具,讓創作者可以在數據集中搜索其內容。YouTube Subtitles 數據集並不包括影片中的影象,但包括一些語言的翻譯字幕。
資料及圖片來源:gizmochina
相關文章:
M4 Mac Mini + MBP + iMac 全系列評測:Apple Intelligence AI 全平台體驗影片 【評測】Mac mini M4 2024:進階用家最應該買的 Apple 電腦 效能、日常應用詳細評測分析 【教學】iOS 18.1 如何用 Apple Intelligence 只需 2 個設定 + 香港免 VPN 也可用