人工智能

YouTube 影片不只用以訓練 Sora 外媒：OpenAI、Google 轉錄影片台詞訓練 AI 模型

作者

Lawton
發佈日期

2024-04-07
閱讀時間

3分鐘
字體大小

早前報導過 YouTube 懷疑 OpenAI 曾使用他們的影片用以訓練作為 Sora 影片生成模型。事隔一日之後，Google、OpenAI 這兩間公司被傳媒指控，轉錄了 YouTube 影片的對白，將聲音轉變為文字，以訓練其 AI 人工智能模型。

據《紐約時報》報導，OpenAI 與 Google 涉嫌利用 YouTube 影片轉錄文本訓練其人工智能模型，可能侵犯了創作者的版權。兩間人工智能技術巨擎為尋求豐富其 AI 數據庫的背景下，此事引發數據使用倫理的問題。

報導指 OpenAI 利用其「Whisper」語音識別工具，將超過 1,000,000 小時的 YouTube 影片內容轉為文字，以訓練 GPT-4 模型。Google 亦被指出使用 YouTube 影片內容訓練自家的 AI 模型，但僅限於得到創作者同意的內容。對於未經授權擷取 YouTube 內容，Google 發言人 Matt Bryant 表示公司規定嚴禁此類行為，並聲稱 Google 對 OpenAI 的相關用途並不知情。

報導中提到 Google 內部某些人士實際上知悉此事卻未採取行動，原因可能是 Google 自身也在從事類似的行為。此外，Google 於 2023 年 6 月對其私隱政策進行調整，以更廣泛地涵蓋其對公開可得內容的使用，包括 Google Docs 及 Google Sheets，目的在於清晰界定該公司使用這些數據來訓練 AI 模型及產品的範疇。Google 強調，此類數據使用必須獲得用戶同意，且未因政策變更而開始使用額外類型的數據進行訓練。

隨著 AI 技術的不斷進步，如何平衡創新與倫理將成為業界持續面臨的挑戰。

資料來源：紐約時報
圖片來源：Medium

人工智能