Wikipedia 營運機構 Wikimedia Foundation 11 月 10 日發表聲明,要求 AI 企業停止未經授權爬取其數據,改為透過官方付費 API 服務 Wikimedia Enterprise 存取內容。此舉反映這個非營利組織正面對財政壓力,因為隨著 AI 聊天機械人直接回答問題,Wikipedia 的人類瀏覽量已同比下降 8%。
AI 機械人流量佔 65% 造成基礎設施負擔
Wikimedia Foundation 在聲明中指出,生成式 AI 的能力建基於人類編輯、討論和記錄的知識,而 Wikipedia 正是互聯網知識的核心來源。該組織強調,AI 系統若缺乏人類持續更新的知識,將面臨「模型崩壞」(model collapse) 的風險,令 AI 輸出變得不準確、缺乏多樣性且難以驗證。
該組織今年升級機械人偵測系統後,發現 AI 機械人佔整體流量高達 65%,部分爬蟲更在 5 月至 6 月期間試圖偽裝成人類用戶進行爬取,對 Wikipedia 伺服器造成巨大負荷。
要求註明來源並使用付費 API
Wikimedia Foundation 向 AI 開發者提出兩項具體要求。首先是註明來源 (attribution),要求生成式 AI 清晰標示其成果所使用的人類貢獻內容,以維持內容創作的良性循環。該組織警告,瀏覽量下降將減少志願編輯者和捐款者數量,最終影響 Wikipedia 的內容質素。
其次是財政支援,AI 企業應透過 Wikimedia Enterprise 平台付費存取內容。這個企業級 API 服務能讓公司在不影響 Wikipedia 伺服器效能的情況下,大規模持續使用其內容。該平台現已與 ProRata.ai 等企業合作,後者透過 API 將 Wikipedia 內容整合到其搜尋引擎 Gist.ai 中,同時確保註明來源並支援 Wikipedia 的技術基礎設施。
AI 訓練數據版權爭議蔓延科技業
Wikipedia 的做法反映整個科技產業面對 AI 訓練數據版權爭議的趨勢。Apple 近期被作家和神經科學家控告未經授權使用版權內容訓練 AI 模型,OpenAI 被《紐約時報》起訴使用新聞文章,而 Anthropic 更在集體訴訟中同意向 500,000 名作者支付 15 億美元(約港幣 117 億元)和解。
Wikimedia Foundation 強調,透過適當註明來源和財政支援,AI 開發者能同時確保自身和 Wikipedia 的長遠未來。該組織指出,Wikipedia 作為全球最高質素的訓練數據集之一,若 AI 開發者排除使用,將令 AI 系統輸出變得不準確和缺乏多樣性。
資料來源:Techbuzz

























































