人工智能

維基百科開放 AI 訓練數據集　避免網絡爬蟲佔用流量

作者

藍骨
發佈日期

2025-04-18
閱讀時間

3分鐘
字體大小

維基百科近期一直在應對 AI 爬蟲帶來的伺服器壓力問題，這些自動化系統會持續抓取百科全書中的文字和多媒體內容以訓練生成式人工智能模型，導致營運成本增加，部分情況下甚至影響人類用戶的載入速度。為解決此問題，維基媒體基金會就與 Kaggle 數據科學平台合作，向 AI 開發者提供可免費使用的結構化數據集。

根據 Kaggle 母公司 Google 表示，該測試版數據集提供英文和法文兩種版本，並專為機器學習格式化，以便於訓練、開發和數據科學研究。維基媒體企業（Wikimedia Enterprise）指出，數據集包含「摘要、簡短描述、資訊框式鍵值數據、圖像連結和清晰分段的文章章節」，但不包含參考資料或其他「非散文元素」如影片剪輯。

雖然缺乏參考資料可能使數據集信息的歸屬問題變得模糊，但維基媒體企業強調，由於所有內容均來自 Wikipedia，數據集中的內容都在創用 CC 或公共領域等自由授權下提供。作為維基媒體基金會的一部分，維基媒體企業致力於通過 API 提供 Wikipedia 數據。

Kaggle 目前擁有超過 46.1 萬個可自由存取的數據集，是開放數據的重要平台。研究人員、學生和機器學習從業者可利用這些數據進行探索、訓練、學習和參與 Kaggle 競賽。此次合作旨在幫助研究人員和開發者獲得高品質且來源可靠的數據，同時減輕維基百科公共網站的帶寬壓力。

來源：Google

維基百科開放 AI 訓練數據集　避免網絡爬蟲佔用流量

分享到 :

最新影片

Follow 我們 :