AI 公司透過網絡爬蟲收集訓練數據造成網頁負擔沉重,有見及此 Cloudflare 宣佈將預設阻止已知 AI 網絡爬蟲,防止它們「未經許可或補償存取內容」。新措施將詢問新域名擁有者是否允許 AI 爬蟲存取,甚至讓部分出版商實施「按爬取付費」收費模式,向 AI 公司收取使用費。
Cloudflare 表示,「按爬取付費」方案讓出版商為 AI 爬蟲存取其內容設定價格。AI 公司可以查看定價並選擇是否註冊「按爬取付費」服務或退出。目前該方案僅向「一組領先出版商和內容創作者」開放,Cloudflare 表示將確保「AI 公司能夠以正確方式使用優質內容」。
Cloudflare 行政總裁 Matthew Prince 表示:「原創內容是讓互聯網成為上世紀最偉大發明之一的要素,我們必須團結起來保護它。AI 爬蟲一直在無限制地爬取內容。我們的目標是將權力交還給創作者,同時仍幫助 AI 公司創新。」
Cloudflare 2023 年開始就讓網站阻止 AI 爬蟲,但僅適用於遵守網站 robots.txt 檔案的爬蟲。robots.txt 是不可執行的協議,用於指示機器人是否可以爬取內容。去年 Cloudflare 開始允許網站阻止「所有」AI 機器人,無論它們是否尊重網站的 robots.txt 檔案,現在這項設定預設為新 Cloudflare 客戶啟用。該公司透過將爬蟲與已知 AI 機器人清單比較來識別要阻止的爬蟲。
多家主要出版商和網上平台已支持 Cloudflare 的新 AI 爬蟲限制措施,包括美聯社(The Associated Press)、《大西洋》雜誌(The Atlantic)、《財富》雜誌(Fortune)、Stack Overflow 和 Quora。這些平台認為需要保護其內容免受未經授權的 AI 訓練使用,特別是在 AI 搜尋開始威脅 Google 傳統「十個藍色連結」搜尋結果格式的情況下。
Cloudflare 表示正與 AI 公司合作,協助驗證其爬蟲並允許它們「清楚說明目的」,例如是否將內容用於訓練、推理或搜索。網站擁有者可以審查這些資訊並決定允許哪些爬蟲進入。這種透明度機制讓內容擁有者能夠作出明智決定,決定是否允許特定類型的 AI 存取其內容,以及在什麼條件下允許。
來源:Verge
分享到 :
最新影片