Perplexity AI 近來被捲入「無視協定擅自抓取網頁內容」的風波,就連 AWS 也針對 Perplexity AI 的數據收集方式進行調查。
據報導指,AWS 方面正在針對 Perplexity AI 是否使用網絡爬蟲程式,避開 robot.txt「機械人排除協議」,來對本身不希望被網絡爬蟲抓取內容的網站進行資料收集。之前有媒體發現其網站多次被虛擬機器(也就是網絡爬蟲程式)所存取,忽略了網站上的 robot.txt 協議。據稱受影響的媒體包括 Wired、The Guardian、Forbes 和 The New York Times 等等。而這個虛擬機器是託管在 AWS 之上,因此 AWS 也對事件作出反應。
Perplexity AI 方面否認自己違反協定,發言人強調「我們的 PerplexityBot 遵守 robots.txt,我們確認 Perplexity 控制的服務沒有以任何違反 AWS 服務條款的方式進行抓取。」不過也指出他們有使用第三方爬蟲軟件,它們可能會有忽略協議的情況,而如果用戶在聊天機械人查詢中包含特定 URL 時,PerplexityBot 也會忽略 robots.txt。
來源:Wired
相關文章:
Samsung Galaxy Book5 Pro 發表 同時提供 Galaxy AI、Copilot+ 人工智能 iPhone SE 4 傳明年首季發表 將支援 Apple Intelligence 人工智能