AWS 針對 Perplexity AI 進行調查　曾被指無視標記擅自抓取網站

2024-06-29

Published by

藍骨

Perplexity AI 近來被捲入「無視協定擅自抓取網頁內容」的風波，就連 AWS 也針對 Perplexity AI 的數據收集方式進行調查。

據報導指，AWS 方面正在針對 Perplexity AI 是否使用網絡爬蟲程式，避開 robot.txt「機械人排除協議」，來對本身不希望被網絡爬蟲抓取內容的網站進行資料收集。之前有媒體發現其網站多次被虛擬機器（也就是網絡爬蟲程式）所存取，忽略了網站上的 robot.txt 協議。據稱受影響的媒體包括 Wired、The Guardian、Forbes 和 The New York Times 等等。而這個虛擬機器是託管在 AWS 之上，因此 AWS 也對事件作出反應。

Perplexity AI 方面否認自己違反協定，發言人強調「我們的 PerplexityBot 遵守 robots.txt，我們確認 Perplexity 控制的服務沒有以任何違反 AWS 服務條款的方式進行抓取。」不過也指出他們有使用第三方爬蟲軟件，它們可能會有忽略協議的情況，而如果用戶在聊天機械人查詢中包含特定 URL 時，PerplexityBot 也會忽略 robots.txt。

來源：Wired