斯坦福大學生物醫學數據科學助理教授 James Zou 領導的科學家們,對七種流行的人工智能文本檢測器的測試運行了 91 篇由非英語母語人士撰寫的英文論文發現,母語不是英文的人士撰寫的文章經常被錯誤地標記為人工智能生成,這種偏見可能會對學生、學者和求職者產生嚴重影響。
測試結果顯示,超過一半的論文是為一項廣泛認可的英語水平測試(即 TOEFL)而寫的,這些論文被標記為人工智能生成,其中一個程序將 98% 的論文標記為由人工智能撰寫。而當以英語為母語的,八年級美國學生寫的論文通過這些程序運行時,相同的人工智能檢測器將超過 90% 的論文歸為人類生成的論文。
科學家們在《Patterns》上撰文表示,將這種其實追溯到探測器評估什麼是人類、什麼是人工智能生成的方式。這些程序著眼於所謂的「文本困惑度」,這是衡量生成語言模型在嘗試預測句子中的下一個單詞時的「驚訝」或「困惑」程度的指標。如果模型可以輕鬆預測下一個單詞,則文本困惑度排名較低,但如果下一個單詞難以預測,則文本困惑度排名較高。
他們表示,隨著 ChatGPT 興起,現在許多老師將人工智能檢測視為「阻止 21 世紀作弊形式的關鍵對策」,但他們警告稱,一些探測器聲稱的 99% 準確率「充其量只是誤導」。
科學家們在文章中警告稱,「GPT 檢測器對非母語作家的影響是嚴重的,我們需要仔細考慮以避免出現歧視情況。」他們補充,「在教育領域,可以說是 GPT 檢測器最重要的市場,非母語學生面臨更多被虛假指控作弊的風險,這可能不利於學生的學術生涯和心理健康。」
資料來源:theguardian