AI 對教育程度低用戶表現更差 部分回應模仿破碎英語 拒答率接近 11%

Published by
Vincent Ng

大眾期望 AI 可以普及教育,使不同背景的人士也有容易學習的機會。不過有研究發現,GPT-4、Claude 3 Opus 及 Meta Llama 3 等頂尖 AI 聊天機械人,對英語能力較低、教育程度較低或非美國用戶,提供回應準確度明顯較差,部分情況下更以傲慢或輕蔑語氣回應。

準確度系統性下滑

研究團隊測試三款大型語言模型(LLM)GPT-4、Claude 3 Opus 及 Llama 3-8B,測試項目包括模型真實性,考核科學事實準確度。每條問題前會加入用戶簡介,分別調整教育程度、英語能力及原籍國家三項特徵,從而評估模型回應質素變化。

 

在原籍國家方面,研究測試來自美國、伊朗及俄羅斯的同等教育背景用戶,Claude 3 Opus 對來自伊朗用戶在兩項資料集表現均顯著較差。

 

三款模型在兩項資料集測試中,均對低教育程度或非母語英語用戶出現明顯準確度下跌,而情況在兩項特徵同時出現時更嚴峻。研究指出,同時是非母語英語使用者及低教育程度的用戶,AI 模型表現出現最大跌幅。

拒絕回答與輕蔑語言

拒絕回答問題比率差異同樣引人關注。Claude 3 Opus 對低教育程度非母語英語用戶,拒絕回答比率接近 11%,而且相比沒有用戶簡介的 3.6% 高出逾 3 倍;相比之下,GPT-4 在同等情況下拒答率僅 0.03%。

 

研究人員人手分析這批被拒回應後,發現 Claude 對低教育程度用戶作出傲慢、輕蔑或嘲諷回應比率高達 43.7%,但對高教育程度用戶則不足 1%,部分回應甚至模仿破碎英語或誇張方言。模型亦對來自伊朗或俄羅斯低學歷用戶,拒絕回答核電、解剖學、女性健康、武器及歷史事件等問題,但卻對其他用戶正確作答。

 

映射人類偏見

研究結果與社會科學中記錄的人類社會認知偏見高度吻合,母語英語使用者往往無論實際能力如何,都傾向認為非母語使用者教育程度較低、能力較差,美國教師對非母語英語學生的類似偏見亦有文獻記錄。

 

研究人員認為,偏見部分源於訓練數據,另一可能原因是在 RLHF(基於人類反饋強化學習)過程中,評估人員對不熟悉領域,傾向給予符合其既有認知答案更高評分,令模型學會向低學歷用戶給出較不準確回應。

 

個人化功能的潛在風險

研究特別點出 ChatGPT Memory 等個人化功能日益普及帶來的憂慮,這類功能會追蹤用戶跨對話個人資訊,或令邊緣化群體受到差別對待,影響數以億計用戶。研究指出,大型語言模型(LLM )被標榜為促進資訊平等獲取工具,但研究結果顯示,它們實際上可能加劇現有不平等,令最依賴這些工具的人反而獲得質素較差、錯誤甚至有害資訊。

 

資料來源:MIT News

 

Published by
Vincent Ng