兩項新研究揭示,驅動 ChatGPT 及 Gemini 等 AI 聊天機械人的大型語言模型與人類大腦存在驚人相似處。模型處理語言意義方式相近,更會吸收人類「我們對他們」的社會偏見。發現引發學界關注 AI 系統學習語言時,如何內化人類認知模式及社會態度。
耶路撒冷希伯來大學 Ariel Goldstein 博士領銜的研究團隊,聯同 Google Research 的 Mariano Schain 博士以及普林斯頓大學的 Uri Hasson 教授和 Eric Ham,於《Nature Communications》期刊發表研究,追蹤參與者聆聽 30 分鐘播客時的大腦活動。研究團隊發現,早期神經反應與 AI 模型早期層次相符,這些層次專注於基本詞彙特徵;較後期大腦反應則對應更深層 AI 層次,負責整合上下文及意義。
Ariel Goldstein 表示,大腦在時間上展開意義的過程與大型語言模型內部的轉換序列如此緊密匹配,令團隊深感驚訝。這種對應關係在布洛卡區尤其明顯,該區域對語言及言語至關重要。發現挑戰長期以來認為語言理解主要依賴固定符號規則的理論,顯示人腦與 AI 似乎都趨向相似且逐步建構理解的過程。
佛蒙特大學計算故事實驗室及計算倫理實驗室研究人員,檢視大型語言模型是否會吸收人類偏袒自身群體、同時負面看待其他群體的傾向。研究團隊測試 GPT-4.1、DeepSeek-3.1、Gemma-2.0、Grok-3.0 及 LLaMA-3.1,發現所有模型均表現出內群體偏好與外群體敵意。
當模型獲提示採用政治人格時,保守派人格表現出更強外群體敵意,自由派人格則展現更強內群體團結。針對外群體的提示令各模型負面語言增加 1.19% 至 21.76%。研究員 Tabia Tanzin Prama、Julia Witte Zimmerman 及其同事指出,大型語言模型不單學習社會群體的事實資料,更內化並重現獨特存在方式,包括態度、世界觀及認知風格。
《Nature Machine Intelligence》於 2024 年 12 月發表的研究顯示,經過人類反饋微調的消費者導向 LLM(如 ChatGPT)比基礎 LLM 展現較低程度內群體團結及外群體敵意。研究團隊提出名為 ION 的偏見緩解策略,使用微調及直接偏好最佳化技術,可將情感分歧減少最多 69%,顯示針對性緩解策略在未來 LLM 開發中具潛力。
研究亦發現從訓練資料中移除內群體正面或外群體負面句子,可降低 LLM 群體偏見程度。發現為開發更公平客觀的 AI 系統提供方向,研究人員未來會繼續發掘 AI 模型訓練期間獲得的其他偏見,並引入更多偏見緩解策略。
資料來源:Tech Xplore