牛津大學互聯網研究所聯同納菲爾德基層健康科學系進行最新研究顯示,AI 聊天機械人提供的醫療建議準確度與傳統搜尋引擎相若,未能改善用戶健康決策。這項被視為首次針對 AI 醫療建議的隨機對照研究,涉及 1,298 名英國參與者,測試 10 個由醫生設計的醫療情境。
研究團隊將參與者隨機分成兩組,一組使用大型語言模型(LLM)如 GPT-4o、Llama 3 和 Command R+,另一組使用個人常用診斷方法,大部分為網上搜尋或個人知識。結果顯示使用 LLM 參與者在識別健康狀況成功率低於 34.5%,建議正確行動成功率低於 44.2%。雖然 LLM 在獨立測試中識別相關病症準確率高達 94.9%,正確行動建議達 56.3%,但實際互動時因人類與 AI 溝通出現問題,導致表現出現頗大落差。
研究發現用戶使用 AI 聊天機械人時,經常不清楚該提出甚麼問題,導致不同提問方式得到的回答質素參差。牛津大學互聯網研究所副教授 Luc Rocher 在研究中指出,雖然 AI 技術不斷突破,但現實世界醫療決策遠比基準測試分數顯示的複雜,聊天機械人仍是糟糕的醫生。
2025 年 11 月 Mental Health UK 調查發現,逾 1/3 英國居民使用 AI 支援心理健康或整體健康。這顯示 AI 健康諮詢需求殷切,但研究主要醫學研究員 Rebecca Payne 博士警告,向聊天機械人諮詢症狀可能「非常危險」。
研究發現部分參與者未能發現嚴重病症,有些人閱讀聊天機械人回應後甚至淡化風險,亦有人誤解聊天機械人建議並作出錯誤選擇。研究人員強調,LLM 在醫學執照考試取得近乎完美成績,並不代表在現實世界能準確運作。Rocher 呼籲 AI 應支援臨床醫生而非取代醫生,在任何健康相關 AI 系統中,安全性、防護機制及人類監督必須放在首位。
資料來源:TechNews 科技新報