研究揭 ChatGPT Health 急症分流嚴重失準 逾半緊急病例建議延誤就醫

Published by
arthur

最新發表於《Nature Medicine》研究揭示,OpenAI 旗下醫療聊天機械人 ChatGPT Health 在急症分流評估表現嚴重失準,系統低估逾半數應即時前往急症室病例嚴重性。研究人員呼籲此類 AI 工具大規模推出前,必須接受如醫療器械般嚴格安全評估。

急症分流準確率不足一半

西奈山醫學院(Icahn School of Medicine at Mount Sinai)研究團隊主導研究,於 2026 年 2 月 23 日在《Nature Medicine》刊登,是 ChatGPT Health 今年 1 月推出以來首個獨立安全評估。團隊向系統輸入 60 個涵蓋 21 個臨床專科真實病例,每個病例設 16 種變體並共進行 960 次互動,再將結果與 3 名臨床醫生依據 56 個醫學會指引所作判斷對比。

結果顯示在醫生判定應即時前往急症室病例中,ChatGPT Health 有 51.6% 低估病情嚴重性,建議患者在 24 至 48 小時內求診而非即時前往急症室。涉及緊急病況包括糖尿病酮症酸中毒(diabetic ketoacidosis)及即將發生呼吸衰竭,若延誤救治均可致命。研究主要作者兼西奈山醫院泌尿科醫生 Ashwin Ramaswamy 形容,系統似乎在「等待病情嚴重到無可否認」時才建議患者前往急症室。

非緊急病例反被過度分級

ChatGPT Health 失準情況呈現「倒 U 形」模式,在急症個案上低估嚴重性並在非急症個案上出現相反問題。研究發現系統將 64.8% 非急症病例「過度分級」,例如要求一名僅有 3 天喉嚨痛且在家護理已足夠患者,在 24 至 48 小時內就診。Ashwin Ramaswamy 形容系統風險判斷與臨床現實「近乎相反」,難以找到其內在邏輯。

研究亦發現當家人或朋友輕描淡寫患者症狀時,分流建議偏差比率(Odds Ratio)高達 11.7 倍,絕大部分偏向建議較低緊急度護理。相反在中風等症狀極為典型急症上,ChatGPT Health 分流準確率達 100%。研究團隊未發現因性別或種族差異,引致建議出現系統性偏差證據。

自殺危機保護機制欠一致性

研究同時揭示 ChatGPT Health 自殺危機保護機制存在問題。按 OpenAI 政策當用戶表達自殺傾向時,系統應引導其致電美國全國自殺與危機熱線 988。然而研究發現系統有時在無必要時主動建議撥打 988,在真正需要時卻未能作出相關建議,反映保護機制欠缺一致性。

OpenAI 回應及現況

OpenAI 發言人表示公司歡迎有關 AI 醫療應用研究,但認為研究設計並不代表 ChatGPT Health 典型使用方式或預期場景。OpenAI 強調系統設計鼓勵用戶持續追問以提供更多背景資訊,而非依賴系統對單一描述作一次性判斷。官方明確指出 ChatGPT Health「並非用於診斷或治療」,目前仍只向有限用戶開放並正繼續改善安全性。

根據 OpenAI 今年 1 月公布數據,全球已有逾 4,000 萬人使用 ChatGPT 解答健康問題,每週近 200 萬條對話涉及醫療保險,逾 50 萬條訊息來自距離醫院車程 30 分鐘以上地區。研究人員指出 AI 工具獲取成本低且使用次數不受限,對醫療資源匱乏地區患者極具吸引力,但目前不應將其視作醫生替代品。

專家呼籲嚴格規管 AI 醫療工具

多名未參與研究專家表達憂慮。加州大學洛杉磯分校(UCLA)內科醫生 John Mafi 強調,任何影響生命安全 AI 醫療工具,在大規模推廣前必須通過嚴格隨機對照試驗以證明利大於弊。杜克大學(Duke University)助理教授 Monica Agrawal 指出大型語言模型具「迎合性」,傾向附和用戶觀點,即使觀點不準確也可能強化患者錯誤認知。John Mafi 補充指出 AI 工具「原意是設計來取悅你」,但醫生有時必須說出患者不願聽說話。

新加坡 AI 研究網絡 ARISE 執行主任 Ethan Goh 認為在特定情境下 AI 能給出安全可行建議,但用戶必須清楚其局限性。Ashwin Ramaswamy 表示在偏遠地區或醫療資源不足場景中,未來建立「患者—AI—醫生」三方協作機制或可帶來實際效益。然而在此之前如何在真正影響生命決策前對這些系統進行充分評估與規管,仍是醫療與科技業界正面臨重大挑戰。

來源: Gizmodo

Published by
arthur