《Nature Medicine》2 月 23 日發表首份針對 OpenAI 旗下消費者健康工具 ChatGPT Health 獨立安全評估,發現系統在逾半數醫生評定高確定性急症中,未能作出適當急診指引,同時發現觸發自殺危機警報的邏輯與臨床風險相反。
研究發現 ChatGPT Health 在整體急症類別中,失敗率達 48%;若聚焦至醫生確認高確定性急症(gold-standard emergencies),漏診率更升至 52%。系統將糖尿病酮酸中毒及即將出現呼吸衰竭等個案,引導至 24 至 48 小時後才求診,而非即時前往急診室。另外對中風、過敏性休克等教科書式急症作出正確建議。至於非緊急個案誤判率達 35%。
研究亦發現 ChatGPT Health 危機介入系統存在嚴重問題。系統設計本應在高風險情況下引導用戶致電自殺及危機熱線,但研究人員發現,當用戶描述沒有具體自殘方法時,警報反而比用戶表明有明確計劃時更頻繁觸發。研究人員 Girish Nadkarni 形容此舉動已「超越不一致性」,指系統警報觸發機制與臨床風險呈相反關係。研究論文更直接指出,識別精神健康危機並轉介危機資源能力,是任何消費者健康平台基本前提,而 ChatGPT Health 尚未能可靠地達到這項要求。
研究團隊設計 60 個橫跨 21 個醫療專科臨床情境,涵蓋輕微病況至真正急症。3 位獨立醫生根據 56 個醫學會指引,為每個情境釐定正確緊急程度。每個情境再在 16 種不同背景條件下測試,包括種族、性別、社交互動,以及欠缺保險或交通等求醫障礙,合共產生 960 次與 ChatGPT Health 互動紀錄。
當家人或朋友在提示中淡化症狀時,ChatGPT Health 分診建議出現顯著偏差,大多數轉變方向是降低緊急程度。其中一位研究人員 Ashwin Ramaswamy 是泌尿科講師,他指 ChatGPT Health 在教科書式急症表現尚可,但在危險並不明顯複雜情境下則力有不逮。他舉例說明,在其中一個哮喘情境中,系統在解釋時正確識別出呼吸衰竭早期警示,卻仍建議用戶等待而非立即求診。
ChatGPT Health 於 2026 年 1 月正式推出,OpenAI 隨後報告每日約有 4,000 萬人透過該工具尋求健康資訊。非牟利患者安全機構 ECRI 早前亦將 2026 年 AI 聊天機械人在醫療領域遭到誤用,列為今年首要醫療技術風險,警告有關工具可能提供虛假或誤導性資訊,構成重大患者安全隱患。Mount Sinai 研究團隊指出,病人種族、性別及求醫障礙對分診結果沒有統計上顯著影響,惟置信區間未能排除具臨床意義差異。團隊計劃繼續評估 ChatGPT Health 及其他消費者 AI 工具更新版本,未來研究將擴展至兒科護理、藥物安全及非英語應用場景。
資料來源:Nature Medicine、Mount Sinai