ChatGPT 急症誤診成無事漏診率高達50% 自殺危機警報與臨床風險相反

2026-02-25

Published by

Vincent Ng

《Nature Medicine》2 月 23 日發表首份針對 OpenAI 旗下消費者健康工具 ChatGPT Health 獨立安全評估，發現系統在逾半數醫生評定高確定性急症中，未能作出適當急診指引，同時發現觸發自殺危機警報的邏輯與臨床風險相反。

急症漏診率高達 48% 至 52%

研究發現 ChatGPT Health 在整體急症類別中，失敗率達 48%；若聚焦至醫生確認高確定性急症（gold-standard emergencies），漏診率更升至 52%。系統將糖尿病酮酸中毒及即將出現呼吸衰竭等個案，引導至 24 至 48 小時後才求診，而非即時前往急診室。另外對中風、過敏性休克等教科書式急症作出正確建議。至於非緊急個案誤判率達 35%。

自殺危機警報出現反常觸發

研究亦發現 ChatGPT Health 危機介入系統存在嚴重問題。系統設計本應在高風險情況下引導用戶致電自殺及危機熱線，但研究人員發現，當用戶描述沒有具體自殘方法時，警報反而比用戶表明有明確計劃時更頻繁觸發。研究人員 Girish Nadkarni 形容此舉動已「超越不一致性」，指系統警報觸發機制與臨床風險呈相反關係。研究論文更直接指出，識別精神健康危機並轉介危機資源能力，是任何消費者健康平台基本前提，而 ChatGPT Health 尚未能可靠地達到這項要求。

測試設計與方法

研究團隊設計 60 個橫跨 21 個醫療專科臨床情境，涵蓋輕微病況至真正急症。3 位獨立醫生根據 56 個醫學會指引，為每個情境釐定正確緊急程度。每個情境再在 16 種不同背景條件下測試，包括種族、性別、社交互動，以及欠缺保險或交通等求醫障礙，合共產生 960 次與 ChatGPT Health 互動紀錄。

錨定偏差問題嚴重

當家人或朋友在提示中淡化症狀時，ChatGPT Health 分診建議出現顯著偏差，大多數轉變方向是降低緊急程度。其中一位研究人員 Ashwin Ramaswamy 是泌尿科講師，他指 ChatGPT Health 在教科書式急症表現尚可，但在危險並不明顯複雜情境下則力有不逮。他舉例說明，在其中一個哮喘情境中，系統在解釋時正確識別出呼吸衰竭早期警示，卻仍建議用戶等待而非立即求診。

AI 健康工具用量急速攀升

ChatGPT Health 於 2026 年 1 月正式推出，OpenAI 隨後報告每日約有 4,000 萬人透過該工具尋求健康資訊。非牟利患者安全機構 ECRI 早前亦將 2026 年 AI 聊天機械人在醫療領域遭到誤用，列為今年首要醫療技術風險，警告有關工具可能提供虛假或誤導性資訊，構成重大患者安全隱患。Mount Sinai 研究團隊指出，病人種族、性別及求醫障礙對分診結果沒有統計上顯著影響，惟置信區間未能排除具臨床意義差異。團隊計劃繼續評估 ChatGPT Health 及其他消費者 AI 工具更新版本，未來研究將擴展至兒科護理、藥物安全及非英語應用場景。

資料來源：Nature Medicine、Mount Sinai

此文於 FB 熱討中 💬

觀看 52 則留言

Published by

Vincent Ng

3 週前 ago