人工智能

劍橋大學測試大型語言模型 模擬考試成績勝過初級眼科醫生

Published by
唐美鳳

劍橋大學的研究人員對大型語言模型(LLM)在眼科診斷方面的潛力進行了研究,結果表明大型語言模型雖然在某些方面表現出潛力,但仍然存在重大局限性和風險。研究人員測試了 GPT-4 等大型語言模型在模擬眼科考試中的表現,再將結果與人類眼科醫生進行比較。

雖然 PaLM 2 和 GPT-3.5 的表現不盡如人意,但 GPT-4 在 87 條題目中,正確回答了 60 條。這成績超越了實習醫生的平均 59.7 條和初級醫生的平均 37 題,不過表現仍然落後於眼科專科醫生的平均 66.4 得分。儘管結果表明大型語言模型在眼科診斷方面具有潛在應用價值,但研究人員亦強調其存在重大風險。

由於研究中使用的測試題目數量有限,這引發了對大型語言模型的結果是否具有普遍性的擔憂,更重要的是大型語言模型容易出現捏造資訊的「幻覺」,這可能導致白內障或癌症等嚴重疾病的誤診。此外,大型語言模型缺乏細微差別處理能力,亦可能加劇診斷的不準確性。研究明確表明,將大型語言模型視為可靠的醫療診斷工具之前,需要進一步研究和開發。由於醫療診斷涉及的風險很高,可能需要很長時間才能在主流醫療中被實際應用。

資料及圖片來源:gizmochina

Published by
唐美鳳