研究指 AI 法律研究工具不可靠　仍然會出現「幻覺」問題影響結果

2024-06-11

Published by

藍骨

大型語言模型（LLM）在需要大量資料處理的應用上已經越來越普遍，其中法律研究也是一個發展中的應用。不過斯坦福大學最近的一項研究顯示，這些工具仍然表現出相當高的「幻覺」問題，令輸出不可靠。

斯坦福大學研究團隊最近公佈一個研究報告，據稱是首個「AI 法律研究工具的預先登記觀察評估（Preregistered Empirical Evaluation）」，研究透過 200 多個法律查詢，將主要的 AI 法律研究工具，包括 Lexis+ AI、Westlaw AI 輔助研究和 Thomson Reuters 的 Ask Practical Law AI 與 OpenAI 的 GPT-4 進行比較，結果顯示，雖然 AI 法律研究工具出現「幻覺」的頻率低於一般聊天機械人，但 AI 法律研究工具產生錯誤輸出的比率仍然高得驚人，有 17-33% 的查詢出現了幻覺。

許多 AI 法律研究工具採用了檢索增強生成（RAG）技術來減少幻覺。然而研究指出，法律查詢往往缺乏一個明確的答案，因此要準確提取必要資訊並不容易。這種複雜性會導致 AI 產生不正確或錯誤的回應，從而產生幻覺。

來源：VentureBeat