大型語言模型(LLM)在需要大量資料處理的應用上已經越來越普遍,其中法律研究也是一個發展中的應用。不過斯坦福大學最近的一項研究顯示,這些工具仍然表現出相當高的「幻覺」問題,令輸出不可靠。
斯坦福大學研究團隊最近公佈一個研究報告,據稱是首個「AI 法律研究工具的預先登記觀察評估(Preregistered Empirical Evaluation)」,研究透過 200 多個法律查詢,將主要的 AI 法律研究工具,包括 Lexis+ AI、Westlaw AI 輔助研究和 Thomson Reuters 的 Ask Practical Law AI 與 OpenAI 的 GPT-4 進行比較,結果顯示,雖然 AI 法律研究工具出現「幻覺」的頻率低於一般聊天機械人,但 AI 法律研究工具產生錯誤輸出的比率仍然高得驚人,有 17-33% 的查詢出現了幻覺。
許多 AI 法律研究工具採用了檢索增強生成(RAG)技術來減少幻覺。然而研究指出,法律查詢往往缺乏一個明確的答案,因此要準確提取必要資訊並不容易。這種複雜性會導致 AI 產生不正確或錯誤的回應,從而產生幻覺。
來源:VentureBeat
相關文章:
iPhone SE 4 傳明年首季發表 將支援 Apple Intelligence 人工智能 Samsung Galaxy AI 人工智能 短期內登陸 Galaxy A 系列手機