人工智能

OpenAI「深度研究」準確度再超 DeepSeek　「人類最終考試」評分大幅領先其他 AI 模型

作者

Lawton
發佈日期

2025-02-03
閱讀時間

4分鐘
字體大小

OpenAI 近日宣佈推出全新 AI 研究工具「深度研究」（Deep Research），為需要深入查詢與分析的專業用戶提供更精確的資訊檢索與分析功能。這項技術主要針對金融、科學、政策制定、工程等領域的知識工作者，並可應用於需要詳細比較與評估的購物決策，例如選購汽車、家電與家具等。與一般 AI 簡短回答不同，「深度研究」專注於多來源綜合分析，讓用戶獲得更全面與可靠的結果。

OpenAI 在官方部落格中表示，「深度研究」功能現已對 ChatGPT Pro 用戶開放，並設有每月 100 次查詢限制，未來將陸續支援 Plus、Team 及 Enterprise 版本。據了解，Plus 版本預計約一個月內推出，且未來付費用戶的查詢次數限制將顯著提升。

「深度研究」目前僅能透過網頁版 ChatGPT 使用，用戶需在輸入查詢時選擇該功能，並可附加文件或試算表進行輔助分析。根據 OpenAI 的說明，系統需要 5 至 30 分鐘處理查詢，完成後用戶將收到通知。未來，OpenAI 計劃將此功能擴展至手機與桌面應用程式。目前「深度研究」的輸出為純文字，但 OpenAI 表示將加入嵌入式圖片、數據視覺化圖表等分析結果，並預計支援更多專業數據來源，包括付費訂閱服務與內部資料庫。

為提升「深度研究」的準確性，OpenAI 採用了特別版本的「o3」推理 AI 模型，該模型經過強化學習，能夠利用瀏覽器與 Python 工具完成實際網絡查詢與數據分析，幫助 AI 自動篩選、解讀並分析來自網絡的文本、圖像與 PDF 檔案，並根據查詢內容靈活調整搜尋方向。模型亦可瀏覽用戶上傳的文件，並透過 Python 工具繪製圖表，讓研究結果更具參考價值。

Humanity’s Last Exam 評分獲 26.6% 準確率

為驗證「深度研究」的準確度，OpenAI 透過「人類最後考試」（Humanity’s Last Exam）測試該功能，該測試涵蓋 3000 多道專業級問題。測試結果顯示，「深度研究」模型提供達到 26.6% 的準確率，雖然數字看似不高，但已超越 DeepSeek-R1 的 9.4% 以及遠超 Google Gemini Thinking（6.2%）、Grok-2（3.8%）及 OpenAI 自己旗下的 GPT-4o（3.3%）。

OpenAI 仍承認 AI 在處理複雜研究時可能存在不確定性，部分內容可能存在誤導性資訊，特別是在面對未經驗證的網絡資料時。「深度研究」能否成為可靠的學術與專業研究工具，仍有待觀察。

資料來源：OpenAI

Deep Research