外媒比較 Claude 3 和 ChatGPT　七大範疇測試下勝負難分

2024-03-19

Published by

藍骨

由 AI 初創 Anthropic 設計的最新 AI 模型 Claude 3 橫空出世，AWS 早前更宣布 Claude 3 將會於 Amazon Bedrock 上提供服務。日前就有外國 Youtuber 拍片比較 Claude 3 及 ChatGPT，甚至用上「終於有可以打敗 GPT 的 AI」為題，高度稱讚 Claude 3 在效能、性價比方面的優秀表現。

專門點評人工智能、科技產品的美國 Youtuber Matt Wolfe 日前出片比較 Claude 3 及 ChatGPT。Matt 以自訂的「創意」（creativly）、「邏輯」（logic）、「編碼」（coding）、「文件摘要」（summrizing docs）、「圖像描述」（vision）、「對特定議題的意見」（bias）及「定價」（pricing）七大範疇作測試標準，分別按每範疇所設定的題目，向 Claude 3 Opus（下稱 Opus）、Claude 3 Sonnet（下稱 Sonnet）及 GPT- 4 詢問答案，比較三者的差異。結果 Matt 認為同屬 Claude 3 的 Opus 及 Sonnet 表現出色，7 項中有 4 項測試表現較佳，個別項目的表現已超越 GPT- 4。

多個方面超越 GPT-4

在「創意」方面，Matt 要求三個人工智能系統以狼、魔法鎚子、基因異變體為線索，文字創作一段英雄冒險故事，Matt 認為三者都能達到基本要求，速度上以 Sonnet 最快，但論故事細節、完整度則以 Opus 創作的故事為佳。他提到 GPT-4 亦能達到要求，但表現不如 Claude 3。

至於「編碼」方面，Matt 要求三個人工智能系統提供一段程式碼，讓使用者可利用編碼設計一個「棍子收集金幣」的 JavaScript 遊戲，結果 Opus 表現最好，一次到位，其次為 Sonnet，也僅需修正一次即可完成編碼，相反 GPT-4 表現卻未如理想，前後用了兩次修正均未能成功提供一段符合創作要求的編碼。

「文件摘要」方面，Matt 則把一篇與人工智能相關、長達 155 版字的研究論文發給三個系統，要求它們撮寫論文重點，結果三者均能完成要求，但亦以 Sonnet 及 Opus 的表現較佳，能在整理重點時描述得更為深入。Matt 特別提到 Opus 日前曾在「needle in a haystick」測試中（「大海撈針」測試：測試人員把答案隨機藏在大量文本當中，看 AI 能否針對問題精準找出被藏在大海中的「針」），找出與文本不相符的內容，甚至提問相關內容是否以「AI 能否注意到」為測試目的才放進文本之內，Matt 特別強調 Claude 3 在「大海撈針」的表現，遠勝 GPT-4。

至於在「圖像描述」、「對特定議題的意見」兩方面，Matt 認為三者表現相若，例如它們均能準確描述他提供的圖像，描繪出背景內容、衣著、顏色、用字等資訊，其中在描述股票圖時，GPT-4 能較 Claude 3 提供更多圖像以外的資訊，但三者表現相差不遠。Matt 亦特別就「特朗普或拜登上任的影響」、「取消文化對社會的影響」、「大麻對腦部發展的影響」等爭議題目，尋求人工智能的意見，他指三個系統均提供正反持平意見，沒特定偏頗某一立場。

另外，Matt 設了兩條問題去比較三者的「邏輯」推算能力，其中一條是經典的「天堂與地獄守門人」邏輯問題， Matt 指三個系統均能提供正確答案，但答案均非常相似，難以分辨是否訓練模組均曾訓練過類似問題；另一問題則考驗人工智能系統能否透過不完整資訊推論答案，Matt 認為 GPT-4 能準確回答，表現較好，但影片留言卻有不少人替 Claude 3 平反，指 Matt 的邏輯問題描述有歧義，或會影響 Sonnet 及 Opus 出現偏差；在「邏輯」方面，看來還需要更多測試來一分高下。

Claude 3 定價相當有競爭力

最後，Matt 認為 Sonnet 的「定價」、性價比完勝 GPT-4，他指 Sonnet 作為 Claude 3 旗下供公眾免費使用的系統，在「創意」、「編程」、「文件摘要」表現竟比收費的 GPT-4 更佳，更提到用家如需經常運用 AI 協助編碼、整理文件內容，撇除 Sonnet 的每日使用次數限制（每天約 10 條訊息），Sonnet 的表現可說是無可挑剔，性價比、表現均極佳。

不少人會每月付費使用 Claude 3，但使用上難免有安全及支援不足的憂慮。其實坊間也可透過 AWS 的 Amazon Bedrock，輕鬆使用 Claude 3 進行跨文本、圖像、圖表的工作，加上由於使用了 Amazon Bedrock 平台，硬件和軟件性能均會得到提高，Claude 3 的實時互動速度也會顯著加快，提供更準確和可靠的回應。對比前文提到的憂慮，Amazon Bedrock 平台讓用家不用瞎子摸象，即可簡化用家專有數據的訓練模型，自行根據獨特需求調整 Claude 3。

聯絡銷售查詢香港企業的 Amazon Bedrock 應用案例：按此連結
報名最新活動了解 Amazon Bedrock: ：按此連結

立即試用 Amazon Bedrock：按此連結
關於 Claude 最新模型：按此連結
關於 Mistral AI 最新模型：按此連結
AWS 開發者 Blog：按此連結
AWS 開發者社區：按此連結