GenAI 與雲端科技專區

外媒比較 Claude 3 和 ChatGPT 七大範疇測試下勝負難分

Published by
藍骨

由 AI 初創 Anthropic 設計的最新 AI 模型 Claude 3 橫空出世,AWS 早前更宣布 Claude 3 將會於 Amazon Bedrock 上提供服務。日前就有外國 Youtuber 拍片比較 Claude 3 及 ChatGPT,甚至用上「終於有可以打敗 GPT 的 AI」為題,高度稱讚 Claude 3 在效能、性價比方面的優秀表現。

專門點評人工智能、科技產品的美國 Youtuber Matt Wolfe 日前出片比較 Claude 3 及 ChatGPT。Matt 以自訂的「創意」(creativly)、「邏輯」(logic)、「編碼」(coding)、「文件摘要」(summrizing docs)、「圖像描述」(vision)、「對特定議題的意見」(bias)及「定價」(pricing)七大範疇作測試標準,分別按每範疇所設定的題目,向 Claude 3 Opus(下稱 Opus)、Claude 3 Sonnet(下稱 Sonnet) 及 GPT- 4 詢問答案,比較三者的差異。結果 Matt 認為同屬 Claude 3 的 Opus 及 Sonnet 表現出色,7 項中有 4 項測試表現較佳,個別項目的表現已超越 GPT- 4。

多個方面超越 GPT-4

在「創意」方面,Matt 要求三個人工智能系統以狼、魔法鎚子、基因異變體為線索,文字創作一段英雄冒險故事,Matt 認為三者都能達到基本要求,速度上以 Sonnet 最快,但論故事細節、完整度則以 Opus 創作的故事為佳。他提到 GPT-4 亦能達到要求,但表現不如 Claude 3。

至於「編碼」方面,Matt 要求三個人工智能系統提供一段程式碼,讓使用者可利用編碼設計一個「棍子收集金幣」的 JavaScript 遊戲,結果 Opus 表現最好,一次到位,其次為 Sonnet,也僅需修正一次即可完成編碼,相反 GPT-4 表現卻未如理想,前後用了兩次修正均未能成功提供一段符合創作要求的編碼。

「文件摘要」方面,Matt 則把一篇與人工智能相關、長達 155 版字的研究論文發給三個系統,要求它們撮寫論文重點,結果三者均能完成要求,但亦以 Sonnet 及 Opus 的表現較佳,能在整理重點時描述得更為深入。Matt 特別提到 Opus 日前曾在「needle in a haystick」測試中(「大海撈針」測試:測試人員把答案隨機藏在大量文本當中,看 AI 能否針對問題精準找出被藏在大海中的「針」),找出與文本不相符的內容,甚至提問相關內容是否以「AI 能否注意到」為測試目的才放進文本之內,Matt 特別強調 Claude 3 在「大海撈針」的表現,遠勝 GPT-4。

至於在「圖像描述」、「對特定議題的意見」兩方面,Matt 認為三者表現相若,例如它們均能準確描述他提供的圖像,描繪出背景內容、衣著、顏色、用字等資訊,其中在描述股票圖時,GPT-4 能較 Claude 3 提供更多圖像以外的資訊,但三者表現相差不遠。Matt 亦特別就「特朗普或拜登上任的影響」、「取消文化對社會的影響」、「大麻對腦部發展的影響」等爭議題目,尋求人工智能的意見,他指三個系統均提供正反持平意見,沒特定偏頗某一立場。

另外,Matt 設了兩條問題去比較三者的「邏輯」推算能力,其中一條是經典的「天堂與地獄守門人」邏輯問題, Matt 指三個系統均能提供正確答案,但答案均非常相似,難以分辨是否訓練模組均曾訓練過類似問題;另一問題則考驗人工智能系統能否透過不完整資訊推論答案,Matt 認為 GPT-4 能準確回答,表現較好,但影片留言卻有不少人替 Claude 3 平反,指 Matt 的邏輯問題描述有歧義,或會影響 Sonnet 及 Opus 出現偏差;在「邏輯」方面,看來還需要更多測試來一分高下。

Claude 3 定價相當有競爭力

最後,Matt 認為 Sonnet 的「定價」、性價比完勝 GPT-4,他指 Sonnet 作為 Claude 3 旗下供公眾免費使用的系統,在「創意」、「編程」、「文件摘要」表現竟比收費的 GPT-4 更佳,更提到用家如需經常運用 AI 協助編碼、整理文件內容,撇除 Sonnet 的每日使用次數限制(每天約 10 條訊息),Sonnet 的表現可說是無可挑剔,性價比、表現均極佳。

不少人會每月付費使用 Claude 3,但使用上難免有安全及支援不足的憂慮。其實坊間也可透過 AWS 的 Amazon Bedrock,輕鬆使用 Claude 3 進行跨文本、圖像、圖表的工作,加上由於使用了 Amazon Bedrock 平台,硬件和軟件性能均會得到提高,Claude 3 的實時互動速度也會顯著加快,提供更準確和可靠的回應。對比前文提到的憂慮,Amazon Bedrock 平台讓用家不用瞎子摸象,即可簡化用家專有數據的訓練模型,自行根據獨特需求調整 Claude 3。

聯絡銷售查詢香港企業的 Amazon Bedrock 應用案例:按此連結
報名最新活動了解 Amazon Bedrock: :按此連結

立即試用 Amazon Bedrock:按此連結
關於 Claude 最新模型:按此連結
關於 Mistral AI 最新模型:按此連結
AWS 開發者 Blog:按此連結
AWS 開發者社區:按此連結


相關文章:
  • AIRSIDE 與 Neuron 的「可持續發展」智能方案  以 AI 建設更符合現代需求的物業管理模式
  • Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
  • 東南亞時裝電商 Pomelo Fashion 用 AI 提供個人化體驗 採 Amazon Personalize 增 8% 總營收

  • Published by
    藍骨