GenAI 與雲端科技專區

YouTuber AI 模型八大測試比較 GPT-4 與哪個才是最強「生成式 AI」(下)

Published by
藍骨
Share

上篇提到美國 YouTuber 兼 AI 開發者 Partick Storm 自定八大測試去比較 ChatGPT 與 Claude 3.5 Sonnet 的效能,暫時在「創意寫作」、「圖像描述」、「編碼」、「情感分析」四方面打成平手,接下來我們繼續分享兩大 AI 在「問答提問」、「圖像生成」、「對話生成」及「內容概要」方面的效能對比。

第五項測試是「回答提問能力」有關的「問答系統」(Question Answering),Partick 準備了六條問題向 AI 查詢答案,題目分別是「知名治療師 Esther Perel 何時結婚」、「誰是第十一個在月球上漫步的人」、「哪一個國家擁有最多的金字塔」、「青檸在水中會浮還是沉」、「世界上最細的哺乳類動物是甚麼」及「2018 年全球 GDP 排名第五高的國家是哪一個」,結果 GPT-4 答中其中三條,表現較佳,Claude 3.5 Sonnet(下稱 Claude 3.5)僅答中兩條,但值得一提,部分題目 GPT-4 提供錯誤答案,相反 Claude 3.5 會直接回應「不知道答案」,兩害取其輕,Partick 也明言也許 AI 回答「不知道」才更好。另外,雖然這項測試是由 GPT-4 勝出,但 Partick 亦強調 AI 不應當作為查證事實的機器(Fact Machines),並認為用家應把 AI 作為推論機,讓 AI 透過數據進行推論才是較合適的用法。

GPT-4 擅長生成圖像 Claude 3.5 對答更人性化

第六項測試為「圖像生成」(Image Generation),題目是生成一張機械人在滑浪的圖片,結果 GPT-4 順利生成夕陽下機械人在水上滑浪的圖片,對照沒有支援圖像生成的 Claude 3.5,GPT-4 當然完勝。

第七項的測試是關於「對話生成」技巧(Conversational Skills),Partick 會向兩部 AI 表達自己情緒低落,並要求 AI 為自己打氣。Partick 指,他期望透過對話測試 AI 的回應是否有同理心、是否自然及能否做到「打氣」的要求,結果,GPT-4 僅以清單列出如何更快樂,Claude 3.5 則在對答中以問題詢問 Partick 的情況並提出建議,對比兩者,明顯 Claude 3.5 的對答更人性化、更自然,表現較為突出。

最後一項測試是「內容概要」能力(Summarization),Partick 向 AI 輸入一篇牽涉大量電動車專有名詞的文章,並要求它們對文章進行概括。結果顯示,Claude 3.5 刪減了部分重點,GPT-4 的撮要卻多達三百多字,兩者表現皆不理想。其後,Partick 亦要求兩者撮要一份與人工智能相關的論文《Attention Is All You Need》, 最後他認為 GPT-4 的撮要較有深度及細緻,Claude 3.5 的撮要程度較高,卻漏了某些重點。整體而言,在「內容概要」方面,他認為 GPT-4 與 Claude 3.5 的表現平分秋色。

表現相近 整體而言 Claude 3.5 更佳

總結而言,經過八回合的測試,如果單單比較分數,Claude 3.5 獲得 8 分、GPT-4 獲得 6 分,Claude 3.5 的整體表現較出色,但一如 Partick 所言,兩者表現相近,在不同項目的表現亦有明顯高低,因此他認為最好的做法是視乎用途,選擇適當的 AI 工具。而作為一個 AI 開發者,Partick 的選擇是把自己的編程工作、其公司旗下的 API(應用程式介面)使用轉投到 Claude 3.5 Sonnet,他直言 Claude 3.5 不但成本較低,生成內容也更細緻,另一邊廂,他亦會保留 GPT-4 作圖像生成、語音聊天等日常用途。

因此,從結論來說,Claude 3.5 效能更強大,但作為 AI 使用者,大前提還是要先理解自己或企業需要運用那一款人工智能工具,如需要 I.T. 專業意見或嘗試各類「生成式 AI」,亦可登記如 AWS 的大型網絡服務平台,省減成本。

按此連結了解更多


相關文章:
  • 由「字典」到「軟件」 聯合培進的數碼轉型之路
  • AWS 引入 Stability AI 三大模型 為客戶提供更多選擇
  • 人工智能概念大解密 從 AI 到機器學習再到生成式 AI

  • Published by
    藍骨