YouTuber AI 模型八大測試比較　GPT-4 與哪個才是最強「生成式 AI」（下）

2024-08-30

Published by

藍骨

上篇提到美國 YouTuber 兼 AI 開發者 Partick Storm 自定八大測試去比較 ChatGPT 與 Claude 3.5 Sonnet 的效能，暫時在「創意寫作」、「圖像描述」、「編碼」、「情感分析」四方面打成平手，接下來我們繼續分享兩大 AI 在「問答提問」、「圖像生成」、「對話生成」及「內容概要」方面的效能對比。

第五項測試是「回答提問能力」有關的「問答系統」（Question Answering），Partick 準備了六條問題向 AI 查詢答案，題目分別是「知名治療師 Esther Perel 何時結婚」、「誰是第十一個在月球上漫步的人」、「哪一個國家擁有最多的金字塔」、「青檸在水中會浮還是沉」、「世界上最細的哺乳類動物是甚麼」及「2018 年全球 GDP 排名第五高的國家是哪一個」，結果 GPT-4 答中其中三條，表現較佳，Claude 3.5 Sonnet（下稱 Claude 3.5）僅答中兩條，但值得一提，部分題目 GPT-4 提供錯誤答案，相反 Claude 3.5 會直接回應「不知道答案」，兩害取其輕，Partick 也明言也許 AI 回答「不知道」才更好。另外，雖然這項測試是由 GPT-4 勝出，但 Partick 亦強調 AI 不應當作為查證事實的機器（Fact Machines），並認為用家應把 AI 作為推論機，讓 AI 透過數據進行推論才是較合適的用法。

GPT-4 擅長生成圖像 Claude 3.5 對答更人性化

第六項測試為「圖像生成」（Image Generation），題目是生成一張機械人在滑浪的圖片，結果 GPT-4 順利生成夕陽下機械人在水上滑浪的圖片，對照沒有支援圖像生成的 Claude 3.5，GPT-4 當然完勝。

第七項的測試是關於「對話生成」技巧（Conversational Skills），Partick 會向兩部 AI 表達自己情緒低落，並要求 AI 為自己打氣。Partick 指，他期望透過對話測試 AI 的回應是否有同理心、是否自然及能否做到「打氣」的要求，結果，GPT-4 僅以清單列出如何更快樂，Claude 3.5 則在對答中以問題詢問 Partick 的情況並提出建議，對比兩者，明顯 Claude 3.5 的對答更人性化、更自然，表現較為突出。

最後一項測試是「內容概要」能力（Summarization），Partick 向 AI 輸入一篇牽涉大量電動車專有名詞的文章，並要求它們對文章進行概括。結果顯示，Claude 3.5 刪減了部分重點，GPT-4 的撮要卻多達三百多字，兩者表現皆不理想。其後，Partick 亦要求兩者撮要一份與人工智能相關的論文《Attention Is All You Need》，最後他認為 GPT-4 的撮要較有深度及細緻，Claude 3.5 的撮要程度較高，卻漏了某些重點。整體而言，在「內容概要」方面，他認為 GPT-4 與 Claude 3.5 的表現平分秋色。

表現相近整體而言 Claude 3.5 更佳

總結而言，經過八回合的測試，如果單單比較分數，Claude 3.5 獲得 8 分、GPT-4 獲得 6 分，Claude 3.5 的整體表現較出色，但一如 Partick 所言，兩者表現相近，在不同項目的表現亦有明顯高低，因此他認為最好的做法是視乎用途，選擇適當的 AI 工具。而作為一個 AI 開發者，Partick 的選擇是把自己的編程工作、其公司旗下的 API（應用程式介面）使用轉投到 Claude 3.5 Sonnet，他直言 Claude 3.5 不但成本較低，生成內容也更細緻，另一邊廂，他亦會保留 GPT-4 作圖像生成、語音聊天等日常用途。

因此，從結論來說，Claude 3.5 效能更強大，但作為 AI 使用者，大前提還是要先理解自己或企業需要運用那一款人工智能工具，如需要 I.T. 專業意見或嘗試各類「生成式 AI」，亦可登記如 AWS 的大型網絡服務平台，省減成本。

按此連結了解更多