YouTuber AI 模型八大測試比較　GPT-4 與哪個才是最強「生成式 AI」（上）

作者

藍骨
發佈日期

2024-08-29
閱讀時間

10分鐘
字體大小

近年人工智能有突破性發展，「生成式 AI」聊天機械人百花齊放，爭相搶佔 AI 主場，而隨著技術進步，AI 聊天機械人亦推陳出新，效能、速度、功能均不斷提升，當中，就以由 Open AI 推出的 ChatGPT 及 Anthropic 推出的 Claude 最為人所熟知，但究竟哪一個 AI 更勝一籌呢？有外國 AI 開發者就設計了八項測試，從「創意寫作」、「圖像描述」、「編碼」、「情感分析」、「回答提問」、「圖像生成」、「對話生成」及「內容概要」，逐一比較 ChatGPT 與 Claude 的表現！

外國 YouTuber 兼 AI 開發者 Partick Storm 早前分析，從八項測試比較 GPT-4 與 Claude 3.5 Sonnet （下稱 Claude 3.5）的能力與表現。Partick 表示，在用以檢視 AI 效能的基準上，Claude 3.5 Sonnet（Claude Sonnet 3.5 為 Claude 的中階模型，但其效能已超越最高效能的 Claude Opus）的表現可說是「怪獸」級別，在各項基準中完勝 GPT-4。當中，Partick 特別提到測試人工智能效能的 GPQA 測試，指在這個博士學位程度專家也只能以 65%、普通人僅能以 34% 成績通過的理解能力測試中，對比 GPT-4 的 53.6% 成績，Claude 3.5 有著亮麗的 59.4% 成績表現，Partick 又指在編碼、多語言數學難度、圖像能力、效能等基準上，Claude 3.5 似乎也技高一籌，為此，Partick Storm 特別設計了八項測試，逐一比較 GPT-4 與 Claude 3.5。

第一回：創意寫作 Claude 3.5 作品引人入勝

第一項測試為「創意寫作」（creative writing），Partick 首先以「撰寫一個 200 字內，與穿越時空、兔仔偵探有關的微型小說」為題，分別要求兩個 AI 回答，結果他指 GPT-4 的故事較平舖直敘，亦缺乏情感表現與對答，內容較沉悶。相反，Claude 3.5 所生成的微型小說卻引人入勝，更能吸引他追看；另外，他亦要求 AI 以「下雨天」為題賦詩，結果 GPT-4 的詩作冗長而沉悶，Claude 3.5 的創作雖僅得八句，卻更能吸引 Partick。最後，Partick 亦要求兩個 AI 以「龍與騎士」為題設計對話，結果 Claude 3.5 表現更佳，能設計出較令人信服、較吸引人的對答。Partick 總結在「創意寫作」的測試上，他認為 Claude 3.5 較 GPT-4 出色。

第二回：圖像描述 GPT-4 更能掌控細節

第二項測試為「圖像描述」（image description），Partick 要求 AI 描述他所提供的圖片內容，其中，GPT-4 與 Claude 3.5 在描述風景照、生物結構圖像上不分上下，唯獨 Partick 要求 AI 解釋一幅「美國前總統奧巴馬在隨從量體重時惡作劇」相片的有趣原因時，GPT-4 能理解並回答趣味在於「奧巴馬在惡作劇」，而 Claude 3.5 卻認為醍醐味在於眾人於更衣室內穿著西裝，顯然反映出 Claude 3.5 未能全然了解圖片內容。因此，在這項「圖像描述」測試中，Partick 認為 GPT-4 表現較佳。

第三回：編碼能力 Claude 3.5 編程簡潔清晰表現完勝

第三項測試為「編碼能力」（coding），Partick 要求 AI 設計出一個以 HTML CSS 編碼寫成的瀏覽列（navigation bar）。雖然 GPT-4 與 Claude 3.5 同樣提供到編碼，但因 Claude 3.5 有內建的 artifacts 預覽功能，讓用家即時預覽及測試結果，相反，GPT-4 不但未有預覽功能，更只提供 JavaScript 而未有按要求提供 HTML CSS 程式碼，縱使兩者同樣是完成設計，但 Claude 3.5 所編寫的瀏覽列介面在分割、收縮的最終呈現也顯得更穩定，Claude 3.5 明顯更符合要求及更方便用家。
另外，Partick 亦要求兩個 AI 以 JavaScript 生成一個由十秒開始、逐秒倒數的計時器。Partick 指，雖然結果 GPT-4 與 Claude 3.5 的計時器均未能準確地按秒計數，但兩者也完成基本要求，唯獨在詳細觀看程式碼之後，他認為 GPT-4 的程式碼內容重複，甚至有多餘的程式碼，固認為 Claude 3.5 所編的程式碼更簡潔明瞭，表現更佳。

第四回：情感分析 GPT-4 把握較精準

第四項測試是「情感分析」（sentiment analysis），Partick 會給予兩個 AI 特定句子，並要求 GPT-4 與 Claude 3.5 以三個英文單字，歸納句子隱含的情感。其中一題，Partick 以「我本以為這電影是爛片，想不到最後在撒除一些瑕疵後，我意外地喜歡這電影」（So i thought the movie would be terrible, but surprisingly i ended up loving it despite its flaws.）為題，GPT-4 以「令人愉快的驚喜，正面評價」（Pleasantly surprised. Positive）作歸納，Claude 3.5 雖亦以「起初負評，最終正評」（initially negative. ultimately positive）作回應，兩個 AI 歸納的意思也準確，但 Claude 3.5 卻超出三個英文單字的字數要求。

另一題，Partick 提出了「儘管這款手機擁有時尚設計和令人印象深刻的高品質相機，但軟體更新的不一致和電池壽命問題最終掩蓋了我最初的興奮」（Despite the phone’s sleek design and impressive camera quality, the inconsistent software updates and battery life issues ultimately overshadowed my initial excitement），結果 GPT-4 與 Claude 3.5 分別以「失望、不滿意、挫敗」及「失望但平衡」來形容，後者的描述有欠準確，因此 Partick 認為在「情感分析」方面，GPT-4 明顯較佳。

在此先作一小結，在四項測試當中，GPT-4 在「圖像描述」、「情感分析」表現更佳，Claude 3.5 則在「創意寫作」、「編程」方面更出色，各擅勝場。下篇我們將繼續分析剩下四項測試，並了解一下 Partick 作為 AI 開發者會選擇哪一個「生成式 AI」。如對 AI 有興趣，亦可選用 AWS 雲端平台，率先試用各款「生成式 AI」。

GenAI 與雲端科技專區

第一回：創意寫作 Claude 3.5 作品引人入勝

第二回：圖像描述 GPT-4 更能掌控細節

第三回：編碼能力 Claude 3.5 編程簡潔清晰 表現完勝

第四回：情感分析 GPT-4 把握較精準

第三回：編碼能力 Claude 3.5 編程簡潔清晰表現完勝