人工智能

【實試】Claude 3.5 Sonnet VS GPT-4o　5 個實用功能測試大對決

作者

Oscar
發佈日期

2024-07-10
閱讀時間

15分鐘
字體大小

Anthropic 日前推出最新 Claude 3.5 AI，並表示性能超越 OpenAI 的 GPT-4o。小編今日就會針對日常 AI 應用場景測試這 2 款 AI 模型，並比較其優缺點，讓大家可了解這 2 款 AI 的實用程度。

▲圖片來源：Anthropic

測試 1：編寫食譜

現時 AI 可以計數編程分析數據，但這類型功能未必每個人都合用。有謂：「民以食為先」，相信大家每日也要面對「今餐食乜」的煩惱，此時可以善用 AI 的想像力，讓它為你想今天吃甚麼。小編會在今次測試向 AI 提供食材，要求 AI 就這些食材想些菜式。

小編向 2 個 AI 提供相同的指令：

夏日炎炎，今日我沒有甚麼食慾，請就以下食材替我想一個有前菜、湯、主菜和甜品的菜單
現時我手上有以下食材：番茄、意大利粉、黑醋、朱古力、雲呢拿雪糕、生菜、肉丸、三文魚扒、蛋、牛奶、南瓜

GPT-4o 的回應：

Claude 3.5 的回應：

2 個 AI 均能夠善用小編手上的食材，提供前菜、湯、主菜及甜品，但顯然 GPT-4o 提供的資訊更加全面，除提供菜式之外更會提供烹飪方法，反觀 Claude 就只提供了菜式，沒有提供烹飪方式，而且沒有用盡小編提供的食材。

測試結果：GPT-4o 較佳

測試 2：提供飲食建議

剛才解決了吃甚麼的問題，現在小編就上傳了今日吃的早餐，嘗試叫 AI 分析圖中的食物，為小編分析早餐營養是否均衡，並提供飲食上的營養建議。

小編向 2 個 AI 提供相同的指令，並上傳了早上吃的早餐圖片：

你是一個專業營養師，現在我會和你分享我今日的早餐，請看看我的早餐營養均衡與否，並提供一些飲食上的營養建議。

▲圖片可見，小編早餐吃了三文魚扒、醃菜、溫泉蛋、白飯和麵豉湯

Claude 3.5 的回應：

GPT-4o 的回應：

先從辨認圖片內食物種類說起，2 個 AI 都各有千秋。小編早餐吃了三文魚扒、醃菜、溫泉蛋、白飯和麵豉湯，Claud 能夠辨認到小編吃了鮭魚（三文魚）、白飯、蔬菜及麵豉湯，但就無法辨認旁邊的雞蛋； GPT-4o 辨認到小編吃了雞蛋，但就只能認得出小編吃的是魚，沒有辨認出那是三文魚。

至於營養建議方面，小編覺得 2 個 AI 提供的意見都非常實用而且貼題，包括叫小編以全穀物取代白飯、增加蔬菜攝取、控制鹽分等等。相比之下小編覺得 Claude 給予的建議更加具體和全面，例如 Claude 會告訴小編蛋白質、碳水化合物及蔬菜的比例，讓小編可以跟從。GPT-4o 的建議算是實用，但與 Claude 比較下就略嫌簡單。

測試結果：Claude 3.5 較佳

測試 3：翻譯廣東話

小編想嘗試 2 個 AI 的翻譯能力，相信一般中英雙語翻譯難不倒它們，小編就輸入了黃偉文填詞的廣東話歌《你唔愛我啦》，並要求 AI 將歌詞翻譯成書面語。

小編向 2 個 AI 提供相同的指令，並輔以《你唔愛我啦》的部分歌詞：

以下我會提供一段廣東話歌詞，請將其翻譯成書面語
「成日唔搵成日唔緊成日話見但見一陣態度唔同以前成個冷淡晒是但啦算數啦唔煩你啦無人錫我啦再見啦無野啦實在夠啦你唔愛我啦是但啦算數啦又話錫我話咁快又變晒待我幾差再見啦無野啦完場啦你唔愛我啦」

Claude 3.5 的回應：

GPT-4o 的回應：

由上圖可見，2 個 AI 都能理解廣東話歌詞的意思，但兩者翻譯的方式、取向均有不同。Claude 表示要避免侵犯版權，因而選擇總結後翻譯整段歌詞的意思；GPT-4o 則採用直譯，以句為單位逐句翻譯為書面語。小編覺得 2 個翻譯方式各有各好，Claude 的翻譯方式可以讓用家直接理解整段歌詞的大意，但就無法知道特定一句歌詞的意思；GPT-4o 逐句翻譯下用家可以獨立知道每一句歌詞的意思，但就需要自己理解整段歌詞的含意。

測試結果：平手

測試 4：辨認手寫字體

早前小編的同事寫了一張購物清單，拜託小編買些東西。現在我就將清單交由 2 個 AI 看看，讓它們將清單上的手寫字體轉換成文字，測試 2 個 AI 的文字辨認能力。

小編向 2 個 AI 提供相同的指令（請替我辨認圖中書寫的文字），並上傳了同事手寫的購物清單（見下圖）：

▲小編同事的字不算太醜，但交由 AI 辨認的話不知道能認出幾多個字呢？

小編同事的購清單上面寫的文字：

7 月 10 日購物清單

車厘茄 x2
三文魚柳 x3
雞胸肉 x1
果仁 x1
毛豆 x1
茶包（薄荷）

以下是 Claude 3.5 辨識的結果，小編會用紅色標示 AI 認錯的詞語

7月10日購物清單：

車厘茄 x2
三文魚柳 x3
豬腩肉 x1
果仁 x1
毛豆 x1
薯蓉（選擇）

以下是 GPT-4o 辨識的結果，小編會用紅色標示 AI 認錯的詞語

7月10日購物清單：

車厘茄 x2
三文魚柳 x3
雞胸肉 x1
果仁 x1
毛豆 x1
麵包（薄荷）

由上面結果可見，在手寫的 6 項貨物中，Claude 3.5 辨認到 4 項；而 GPT-40 則辨認到 5 項，表現略勝 Claude 3.5 一籌。雖然 Claude 3.5 辨認手寫字的能力較 GPT-40 稍遜，但 Claude 3.5 在回應時能夠從圖片抽取更多資訊，包括能夠告訴小編這是用藍色墨水寫成，而且可以辨認到這是一張購物清單，反觀 GPT-4o 僅將圖中手寫字轉換為文本，沒有提供其他任何資訊。

測試結果：GPT-4o 準繩度較高

測試 5：辨認 AI 生成圖片

小編另外亦測試了 Claude 和 GPT-4o 辨認 AI 生成圖片的能力。早前小編利用 Stable Diffusion XL 生成了一些相片（相關教學），現在就讓 2 個 AI 分析其中一張 AI 生成的女像，看看它們能否辨認出這是 AI 生成的圖片。

小編向 2 個 AI 提供相同的指令（請辨識以下圖片是否由 AI 生成，並提供證據。），並上傳了使用 Stable Diffusion XL 生成的女像（見下圖）：

▲Stable Diffusion XL 生成的美女圖片，有興趣看看如何生成的朋友可以觀看相關教學

Claude 3.5 的回應：

GPT-4o 的回應：

這次測試顯然看見 Claude 3.5 辨認 AI 生成內容的能力較 GPT-4o 弱。 Claude 3.5 無法辨認上圖由 AI 生成，而 GPT-4o 就辨認到上面的美女圖片是 AI 生成的作品。

小編留意到一件有趣的事，就是雖然 2 個 AI 的結論大相逕庭，甚至是完全相反，但它們用以支持自己論點的論據均是差不多，例如Claude 3.5 與 GPT-4o 均有評論畫面的細節豐富，但 Claude 3.5 就認為這種豐富屬於「逼真複雜」，而 GPT-4o 就認為畫面「細節精緻得看起來有些過於完美」。

測試結果：GPT-4o 較佳

總結：GPT-4o 回應更生活化　Claude 3.5 適合進階用家

小編設想了 5 個現實生活會用得上 AI 的場景，用作比較 Claude 3.5 和 GPT-4o 生成的內容。小編覺得在實際生活應用上， GPT-40 可能會更適合一般用家，例如要求 AI 提供食譜時，GPT-4o 除了給予食譜外，更會提供詳細烹調方式。除此之外，當小編要求 2 個 AI 提供飲食建議時， GPT-4o 提供的意見明顯比較具體。辨認手寫字體方面，GPT-4o 亦是略勝一籌，辨認準繩度較 Claude 3.5 高。

	GPT-4o	Claude 3.5
測試 1：編寫食譜	優勝較詳細，能提供烹調方式	稍遜僅提供菜式名稱
測試 2：提供飲食建議	稍遜建議略嫌空泛	優勝能提供具體建議
測試 3：翻譯廣東話	平手	平手
測試 4：辨認手寫字體	優勝辨認準繩度：5/6	稍遜辨認準繩度：4/6
測試 5：辨認 AI 生成圖片	優勝能夠辨認圖片由 AI 生成	稍遜無法辨認圖片由 AI 生成

雖然如此，小編並不是說 Claude 3.5 不實用，而是 Claude 3.5 會比較適合進階用家使用。有云「工欲善其事，必先利其器」，Claude 3.5 新加入的「Artifacts」即時預覽功能對有編程知識的用家而言會是個非常好用的功能。在有編程基礎下，配合適當的指令，相信能夠有效提升用家的編程效率。有興趣看看 Claude 3.5 的「Artifacts」功能如何協助進階用家工作的朋友就要看看小編另一篇文章：【實測】Claude 3.5 Sonnet。

測試 1：編寫食譜

測試結果：GPT-4o 較佳

測試 2：提供飲食建議

測試結果：Claude 3.5 較佳

測試 3：翻譯廣東話

測試結果：平手

測試 4：辨認手寫字體

測試結果：GPT-4o 準繩度較高

測試 5：辨認 AI 生成圖片

測試結果：GPT-4o 較佳

總結：GPT-4o 回應更生活化 Claude 3.5 適合進階用家

總結：GPT-4o 回應更生活化　Claude 3.5 適合進階用家