Anthropic 日前推出最新 Claude 3.5 AI,並表示性能超越 OpenAI 的 GPT-4o。小編今日就會針對日常 AI 應用場景測試這 2 款 AI 模型,並比較其優缺點,讓大家可了解這 2 款 AI 的實用程度。
▲圖片來源:Anthropic
測試 1:編寫食譜
現時 AI 可以計數編程分析數據,但這類型功能未必每個人都合用。有謂:「民以食為先」,相信大家每日也要面對「今餐食乜」的煩惱,此時可以善用 AI 的想像力,讓它為你想今天吃甚麼。小編會在今次測試向 AI 提供食材,要求 AI 就這些食材想些菜式。
小編向 2 個 AI 提供相同的指令:
Claude 3.5 的回應:
2 個 AI 均能夠善用小編手上的食材,提供前菜、湯、主菜及甜品,但顯然 GPT-4o 提供的資訊更加全面,除提供菜式之外更會提供烹飪方法,反觀 Claude 就只提供了菜式,沒有提供烹飪方式,而且沒有用盡小編提供的食材。
測試結果:GPT-4o 較佳
相關文章:
Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
測試 2:提供飲食建議
剛才解決了吃甚麼的問題,現在小編就上傳了今日吃的早餐,嘗試叫 AI 分析圖中的食物,為小編分析早餐營養是否均衡,並提供飲食上的營養建議。
小編向 2 個 AI 提供相同的指令,並上傳了早上吃的早餐圖片:
你是一個專業營養師,現在我會和你分享我今日的早餐,請看看我的早餐營養均衡與否,並提供一些飲食上的營養建議。
Claude 3.5 的回應:
GPT-4o 的回應:
先從辨認圖片內食物種類說起,2 個 AI 都各有千秋。小編早餐吃了三文魚扒、醃菜、溫泉蛋、白飯和麵豉湯,Claud 能夠辨認到小編吃了鮭魚(三文魚)、白飯、蔬菜及麵豉湯,但就無法辨認旁邊的雞蛋; GPT-4o 辨認到小編吃了雞蛋,但就只能認得出小編吃的是魚,沒有辨認出那是三文魚。
至於營養建議方面,小編覺得 2 個 AI 提供的意見都非常實用而且貼題,包括叫小編以全穀物取代白飯、增加蔬菜攝取、控制鹽分等等。相比之下小編覺得 Claude 給予的建議更加具體和全面,例如 Claude 會告訴小編蛋白質、碳水化合物及蔬菜的比例,讓小編可以跟從。GPT-4o 的建議算是實用,但與 Claude 比較下就略嫌簡單。
測試結果:Claude 3.5 較佳
測試 3:翻譯廣東話
小編想嘗試 2 個 AI 的翻譯能力,相信一般中英雙語翻譯難不倒它們,小編就輸入了黃偉文填詞的廣東話歌《你唔愛我啦》,並要求 AI 將歌詞翻譯成書面語。
小編向 2 個 AI 提供相同的指令,並輔以《你唔愛我啦》的部分歌詞:
以下我會提供一段廣東話歌詞,請將其翻譯成書面語
「成日唔搵 成日唔緊 成日話見但見一陣 態度唔同以前成個冷淡晒 是但啦 算數啦 唔煩你啦 無人錫我啦 再見啦 無野啦 實在夠啦 你唔愛我啦 是但啦 算數啦 又話錫我 話咁快又變晒待我幾差 再見啦 無野啦 完場啦 你唔愛我啦」
Claude 3.5 的回應:
GPT-4o 的回應:
由上圖可見,2 個 AI 都能理解廣東話歌詞的意思,但兩者翻譯的方式、取向均有不同。Claude 表示要避免侵犯版權,因而選擇總結後翻譯整段歌詞的意思;GPT-4o 則採用直譯,以句為單位逐句翻譯為書面語。小編覺得 2 個翻譯方式各有各好,Claude 的翻譯方式可以讓用家直接理解整段歌詞的大意,但就無法知道特定一句歌詞的意思;GPT-4o 逐句翻譯下用家可以獨立知道每一句歌詞的意思,但就需要自己理解整段歌詞的含意。
測試結果:平手
相關文章:
Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
測試 4:辨認手寫字體
早前小編的同事寫了一張購物清單,拜託小編買些東西。現在我就將清單交由 2 個 AI 看看,讓它們將清單上的手寫字體轉換成文字,測試 2 個 AI 的文字辨認能力。
小編向 2 個 AI 提供相同的指令(請替我辨認圖中書寫的文字),並上傳了同事手寫的購物清單(見下圖):
▲小編同事的字不算太醜,但交由 AI 辨認的話不知道能認出幾多個字呢?
小編同事的購清單上面寫的文字:
7 月 10 日購物清單
- 車厘茄 x2
- 三文魚柳 x3
- 雞胸肉 x1
- 果仁 x1
- 毛豆 x1
- 茶包(薄荷)
以下是 Claude 3.5 辨識的結果,小編會用紅色標示 AI 認錯的詞語
7月10日 購物清單:
- 車厘茄 x2
- 三文魚柳 x3
- 豬腩肉 x1
- 果仁 x1
- 毛豆 x1
- 薯蓉(選擇)
以下是 GPT-4o 辨識的結果,小編會用紅色標示 AI 認錯的詞語
7月10日 購物清單:
- 車厘茄 x2
- 三文魚柳 x3
- 雞胸肉 x1
- 果仁 x1
- 毛豆 x1
- 麵包(薄荷)
由上面結果可見,在手寫的 6 項貨物中,Claude 3.5 辨認到 4 項;而 GPT-40 則辨認到 5 項,表現略勝 Claude 3.5 一籌。雖然 Claude 3.5 辨認手寫字的能力較 GPT-40 稍遜,但 Claude 3.5 在回應時能夠從圖片抽取更多資訊,包括能夠告訴小編這是用藍色墨水寫成,而且可以辨認到這是一張購物清單,反觀 GPT-4o 僅將圖中手寫字轉換為文本,沒有提供其他任何資訊。
測試結果:GPT-4o 準繩度較高
測試 5:辨認 AI 生成圖片
小編另外亦測試了 Claude 和 GPT-4o 辨認 AI 生成圖片的能力。早前小編利用 Stable Diffusion XL 生成了一些相片(相關教學),現在就讓 2 個 AI 分析其中一張 AI 生成的女像,看看它們能否辨認出這是 AI 生成的圖片。
小編向 2 個 AI 提供相同的指令(請辨識以下圖片是否由 AI 生成,並提供證據。),並上傳了使用 Stable Diffusion XL 生成的女像(見下圖):
▲Stable Diffusion XL 生成的美女圖片,有興趣看看如何生成的朋友可以觀看相關教學
Claude 3.5 的回應:
GPT-4o 的回應:
這次測試顯然看見 Claude 3.5 辨認 AI 生成內容的能力較 GPT-4o 弱。 Claude 3.5 無法辨認上圖由 AI 生成,而 GPT-4o 就辨認到上面的美女圖片是 AI 生成的作品。
小編留意到一件有趣的事,就是雖然 2 個 AI 的結論大相逕庭,甚至是完全相反,但它們用以支持自己論點的論據均是差不多,例如Claude 3.5 與 GPT-4o 均有評論畫面的細節豐富,但 Claude 3.5 就認為這種豐富屬於「逼真複雜」,而 GPT-4o 就認為畫面「細節精緻得看起來有些過於完美」。
測試結果:GPT-4o 較佳
相關文章:
Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
總結:GPT-4o 回應更生活化 Claude 3.5 適合進階用家
小編設想了 5 個現實生活會用得上 AI 的場景,用作比較 Claude 3.5 和 GPT-4o 生成的內容。小編覺得在實際生活應用上, GPT-40 可能會更適合一般用家,例如要求 AI 提供食譜時,GPT-4o 除了給予食譜外,更會提供詳細烹調方式。除此之外,當小編要求 2 個 AI 提供飲食建議時, GPT-4o 提供的意見明顯比較具體。辨認手寫字體方面,GPT-4o 亦是略勝一籌,辨認準繩度較 Claude 3.5 高。
GPT-4o | Claude 3.5 | |
測試 1:編寫食譜 | 優勝 較詳細,能提供烹調方式 |
稍遜 僅提供菜式名稱 |
測試 2:提供飲食建議 | 稍遜 建議略嫌空泛 |
優勝 能提供具體建議 |
測試 3:翻譯廣東話 | 平手
|
平手
|
測試 4:辨認手寫字體 | 優勝 辨認準繩度:5/6 |
稍遜 辨認準繩度:4/6 |
測試 5:辨認 AI 生成圖片 | 優勝 能夠辨認圖片由 AI 生成 |
稍遜 無法辨認圖片由 AI 生成 |
雖然如此,小編並不是說 Claude 3.5 不實用,而是 Claude 3.5 會比較適合進階用家使用。有云「工欲善其事,必先利其器」,Claude 3.5 新加入的「Artifacts」即時預覽功能對有編程知識的用家而言會是個非常好用的功能。在有編程基礎下,配合適當的指令,相信能夠有效提升用家的編程效率。有興趣看看 Claude 3.5 的「Artifacts」功能如何協助進階用家工作的朋友就要看看小編另一篇文章:【實測】Claude 3.5 Sonnet。
相關文章:
Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題