人工智能

【實試】Claude 3.5 Sonnet VS GPT-4o 5 個實用功能測試大對決

Published by
Oscar
Share

Anthropic 日前推出最新 Claude 3.5 AI,並表示性能超越 OpenAI 的 GPT-4o。小編今日就會針對日常 AI 應用場景測試這 2 款 AI 模型,並比較其優缺點,讓大家可了解這 2 款 AI 的實用程度。

 

▲圖片來源:Anthropic

 

測試 1:編寫食譜

現時 AI 可以計數編程分析數據,但這類型功能未必每個人都合用。有謂:「民以食為先」,相信大家每日也要面對「今餐食乜」的煩惱,此時可以善用 AI 的想像力,讓它為你想今天吃甚麼。小編會在今次測試向 AI 提供食材,要求 AI 就這些食材想些菜式。

 

小編向 2 個 AI 提供相同的指令:

夏日炎炎,今日我沒有甚麼食慾,請就以下食材替我想一個有前菜、湯、主菜和甜品的菜單
現時我手上有以下食材: 番茄、意大利粉、黑醋、朱古力、雲呢拿雪糕、生菜、肉丸、三文魚扒、蛋、牛奶、南瓜

 

GPT-4o 的回應:

 

Claude 3.5 的回應:

 

2 個 AI 均能夠善用小編手上的食材,提供前菜、湯、主菜及甜品,但顯然 GPT-4o 提供的資訊更加全面,除提供菜式之外更會提供烹飪方法,反觀 Claude 就只提供了菜式,沒有提供烹飪方式,而且沒有用盡小編提供的食材。

 

測試結果:GPT-4o 較佳

 


相關文章:
  • 【實測】Claude 3.5 Sonnet 識睇 X 光片 + 可寫簡單遊戲、網頁
  • Anthropic 推出 Claude 3.5 Sonnet 規模小於 Claude 3 Opus 但效能更佳

  • 測試 2:提供飲食建議

    剛才解決了吃甚麼的問題,現在小編就上傳了今日吃的早餐,嘗試叫 AI 分析圖中的食物,為小編分析早餐營養是否均衡,並提供飲食上的營養建議。

     

    小編向 2 個 AI 提供相同的指令,並上傳了早上吃的早餐圖片:

    你是一個專業營養師,現在我會和你分享我今日的早餐,請看看我的早餐營養均衡與否,並提供一些飲食上的營養建議。

     

    ▲圖片可見,小編早餐吃了三文魚扒、醃菜、溫泉蛋、白飯和麵豉湯

     

     

    Claude 3.5 的回應:

     

     

    GPT-4o 的回應:

     

    先從辨認圖片內食物種類說起,2 個 AI 都各有千秋。小編早餐吃了三文魚扒、醃菜、溫泉蛋、白飯和麵豉湯,Claud 能夠辨認到小編吃了鮭魚(三文魚)、白飯、蔬菜及麵豉湯,但就無法辨認旁邊的雞蛋; GPT-4o 辨認到小編吃了雞蛋,但就只能認得出小編吃的是魚,沒有辨認出那是三文魚。

     

    至於營養建議方面,小編覺得 2 個 AI 提供的意見都非常實用而且貼題,包括叫小編以全穀物取代白飯、增加蔬菜攝取、控制鹽分等等。相比之下小編覺得 Claude 給予的建議更加具體和全面,例如 Claude 會告訴小編蛋白質、碳水化合物及蔬菜的比例,讓小編可以跟從。GPT-4o 的建議算是實用,但與 Claude 比較下就略嫌簡單。

     

    測試結果:Claude 3.5 較佳

     

    測試 3:翻譯廣東話

    小編想嘗試 2 個 AI 的翻譯能力,相信一般中英雙語翻譯難不倒它們,小編就輸入了黃偉文填詞的廣東話歌《你唔愛我啦》,並要求 AI 將歌詞翻譯成書面語。

     

    小編向 2 個 AI 提供相同的指令,並輔以《你唔愛我啦》的部分歌詞:

    以下我會提供一段廣東話歌詞,請將其翻譯成書面語
    「成日唔搵 成日唔緊 成日話見但見一陣 態度唔同以前成個冷淡晒 是但啦 算數啦 唔煩你啦 無人錫我啦 再見啦 無野啦 實在夠啦 你唔愛我啦 是但啦 算數啦 又話錫我 話咁快又變晒待我幾差 再見啦 無野啦 完場啦 你唔愛我啦」

     

     

    Claude 3.5 的回應:

    GPT-4o 的回應:

     

    由上圖可見,2 個 AI 都能理解廣東話歌詞的意思,但兩者翻譯的方式、取向均有不同。Claude 表示要避免侵犯版權,因而選擇總結後翻譯整段歌詞的意思;GPT-4o 則採用直譯,以句為單位逐句翻譯為書面語。小編覺得 2 個翻譯方式各有各好,Claude 的翻譯方式可以讓用家直接理解整段歌詞的大意,但就無法知道特定一句歌詞的意思;GPT-4o 逐句翻譯下用家可以獨立知道每一句歌詞的意思,但就需要自己理解整段歌詞的含意。

     

    測試結果:平手

     


    相關文章:
  • 【實測】Claude 3.5 Sonnet 識睇 X 光片 + 可寫簡單遊戲、網頁
  • Anthropic 推出 Claude 3.5 Sonnet 規模小於 Claude 3 Opus 但效能更佳

  • 測試 4:辨認手寫字體

    早前小編的同事寫了一張購物清單,拜託小編買些東西。現在我就將清單交由 2 個 AI 看看,讓它們將清單上的手寫字體轉換成文字,測試 2 個 AI 的文字辨認能力。

     

    小編向 2 個 AI 提供相同的指令(請替我辨認圖中書寫的文字),並上傳了同事手寫的購物清單(見下圖):

    ▲小編同事的字不算太醜,但交由 AI 辨認的話不知道能認出幾多個字呢?

     

    小編同事的購清單上面寫的文字:

    7 月 10 日購物清單

    1. 車厘茄 x2
    2. 三文魚柳 x3
    3. 雞胸肉 x1
    4. 果仁 x1
    5. 毛豆 x1
    6. 茶包(薄荷)

     

    以下是 Claude 3.5 辨識的結果,小編會用紅色標示 AI 認錯的詞語

    7月10日 購物清單:

    1. 車厘茄 x2
    2. 三文魚柳 x3
    3. 豬腩肉 x1
    4. 果仁 x1
    5. 毛豆 x1
    6. 薯蓉(選擇)

     

    以下是 GPT-4o 辨識的結果,小編會用紅色標示 AI 認錯的詞語

    7月10日 購物清單:

    1. 車厘茄 x2
    2. 三文魚柳 x3
    3. 雞胸肉 x1
    4. 果仁 x1
    5. 毛豆 x1
    6. 麵包(薄荷)

     

     

    由上面結果可見,在手寫的 6 項貨物中,Claude 3.5 辨認到 4 項;而 GPT-40 則辨認到 5 項,表現略勝 Claude 3.5 一籌。雖然 Claude 3.5 辨認手寫字的能力較 GPT-40 稍遜,但 Claude 3.5 在回應時能夠從圖片抽取更多資訊,包括能夠告訴小編這是用藍色墨水寫成,而且可以辨認到這是一張購物清單,反觀 GPT-4o 僅將圖中手寫字轉換為文本,沒有提供其他任何資訊。

     

    測試結果:GPT-4o 準繩度較高

     

    測試 5:辨認 AI 生成圖片

    小編另外亦測試了 Claude 和 GPT-4o 辨認 AI 生成圖片的能力。早前小編利用 Stable Diffusion XL 生成了一些相片(相關教學),現在就讓 2 個 AI 分析其中一張 AI 生成的女像,看看它們能否辨認出這是 AI 生成的圖片。

     

    小編向 2 個 AI 提供相同的指令(請辨識以下圖片是否由 AI 生成,並提供證據。),並上傳了使用 Stable Diffusion XL 生成的女像(見下圖):

    ▲Stable Diffusion XL 生成的美女圖片,有興趣看看如何生成的朋友可以觀看相關教學

     

     

    Claude 3.5 的回應:

    GPT-4o 的回應:

     

    這次測試顯然看見 Claude 3.5 辨認 AI 生成內容的能力較 GPT-4o 弱。 Claude 3.5 無法辨認上圖由 AI 生成,而 GPT-4o 就辨認到上面的美女圖片是 AI 生成的作品。

     

    小編留意到一件有趣的事,就是雖然 2 個 AI 的結論大相逕庭,甚至是完全相反,但它們用以支持自己論點的論據均是差不多,例如Claude 3.5 與 GPT-4o 均有評論畫面的細節豐富,但 Claude 3.5 就認為這種豐富屬於「逼真複雜」,而 GPT-4o 就認為畫面「細節精緻得看起來有些過於完美」。

     

    測試結果:GPT-4o 較佳

     


    相關文章:
  • 【實測】Claude 3.5 Sonnet 識睇 X 光片 + 可寫簡單遊戲、網頁
  • Anthropic 推出 Claude 3.5 Sonnet 規模小於 Claude 3 Opus 但效能更佳

  • 總結:GPT-4o 回應更生活化 Claude 3.5 適合進階用家

    小編設想了 5 個現實生活會用得上 AI 的場景,用作比較 Claude 3.5 和 GPT-4o 生成的內容。小編覺得在實際生活應用上, GPT-40 可能會更適合一般用家,例如要求 AI 提供食譜時,GPT-4o 除了給予食譜外,更會提供詳細烹調方式。除此之外,當小編要求 2 個 AI 提供飲食建議時, GPT-4o 提供的意見明顯比較具體。辨認手寫字體方面,GPT-4o 亦是略勝一籌,辨認準繩度較 Claude 3.5 高。

     

    GPT-4o Claude 3.5
    測試 1:編寫食譜 優勝
    較詳細,能提供烹調方式
    稍遜
    僅提供菜式名稱
    測試 2:提供飲食建議 稍遜
    建議略嫌空泛
    優勝
    能提供具體建議
    測試 3:翻譯廣東話 平手

     

    平手

     

    測試 4:辨認手寫字體 優勝
    辨認準繩度:5/6
    稍遜
    辨認準繩度:4/6
    測試 5:辨認 AI 生成圖片 優勝
    能夠辨認圖片由 AI 生成
    稍遜
    無法辨認圖片由 AI 生成

     

    雖然如此,小編並不是說 Claude 3.5 不實用,而是 Claude 3.5 會比較適合進階用家使用。有云「工欲善其事,必先利其器」,Claude 3.5 新加入的「Artifacts」即時預覽功能對有編程知識的用家而言會是個非常好用的功能。在有編程基礎下,配合適當的指令,相信能夠有效提升用家的編程效率。有興趣看看 Claude 3.5 的「Artifacts」功能如何協助進階用家工作的朋友就要看看小編另一篇文章:【實測】Claude 3.5 Sonnet


    相關文章:
  • 【實測】Claude 3.5 Sonnet 識睇 X 光片 + 可寫簡單遊戲、網頁
  • Anthropic 推出 Claude 3.5 Sonnet 規模小於 Claude 3 Opus 但效能更佳

  • Published by
    Oscar