GenAI 與雲端科技專區

YouTuber AI 模型八大測試比較 GPT-4 與哪個才是最強「生成式 AI」(上)

Published by
藍骨

近年人工智能有突破性發展,「生成式 AI」聊天機械人百花齊放,爭相搶佔 AI 主場,而隨著技術進步,AI 聊天機械人亦推陳出新,效能、速度、功能均不斷提升,當中,就以由 Open AI 推出的 ChatGPT 及 Anthropic 推出的 Claude 最為人所熟知,但究竟哪一個 AI 更勝一籌呢?有外國 AI 開發者就設計了八項測試,從「創意寫作」、「圖像描述」、「編碼」、「情感分析」、「回答提問」、「圖像生成」、「對話生成」及「內容概要」,逐一比較 ChatGPT 與 Claude 的表現!

外國 YouTuber 兼 AI 開發者 Partick Storm 早前分析,從八項測試比較 GPT-4 與 Claude 3.5 Sonnet (下稱 Claude 3.5)的能力與表現。Partick 表示,在用以檢視 AI 效能的基準上,Claude 3.5 Sonnet(Claude Sonnet 3.5 為 Claude 的中階模型,但其效能已超越最高效能的 Claude Opus)的表現可說是「怪獸」級別,在各項基準中完勝 GPT-4。當中,Partick 特別提到測試人工智能效能的 GPQA 測試,指在這個博士學位程度專家也只能以 65%、普通人僅能以 34% 成績通過的理解能力測試中,對比 GPT-4 的 53.6% 成績,Claude 3.5 有著亮麗的 59.4% 成績表現,Partick 又指在編碼、多語言數學難度、圖像能力、效能等基準上,Claude 3.5 似乎也技高一籌,為此,Partick Storm 特別設計了八項測試,逐一比較 GPT-4 與 Claude 3.5。

第一回:創意寫作 Claude 3.5 作品引人入勝

第一項測試為「創意寫作」(creative writing),Partick 首先以「撰寫一個 200 字內,與穿越時空、兔仔偵探有關的微型小說」為題,分別要求兩個 AI 回答,結果他指 GPT-4 的故事較平舖直敘,亦缺乏情感表現與對答,內容較沉悶。相反,Claude 3.5 所生成的微型小說卻引人入勝,更能吸引他追看;另外,他亦要求 AI 以「下雨天」為題賦詩,結果 GPT-4 的詩作冗長而沉悶,Claude 3.5 的創作雖僅得八句,卻更能吸引 Partick。最後,Partick 亦要求兩個 AI 以「龍與騎士」為題設計對話,結果 Claude 3.5 表現更佳,能設計出較令人信服、較吸引人的對答。Partick 總結在「創意寫作」的測試上,他認為 Claude 3.5 較 GPT-4 出色。

第二回:圖像描述 GPT-4 更能掌控細節

第二項測試為「圖像描述」(image description),Partick 要求 AI 描述他所提供的圖片內容,其中,GPT-4 與 Claude 3.5 在描述風景照、生物結構圖像上不分上下,唯獨 Partick 要求 AI 解釋一幅「美國前總統奧巴馬在隨從量體重時惡作劇」相片的有趣原因時,GPT-4 能理解並回答趣味在於「奧巴馬在惡作劇」,而 Claude 3.5 卻認為醍醐味在於眾人於更衣室內穿著西裝,顯然反映出 Claude 3.5 未能全然了解圖片內容。因此,在這項「圖像描述」測試中,Partick 認為 GPT-4 表現較佳。


相關文章:
  • AIRSIDE 與 Neuron 的「可持續發展」智能方案  以 AI 建設更符合現代需求的物業管理模式
  • Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
  • 東南亞時裝電商 Pomelo Fashion 用 AI 提供個人化體驗 採 Amazon Personalize 增 8% 總營收

  • 第三回:編碼能力 Claude 3.5 編程簡潔清晰 表現完勝

    第三項測試為「編碼能力」(coding),Partick 要求 AI 設計出一個以 HTML CSS 編碼寫成的瀏覽列(navigation bar)。雖然 GPT-4 與 Claude 3.5 同樣提供到編碼,但因 Claude 3.5 有內建的 artifacts 預覽功能,讓用家即時預覽及測試結果,相反,GPT-4 不但未有預覽功能,更只提供 JavaScript 而未有按要求提供 HTML CSS 程式碼,縱使兩者同樣是完成設計,但 Claude 3.5 所編寫的瀏覽列介面在分割、收縮的最終呈現也顯得更穩定,Claude 3.5 明顯更符合要求及更方便用家。
    另外,Partick 亦要求兩個 AI 以 JavaScript 生成一個由十秒開始、逐秒倒數的計時器。Partick 指,雖然結果 GPT-4 與 Claude 3.5 的計時器均未能準確地按秒計數,但兩者也完成基本要求,唯獨在詳細觀看程式碼之後,他認為 GPT-4 的程式碼內容重複,甚至有多餘的程式碼,固認為 Claude 3.5 所編的程式碼更簡潔明瞭,表現更佳。

    第四回:情感分析 GPT-4 把握較精準

    第四項測試是「情感分析」(sentiment analysis),Partick 會給予兩個 AI 特定句子,並要求 GPT-4 與 Claude 3.5 以三個英文單字,歸納句子隱含的情感。其中一題,Partick 以「我本以為這電影是爛片,想不到最後在撒除一些瑕疵後,我意外地喜歡這電影」(So i thought the movie would be terrible, but surprisingly i ended up loving it despite its flaws.)為題,GPT-4 以「令人愉快的驚喜,正面評價」(Pleasantly surprised. Positive)作歸納,Claude 3.5 雖亦以「起初負評,最終正評」(initially negative. ultimately positive)作回應,兩個 AI 歸納的意思也準確,但 Claude 3.5 卻超出三個英文單字的字數要求。

    另一題,Partick 提出了「儘管這款手機擁有時尚設計和令人印象深刻的高品質相機,但軟體更新的不一致和電池壽命問題最終掩蓋了我最初的興奮」(Despite the phone’s sleek design and impressive camera quality, the inconsistent software updates and battery life issues ultimately overshadowed my initial excitement),結果 GPT-4 與 Claude 3.5 分別以「失望、不滿意、挫敗」及「失望但平衡」來形容,後者的描述有欠準確,因此 Partick 認為在「情感分析」方面,GPT-4 明顯較佳。

    在此先作一小結,在四項測試當中,GPT-4 在「圖像描述」、「情感分析」表現更佳,Claude 3.5 則在「創意寫作」、「編程」方面更出色,各擅勝場。下篇我們將繼續分析剩下四項測試,並了解一下 Partick 作為 AI 開發者會選擇哪一個「生成式 AI」。如對 AI 有興趣,亦可選用 AWS 雲端平台,率先試用各款「生成式 AI」。


    相關文章:
  • AIRSIDE 與 Neuron 的「可持續發展」智能方案  以 AI 建設更符合現代需求的物業管理模式
  • Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
  • 東南亞時裝電商 Pomelo Fashion 用 AI 提供個人化體驗 採 Amazon Personalize 增 8% 總營收

  • Published by
    藍骨