隨著「生成式 AI」熱潮興起,編碼、內容生成、圖像辨識、資料概括等 AI 應用已進入企業與私人市場,「生成式 AI」的準確度、速度亦隨著 AI 模組不斷進化而愈見成熟,正如 AI 模型開發商 Anthropic 早前就宣佈更新他們旗下的人工智能 Claude 3.5 Sonnet,令 Claude 3.5 Sonnet 的效能進一步提升。早前亦有外國實況主拍片評測,從各方面試驗 Claude 3.5 Sonnet 的實際性能。
Sonnet 升級 能應對更複雜任務
隨著 Anthropic 公布升級 Claude 3.5 Sonnet,同時相關的運算能力評測亦出爐,例如,在 SWE-bench Verified 測試(一個用以測試大型學習機器處理真實軟體問題能力的基準測試)中,Claude 3.5 Sonnet 就取得卓越的成績,除了由舊一代的 33.4% 成績躍升至現時的 49%,Claude 3.5 Sonnet 更力壓其他如 chatGPT 等大眾常用的 AI 模型,成為在該項測試中得分最高、效能最高的「生成式 AI」模組。據 Anthropic 指,最新版本的 Claude 3.5 Sonnet 加強了推理及解難能力,令該模組能更輕易了解細微的指示與內容,生成更具創意的解決方案,更容易識別錯誤以至分析更複雜的數據;簡而言之,升級後的 Claude 3.5 Sonnet 能處理比過往更複雜的任務。
有外國 AI 專家 Matthew Berman 就分別以「編碼」、「字數計算」、「內容生成」、「邏輯推理」、「圖片描述」去實測新版 Claude 3.5 Sonnet 的效能。當中,在「編碼」方面,Berman 輸入簡單指令(prompt),分別要求 Claude 3.5 Sonnet 以 python (常用於 Web 應用程式、軟體開發、資料科學與機器學習的程式設計語言)編寫出經典遊戲「貪食蛇」及「俄羅斯方塊」,結果 Claude 3.5 Sonnet 能即時生成可實際使用的程式碼,雖然 Berman 發現 Claude 3.5 Sonnet 提供的「俄羅斯方塊」有 Bug,但在他要求 Claude 重新檢視後,Claude 亦能生成正確的「俄羅斯方塊」程式碼。
另外,在文字處理方面,Claude 3.5 Sonnet 亦能按 Berman 的要求,準確數算 AI 生成的文字答案所包含的字數,及按 Berman 的提示列出十句以「蘋果」作句未的語句,亦反映了升級後的 Claude 3.5 Sonnet 能更輕鬆處理複雜的任務。
至於 Claude 3.5 Sonnet 升級後獲提高的「邏輯推理」能力,Berman 提出了數個以往 AI 模組難以回答的問題,Claude 3.5 Sonnet 均能一一回應。例如,Claude 3.5 Sonnet 能正確比較題目內不同信封尺寸的不同,進一步回應 Berman 對於「信封是否符合要求」的提問,又如 Claude 3.5 Sonnet 能準確回答傳統大型語言模型(LMM)未能正確回應的「Strawberry 內有多少個字母 R」的提問,亦能比較及區分 9.9 與 9.1 兩個數字孰大孰小,更重要的是,從 Claude 3.5 Sonnet 的回應,我們能看出 Claude 3.5 Sonnet 逐步推論的強大邏輯推理與解難能力。
逐步解拆邏輯推論 解答語意不清及兩難問題
值得留意的是,升級後的 Claude 3.5 Sonnet 更著重邏輯推論,甚至能處理一些語意含糊的問題,例如,Berman 就以一條「室內有多少殺手」的問題,測試 Claude 3.5 Sonnet 能否理解「殺手」一詞的引伸含義,Claude 亦能逐步列出他的思考邏輯,並指出問題之中言意不清、概念含糊的地方,提出正確的答案;同樣地,Claude 3.5 Sonnet 在回應 Berman 有關是否犧牲一個人以解救人類滅絕的道德難題,Claude 同樣能指出問題牽涉的核心道德爭議,向提問者提供額外的道德框架作參考,以回應問題。由此得之,Claude 3.5 Sonnet 的邏輯推理能力遠遠比過往的 AI 強大。
最後,Berman 測試了 Claude 3.5 Sonnet 的圖片描述與解難能力,例如,Claude 能正確辨別及描述圖片內的動物羊駝、名人 Bill Gates 等內容;在提供一幅有關 iPhone 設定的圖片,Claude 3.5 Sonnet 甚至能直接描述圖內的詳細資料,如提出手機現存多少儲存用量、已用多少用量、甚麼程式佔儲存量最多,甚至乎能辨識那些應用程式已被卸載並上載至雲端。雖然,現時 Claude 3.5 Sonnet 尚未能解構 QR code 或處理更複雜細緻的圖像,但 Claude 3.5 Sonnet 的圖片描述能力仍然是非常優秀。
綜合而言,Matthew Berman 認為 Claude 3.5 Sonnet 升級後的能力獲大幅提升,尤其在編碼、邏輯推理、解難方面表現出色。此外,Anthropic 旗下另一模組 Claude 3.5 Haiku 亦同獲升級,雖然運算成本較低,但 Haiku 的性能可媲美過往最高效 AI 模組 Claude 3 Opus,在 SWE-bench Verified 測試中亦獲得 40.6% 的高分;現時在 Amazon Bedrock 上已能即時使用 Claude 3.5 Sonnet 及 Claude 3.5 Haiku,如欲了解更多詳情,可瀏覽以下網站(按此連結)。
相關文章:
AIRSIDE 與 Neuron 的「可持續發展」智能方案 以 AI 建設更符合現代需求的物業管理模式 東南亞時裝電商 Pomelo Fashion 用 AI 提供個人化體驗 採 Amazon Personalize 增 8% 總營收 AI 與雲端商用實例 人工智能監控體溫 減低染病風險