xAI 將升級 Grok 為多模態 AI 模型　可處理圖像輸入擴充應用範疇

2024-05-23

Published by

藍骨

在多間開發 AI 的企業之中，Elon Musk 的 xAI 算是比較特別的一個，主力產品 Grok 擁有社交平台 X 上的內容作為輔助資料，也加入罕有的「有趣模式」可以開玩笑。最近他們更在開發者文件中表示，即將升級模型到多模態版本，支援圖像輸入。

xAI 在上個月已經預告將會推出 Grok-1.5V 模型，為目前的 Grok 聊天機械人加入多媒體處理能力，據稱新版本將會可以處理多種視像資訊，包括文件、圖表、螢幕截圖和相片等等。他們更聲稱新版本在多個基準測試中都相當接近甚至超越目前其他競爭對手，例如 GPT-4、Claude 3 和 Gemini Pro 1.5。

而在最新公開的開發者文件中，xAI 更提供了 Python 腳本範例，展示了開發者如何使用 xAI 的軟件開發工具包（SDK）庫來生成基於文字和圖像的回應。該腳本可以讀取圖像，設定文字提示，並利用 xAI SDK 產生回應。Grok-1.5V 到底在實際應用上能否業界頂級標準仍然有待觀察，不過相信不用等很久就可以知道了。

來源：xAI