Apple 早前發表了一篇有關開發「Ferret-UI」AI 人工智能的論文,據悉 Ferret-UI 是一個生成式人工智能系統,能夠理解智能電話應用程式螢幕顯示的內容。
大家耳熟能詳的 AI ChatGPT 屬於大型語言模型 (Large Language Models,LLMs),主要訓練素材取材自文字內容,而更先進的多模態大語言模型(Multimodal Large Language Models,MLLMs)旨在擴展 AI 理解圖片、影片、音訊等非文字資訊的能力,但是現時大部份 MLLM 還無法有效理解智能電話上面的應用程式,主要因為以下原因:
- 手機螢幕長闊比例與平時訓練素材不同;
- 手機應用程式的按鈕尺寸較小,對目前的 MLLMs 而言難以識別;
- 目前的 MLLM 暫時未有與應用程式按鈕互動的理解能力。
Apple 因此構思開發名為 Ferret-UI 的全新 MLLM,以解決上述問題。Apple 指,Ferret-UI 加入了「任意解像度」,讓這個 MLLM 得以放大畫面細節,增強視覺能力。Apple 又表示從廣泛的基本 UI 任務裏收集了不少訓練樣本,例如圖標識別、尋找文字、小清單等,以提高精確度。
相關文章:
Apple Vision Pro 香港行貨全攻略 : 必裝 APP 、 港版特色、大陸使用、近視及老花用家、預訂注意、開箱評測 【教學】繼續用外國 YouTube Premium 帳戶 路由器內置 VPN、Apple TV、Android TV 連線 VPN 【教學】Apple Vision Pro 香港預訂教學 戴眼鏡也能輕鬆買 + 臉部掃描過程
分享到 :
最新影片
![](https://cdn.unwire.hk/wp-content/uploads/2036/01/anime_yt-694x390.jpg)