人工智能

Microsoft 開源公佈新 AI 模型 針對視覺分析應用而設

Published by
藍骨
Share

Microsoft 的 Azure AI 團隊最近在 Hugging Face 上發表了新的基礎 AI 模型 Florence-2,支援各種視覺分析應用,可以配合大量使用場景,使企業無需針對單一應用開發各自的模型。

Florence-2 有兩個版本(232M 和 771M 參數),可以處理製作字幕、物件偵測、視覺分析和分割等應用,Microsoft 表示,其性能與許多較大規模的視覺模型相當或更好。這個模型的特別之處在於可以同時支援各種視覺相關的功能,類似於大型語言模型,企業可以用它來一站式解決各種需要。

為了發展 Florence-2,Microsoft 建立了一個名為 FLD-5B 的視覺資料集,其中包含 1.26 億張圖像的 54 億個註釋,並使用序列到序列架構訓練 Florence-2。這個設計整合了圖像編碼器和多模態編碼解碼器,使模型能夠管理各種視覺應用,而無需針對特定應用進行修改。

Florence-2 的表現也相當理想,在 COCO 資料集上的零鏡頭字幕測試中,優於 Deepmind 的 80B 參數 Flamingo 模型和 Microsoft 的 Kosmos-2。 Florence-2 的預訓練和微調版本現已在 Hugging Face 上提供,而且採用寬鬆 MIT 授權,也就是可以不受限制地用於一般或商用用途。

來源:VentureBeat


相關文章:
  • 傳 Apple 為保險兩邊下注 iOS 18 或同時採用 OpenAI、Google 人工智能

  • Published by
    藍骨