Microsoft 於 8 月 28 日發布兩款完全自主研發的 AI 模型「MAI-Voice-1」和「MAI-1-preview」,標誌著這家科技巨頭首次擺脫對 OpenAI 的依賴,正式踏入 AI 模型開發競賽。MAI-Voice-1 為語音生成模型,能在單個 GPU 上 1 秒內生成 1 分鐘高品質音訊,而 MAI-1-preview 則是 Microsoft 首個 End-to-end 訓練的基礎模型。
高效語音 AI 打破技術瓶頸
Microsoft AI 部門開發的 MAI-Voice-1 是該公司首款語音生成模型,能提供從單一說話者到多說話者場景的高品質、具表現力的音訊。該模型在單個 GPU 上能於 1 秒內生成 1 分鐘音訊,是「現時最高效率的語音系統之一」。該模型已整合至 Copilot Daily 和 Podcasts 功能,用戶可在 Copilot Labs 測試其語音表現力和故事敘述功能。用戶能透過簡單提示,創建「choose your own adventure」式故事,或製作個人化冥想內容以助入眠。
MAI 將語音定位為 AI 伴侶的未來介面,並強調語音互動在消費者體驗的重要性。
基礎模型挑戰行業巨頭
MAI-1-preview 是 Microsoft 與 OpenAI 完全脫鉤後,首個 End-to-end 自主訓練的基礎模型。該模型使用約 15,000 個 NVIDIA H100 GPU 進行預訓練和後續訓練,相比之下 xAI 的 Grok 模型則使用超過 100,000 個 GPU,顯示 Microsoft 更注重訓練效率。該模型功能強大,專為日常問題提供有用回應,現已在社區模型評估平台 LMArena 展開公開測試。根據測試結果,MAI-1-preview 在 LMArena 排名第 15 位,表現優於 GPT-4.1 Flash,但略遜於 gemini-2.5-flash。
Microsoft 計劃在未來數週內,將該模型部署至 Copilot 特定文字應用場景,並根據用戶反饋持續學習和改進。
戰略轉向獨立發展
Microsoft AI 行政總裁 Mustafa Suleyman 在 LinkedIn 發文表示,MAI-Voice-1 是「我使用過最具表現力和最自然的語音生成模型」,今次發布只是「冰山一角」。他強調公司除了專注模型進步,亦致力調整各種專業模型,以釋放更大價值。他在訪問中解釋,Microsoft 開發自主模型時,專注於「效率和成本效益」。他指出:「訓練模型的藝術和技巧,在於選擇最完美的數據,避免在對模型學習無益的不必要標記上,浪費運算資源」。
微軟這項發展也反映 Microsoft 與 OpenAI 的關係出現微妙變化。雖然 Microsoft 向 OpenAI 投資數十億美元,但兩間公司近月關係緊張,OpenAI 高層更曾考慮指控 Microsoft 在合作中存在反競爭行為。
Mustafa Suleyman 在 X 平台呼籲開發者加入:「我們為所有人建立 AI。若你認同,就一起來創造。我的私人訊息是開放的」,展示 Microsoft 招攬人才的積極態度。
資料來源:ITmedia
分享到 :
最新影片