人工智能

阿里巴巴 AI 模型影片OmniAvatar 震撼業界靈活動作、情緒表達與精準對口同步突破虛擬人物界限

作者

Lawton
發佈日期

2025-07-02
閱讀時間

5分鐘
字體大小

阿里巴巴最新公佈 AI 模型 OmniAvatar，進一步擴展語音驅動虛擬角色影片生成技術的應用層面。該模型能創建栩栩如生的全身動畫角色，除動作自然、表情豐富，角色嘴型亦能與語音內容做到精準同步，無論背景、動作還是情緒表達皆可靈活控制，標誌語音驅動人像影片生成進入新階段。

this is crazy…

Alibaba just announced OmniAvatar, a new audio-driven model that takes full-body, expressive human animation to a whole new level.

natural movement, controllable emotions, and ultra-accurate lip-sync.

10 examples: pic.twitter.com/aB9DowLtj9

— Angry Tom (@AngryTomtweets) July 1, 2025

OmniAvatar can generate lifelike speaking avatar videos that the characters’ actions and expressions are natural and rich, with audio perfectly synchronized to their lip movements. pic.twitter.com/1axrQhZRwe

— Angry Tom (@AngryTomtweets) July 1, 2025

OmniAvatar 專為生成高質素、可控制的虛擬角色影片而設，整合全身動作模擬、人臉細節控制與語音同步技術。只需輸入語音檔和簡單提示，模型便能即時合成真人感十足的動畫影像。該技術適用範圍廣泛，包括教育、虛擬導賞、數碼客服與娛樂領域等。

這個模型不僅著重嘴型與語音同步，還能配合語音情緒自動改變角色的面部表情與肢體語言，具備高自由度情緒控制功能。開發團隊展示的影片中，角色能表現喜悅、憤怒、驚訝與悲傷等不同情感，畫面表現相當自然。

OmniAvatar 更能模擬角色與物件的互動動作，進一步擴闊虛擬角色的真實性。影片示範顯示，虛擬人可在說話同時拿起物品、指向場景或進行其他實體互動動作。此功能對於沉浸式教育及虛擬助理尤具潛力。

使用者可透過文字提示調整背景場景，例如辦公室、客廳或戶外等，亦可自訂角色動作與語氣，進一步提升內容個人化程度。部分展示影片亦證明 OmniAvatar 可生成虛擬人唱歌片段，無論口型、表情或律動感均極為貼近真實表演。

目前 OmniAvatar 詳細技術資料與開源專案網頁尚未完全對外開放，不過官方已在 Arxiv 上發表研究論文，介紹模型架構與訓練方法。該論文提到模型結合語音、姿勢與視覺特徵進行跨模態學習，是其能達到高水準自然度與同步度的關鍵所在。

即使部分觀察者認為目前虛擬人的視覺外觀仍有「塑膠感」，但整體技術成熟度已令不少開發者關注其潛在應用。若視覺效果未來再獲改進，此類語音驅動虛擬人模型有望改變教學、直播、網上客服等數碼互動體驗。

資料來源：X

阿里巴巴 AI 模型影片OmniAvatar 震撼業界靈活動作、情緒表達與精準對口同步突破虛擬人物界限

分享到 :

最新影片

Follow 我們 :