人工智能

Nvidia Fugatto 最新 AI 聲音生成技術輸入文字即可創作新聲音

作者

Pickle Rick
發佈日期

2024-11-26
閱讀時間

3分鐘
字體大小

Nvidia 最近公佈一款名為 Fugatto 的全新 AI 音樂編輯工具，其核心技術能生成音效，例如把小號聲轉變成貓叫聲。Fugatto可以透過文字與音訊輸入，創造出全新音樂、聲音及語音效果。

▲Fugatto 能根據特定提示生成音樂、改變人聲的口音或音調等

據 Nvidia 分享的示範影片顯示，Fugatto 能根據特定提示生成音樂。例如，輸入「創作一段色士風的狼嚎與狗叫聲，接著融合電子音樂和狗吠聲」，系統便能生成符合描述的創作。Fugatto 不只能改變人聲的口音或音調（如怒吼或平靜聲線），還能對現有音樂進行編輯。Fugatto可分離歌曲中的人聲、加入額外樂器，甚至以歌劇演唱取代鋼琴旋律，亦能根據簡單描述製作獨特音效。

▲用戶只需輸入指令，即可生成音訊（圖片來源：Techeblog）

目前市場上已有多款 AI 音訊工具，如 Stability AI、OpenAI、Google DeepMind、ElevenLabs 和 Adobe，但大多數工具尚未聲稱能創造完全新穎音效。而部分 AI 初創企業因其音樂生成技術面臨版權訴訟， Nvidia 與其他公司亦被指曾利用 YouTube 字幕訓練 AI 模型。

Nvidia 發表的研究報告中提到，Fugatto 的訓練過程依賴大量音訊數據，涵蓋數百萬個樣本，當中包括 BBC 提供的音效資料庫。研究團隊還設計了指令，進一步擴展模型的任務範圍，令其在不需要額外數據下有更準確性能。暫時 Nvidia 尚未透露何時會全面推出 Fugatto。

資料及圖片來源：Techeblog、The Verge、NVIDIA Developer