以 Stable Diffusion AI 圖像生成工具聞名的 Stability AI 除了圖像生成技術外,其實也有生成聲音的 AI 模型,最近他們就推出新的 Stable Audio Open 1.0,以使用非版權內容作訓練為特色。
Stability AI 在 2023 年 9 月就曾經推出他們首個文字到聲音的 AI 生成工具 Stable Audio,後來在今年 4 月 3 日推出的最新版本 Stable Audio 2.0 帶來了更高的清晰度和更長的聲音生成時間。
We’re excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.
This release marks a key milestone as we further open portions of our generative audio capabilities to… pic.twitter.com/KZlqJdTHiu
— Stability AI (@StabilityAI) June 5, 2024
今次 Stable Audio Open 則是類似的模型,不過就主打生成音效等較短的片段,擅長生成擊鼓、樂器旋律、環境音和其他音效樣本,最長可達 47 秒。此外模型也支援微調功能,用戶可以在自己的音效數據上訓練模型。例如,鼓手可以使用自己的錄音生成獨特的節拍,提供更合適的生成結果。
Stability AI 音效研究主管 Zach Evans 說:「我們的目標是讓音效研究人員和製作人能夠親手使用我們的一個生成音效模型,加速這些令人難以置信的新工具的研究、採用和實際創意應用。」這個模型為「開源授權」,不過之用去非商業研究用途,商用版本暫時仍然未推出。
來源:Gigazine
