Google 正式發布 Gemini 2.5 的進階語音對話和生成功能,標誌著 AI 語音技術的重大突破。這項新功能支援超過 24 種語言的即時語音對話,並提供前所未有的語音控制能力,讓開發者能夠創建更豐富的互動應用程式。Gemini 2.5 現已整合至 NotebookLM 的語音概覽和 Project Astra 等多項產品中。


Google 表示,Gemini 2.5 Flash Preview 的原生語音對話功能展現了多項創新特色。系統能夠進行自然流暢的語音互動,具備出色的表達能力和韻律模式,並以極低延遲實現即時對話體驗。新功能支援風格控制,用戶可透過自然語言提示調整對話方式,包括採用特定口音、產生不同音調表達,甚至進行耳語對話。系統還具備工具整合能力,可在對話中使用 Google Search 或開發者自訂工具,讓對話更具實用性。
Gemini 2.5 更引入情感對話功能,能夠回應用戶的語調變化,識別相同文字在不同語調下可能產生截然不同的對話效果。系統經過訓練能夠識別和忽略背景語音、環境對話等無關語音,只在適當時機回應。語音影片理解功能讓 Gemini 2.5 能夠透過串流語音和影片與用戶進行對話,討論影片內容或透過螢幕分享進行互動。多語言支援讓用戶能夠使用 24 種以上語言進行對話,甚至在同一句話中混合多種語言。不過目前支援的語言中並未有普通話或者廣東話,仍然有待進一步更新。
Google 指,文字轉語音技術的發展迅速,Gemini 2.5 的最新模型可以提供前所未有的語音生成控制能力。用戶可以生成從短片段到長篇敍述的各種內容,精確控制風格、音調、情感表達和表現方式。系統支援動態表現,能夠為詩歌、新聞播報和引人入勝的故事敍述帶來生動的表達效果。模型可以表現特定情感並在需要時產生口音效果,還能控制語速並確保發音準確性,包括特定詞彙的精確發音。
Gemini 2.5 的另一突破性功能是多說話者對話生成,能夠從文字輸入生成類似 NotebookLM 風格的雙人語音概覽,透過對話形式讓內容更加引人入勝。系統提供超過 24 種語言的多語言語音內容創建支援。開發者可選擇 Gemini 2.5 Pro Preview 獲得複雜提示的最高品質效果,或選擇 Gemini 2.5 Flash Preview 進行成本效益的日常應用。這讓開發者能夠動態創建公告、故事、播客和電子遊戲等各種語音內容。
來源:Google
分享到 :
最新影片