人工智能

Gemini 2.5 多國語言實時語音生成 Google 示範人聲幾可亂真

作者

藍骨
發佈日期

2025-06-04
閱讀時間

4分鐘
字體大小

Google 正式發布 Gemini 2.5 的進階語音對話和生成功能，標誌著 AI 語音技術的重大突破。這項新功能支援超過 24 種語言的即時語音對話，並提供前所未有的語音控制能力，讓開發者能夠創建更豐富的互動應用程式。Gemini 2.5 現已整合至 NotebookLM 的語音概覽和 Project Astra 等多項產品中。

Google 表示，Gemini 2.5 Flash Preview 的原生語音對話功能展現了多項創新特色。系統能夠進行自然流暢的語音互動，具備出色的表達能力和韻律模式，並以極低延遲實現即時對話體驗。新功能支援風格控制，用戶可透過自然語言提示調整對話方式，包括採用特定口音、產生不同音調表達，甚至進行耳語對話。系統還具備工具整合能力，可在對話中使用 Google Search 或開發者自訂工具，讓對話更具實用性。

Gemini 2.5 更引入情感對話功能，能夠回應用戶的語調變化，識別相同文字在不同語調下可能產生截然不同的對話效果。系統經過訓練能夠識別和忽略背景語音、環境對話等無關語音，只在適當時機回應。語音影片理解功能讓 Gemini 2.5 能夠透過串流語音和影片與用戶進行對話，討論影片內容或透過螢幕分享進行互動。多語言支援讓用戶能夠使用 24 種以上語言進行對話，甚至在同一句話中混合多種語言。不過目前支援的語言中並未有普通話或者廣東話，仍然有待進一步更新。

Google 指，文字轉語音技術的發展迅速，Gemini 2.5 的最新模型可以提供前所未有的語音生成控制能力。用戶可以生成從短片段到長篇敍述的各種內容，精確控制風格、音調、情感表達和表現方式。系統支援動態表現，能夠為詩歌、新聞播報和引人入勝的故事敍述帶來生動的表達效果。模型可以表現特定情感並在需要時產生口音效果，還能控制語速並確保發音準確性，包括特定詞彙的精確發音。

Gemini 2.5 的另一突破性功能是多說話者對話生成，能夠從文字輸入生成類似 NotebookLM 風格的雙人語音概覽，透過對話形式讓內容更加引人入勝。系統提供超過 24 種語言的多語言語音內容創建支援。開發者可選擇 Gemini 2.5 Pro Preview 獲得複雜提示的最高品質效果，或選擇 Gemini 2.5 Flash Preview 進行成本效益的日常應用。這讓開發者能夠動態創建公告、故事、播客和電子遊戲等各種語音內容。

來源：Google