優化 Gemini 音訊模型，打造強大的語音體驗

Google Deepmind·4 個月前

Google Deepmind 發布了 Gemini 2.5 Flash Native Audio 模型更新，增強了即時語音代理的能力，並引入了即時語音翻譯功能，以實現自然且有效的語音互動。

Bibo Xu

Director of Product Management

Tara Sainath

Distinguished Research Scientist

本週稍早，我們透過升級我們的 Gemini 2.5 Pro 和 Flash 文字轉語音模型來提供更精確的音訊生成控制。

但生成富有表現力的語音只是對話的一半。今天，我們將發布更新的 Gemini 2.5 Flash 原生音訊，用於即時語音代理。此更新提高了模型處理複雜工作流程、理解使用者指示以及進行自然對話的能力。

Gemini 2.5 Flash 原生音訊現已在包括 Google AI Studio、Vertex AI 在內的 Google 產品中提供，並已開始在 Gemini Live 和 Search Live 中推出，首次將原生音訊的自然度帶入 Search Live。這意味著您可以更有效地與 Gemini 進行即時腦力激盪，在 Search Live 中獲得即時協助，或構建下一代企業級客戶服務代理。

除了為有用的代理提供支援外，原生音訊還為全球溝通開啟了新的可能性。我們正在推出即時語音翻譯，這是一種能夠為耳機提供串流語音到語音翻譯的功能。它能保留說話者的語調、節奏和音高。此 Beta 版體驗將從今天開始在 Google 翻譯應用程式中推出。

即時語音代理

為了支援跨平台和產品的廣泛用例，我們在三個關鍵領域改進了 Gemini 2.5 原生音訊：

更精確的函數呼叫：我們提高了模型觸發外部函數的可靠性。它現在可以更準確地識別在對話中何時擷取即時資訊，並將該數據無縫地整合回音訊回應中，而不會中斷流程。在 ComplexFuncBench Audio（一個捕捉多步驟函數呼叫及各種約束的評估）中，Gemini 2.5 原生音訊以 71.5% 的分數領先。
穩健的指令遵循：該模型現在更能處理複雜的指令，從而提高使用者對內容完整性的滿意度。開發者指令的遵循率達到 90%（高於 84%），可提供更可靠的輸出。
更流暢的對話：我們在多輪對話品質方面取得了顯著進展。Gemini 2.5 Flash 原生音訊能夠更有效地從先前的對話中檢索上下文，從而產生更連貫的對話。

Gemini 2.5 Flash 原生音訊在 ComplexFuncBench 上與先前版本和行業競爭對手的效能比較

客戶評價

Google Cloud 客戶已經在使用 Gemini 的原生音訊功能來推動實際業務成果，從抵押貸款處理到客戶通話。

「使用者在使用 Sidekick 後一分鐘內，常常忘記他們正在與 AI 對話，在某些情況下，在長時間聊天後還感謝了機器人……透過 Gemini [2.5 Flash 原生音訊] 提供的新即時 API AI 功能，使我們的商家能夠贏得勝利。」– David Wurtz，Shopify 產品副總裁
「透過整合 Gemini 2.5 Flash 原生音訊模型……自 2025 年 5 月推出以來，我們顯著增強了 Mia 的功能。這種強大的組合使我們為經紀合作夥伴產生了超過 14,000 筆貸款。」– Jason Bressler，United Wholesale Mortgage (UWM) 技術長
「透過 Vertex AI 使用 Gemini 2.5 Flash 原生音訊模型，讓 Newo.ai AI Receptionists 實現了無與倫比的對話智慧……。即使在嘈雜的環境中，他們也能識別主要發言者，在中途切換語言，並且聽起來非常自然且富有情感。」– David Yang，Newo.ai 共同創辦人

即時語音翻譯

Gemini 現在原生支援新的即時語音到語音翻譯功能，旨在處理連續聆聽和雙向對話。

透過連續聆聽，Gemini 會自動將多種語言的語音翻譯成單一目標語言。這樣您就可以戴上耳機，用您的語言聽到周圍的世界。

對於雙向對話，Gemini 的即時語音翻譯能夠即時處理兩種語言之間的翻譯，並根據說話者自動切換輸出語言。例如，如果您說英語並想與一位說印地語的人聊天，您會在耳機中即時聽到英語翻譯，而當您說完後，您的手機會播放印地語。

Gemini 的即時語音翻譯具有多項關鍵功能，可在現實世界中提供幫助：

語言覆蓋範圍：透過結合 Gemini 模型的世界知識和多語言能力及其原生音訊能力，可翻譯 70 多種語言和 2000 種語言對的語音。
風格轉換：捕捉人類語音的細微差別，保留說話者的語調、節奏和音高，使翻譯聽起來自然。
多語言輸入：在單一會話中同時理解多種語言，幫助您跟隨多語言對話，而無需調整語言設定。
自動偵測：識別所說的語言並開始翻譯，因此您甚至不需要知道正在說什麼語言即可開始翻譯。
雜訊魯棒性：過濾環境雜訊，即使在嘈雜的戶外環境中也能舒適地進行對話。

從今天開始，您可以在 Google 翻譯應用程式中的新 Beta 版體驗中，透過將耳機連接到您的裝置並點擊「即時翻譯」來進行耳機即時翻譯。此體驗將在美國、墨西哥和印度的所有 Android 裝置上推出，並將很快支援 iOS 和更多地區。

根據回饋，我們將繼續迭代此體驗，並於 2026 年將其引入更多 Google 產品，包括 Gemini API。

今日開始使用

立即使用 Gemini 2.5 Flash 原生音訊開始構建語音代理，該功能現已在 Vertex AI 上普遍可用，並在 Gemini API 中提供預覽。請在 Google AI Studio 中試用。

Gemini 2.5 Flash 和 2.5 Pro 文字轉語音模型也可透過 Google AI Studio 中的 Gemini API 取得。請參閱語音生成文件，探索提示指南，或查看 Gemini API Cookbook 以開始使用。

— Google Deepmind