
Gemini 3.1 Flash TTS:下一代具表現力的 AI 語音技術
Google DeepMind 推出 Gemini 3.1 Flash TTS,這是一款全新的文字轉語音模型,具備細粒度的音訊標籤,可精確控制超過 70 種語言的語音風格與節奏。該模型在品質評分上達到業界領先水準,並整合了 SynthID 水印技術,以確保能可靠地偵測 AI 生成的內容。
Gemini 3.1 Flash TTS:下一代具表現力的 AI 語音
2026 年 4 月 15 日
我們最新的音訊模型引入了細粒度的音訊標籤,讓您能精確控制並執導 AI 語音,生成具表現力的音訊。
內容摘要
Gemini 3.1 Flash TTS 正式登場,為您帶來提升的 AI 語音品質與控制力。您現在可以使用音訊標籤,在超過 70 種語言中調整語音風格與節奏。您可以在 Google AI Studio、Vertex AI 和 Google Vids 中進行測試,且所有音訊均帶有 SynthID 水印,以防止錯誤資訊傳播。
重點列表
基礎說明
Gemini 3.1 Flash TTS 是一款讓電腦語音聽起來更真實的新型 AI。它允許使用者透過在文本中使用特殊指令來改變 AI 說話的方式。這款 AI 可以說超過 70 種語言,並在音訊中加入隱藏水印。這有助於人們辨識內容是由 AI 生成而非真人所言。
探索其他風格:
今天,我們正式推出 Gemini 3.1 Flash TTS,這是最新的文字轉語音(TTS)模型,提供更強的控制力、表現力與品質——賦予開發者、企業和日常使用者構建下一代 AI 語音應用的能力。
從今天開始,3.1 Flash TTS 正逐步推出:
提升的語音品質與控制力
我們提升了 Gemini 3.1 Flash TTS 的整體語音品質,使其成為我們迄今為止最自然且具表現力的模型。在 Artificial Analysis TTS 排行榜(一項收集數千名人類盲測偏好的基準測試)中,3.1 Flash TTS 獲得了令人印象深刻的 1,211 Elo 分數。

Artificial Analysis 同時將 Gemini 3.1 Flash TTS 置於其「最具吸引力象限」中,因其完美結合了高品質語音生成與低廉成本。該模型更憑藉原生多說話者對話、支援 70 多種語言,以及透過自然語言進行細粒度創意控制而脫穎而出。
用於更具表現力語音生成的全新音訊標籤
3.1 Flash TTS 還引入了音訊標籤——一種控制語音風格、節奏和表達方式的直觀方法。透過直接在文本輸入中嵌入自然語言指令,您可以以更高的精細度引導 AI 語音輸出。
您可以開始在 Google AI Studio 中嘗試這些音訊標籤以及其他開發者體驗更新,透過可配置的控制項讓開發者坐上「導演椅」:
透過這些新配置,開發者可以增強特定場景的精確度,創造令人難忘的角色和沉浸式的音訊體驗。
在 Google AI Studio Playground 中開始體驗高保真語音生成。
為全球規模而建
Gemini 3.1 Flash TTS 在 70 多種語言中提供高保真語音和更精確的控制。這些核心優化為主要市場帶來了先進的風格、節奏和口音控制——幫助開發者為全球規模的使用者打造在地化且具表現力的語音體驗。
早期的開發者和企業測試者已經看到了 3.1 Flash TTS 的影響力,並強調了其令人印象深刻的控制力與表現力。他們告訴我們,音訊標籤如何提供全新的創意精確度,將簡單的文本轉化為高保真的語音表演。










採用 SynthID 水印技術
所有由 Gemini 3.1 Flash TTS 生成的音訊均帶有 SynthID 水印。這種肉耳無法察覺的水印直接編織在音訊輸出中,能夠可靠地檢測 AI 生成的內容,以幫助防止錯誤資訊。
在您的收件匣中獲取更多來自 Google 的故事。
在您的收件匣中獲取更多來自 Google 的故事。
您的資訊將根據 Google 的隱私權政策使用。
完成。只需再一個步驟。
請檢查您的收件匣以確認訂閱。
您已經訂閱了我們的電子報。
您也可以使用不同的電子郵件地址訂閱。