newsence
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

Gemini 3.1 Flash TTS:下一代具表現力的 AI 語音技術

Gemini 3.1 Flash TTS:下一代具表現力的 AI 語音技術

Google Deepmind·大約 5 小時前

Google DeepMind 推出 Gemini 3.1 Flash TTS,這是一款全新的文字轉語音模型,具備細粒度的音訊標籤,可精確控制超過 70 種語言的語音風格與節奏。該模型在品質評分上達到業界領先水準,並整合了 SynthID 水印技術,以確保能可靠地偵測 AI 生成的內容。

Gemini 3.1 Flash TTS:下一代具表現力的 AI 語音

2026 年 4 月 15 日

我們最新的音訊模型引入了細粒度的音訊標籤,讓您能精確控制並執導 AI 語音,生成具表現力的音訊。

內容摘要

Gemini 3.1 Flash TTS 正式登場,為您帶來提升的 AI 語音品質與控制力。您現在可以使用音訊標籤,在超過 70 種語言中調整語音風格與節奏。您可以在 Google AI Studio、Vertex AI 和 Google Vids 中進行測試,且所有音訊均帶有 SynthID 水印,以防止錯誤資訊傳播。

重點列表

基礎說明

Gemini 3.1 Flash TTS 是一款讓電腦語音聽起來更真實的新型 AI。它允許使用者透過在文本中使用特殊指令來改變 AI 說話的方式。這款 AI 可以說超過 70 種語言,並在音訊中加入隱藏水印。這有助於人們辨識內容是由 AI 生成而非真人所言。

探索其他風格:

今天,我們正式推出 Gemini 3.1 Flash TTS,這是最新的文字轉語音(TTS)模型,提供更強的控制力、表現力與品質——賦予開發者、企業和日常使用者構建下一代 AI 語音應用的能力。

從今天開始,3.1 Flash TTS 正逐步推出:

提升的語音品質與控制力

我們提升了 Gemini 3.1 Flash TTS 的整體語音品質,使其成為我們迄今為止最自然且具表現力的模型。在 Artificial Analysis TTS 排行榜(一項收集數千名人類盲測偏好的基準測試)中,3.1 Flash TTS 獲得了令人印象深刻的 1,211 Elo 分數。

顯示 Artificial Analysis 文字轉語音競技場品質 Elo 的 gif

Artificial Analysis 同時將 Gemini 3.1 Flash TTS 置於其「最具吸引力象限」中,因其完美結合了高品質語音生成與低廉成本。該模型更憑藉原生多說話者對話、支援 70 多種語言,以及透過自然語言進行細粒度創意控制而脫穎而出。

用於更具表現力語音生成的全新音訊標籤

3.1 Flash TTS 還引入了音訊標籤——一種控制語音風格、節奏和表達方式的直觀方法。透過直接在文本輸入中嵌入自然語言指令,您可以以更高的精細度引導 AI 語音輸出。

您可以開始在 Google AI Studio 中嘗試這些音訊標籤以及其他開發者體驗更新,透過可配置的控制項讓開發者坐上「導演椅」:

透過這些新配置,開發者可以增強特定場景的精確度,創造令人難忘的角色和沉浸式的音訊體驗。

在 Google AI Studio Playground 中開始體驗高保真語音生成。

為全球規模而建

Gemini 3.1 Flash TTS 在 70 多種語言中提供高保真語音和更精確的控制。這些核心優化為主要市場帶來了先進的風格、節奏和口音控制——幫助開發者為全球規模的使用者打造在地化且具表現力的語音體驗。

早期的開發者和企業測試者已經看到了 3.1 Flash TTS 的影響力,並強調了其令人印象深刻的控制力與表現力。他們告訴我們,音訊標籤如何提供全新的創意精確度,將簡單的文本轉化為高保真的語音表演。

來自 StyleUAI 的 Jay 的引言

來自 AIM Intelligence 技術長 的引言

來自 Artlist 的 Idan Yonas 的引言

來自 Sierra 的 Lydia Xu 的引言

來自 Invideo AI 的 Shivam Rastogi 的引言

來自 biia 的 Fernanda Bejarano 的引言

來自 HeyGen 的 John Wu 的引言

來自 You learn.AI 的 Soami Kapadia 的引言

來自 Sylph.ai 的 Angel Wen 的引言

來自 Mindlid 的 Artugrul Cavusoglu 的引言

採用 SynthID 水印技術

所有由 Gemini 3.1 Flash TTS 生成的音訊均帶有 SynthID 水印。這種肉耳無法察覺的水印直接編織在音訊輸出中,能夠可靠地檢測 AI 生成的內容,以幫助防止錯誤資訊。

圖片

圖片

圖片

圖片

在您的收件匣中獲取更多來自 Google 的故事。

      在您的收件匣中獲取更多來自 Google 的故事。

您的資訊將根據 Google 的隱私權政策使用。

完成。只需再一個步驟。

請檢查您的收件匣以確認訂閱。

您已經訂閱了我們的電子報。

您也可以使用不同的電子郵件地址訂閱。

https://deepmind.google/blog/gemini-3-1-flash-tts-the-next-generation-of-expressive-ai-speech/