Mistral 發佈全新語音生成開源模型

Techcrunch·10 天前

Mistral 的全新語音模型可以在智慧手錶或智慧型手機上運行。

法國 AI 公司 Mistral 於週四發佈了一款全新的開源文字轉語音（text-to-speech）模型，可用於語音 AI 助手或客戶支援等企業應用場景。該模型讓企業能夠構建用於銷售和客戶互動的語音代理，使 Mistral 直接與 ElevenLabs、Deepgram 和 OpenAI 等對手展開競爭。

這款名為 Voxtral TTS 的新模型支援九種語言，包括英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、義大利語、印地語和阿拉伯語。

「我們的客戶一直要求提供語音模型。因此，我們開發了一款小型語音模型，可以安裝在智慧手錶、智慧型手機、筆記型電腦或其他邊緣裝置上。它的成本僅為市面上其他產品的一小部分，但卻提供了最先進的性能，」Mistral AI 科學營運副總裁 Pierre Stock 在接受 TechCrunch 電話採訪時表示。

Mistral 表示，這款新模型只需不到五秒的樣本即可適應自定義聲音，並能捕捉細微的口音、抑揚頓挫、語調以及語流中的不規則特徵。該模型基於 Ministral 3B，可以在不丟失聲音特徵的情況下輕鬆切換語言，這對於配音或即時翻譯等應用場景非常有用。Stock 表示，公司希望該模型的聲音聽起來像人類而非機器人。

據該公司稱，該模型是為即時性能而設計的。其「首個音訊時間」（TTFA）—— 即模型在接收輸入後開始「說話」的時間指標 —— 對於 500 個字元的 10 秒樣本僅為 90 毫秒。該模型還具有 6 倍的即時因子（RTF），這意味著它可以在大約 1.6 秒內渲染一段 10 秒的片段。

今年早些時候，Mistral 推出了兩款轉錄模型，一款用於大型批次處理，另一款用於低延遲的即時應用場景。隨著這款新語音模型的推出，該公司很可能是旨在為企業提供全套語音產品。

「我們計劃建立一個端到端的平台，可以處理包括音訊、文字和圖像在內的多模態輸入流及輸出。其主要優勢在於，透過支援音訊輸入或輸出的端到端代理系統，你可以獲得更多的資訊，」Stock 說。

Mistral 的定位是，其開源和可自定義的特性將幫助企業優先採用其語音模型而非競爭對手的產品，因為企業可以根據自己的需求進行調整。

https://techcrunch.com/2026/03/26/mistral-releases-a-new-open-source-model-for-speech-generation/