Cohere 推出專為逐字稿設計的開源語音模型

Techcrunch·10 天前

這款模型僅有 20 億參數，相對輕量，適合想要自行託管並使用消費級 GPU 的使用者，目前支援 14 種語言。

企業級 AI 公司 Cohere 週四推出了其首款語音模型：Transcribe 是一款開源自動語音識別模型，可用於筆記記錄和語音分析等任務。

該模型僅有 20 億個參數，相對輕量，旨在供希望自行託管的用戶在消費級 GPU 上使用。它目前支援 14 種語言：英語、法語、德語、義大利語、西班牙語、葡萄牙語、希臘語、荷蘭語、波蘭語、中文、日語、韓語、越南語和阿拉伯語。

Cohere 表示，Transcribe 在 Hugging Face Open ASR 排行榜上擊敗了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B Speech 等模型，實現了 5.42 的平均字錯率（WER），低於該基準測試中的任何其他模型。

該公司聲稱，當人類評估員針對準確性、連貫性和可用性對逐字稿進行評估時，Transcribe 對比其他模型的平均勝率為 61%。然而，在轉錄葡萄牙語、德語和西班牙語時，該模型的表現落後於競爭對手。

Cohere 表示，Transcribe 每分鐘可以處理 525 分鐘的音訊，這在其同類模型中表現優異。

該公司計劃將 Transcribe 整合到其企業代理編排平台 North 中，並透過其 API 免費提供該模型。該模型也將在 Cohere 的託管推理平台 Model Vault 上提供。

隨著對 Granola 和 Wispr Flow 等筆記與聽寫應用程式的需求增長，語音識別模型正變得越來越受歡迎。

據報導，Cohere 今年早些時候告訴投資者，其 2025 年的年度經常性收入將達到 2.4 億美元，其執行長 Aidan Gomez 曾被引述表示，這家新創公司可能「很快」就會上市。

https://techcrunch.com/2026/03/26/cohere-launches-an-open-source-voice-model-specifically-for-transcription/