
Cohere 推出專為逐字稿設計的開源語音模型
這款模型僅有 20 億參數,相對輕量,適合想要自行託管並使用消費級 GPU 的使用者,目前支援 14 種語言。
企業級 AI 公司 Cohere 週四推出了其首款語音模型:Transcribe 是一款開源自動語音識別模型,可用於筆記記錄和語音分析等任務。
該模型僅有 20 億個參數,相對輕量,旨在供希望自行託管的用戶在消費級 GPU 上使用。它目前支援 14 種語言:英語、法語、德語、義大利語、西班牙語、葡萄牙語、希臘語、荷蘭語、波蘭語、中文、日語、韓語、越南語和阿拉伯語。
Cohere 表示,Transcribe 在 Hugging Face Open ASR 排行榜上擊敗了 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B Speech 等模型,實現了 5.42 的平均字錯率(WER),低於該基準測試中的任何其他模型。
該公司聲稱,當人類評估員針對準確性、連貫性和可用性對逐字稿進行評估時,Transcribe 對比其他模型的平均勝率為 61%。然而,在轉錄葡萄牙語、德語和西班牙語時,該模型的表現落後於競爭對手。
Cohere 表示,Transcribe 每分鐘可以處理 525 分鐘的音訊,這在其同類模型中表現優異。
該公司計劃將 Transcribe 整合到其企業代理編排平台 North 中,並透過其 API 免費提供該模型。該模型也將在 Cohere 的託管推理平台 Model Vault 上提供。
隨著對 Granola 和 Wispr Flow 等筆記與聽寫應用程式的需求增長,語音識別模型正變得越來越受歡迎。
據報導,Cohere 今年早些時候告訴投資者,其 2025 年的年度經常性收入將達到 2.4 億美元,其執行長 Aidan Gomez 曾被引述表示,這家新創公司可能「很快」就會上市。