newsence
Granite 4.0 1B Speech:緊湊、多語系且專為邊緣運算打造

Granite 4.0 1B Speech:緊湊、多語系且專為邊緣運算打造

Huggingface·27 天前

我們很高興分享 IBM Granite 語音系列的最新成員 Granite 4.0 1B Speech,這是一款專為資源受限設備上的企業應用所設計的緊湊型語音語言模型,支援多語系自動語音辨識與雙向語音翻譯。

Granite 4.0 1B Speech:緊湊、多語系,專為邊緣運算打造

我們很高興分享 Granite 4.0 1B Speech,這是 IBM Granite Speech 系列的最新成員。Granite 4.0 1B Speech 專為資源受限設備上的企業應用而設計,是一款專為多語系自動語音識別 (ASR) 和雙向語音翻譯 (AST) 打造的緊湊型語音語言模型。該模型的參數數量僅為其前代產品 granite-speech-3.3-2b 的一半,卻能提供更高的英文轉錄準確度、透過投機解碼 (speculative decoding) 實現更快的推理速度,並擴展了語言支援,目前涵蓋英文、法文、德文、西班牙文、葡萄牙文和日文。此版本新增了兩項功能:日文 ASR 支援以及關鍵字列表偏置 (keyword list biasing),以提高對名稱和縮寫的識別能力,這兩者都是社群頻繁要求的功能。Granite 4.0 1B Speech 最近還在 OpenASR 排行榜上排名第一,突顯了其在開放語音識別系統中的強大性能。

儘管體積小巧,Granite 4.0 1B Speech 在標準英文 ASR 基準測試中仍取得了極具競爭力的結果。性能是使用字錯率 (WER) 來衡量的——即轉錄錯誤的單字百分比——分數越低表示準確度越高。如圖表 1 所示,Granite 4.0 1B Speech 在多個數據集中展現了強大的 WER 表現,同時使用的參數遠少於許多同類模型。

圖表 1:granite-4.0-1B-speech 作為一個小型模型,在許多基準測試中提供了具競爭力的低 WER,展現了強大的 ASR 準確度。

englishasr

與所有 Granite 模型一樣,Granite 4.0 1B Speech 以 Apache 2.0 許可證發佈,並在 transformers 和 vLLM 中提供原生支援。我們在一系列標準 ASR 和 AST 基準測試(涵蓋英文、多語系和翻譯任務)中對該模型進行了評估,發現其表現優於或等同於參數數量遠高於它的模型。完整的評估結果、架構細節、訓練數據和使用範例可以在模型卡 (model card) 中找到。對於需要額外風險檢測的生產部署,我們建議將其與 Granite Guardian 搭配使用。

今天就試用看看,並告訴我們您的想法!

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/ibm-granite/granite-4-speech