我們正在為開放語音識別排行榜引入來自 Appen 和 DataoceanAI 的高品質私有數據集,以防止過度優化測試集的行為,並確保能更真實地反映模型在現實世界中的性能與穩健性。
摘要:Appen Inc. 與 DataoceanAI 提供了高品質的英語 ASR 數據集,涵蓋了多種口音的朗讀與對話語音。為了防止潛在的「刷榜」(benchmaxxing)風險或測試集污染,我們將保持這些數據集的私密性,以便對多項任務的性能進行高品質的衡量。
我們目前不打算更新平均 WER(字錯率):預設情況下,排行榜的平均 WER 仍僅根據公開數據集計算。您可以選擇開啟切換開關來包含私有數據集,以觀察其影響 👀
自 2023 年 9 月發布以來,Open ASR 排行榜的訪問次數已超過 71 萬次。社群對持續推動語音識別技術的興趣與動力讓我們深感震撼 🗣️

維護像 Open ASR 排行榜這樣的基準測試,其目標(同時也是挑戰)可以用兩個詞來概括:
標準化:模型在使用慣例和輸出格式上可能有所不同,例如是否包含標點符號和大小寫。數據集也面臨同樣的挑戰,且結構可能各異。為此,所有的測試集都已整合到 Hub 上的單一數據集中,以便於訪問和預覽。此外,為了標準化模型輸出和數據集轉錄文本,我們使用了一個正規化器(normalizer),它(除其他功能外)會移除標點和大小寫,並映射至美式拼寫。該工具基於 Whisper 的正規化器。
開放性:UI 代碼和評估腳本都是開源的。這不僅有助於納入新模型,還能透過社群的反饋和貢獻來提高評估程序的品質。
標準化和開放性對於有意義的基準測試至關重要,但它們也使基準測試更容易受到「針對基準測試的優化」(即「刷榜」)的影響,即模型在排行榜上的表現有所提升,但在現實世界的魯棒性卻沒有相應的增長。隨著模型和應用場景的演進,Open ASR 排行榜將繼續納入高品質數據集和新的評估設置,以更好地反映現實世界的性能,並提高對抗「刷榜」行為的魯棒性。
正如我們在報告中所討論的,並沒有單一的「萬能」ASR 模型:有些模型在美式英語上表現更好,有些在多樣口音和多語言環境下表現更佳,而有些則針對速度或對話音訊進行了優化。不同的應用也會優先考慮不同的能力,因此在某個維度表現較差的模型並不代表整體上是一個較差的模型。Open ASR 排行榜的目標是捕捉這些細微差別,並提供更全面的 ASR 性能視圖。
為此,我們與 Appen Inc. 和 DataoceanAI 合作,策劃了用於 ASR 基準測試的高品質數據集。以下是關於各個切分數據集(splits)的一些資訊。
以下是音訊樣本,展示了內容的多樣性(朗讀、對話、縮寫、語句不流暢、專有名詞)。
雖然私有數據集聽起來可能與開放精神相悖,但我們相信納入此類數據集將增加 Open ASR 排行榜的可信度,因為它們不太可能被用於刷榜——無論是模型開發者顯式使用公開測試集,還是試圖尋找與特定數據集高度相似的訓練數據來提高其宏觀平均分(macroaverage)。
藉由這些數據集,我們還可以提供針對性的指標,以突顯受控且通常已飽和的設置(朗讀、美式口音)與更複雜的條件(對話和非美式口音)之間的差距和偏差。以下是新「私有數據」(Private data)分頁的截圖。

以下是各列的計算方式。
我們刻意不提供每個切分數據集的具體分數,以避免模型開發者針對特定的數據提供商或口音來刷分。
將您的模型提交到 Open ASR 排行榜,我們就會運行評估!與之前一樣,將模型添加到排行榜的過程是在 Open ASR Leaderboard GitHub 上進行的:
在等待模型添加到 Open ASR 排行榜的期間,您可以透過在模型卡(model card)中添加類似這樣的 YAML 文件,來自行報告您在公開數據集上的指標。您的模型隨後將出現在數據集頁面上的(未驗證)排行榜中(見下方截圖)。關於這種去中心化評估方法的更多資訊可以點擊這裡閱讀。

有可能。我們已要求 Appen 和 DataoceanAI 不要將這些數據提供給他們的客戶。但即使他們不提供這份精確的數據,來自相似分佈的數據仍可能在相應的評估集上對模型有所幫助(類似於針對公開數據集中的挑戰性任務進行優化來刷榜)。為此,擁有多個數據提供商可以平衡模型因使用其中一家提供商的數據而可能獲得的優勢。我們也歡迎更多的數據提供商和評估集加入「私有數據」分頁!
此外,為了確保私有數據集不會影響模型排名,我們預設平均 WER 的宏觀平均計算不包含私有數據集。
在下方的截圖中,您可以看到「私有數據」開關是關閉的。這意味著跨數據集的宏觀平均計算不包括它。

只需開啟「私有數據」切分開關,即可將其納入宏觀平均計算。

「Rank Δ」列顯示了相對於預設宏觀平均配置的排名變化。包含或排除公開數據集也會改變宏觀平均值,允許用戶根據與其應用最相關的場景和數據分佈來量身定制評估。
我們很期待聽到社群對於新賽道和數據集切換功能的反饋,了解這些功能如何幫助用戶識別最適合其應用的模型。我們也正在研究能更好反映現實世界噪聲條件的評估方法,敬請期待相關消息 😉
在準備私有評估集時,我們特別注意確保各數據集之間音訊和轉錄文本品質的一致性,包括開發工具來識別挑戰性案例(如低信噪比條件或轉錄文本不匹配),因為這些因素會顯著影響 WER。更多相關內容將在未來的文章中分享!
更多來自我們部落格的文章
![]()
![]()
· 註冊或登入以發表評論
相關文章
其他收藏 · 0