EVA：語音代理評估的新框架

Huggingface·13 天前

Huggingface 推出了 EVA，這是第一個透過機器人對話架構，同時針對任務準確性與對話體驗進行評估的端到端框架。基準測試結果顯示準確性與體驗之間存在持續的權衡關係，強調了在實際應用中進行整合評估的必要性。

語音代理評估新框架 (EVA)

前言

對話式語音代理面臨著獨特的評估挑戰：它們必須同時滿足兩個目標——準確性（正確且忠實地完成用戶任務）和對話體驗（以自然、簡潔且適合口語互動的方式完成）。這兩個目標深度交織：聽錯一個確認碼會使完美的 LLM 推理變得毫無意義；一長串的選項會讓無法快速瀏覽語音輸出的來電者感到崩潰；而延遲的反應即使能通過所有準確性檢查，在實踐中仍難以使用。現有的框架將這些視為獨立的問題——評估任務成功率或對話動態，但不同時評估兩者。

我們推出了 EVA，這是一個針對對話式語音代理的端到端評估框架，使用真實的機器人對機器人（bot-to-bot）架構來評估完整的、多輪的口語對話。EVA 產生兩個高階評分：EVA-A（準確性）和 EVA-X（體驗），旨在揭示各個維度的失敗原因。EVA 是第一個將任務成功率和對話體驗進行聯合評分的框架。我們發布 EVA 時附帶了一個初始的航空公司數據集，包含 50 個場景，涵蓋航班改簽、取消處理、代金券等——這是計劃中一系列領域的第一個。

我們還提供了 20 個級聯（cascade）和音訊原生（audio-native）系統的基準測試結果，例如語音轉語音模型和大語言音訊模型。我們最大的發現是：準確性與體驗之間存在持續的權衡（tradeoff）。在任務完成方面表現良好的代理，往往提供較差的用戶體驗，反之亦然。

代碼、數據集和裁判提示詞已在 https://github.com/ServiceNow/eva 完全開源。

背景與動機

目前該領域缺乏一個能夠評估語音代理互動完整質量的框架，因為大多數現有的評估工作都是孤立地評估單個組件。例如，AudioBench、SD-Eval、VoxEval、Kimi-Eval、VoiceBench 和 VoxDialogue 評估核心語音理解能力——轉錄、副語言、聲學線索——但仍局限於單輪、非互動的場景。另一方面，EmergentTTS 和 SHEET 使用主觀聽力測試（如平均意見得分，MOS）評估感知的語音質量。除了語音感知，FD-Bench、Talking Turns、Full-Duplex-Bench 提供了對對話動態（中斷、回饋、輪替）的深入分析，但這些評估與面向任務的工具使用相脫節，導致對話質量與代理能力之間的關係未被檢驗。最近的一些努力，特別是 VoiceAgentBench 和 CAVA，在評估商用語音代理系統的代理能力（包括工具調用和複雜指令遵循）方面邁出了步伐。然而，這些語音代理能力並未在語音代理實踐中必須應對的完整對話工作流中進行評估：從最初的用戶請求，到多步驟工具編排，再到最終的任務解決。

缺乏能夠同時捕捉準確性和體驗的現有評估工作，凸顯了需要一個將語音代理質量視為整合整體的框架。這意味著不僅要評估任務是否成功，還要評估代理在整個過程中是否溝通準確、簡潔且自然，並揭示這些維度在現實部署條件下如何相互權衡。

EVA

框架

端到端評估揭示了在組件層面不明顯的互動動態：代理是否在用戶說話的自然停頓處打斷用戶、當用戶糾正轉錄錯誤時代理是否能平滑恢復，或者高延遲是否嚴重干擾對話流，以至於促使用戶重複說話或完全放棄任務。

EVA 在實時音訊上模擬多輪口語對話，代理必須調用適當的工具、遵守特定任務的政策，並達到一個可確定驗證的最終狀態。EVA 使用由五個核心組件組成的機器人對機器人音訊架構來評估語音代理：

用戶模擬器 (User Simulator) —— 一個配置了特定目標和人格的角色扮演對話式 AI，扮演來電者的角色。它使用高質量的 TTS 模型通過音訊運行，確保評估能捕捉到自然口語對話中具代表性的語音理解挑戰，以及真實的輪替動態。

語音代理 (Voice Agent) —— 被評估的語音代理，使用 Pipecat（一個用於實時語音應用的開源 Python 框架）構建。EVA 支持級聯架構（STT → LLM → TTS）和音訊原生模型（S2S 或 S2T → TTS）。

工具執行器 (Tool Executor) —— 通過自定義 Python 函數提供確定性、可重複工具響應的引擎。它動態地查詢和修改每個場景預定義的數據庫。

驗證器 (Validators) —— 一組驗證指標，用於檢查對話是否完整，以及用戶是否忠實地重現了預期的行為和語音——無需人工標註。任何在驗證步驟失敗的對話都會重新生成，確保只有有效、正確執行的對話進入評估。這與依賴事後人工標記來識別模擬器錯誤的方法形成鮮明對比。

指標套件 (Metrics Suite) —— 一組使用對話錄音、轉錄文本和工具調用日誌來評估語音代理的指標。

在此查看完整架構。

數據

我們框架中的每個測試案例（場景）都是一條評估記錄，其結構旨在使測試可重複：

我們發布 EVA 時附帶了一個包含 50 個場景的合成航空公司數據集，涵蓋不正常航班（IRROPS）改簽、自願行程變更、取消、當天候補和補償代金券。場景設計旨在測試時間推理、政策遵循、約束滿足和命名實體處理。

評估方法

EVA 從兩個基本維度評估語音代理：EVA-A 代表準確性，EVA-X 代表體驗。EVA 還包括一組診斷指標。與主要指標不同，這些指標不直接用於比較或排名模型，而是提供關於模型為何獲得該評分的細粒度洞察，幫助識別和理解特定的失敗模式（例如 ASR、語音合成等）。我們報告了每個場景三次試驗（k = 3）的 pass@k（k 次運行中至少成功一次的概率）和 pass^k（所有 k 次運行都成功的概率），以捕捉峰值性能和行為一致性。

EVA 使用兩種評估方法：基於代碼的確定性指標（直接從結構化數據計算分數，速度快）；以及 LLM 作為裁判（LLM-as-Judge）指標，使用大語言模型（LLM）評估對話的定性方面，或使用大音訊語言模型（LALM）直接評估語音。每個基於裁判的指標都使用在該特定指標的精選評估數據集上表現最好的模型。

EVA-A：準確性

單靠任務完成是必要但不足以衡量準確性的指標。代理可能達到了正確的最終狀態，但在對話中編造了政策細節、大聲讀錯確認碼或幻覺出航班號。這些失敗在二元成功/失敗檢查中是不可見的，但會直接傷害用戶。因此，EVA-A 衡量三個維度的準確性：

EVA-X：體驗

輪替對於衡量對話質量也是必要但不足夠的。代理可能有完美的時機，但卻用一長串無法快速瀏覽的語音選項讓來電者不知所措，或者重複詢問已經提供的資訊。這些失敗在沒有發生反應時機錯誤的情況下降低了體驗。因此，EVA-X 衡量三個維度的體驗：

發現

我們評估了 20 個系統——包括專有和開源、級聯和音訊原生系統——並發現了持續的準確性與體驗權衡：在任務完成方面表現良好的代理往往提供較差的用戶體驗，反之亦然——這種權衡在僅對任務完成評分的基準測試中是不可見的。沒有單一配置能在兩個軸上都佔據主導地位，這證實了準確性和體驗必須聯合衡量。

此外，我們發現命名實體轉錄是一個主要的失敗模式。一個聽錯的字符可能會級聯導致身份驗證失敗和整個對話崩潰。此外，多步驟工作流會以可預測的方式使代理出錯。在保留附加服務（座位、行李）的同時重新預訂航班，是所有配置中最主要的複雜性挑戰。最後，我們觀察到實際應用場景需要額外的校準。在所有配置中，pass@3 和 pass^3 之間存在巨大差距。即使是能完成任務的代理，通常也無法一致地完成——這對於現實世界的成功至關重要。

在此查看早期結果。

局限性

EVA-Bench 旨在提供對對話式語音代理的嚴格、端到端評估，但必須承認在框架、數據和指標維度上存在一些局限性：

框架：用戶模擬器依賴單一商業供應商，其語音特徵可能系統性地偏好某些 ASR 系統；且機器人對機器人的流水線（包括音訊格式轉換和實時音訊接口）可能無法完全代表生產環境部署。此外，完全重現需要商業 API 訪問權限，且延遲測量會因供應商和基礎設施而異。

數據：當前版本僅涵蓋單一領域的 50 個英語場景；結果可能無法推廣到其他案例、語言或口音。

指標：LLM 作為裁判模型帶有固有偏見，可能偏好某些與質量無關的回答風格，且當被評估模型與裁判模型來自同一供應商時，存在系統性偏見的額外風險。雖然我們根據標記數據集驗證了我們的裁判，並在網站上報告了準確性測量值，但這些對齊分數並不能完全消除系統性偏見。此外，任務完成是以二元方式衡量的，這無法捕捉部分得分，並可能低估了那些「優雅失敗」與「災難性失敗」系統之間的相對質量差異。

後續計劃

在評估方面，我們計劃增加韻律質量評估（發音、節奏、表現力）——在發現 LALM 作為裁判與人類判斷之間的對齊度極低後，這目前仍是一個開放性問題。我們還計劃在噪聲條件、多樣口音、多語言用戶和多變說話者行為下進行魯棒性測試，以及對代理如何回應用戶困擾進行情感感知評估。在數據方面，我們正在開發更多領域的數據集——每個數據集都有獨特的政策結構、命名實體特徵和對話動態——以及涉及複合請求、多步後續和更長對話記憶的更複雜場景。在工具方面，我們將發布一個結果和錯誤分析應用程序，自動識別每個指標和模型的錯誤，呈現具代表性的範例供探索，並生成每個模型優缺點的結構化摘要。最後，我們打算持續擴展排行榜，以提供該領域語音代理能力的最新評估。

在此查看關於局限性和我們未來路線圖的更多細節。

開始使用

前往我們的 GitHub 使用該框架！

致謝

核心貢獻者包括 Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Hoang Nguyen, Raghav Mehndiratta, Hari Subramani。

我們還要感謝 Lindsay Brin, Akshay Kalkunte, Joseph Marinier, Jishnu Nair 和 Aman Tiwari 對數據的仔細審查和對框架的深思熟慮貢獻，以及 Fanny Riols, Anil Madamala, Sridhar Nemala 和 Srinivas Sunkara 在整個過程中的管理、領導和支持。我們還要感謝 PAVA 和 CLAE ServiceNow 團隊，他們先前在評估和語音代理方面的工作為本項目提供了寶貴的靈感。

引用

社群

· 註冊或登錄以發表評論

https://huggingface.co/blog/ServiceNow-AI/eva