深入解析 VAKRA：AI 代理如何推理、使用工具以及其失敗之處

Huggingface·大約 6 小時前

VAKRA 是一個全新的可執行基準測試，旨在透過衡量跨數千個 API 和文件的組合推理能力，評估 AI 代理在現實企業環境中的表現。該框架採用瀑布式評估流程來審查完整的執行軌跡，揭示了即使是頂尖模型在處理多來源任務和策略約束時仍面臨挑戰。

深入 VAKRA：AI 代理如何推理、使用工具以及在何處失敗

VAKRA 數據集 | 排行榜 | 發布部落格 | GitHub | 提交至排行榜

我們最近推出了 VAKRA，這是一個以工具為基礎的可執行基準測試，用於評估 AI 代理在現實、類企業環境中的推理與行動能力。

與測試孤立技能的傳統基準測試不同，VAKRA 衡量跨 API 和文件的組合推理，使用完整的執行軌跡來評估代理是否能可靠地完成多步驟工作流。

VAKRA 提供了一個可執行環境，代理可以與超過 8,000 個由真實數據庫支持的本地託管 API（涵蓋 62 個領域）以及領域對齊的文件集進行交互。任務可能需要 3 到 7 個步驟的推理鏈，在自然語言工具使用約束下，結合結構化 API 交互與非結構化檢索。

好奇代理在這些工作流中的哪些環節崩潰了嗎？在此探索錯誤分析。

我們的實時排行榜揭示了一個明顯的差距：雖然頂尖模型在工具選擇上表現相對較好，但在多源和受政策約束的任務上卻顯得力不從心——這凸顯了現實世界代理部署仍面臨的挑戰。

想測試您的代理嗎？在此提交至實時排行榜。

任務描述

如下所示，VAKRA 基準測試由四個任務組成，每個任務測試一組不同的能力和推理模式。

圖 1：VAKRA 基準測試中各項能力的代表性範例

core_benchmark_capabilities

評估框架

VAKRA 在現實且工具豐富的環境中評估代理，成功與否取決於答案的正確性以及執行連貫、多步驟工作流的能力。我們引入了一個以執行為中心的評估框架，不僅評估最終輸出，還評估完整的執行軌跡，包括工具調用、輸入和中間結果。

評估指標

VAKRA 評估器針對每個樣本處理兩個關鍵輸入：預測的最終響應和相應的工具調用軌跡。預測軌跡中的工具調用會在與標準答案（ground truth）相同的環境中執行，以驗證中間工具的輸出。

圖 5：瀑布式評估流水線

evaluation_diagram

評估遵循瀑布式流水線，後續階段以前一階段的成功為前提：

工具序列比較
由於存在可執行環境，代理可以探索環境，有時會通過調用與我們確定的不同的 API 集來返回答案。為了支持替代但有效的工具調用和推理路徑，正確性是通過執行每個預測工具並將工具響應集與標準答案進行比較來評估的，而不是強制執行嚴格的步驟級匹配。

具體而言，我們首先進行程序化包含檢查，驗證標準答案工具響應中存在的所有信息是否已被預測的工具序列恢復。在涉及部分匹配、語義等效或表示差異（例如排序、聚合或格式）的情況下，此檢查可能無法得出結論。在這種情況下，我們採用二次基於 LLM 的評估（改編自 CRAG 框架 Yang et al., 2024），以確定預測軌跡是否儘管存在結構差異，仍檢索到了所有必需信息。此步驟使用改編的提示詞來判斷預測軌跡是否捕捉到了所有必需信息，即使是通過不同的工具調用序列獲得的。

最終響應評估
對於被認為正確的軌跡，最終響應將使用基於 LLM 的裁判進行評估。此步驟確保響應 (i) 基於預測的工具輸出和查詢，且 (ii) 與標準答案在事實上保持一致，並考慮到措辭或結構的潛在變化。結合輸入查詢進行評估可確保正確性是相對於用戶意圖進行評定的。

這種設計確保代理不僅因產生正確答案而獲得獎勵，還因通過有效且完整的推理過程獲得答案而獲得獎勵。

評分

每項能力權重相等，以獲得最終排行榜分數：
Leaderboard_Score=14∑n=14Capabilityn
\text{Leaderboard_Score} = \frac{1}{4} \sum_{n=1}^{4} \text{Capability}_n
Leaderboard_Score=41n=1∑4Capabilityn

為了獲得能力分數，對於能力 1 到 3，能力內的每個樣本權重相等。

Capability1−3=# correct queries# total queries
\begin{aligned}
\text{Capability}_{1-3}
&=
\frac{
#,\text{correct queries}
}{
#,\text{total queries}
}
\end{aligned}
Capability1−3=#total queries#correct queries

對於能力 4，我們將需要異構信息源的查詢（例如 API-RAG-API、RAG-RAG-API 等性質的查詢）權重設為 2，而將來自同構信息源的查詢（例如 API-API-API、RAG-RAG 等性質的查詢）權重設為 1。

Capability4=# correct multi-source queries×2+# correct API-only or RAG-only queries# total multi-source queries×2+# total API-only or RAG-only queries
\begin{aligned}
\text{Capability}_4
&=
\frac{
#,\text{correct multi-source queries} \times 2
+
#,\text{correct API-only or RAG-only queries}
}{
#,\text{total multi-source queries} \times 2
+
#,\text{total API-only or RAG-only queries}
}
\end{aligned}
Capability4=#total multi-source queries×2+#total API-only or RAG-only queries#correct multi-source queries×2+#correct API-only or RAG-only queries