newsence

AI 代理的系統化除錯:AgentRx 框架正式發佈

Microsoft Research·24 天前

微軟研究院推出了開源的 AgentRx 框架,這是一個自動化的診斷系統,旨在透過約束合成與可審計的驗證日誌,精確定位複雜 AI 代理執行軌跡中的關鍵失敗步驟。

概覽

  • 問題: 調試 AI 代理(Agent)的失敗非常困難,因為執行軌跡長、具隨機性,且通常涉及多個代理,導致真正的根因被掩埋。

  • 解決方案: AgentRx (在新分頁開啟) 通過從工具架構(Tool Schemas)和領域策略中合成受保護的可執行約束(guarded, executable constraints),並逐步記錄有證據支持的違規行為,從而精確定位第一個不可恢復的「關鍵失敗步驟」(critical failure step)

  • 基準測試 + 分類法: 我們發布了 AgentRx Benchmark (在新分頁開啟),包含橫跨 τ-benchFlashMagentic-One115 個手動標註失敗軌跡,以及一個基於實證的九大類失敗分類法

  • 結果 + 發布: AgentRx 在失敗定位(+23.6%)和根因歸屬(+22.9%)方面優於提示詞(Prompting)基準模型。我們正將此框架和數據集開源。

隨著 AI 代理從簡單的聊天機器人轉型為能夠管理雲端事故、導航複雜網頁界面以及執行多步驟 API 工作流的自主系統,一個新的挑戰隨之而來:透明度。

當人類犯錯時,我們通常可以追溯其邏輯。但當 AI 代理失敗時——可能是因為幻覺出工具輸出,或是在五十步任務中的第十步偏離了安全策略——要準確識別出問題發生的位置和原因,是一個艱鉅的手動過程。

今天,我們很高興宣布開源發布 AgentRx (在新分頁開啟),這是一個自動化、與領域無關的框架,旨在精確定位代理軌跡中的「關鍵失敗步驟」。除了框架之外,我們還發布了 AgentRx Benchmark (在新分頁開啟),這是一個包含 115 個手動標註失敗軌跡的數據集,旨在幫助社群構建更透明、更具韌性的代理系統。

挑戰:為什麼 AI 代理難以調試

現代 AI 代理通常具有以下特點:

  • 長週期(Long-horizon): 它們在長時間內執行數十個動作。

  • 機率性(Probabilistic): 相同的輸入可能導致不同的輸出,使問題難以重現。

  • 多代理(Multi-agent): 失敗可能會在代理之間「傳遞」,掩蓋了原始根因。

傳統的成功指標(如「任務是否完成?」)提供的信息不足。為了構建安全的代理,我們需要識別軌跡變得不可恢復的確切時刻,並獲取該步驟出錯的證據。

AgentRx 介紹:自動化的診斷「處方」

AgentRx(「Agent Diagnosis」的縮寫)將代理執行視為需要驗證的系統追蹤(System Trace)。AgentRx 不依賴單一 LLM 來「猜測」錯誤,而是使用結構化的多階段流水線:

  • 軌跡標準化: 將來自不同領域的異質日誌轉換為通用的中間表示。

  • 約束合成: 框架根據工具架構(例如,「API 必須返回有效的 JSON 響應」)和領域策略(例如,「未經用戶確認不得刪除數據」)自動生成可執行的約束。

  • 受保護的評估: AgentRx 逐步評估約束,僅在其*保護條件(guard condition)*適用時檢查每個約束,並生成一份包含證據支持的違規行為且可審計的驗證日誌

  • 基於 LLM 的判定: 最後,LLM 判定器利用驗證日誌和基於實證的失敗分類法來識別關鍵失敗步驟——即第一個不可恢復的錯誤。

AgentRx 工作流:給定失敗軌跡、工具架構和領域策略,AgentRx 合成受保護的約束,逐步評估它們以生成帶有證據的可審計違規日誌,並使用 LLM 判定器預測關鍵失敗步驟根因類別

代理失敗的新基準測試

為了評估 AgentRx,我們開發了一個手動標註的基準測試,包含橫跨三個複雜領域的 115 個失敗軌跡

  • τ-bench: 用於零售和服務任務的結構化 API 工作流。

  • Flash: 現實世界的事故管理和系統故障排除。

  • Magentic-One: 使用通用多代理系統執行的開放式網頁和文件任務。

利用紮根理論(Grounded-theory)方法,我們推導出了一個可以跨領域推廣的九大類失敗分類法。這套分類法能幫助開發者區分「計劃遵循失敗」(代理忽略了自己設定的步驟)和「捏造新信息」(幻覺)。

分類類別描述
計劃遵循失敗忽略了必要步驟 / 執行了額外的未計劃動作
捏造新信息篡改了追蹤/工具輸出中未提及的事實
無效調用工具調用格式錯誤 / 缺少參數 / 不符合架構規範
工具輸出誤解錯誤讀取工具輸出;基於錯誤假設行動
意圖與計劃不匹配誤讀用戶目標/約束,導致計劃錯誤
用戶意圖不明確因缺少必要信息而無法繼續
意圖不受支持沒有可用工具能執行所要求的操作
觸發護欄執行因安全/訪問限制而被阻斷
系統故障連接/工具端點故障

各領域失敗密度的分析。在像 Magentic-One 這樣的多代理系統中,軌跡通常包含多個錯誤,但 AgentRx 專注於識別第一個關鍵違規。

關鍵結果

在我們的實驗中,AgentRx 展現出相較於現有基於 LLM 提示詞基準模型的顯著提升:

  • 失敗定位準確度提升 +23.6%(絕對值)

  • 根因歸屬提升 +22.9%

通過可審計日誌提供失敗背後的「原因」,AgentRx 讓開發者能夠從反覆試錯的提示詞調整轉向系統化的代理工程。

加入社群:開源發布

我們相信代理的可靠性是現實世界部署的前提。為了支持這一點,我們正在開源 AgentRx 框架和完整的標註基準測試。

我們邀請研究人員和開發者使用 AgentRx 來診斷他們自己的代理工作流,並為不斷增長的失敗約束庫做出貢獻。齊心協力,我們可以構建不僅強大,而且可審計、可靠的 AI 代理。

致謝

我們要感謝 Avaljot Singh 和 Suman Nath 對本項目的貢獻。

在新分頁開啟這篇博文 Systematic debugging for AI agents: Introducing the AgentRx framework 首先發布於 Microsoft Research

https://microsoft.com/en-us/research/blog/systematic-debugging-for-ai-agents-introducing-the-agentrx-framework/