ReasoningBank：賦予代理從經驗中學習的能力

Google Research·大約 5 小時前

ReasoningBank 是一個新型的代理記憶框架，它從成功與失敗的經驗中提煉出可推廣的推理策略，使 AI 代理在部署後能持續進化並提升效率。

ReasoningBank：賦予代理從經驗中學習的能力

2026 年 4 月 21 日

Jun Yan 與 Chen-Yu Lee，Google Cloud 研究科學家

ReasoningBank 是一個新穎的代理記憶框架，利用成功與失敗的經驗來提煉具備泛化能力的推理策略，使代理在部署後能持續從經驗中學習。

快速連結

代理在處理複雜的現實任務中變得越來越重要，範圍從一般的網頁導航到協助處理龐大的軟體工程程式碼庫。然而，隨著這些代理在現實世界中轉向持久、長期運行的角色，它們面臨一個關鍵限制：難以在部署後分析並從成功與失敗的經驗中學習。

若代理在處理每個新任務時沒有記憶機制，將會重複犯下相同的策略錯誤，並捨棄寶貴的見解。為了縮小這一差距，各種形式的代理記憶被引入，用以儲存過去的互動資訊以供重複使用。然而，現有的方法通常專注於保存每項行動的詳盡記錄——例如 Synapse 中使用的軌跡記憶（trajectory memory）——或者僅記錄從成功嘗試中總結出的工作流（如 Agent Workflow Memory 所示）。這些方法有兩個根本性的缺點：首先，透過記錄詳細動作而非戰術遠見，它們無法提煉出更高層次、可遷移的推理模式；其次，過度強調成功經驗，使它們錯失了學習的主要來源——自身的失敗。

為了彌補這一差距，我們在 ICLR 論文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中介紹了一種新穎的代理記憶框架 (github)，它從成功和失敗的經驗中提煉有用的見解，用於測試時的自我演化。在網頁瀏覽和軟體工程基準測試中，與基準方法相比，ReasoningBank 提升了代理的有效性（更高的成功率）和效率（更少的任務步驟）。

ReasoningBank-1

記憶內容比較：現有策略與 ReasoningBank。

使用 ReasoningBank 提煉見解

ReasoningBank 將全局推理模式提煉為高層次、結構化的記憶。每個結構化記憶項包含以下內容：

記憶工作流在檢索、提取和整合的連續閉環中運行。在採取行動之前，代理會利用 ReasoningBank 將相關記憶收集到其上下文（context）中。接著，它與環境互動，並使用 LLM 作為評判者（LLM-as-a-judge）來自我評估產生的軌跡，並提取成功見解或失敗反思。值得注意的是，這種自我判斷不需要完全準確，因為我們發現 ReasoningBank 對判斷噪聲具有相當的魯棒性。在提取過程中，代理將軌跡中的工作流和可泛化的見解提煉成新的記憶。為了簡化，我們直接將這些內容附加到 ReasoningBank 中，將更複雜的整合策略留待未來研究。

至關重要的是，與僅關注成功運行的現有工作流記憶策略不同，ReasoningBank 主動分析失敗經驗，以獲取反事實信號和陷阱。透過將這些錯誤提煉為預防性教訓，ReasoningBank 建立了強大的策略護欄。例如，代理不僅僅是學習「點擊『加載更多』按鈕」這樣的程序性規則，還可能從過去的失敗中學習到「在嘗試加載更多結果之前，務必先驗證當前頁面標識符，以避免無限滾動陷阱」。

ReasoningBank-2

ReasoningBank 在測試時間與代理整合的工作流程。

記憶感知測試時縮放 (MaTTS)

測試時縮放 (TTS)——在推理時增加計算量——在數學和競賽編程等推理領域展現了巨大的成效。然而，在代理環境中，現有的 TTS 方法通常會捨棄探索軌跡，並將最終答案視為唯一有用的結果。這種被忽視的探索實際上是一個豐富的數據源，可以加速代理隨時間從經驗中學習的能力。

我們透過記憶感知測試時縮放 (MaTTS)，將記憶與縮放顯式地連結起來，從而彌補這一差距。透過將 ReasoningBank 作為強大的經驗學習器，MaTTS 透過對比和細化信號，將廣泛的探索提煉為高質量的記憶。我們透過兩種不同形式的縮放展示了 MaTTS 的功能：

MaTTS 建立了一種強大的協同效應：來自 ReasoningBank 的高質量記憶引導縮放後的探索轉向更有前景的策略，作為回報，縮放後的互動產生了顯著更豐富的學習信號，反饋到更聰明的 ReasoningBank 中以幫助代理。

ReasoningBank-3

記憶感知測試時縮放 (MaTTS) 與 ReasoningBank 的比較。

性能與湧現能力

我們在涵蓋動態環境的具挑戰性基準測試中評估了 ReasoningBank。使用 ReAct 提示策略作為所有代理的基礎，我們將 ReasoningBank 與三種記憶配置進行了比較：無記憶基準 (Vanilla ReAct)、Synapse (軌跡記憶) 和 AWM (工作流記憶)。根據我們在 WebArena 和 SWE-Bench-Verified 上使用 Gemini-2.5-Flash 的主要評估結果，我們有以下關鍵觀察：

ReasoningBank-4

不同代理記憶策略在 WebArena 和 SWE-Bench-Verified 上的性能比較（任務成功率和每個任務的平均步驟）。

重要的是，在評估過程中，我們觀察到了策略成熟度的湧現。在一個網頁瀏覽的例子中，代理最初策劃的規則類似於簡單的程序清單（例如，「尋找頁面連結」）。隨著代理處理更多問題集，這些記憶在執行過程中被納入。在現有知識的基礎上，代理將新的軌跡提煉成更高級的記憶。隨著時間推移，簡單的清單演變成了具有組合性、預防性邏輯結構的記憶（例如，「持續將任務與活動頁面過濾器進行交叉比對，以確保檢索到的數據集不會過早分頁」）。詳情請參閱論文。

結論

ReasoningBank 提供了一個強大的框架，使 LLM 能夠從經驗中學習，並在測試時間演化為持續學習者。我們相信，記憶驅動的經驗縮放代表了代理縮放的一個至關重要的新前沿。

我們很高興能與更廣泛的研究社群分享這一成果。

致謝

本研究由 Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee, 以及 Tomas Pfister 共同完成。