
ReasoningBank:賦予代理從經驗中學習的能力
ReasoningBank 是一個新型的代理記憶框架,它從成功與失敗的經驗中提煉出可推廣的推理策略,使 AI 代理在部署後能持續進化並提升效率。

ReasoningBank:賦予代理從經驗中學習的能力
2026 年 4 月 21 日
Jun Yan 與 Chen-Yu Lee,Google Cloud 研究科學家
ReasoningBank 是一個新穎的代理記憶框架,利用成功與失敗的經驗來提煉具備泛化能力的推理策略,使代理在部署後能持續從經驗中學習。
快速連結
代理在處理複雜的現實任務中變得越來越重要,範圍從一般的網頁導航到協助處理龐大的軟體工程程式碼庫。然而,隨著這些代理在現實世界中轉向持久、長期運行的角色,它們面臨一個關鍵限制:難以在部署後分析並從成功與失敗的經驗中學習。
若代理在處理每個新任務時沒有記憶機制,將會重複犯下相同的策略錯誤,並捨棄寶貴的見解。為了縮小這一差距,各種形式的代理記憶被引入,用以儲存過去的互動資訊以供重複使用。然而,現有的方法通常專注於保存每項行動的詳盡記錄——例如 Synapse 中使用的軌跡記憶(trajectory memory)——或者僅記錄從成功嘗試中總結出的工作流(如 Agent Workflow Memory 所示)。這些方法有兩個根本性的缺點:首先,透過記錄詳細動作而非戰術遠見,它們無法提煉出更高層次、可遷移的推理模式;其次,過度強調成功經驗,使它們錯失了學習的主要來源——自身的失敗。
為了彌補這一差距,我們在 ICLR 論文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中介紹了一種新穎的代理記憶框架 (github),它從成功和失敗的經驗中提煉有用的見解,用於測試時的自我演化。在網頁瀏覽和軟體工程基準測試中,與基準方法相比,ReasoningBank 提升了代理的有效性(更高的成功率)和效率(更少的任務步驟)。

記憶內容比較:現有策略與 ReasoningBank。
使用 ReasoningBank 提煉見解
ReasoningBank 將全局推理模式提煉為高層次、結構化的記憶。每個結構化記憶項包含以下內容:
記憶工作流在檢索、提取和整合的連續閉環中運行。在採取行動之前,代理會利用 ReasoningBank 將相關記憶收集到其上下文(context)中。接著,它與環境互動,並使用 LLM 作為評判者(LLM-as-a-judge)來自我評估產生的軌跡,並提取成功見解或失敗反思。值得注意的是,這種自我判斷不需要完全準確,因為我們發現 ReasoningBank 對判斷噪聲具有相當的魯棒性。在提取過程中,代理將軌跡中的工作流和可泛化的見解提煉成新的記憶。為了簡化,我們直接將這些內容附加到 ReasoningBank 中,將更複雜的整合策略留待未來研究。
至關重要的是,與僅關注成功運行的現有工作流記憶策略不同,ReasoningBank 主動分析失敗經驗,以獲取反事實信號和陷阱。透過將這些錯誤提煉為預防性教訓,ReasoningBank 建立了強大的策略護欄。例如,代理不僅僅是學習「點擊『加載更多』按鈕」這樣的程序性規則,還可能從過去的失敗中學習到「在嘗試加載更多結果之前,務必先驗證當前頁面標識符,以避免無限滾動陷阱」。

ReasoningBank 在測試時間與代理整合的工作流程。
記憶感知測試時縮放 (MaTTS)
測試時縮放 (TTS)——在推理時增加計算量——在數學和競賽編程等推理領域展現了巨大的成效。然而,在代理環境中,現有的 TTS 方法通常會捨棄探索軌跡,並將最終答案視為唯一有用的結果。這種被忽視的探索實際上是一個豐富的數據源,可以加速代理隨時間從經驗中學習的能力。
我們透過記憶感知測試時縮放 (MaTTS),將記憶與縮放顯式地連結起來,從而彌補這一差距。透過將 ReasoningBank 作為強大的經驗學習器,MaTTS 透過對比和細化信號,將廣泛的探索提煉為高質量的記憶。我們透過兩種不同形式的縮放展示了 MaTTS 的功能:
MaTTS 建立了一種強大的協同效應:來自 ReasoningBank 的高質量記憶引導縮放後的探索轉向更有前景的策略,作為回報,縮放後的互動產生了顯著更豐富的學習信號,反饋到更聰明的 ReasoningBank 中以幫助代理。

記憶感知測試時縮放 (MaTTS) 與 ReasoningBank 的比較。
性能與湧現能力
我們在涵蓋動態環境的具挑戰性基準測試中評估了 ReasoningBank。使用 ReAct 提示策略作為所有代理的基礎,我們將 ReasoningBank 與三種記憶配置進行了比較:無記憶基準 (Vanilla ReAct)、Synapse (軌跡記憶) 和 AWM (工作流記憶)。根據我們在 WebArena 和 SWE-Bench-Verified 上使用 Gemini-2.5-Flash 的主要評估結果,我們有以下關鍵觀察:

不同代理記憶策略在 WebArena 和 SWE-Bench-Verified 上的性能比較(任務成功率和每個任務的平均步驟)。
重要的是,在評估過程中,我們觀察到了策略成熟度的湧現。在一個網頁瀏覽的例子中,代理最初策劃的規則類似於簡單的程序清單(例如,「尋找頁面連結」)。隨著代理處理更多問題集,這些記憶在執行過程中被納入。在現有知識的基礎上,代理將新的軌跡提煉成更高級的記憶。隨著時間推移,簡單的清單演變成了具有組合性、預防性邏輯結構的記憶(例如,「持續將任務與活動頁面過濾器進行交叉比對,以確保檢索到的數據集不會過早分頁」)。詳情請參閱論文。
結論
ReasoningBank 提供了一個強大的框架,使 LLM 能夠從經驗中學習,並在測試時間演化為持續學習者。我們相信,記憶驅動的經驗縮放代表了代理縮放的一個至關重要的新前沿。
我們很高興能與更廣泛的研究社群分享這一成果。
致謝
本研究由 Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee, 以及 Tomas Pfister 共同完成。
快速連結
其他感興趣的文章

2026 年 4 月 16 日

2026 年 4 月 16 日

2026 年 4 月 13 日




相關文章
其他收藏 · 0