ALTK-Evolve：AI 代理的在職學習系統

Huggingface·大約 6 小時前

ALTK-Evolve 是一個長期記憶子系統，透過從過去的經驗中提煉原則，幫助 AI 代理克服永遠的實習生問題，進而提升未來的表現。

ALTK‑Evolve：AI 代理的在職學習

懶人包 (TL;DR)

「永恆實習生」問題

想像一位才華橫溢的廚師，他背下了每一本食譜，但每天早上都會忘記你的廚房。他們不記得你的烤箱溫度偏高，也不記得熟客喜歡多加點鹽；他們會照著食譜卡操作，但當檸檬用完時就會不知所措。這就是大多數 AI 代理的現狀：擅長遵循指令，卻不擅長累積關於你環境的智慧。將昨天的日誌餵回提示詞（Prompt）只會讓他們重新閱讀歷史，並不能幫助他們從中總結規律。

初級新手需要「油醋醬」和「橙汁鴨」的不同食譜。而主廚則學會了「酸能平衡脂肪」並將其應用於各處。同樣地，可靠的代理應該從經驗中提煉原則並將其應用於新任務，而不僅僅是處理舊任務的近乎副本。這個長期記憶子系統正是這樣做的：它將交互軌跡轉換為候選準則，進行質量過濾，並僅在行動時刻注入相關引導。代理需要的是原則，而不是逐字稿。

麻省理工學院（MIT）最近的一項研究發現，95% 的試點失敗是因為代理無法在工作中適應和學習。ALTK-Evolve 利用長期情節記憶（Long term episodic memory）來幫助代理更好地推理，從而解決這一學習差距。

解決方案：利用 ALTK-Evolve 實現長期記憶

Evolve 是一個為 AI 代理設計的記憶系統，它可以幫助代理隨著時間的推移不斷進步，學習並使用從先前執行中生成的準則。

在運作上，該系統以持續循環的方式運行：

architecture (1)

這種方法之所以有效，有幾個關鍵原因：

結果：更好的可靠性，尤其是在艱巨任務上

我們在 AppWorld 上評估了該框架，代理在那裡透過 API 完成現實的多步驟任務，平均在 1.8 個應用程式中調用 9.5 個 API，困難案例則需要更複雜的控制流。ReAct 代理接收任務指令，加上先前運行（訓練/開發集）中檢索到的前 5 條生成準則，並在未見過的分區（測試-正常集）上進行測試。我們報告了場景目標完成率（SGC），這是一個嚴格的一致性指標，要求在各種變體中均取得成功。

以下是評估中的一些關鍵結論：

在論文中查看更多關於實驗的細節：https://arxiv.org/abs/2603.10600。

開始使用（選擇您的路徑）

您可以選擇如何將 ALTK‑Evolve 整合到您的代理中。

使用 Claude Code、Codex 和 IBM Bob 的無程式碼模式（精簡模式）

將插件安裝到 Claude Code 中：

就這樣！該插件從軌跡中提取實體並將其作為文件存儲在您的文件系統中。它使用 Claude Code 的鉤子（hooks）進行自動檢索。

比起閱讀更喜歡觀看？觀看簡短的 Evolve-Lite Claude Code 演示（影片）：Demo

查看此處的演練，了解如何在精簡模式下使用 Claude Code 進行學習的示例。

精簡模式易於試用，但有其局限性。例如，它不會從跨代理會話中收集見解，也不會對實體進行整合和垃圾回收。下方的低程式碼和專業程式碼版本解決了這些限制。

還有與 Codex 和 IBM Bob 的一步整合。快來試試吧！

使用 ReAct 代理的低程式碼模式

添加單個 altk_evolve.auto 導入並開啟標誌，將追蹤發送到 Arize Phoenix UI。然後同步追蹤以生成改進準則，而無需更改您目前的技術棧。它適用於流行的 LLM 客戶端和代理框架（例如 OpenAI、LiteLLM 和 Hugging Face agents），因此您可以保留現有架構並簡單地獲得可視化能力。

要了解這如何輕鬆融入現有項目，請探索我們展示不同框架整合的動手實踐示例。有關配置和功能的完整詳細信息，請閱讀我們的低程式碼追蹤文檔。

使用 CUGA 的專業程式碼模式

我們透過 MCP 將 ALTK‑Evolve 直接整合到 CUGA 中，以創建一個緊湊、低開銷的學習循環。在每次運行前，會調用 get_guidelines MCP 工具來呈現特定任務的引導並減少試錯。運行後，CUGA 透過 save_trajectory 傳回結構化的執行軌跡，以便 Evolve 可以從實際發生的情況中學習並改進未來的引導。其結果是一個隨著時間推移而變得更好，同時保持透明、可組合且易於採用的整合方案。

喜歡視覺化導覽？觀看 CUGA 整合演練：影片

嘗試並告訴我們您的代理學到了什麼

您的代理不應該每天早上醒來都像個實習生。這種方法能幫助它在工作中學習。
如果您正在使用 Claude Code、Codex 或 IBM Bob，請在幾分鐘內嘗試一下，看看它如何改進您的代理。

在 GitHub 上給我們點亮星星（Star），這能幫助其他人發現這個項目，並直接引導我們接下來的開發方向。

觀看演示

更多來自此作者的內容

IBM 與加州大學柏克萊分校使用 IT-Bench 和 MAST 診斷企業代理失敗的原因

AssetOpsBench：彌合 AI 代理基準測試與工業現實之間的差距

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/ibm-research/altk-evolve