ALTK-Evolve:AI 代理的在職學習系統

ALTK-Evolve:AI 代理的在職學習系統

Huggingface·大約 6 小時前

ALTK-Evolve 是一個長期記憶子系統,透過從過去的經驗中提煉原則,幫助 AI 代理克服永遠的實習生問題,進而提升未來的表現。

ALTK‑Evolve:AI 代理的在職學習

懶人包 (TL;DR)

「永恆實習生」問題

想像一位才華橫溢的廚師,他背下了每一本食譜,但每天早上都會忘記你的廚房。他們不記得你的烤箱溫度偏高,也不記得熟客喜歡多加點鹽;他們會照著食譜卡操作,但當檸檬用完時就會不知所措。這就是大多數 AI 代理的現狀:擅長遵循指令,卻不擅長累積關於你環境的智慧。將昨天的日誌餵回提示詞(Prompt)只會讓他們重新閱讀歷史,並不能幫助他們從中總結規律。

初級新手需要「油醋醬」和「橙汁鴨」的不同食譜。而主廚則學會了「酸能平衡脂肪」並將其應用於各處。同樣地,可靠的代理應該從經驗中提煉原則並將其應用於新任務,而不僅僅是處理舊任務的近乎副本。這個長期記憶子系統正是這樣做的:它將交互軌跡轉換為候選準則,進行質量過濾,並僅在行動時刻注入相關引導。代理需要的是原則,而不是逐字稿。

麻省理工學院(MIT)最近的一項研究發現,95% 的試點失敗是因為代理無法在工作中適應和學習。ALTK-Evolve 利用長期情節記憶(Long term episodic memory)來幫助代理更好地推理,從而解決這一學習差距。

解決方案:利用 ALTK-Evolve 實現長期記憶

Evolve 是一個為 AI 代理設計的記憶系統,它可以幫助代理隨著時間的推移不斷進步,學習並使用從先前執行中生成的準則。

在運作上,該系統以持續循環的方式運行:

architecture (1)

這種方法之所以有效,有幾個關鍵原因:

結果:更好的可靠性,尤其是在艱巨任務上

我們在 AppWorld 上評估了該框架,代理在那裡透過 API 完成現實的多步驟任務,平均在 1.8 個應用程式中調用 9.5 個 API,困難案例則需要更複雜的控制流。ReAct 代理接收任務指令,加上先前運行(訓練/開發集)中檢索到的前 5 條生成準則,並在未見過的分區(測試-正常集)上進行測試。我們報告了場景目標完成率(SGC),這是一個嚴格的一致性指標,要求在各種變體中均取得成功。

以下是評估中的一些關鍵結論:

在論文中查看更多關於實驗的細節:https://arxiv.org/abs/2603.10600。

開始使用(選擇您的路徑)

您可以選擇如何將 ALTK‑Evolve 整合到您的代理中。

使用 Claude Code、Codex 和 IBM Bob 的無程式碼模式(精簡模式)

將插件安裝到 Claude Code 中:

就這樣!該插件從軌跡中提取實體並將其作為文件存儲在您的文件系統中。它使用 Claude Code 的鉤子(hooks)進行自動檢索。

比起閱讀更喜歡觀看?觀看簡短的 Evolve-Lite Claude Code 演示(影片):Demo

查看此處的演練,了解如何在精簡模式下使用 Claude Code 進行學習的示例。

精簡模式易於試用,但有其局限性。例如,它不會從跨代理會話中收集見解,也不會對實體進行整合和垃圾回收。下方的低程式碼和專業程式碼版本解決了這些限制。

還有與 Codex 和 IBM Bob 的一步整合。快來試試吧!

使用 ReAct 代理的低程式碼模式

添加單個 altk_evolve.auto 導入並開啟標誌,將追蹤發送到 Arize Phoenix UI。然後同步追蹤以生成改進準則,而無需更改您目前的技術棧。它適用於流行的 LLM 客戶端和代理框架(例如 OpenAI、LiteLLM 和 Hugging Face agents),因此您可以保留現有架構並簡單地獲得可視化能力。

要了解這如何輕鬆融入現有項目,請探索我們展示不同框架整合的動手實踐示例。有關配置和功能的完整詳細信息,請閱讀我們的低程式碼追蹤文檔。

使用 CUGA 的專業程式碼模式

我們透過 MCP 將 ALTK‑Evolve 直接整合到 CUGA 中,以創建一個緊湊、低開銷的學習循環。在每次運行前,會調用 get_guidelines MCP 工具來呈現特定任務的引導並減少試錯。運行後,CUGA 透過 save_trajectory 傳回結構化的執行軌跡,以便 Evolve 可以從實際發生的情況中學習並改進未來的引導。其結果是一個隨著時間推移而變得更好,同時保持透明、可組合且易於採用的整合方案。

喜歡視覺化導覽?觀看 CUGA 整合演練:影片

嘗試並告訴我們您的代理學到了什麼

您的代理不應該每天早上醒來都像個實習生。這種方法能幫助它在工作中學習。
如果您正在使用 Claude Code、Codex 或 IBM Bob,請在幾分鐘內嘗試一下,看看它如何改進您的代理。

在 GitHub 上給我們點亮星星(Star),這能幫助其他人發現這個項目,並直接引導我們接下來的開發方向。

觀看演示

更多來自此作者的內容

Image

IBM 與加州大學柏克萊分校使用 IT-Bench 和 MAST 診斷企業代理失敗的原因

Image

AssetOpsBench:彌合 AI 代理基準測試與工業現實之間的差距

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/ibm-research/altk-evolve