CORPGEN 推動 AI 代理邁向實際工作應用
微軟研究院推出 CORPGEN 框架,透過階層式規劃與經驗學習,讓數位員工能在複雜的企業環境中同時處理多項相互關聯的任務,解決現有 AI 代理在多工處理時效能大幅下降的問題。
重點速覽
-
現今的 AI 代理人(AI agent)基準測試一次僅測試一項任務,而真實職場的生產力則需要同時管理數十個相互關聯的任務。為了反映這一點,我們建立了一個名為「多階段任務環境」(Multi-Horizon Task Environments, MHTEs)的設定。
-
在多工負載下,領先的電腦操作代理人表現大幅下滑,完成率從 16.7% 降至 8.7%。
-
CORPGEN 引入了「數位員工」(digital employees),具備層次化規劃、記憶隔離和經驗學習能力,在三個獨立的代理人後端中,其完成率比基準線高出多達 3.5 倍。
-
由於 CORPGEN 與架構無關且具備模組化特性,其優勢源於系統設計而非單一基礎模型,並能隨著底層模型的改進而直接獲益。
到了上午中旬,一名典型的知識工作者通常已經在同時處理客戶報告、預算試算表、簡報投影片和待回覆郵件,這些工作相互關聯且都需要同時關注。為了讓 AI 代理人在這種環境中真正發揮作用,它們需要以同樣的方式運作,但現今最好的模型仍是以一次一項任務的方式進行評估,而非同時處理數十項。
在我們的論文「CORPGEN:在多階段任務環境中利用自主數位員工模擬企業環境」中,我們提出了一個代理人框架,為 AI 配備記憶、規劃和學習能力,以彌補這一差距。
引入多階段任務環境
複製職場多工的現實需要一種新型的評估環境。為此,我們開發了多階段任務環境(MHTEs),在這種設定下,代理人必須同時管理多個複雜任務。每個任務在長達五小時的單次會話中,需要 10 到 30 個具備依賴關係的步驟。
為了確定基準測試需要測試的內容,我們在一些當今領先的 AI 代理人上大規模執行了 MHTEs,發現了四個弱點。首先,記憶會填滿。代理人無法同時保留多個活動任務的細節。其次,來自一個任務的資訊會干擾對另一個任務的推理。第三,任務之間並非以簡單的序列相互依賴,而是形成複雜的網絡,代理人必須不斷檢查上游工作是否完成,才能推進下游的任何工作。第四,每個行動週期都需要對所有活動任務重新排列優先順序,而不僅僅是從上次中斷的地方繼續。
我們還測試了三個獨立的代理人系統在不斷增加的負載下的表現。隨著並行任務數量從 12 個增加到 46 個,所有系統的完成率從 16.7% 下降到 8.7%。
CORPGEN 的架構
CORPGEN 引入了「數位員工」:由大型語言模型(LLM)驅動的 AI 代理人,具有持久的身分、特定角色的專業知識和現實的工作時間表。它們透過圖形使用者介面(GUI)自動化操作 Microsoft Office 應用程式,並在連續數小時的活動中於 MHTEs 內表現穩定。圖 1 展示了數位員工如何度過完整的工作日。
圖 1。每一天都以結構化計劃和從先前會話載入的記憶開始。代理人隨後在重複的週期中處理重疊的任務,並在一天結束時儲存關鍵成果,以供下一次會話參考。
CORPGEN 以針對性的方式解決了並行任務執行的四個弱點:記憶過載、跨任務干擾、依賴複雜性和重新排序。層次化規劃將目標分解為每日目標,再進一步分解為即時決策,使代理人能根據結構化計劃行動,而不是在每一步之前審查所有可用任務。
子代理人在隔離的環境中執行複雜操作(如網路研究),防止跨任務污染。分層記憶系統實現了對任務相關資訊的選擇性回想,而不是將所有內容保留在活動上下文中。自適應摘要壓縮了常規觀察,同時保留關鍵資訊,使記憶增長保持受控。
由於這些機制不綁定於特定的基礎模型,我們在三種不同的代理人上測試了 CORPGEN。在每種情況下,我們都觀察到了穩定的增益。這些改進來自於架構,而非任何特定模型的強度。圖 2 顯示了它們在 CORPGEN 架構中如何結合。
圖 2。CORPGEN 中的四種機制支持並行任務執行:層次化規劃、隔離子代理人、分層記憶和自適應摘要。
數位員工如何協作
當多個數位員工在同一環境中運作時,協作透過標準通訊管道進行,無需預設的協調規則。一名員工發送電子郵件請求數據;另一名員工在下一個週期接收郵件,利用其記憶進行處理並回覆。這種交換鏡像了真實職場的溝通。
代理人之間沒有共享的內部狀態。協調完全透過電子郵件和 Microsoft Teams 進行,這也是許多員工使用的管道。隨著時間推移,這些獨立的交換形成了可辨識的組織模式。一些代理人承擔領導角色;另一些則提供支援;共享文件成為連接的紐帶。
當通訊路徑中斷時(例如電子郵件發送錯誤),代理人會透過其他管道重新路由訊息以保持工作進行。結果是一個虛擬組織,其行為就像真實組織一樣,而無需經過顯式編程。
評估 CORPGEN
我們在一個多工基準測試上評估了 CORPGEN,該測試將多達 46 個任務組合到單個六小時的會話中。有三個發現脫穎而出。
基準線隨負載增加而退化;CORPGEN 則不然。 所有三個基準代理人系統在任務負載增加時都顯示出性能穩定下降。相比之下,CORPGEN 在更高負載下保持或提高了完成率。在 46 個任務時,CORPGEN 完成了 15.2% 的任務,而基準線僅為 4.3%,高出約 3.5 倍。
經驗學習帶來最大的增益。 我們依序引入了 CORPGEN 的組件:首先是編排層,然後是認知工具,最後是經驗學習。前兩者產生了適度的改進。經驗學習(代理人儲存已完成任務的記錄,並在遇到結構相似的工作時重複使用)產生了最大的增幅,將完成率從 8.7% 提高到 15.2%。
評估方法會改變結果。 當我們檢查代理人產生的實際輸出文件時,結果與人類判斷的一致性約為 90%。而基於螢幕截圖和行動日誌的評估一致性僅約 40%。這一差距表明,常見的評估方法可能低估了代理人在實踐中實際完成的工作。
焦點:活動系列
Microsoft 研究論壇
加入我們,就通用 AI 時代的研究進行持續的思想交流。隨選觀看前四集。
影響與展望
結果表明,記憶與檢索(而不僅僅是原始模型能力)可能是讓代理人在現實世界中工作的關鍵瓶頸。最大的增益來自經驗學習。從先前的成功中學習並將這些模式應用於結構相似任務的代理人,比孤立處理每個任務的系統更具優勢。
CORPGEN 也為 AI 代理人的協作方式開闢了新視角。下一步包括測試代理人是否能在多個工作日之間保持記憶,以及它們在團隊工作時如何協調。我們還在探索透過結合不同的軟體互動方法,使代理人變得更快、更可靠。
致謝
這項工作是微軟 CTO 辦公室與微軟 AI 開發加速器計畫(MAIDAP)合作的成果。我們要感謝微軟安全研究團隊提供支持本研究的資源。我們還要感謝微軟 UFO2 (在新分頁中開啟) 團隊和 Mem0 (在新分頁中開啟) 專案的成員,他們的開源貢獻促成了 CORPGEN 架構的關鍵組件,以及 OSWorld 團隊提供的基準測試,該測試為我們的多工評估奠定了基礎。
最後,我們感謝本研究的眾多貢獻者:Anjel Shaileshbhai Patel、Dayquan Julienne、Charlotte Siska、Manuel Raúl Meléndez Luján、Anthony Twum-Barimah、Mauricio Velazco 和 Tianwei Chen。
這篇文章 CORPGEN 推動 AI 代理人處理真實工作 首先出現在 Microsoft Research 上。