AsgardBench：視覺化引導互動式規劃的評估基準

Microsoft Research·10 天前

微軟研究院推出了 AsgardBench，這是一個全新的評估基準，旨在測試具身智慧代理程式是否能根據視覺回饋，在執行家務任務的過程中有效地修正並調整其計畫。

概覽

為了成功完成任務，具身智能（Embodied AI）代理必須根據視覺回饋來建立並更新其計畫。
AsgardBench 專門用於測試代理在任務展開時，是否能利用視覺觀測來修正其計畫。
該基準測試涵蓋 12 種任務類型、共 108 個受控任務實例，要求代理根據其所觀察到的情況調整計畫。
由於物體可能處於不同的位置和狀態（例如：乾淨或髒污），即使在相同的環境中，相同的指令也可能需要不同的動作序列。

想像一個負責清潔廚房的機器人。它需要觀察環境、決定該做什麼，並在情況不如預期時進行調整，例如：當它被要求清洗的馬克杯已經是乾淨的，或者水槽裡塞滿了其他物品。這就是具身智能的領域：能夠感知環境並在其中採取行動的系統。

該領域已取得快速進展，但評估這些系統比看起來更困難。許多基準測試同時測試感知、導航和物理控制，這使得我們很難區分 AI 代理究竟是利用其感知來做出更好的決策，還是僅僅因為環境的可預測性足以讓腳本運作而僥倖成功。

為了應對這一挑戰，我們創建了 AsgardBench。在論文《AsgardBench — Evaluating Visually Grounded Interactive Planning Under Minimal Feedback》中，我們描述了這個基準測試如何提出一個簡單但具挑戰性的考驗：給予 AI 代理一個家務任務，讓它透過圖像觀察環境，並觀察當其感知到的內容與預期不符時，它是否能調整計畫。它能否注意到需要清潔的馬克杯是否已經在水槽中，並據此採取行動？這就是 AsgardBench 旨在回答的核心問題。

AsgardBench 基於 AI2-THOR（一個用於訓練和評估 AI 代理執行家務任務的互動式 3D 模擬環境）構建，將代理放置在物體附近，並賦予它們一組固定的簡單動作，如 尋找 (find)、拿起 (pickup)、放置 (put)、清潔 (clean) 和 開啟/關閉 (toggle_on/off)。在每一輪中，代理會提出完成任務的完整步驟序列，但僅執行第一步。在整個過程中，焦點完全集中在「計畫調整」上，而不是代理是否能導航房間或操作物體，而是它是否能利用所感知的內容來修正下一步。

例如，代理可能會發現馬克杯是乾淨的、髒的或裝滿咖啡的，或者它可能觀察到水槽中包含許多其他物品，因此隨著任務的展開，相同的指令可能需要不同的動作序列。此過程如圖 1 所示。

圖 1：AsgardBench 中的代理觀測與相應的動作計畫。每張圖像都與根據該觀測生成的計畫配對。這說明了 AsgardBench 如何要求代理根據新的視覺證據更新或更改其計畫，而不是遵循固定的序列。

運作原理

代理從「準備好互動」的位置開始，因此導航和視角選擇不是影響因素。「尋找」動作會將物體帶入視野，環境會處理容器大小和放置的細節，因此代理不需要推論該使用哪個櫥櫃或檯面。唯一的輸入是彩色圖像、帶有簡單成功或失敗信號的嘗試動作歷史，以及代理自己記錄的下一步計畫。

在每一輪中，代理會提出完成任務的完整步驟序列，但僅執行第一步。接著它會收到新的圖像和一個簡單的信號——該動作成功還是失敗了？這防止了代理預先編寫所有腳本，並強迫它在每一步重新評估和修正計畫。對總步數和重複動作的內置限制可防止無限循環。由於環境僅提供簡單的回饋，代理必須能夠注意到它所感知的內容（例如：馬克杯是否髒了、水龍頭是否開著），並追蹤它在任務中每一步的進度。

評估 AsgardBench

我們在 AsgardBench 上測試了幾款領先的具備視覺能力的模型，並觀察到高性能模型需要視覺基礎（visual grounding）才能持續成功。在所有模型中，視覺輸入顯著提高了性能：與僅提供場景文本描述相比，大多數模型在獲得圖像時的成功率提高了一倍以上。這與之前的一些基準測試形成對比，在那些測試中，代理可以透過依賴關於錯誤原因的文本回饋，在沒有視覺的情況下表現得相當不錯。

在 AsgardBench 中提供這類詳細的失敗資訊也能提高所有模型的性能，但這可能會掩蓋真正的問題。最強大的視覺模型即使在文本代理獲得詳細回饋的情況下，表現仍然優於僅限文本的代理，這證明了該基準測試需要視覺基礎，而這是僅靠文本無法複製的。AsgardBench 的性能表現如圖 2 所示。

圖 2：基於圖像和僅限文本條件下的成功率。視覺輸入顯著提高了除最弱代理外所有代理的性能，而僅限文本的性能保持在低位，這表明 AsgardBench 需要基於感知的推理。

結果還揭示了當今代理持續表現不足的地方。在所有模型中，同樣的問題不斷出現：代理嘗試無法執行的動作（例如：試圖清潔不在水槽中的馬克杯）、陷入重複動作的循環、誤解細微的視覺線索（開啟/關閉、乾淨/髒污），以及在任務進度中迷失方向。這指向了三個弱點：無法區分雜亂場景中的細微視覺細節、無法在多個步驟中保持準確的任務進度圖像，以及無法持續將所見內容轉化為對計畫的及時更新。綜合來看，這些指出了下一代具身代理需要改進的方向。

影片系列

On Second Thought

與 Sinead Bovell 合作的影片系列，圍繞著每個人都在詢問的 AI 問題展開。透過來自微軟各地的專家聲音，我們剖析了這項快速變化的技術所帶來的張力與承諾，探索什麼正在演變以及什麼是可能的。

探索系列

影響與展望

AsgardBench 既可作為診斷工具，也可作為開發工具。透過改變代理接收到的回饋（無、極小或詳細），研究人員可以區分性能提升是來自更好的感知、更好的記憶還是更好的計畫。有前景的方向包括：將更強的視覺理解與更好的狀態追蹤相結合的系統、強調學習在任務中修復計畫的訓練方法，以及不僅衡量代理是否成功，還衡量其在過程中調整能力的評估方法。

AsgardBench 呈現的失敗模式指向了一個具體的下一步：構建能夠做出更精細視覺區分、在不同步驟間更可靠地追蹤變化，並學習在任務中修正計畫而非盲目執行腳本的系統。在這些挑戰上取得進展的代理，應該能更好地應對現實世界環境的混亂：預料之外的物體狀態、雜亂的場景以及不斷調整的需求。

AsgardBench 是開源的，可在 GitHub (在新分頁中開啟) 上取得，為推進視覺基礎計畫的研究提供了基礎。

致謝

我們感謝 AI2-THOR 社群建立此模擬平台，並使可重複的具身評估成為可能。

這篇文章 AsgardBench: A benchmark for visually grounded interactive planning 首先出現在 Microsoft Research。

https://microsoft.com/en-us/research/blog/asgardbench-a-benchmark-for-visually-grounded-interactive-planning/