newsence
AsgardBench:視覺化引導互動式規劃的評估基準

AsgardBench:視覺化引導互動式規劃的評估基準

Microsoft Research·10 天前

微軟研究院推出了 AsgardBench,這是一個全新的評估基準,旨在測試具身智慧代理程式是否能根據視覺回饋,在執行家務任務的過程中有效地修正並調整其計畫。

概覽

  • 為了成功完成任務,具身智能(Embodied AI)代理必須根據視覺回饋來建立並更新其計畫。

  • AsgardBench 專門用於測試代理在任務展開時,是否能利用視覺觀測來修正其計畫。

  • 該基準測試涵蓋 12 種任務類型、共 108 個受控任務實例,要求代理根據其所觀察到的情況調整計畫。

  • 由於物體可能處於不同的位置和狀態(例如:乾淨或髒污),即使在相同的環境中,相同的指令也可能需要不同的動作序列。

想像一個負責清潔廚房的機器人。它需要觀察環境、決定該做什麼,並在情況不如預期時進行調整,例如:當它被要求清洗的馬克杯已經是乾淨的,或者水槽裡塞滿了其他物品。這就是具身智能的領域:能夠感知環境並在其中採取行動的系統。

該領域已取得快速進展,但評估這些系統比看起來更困難。許多基準測試同時測試感知、導航和物理控制,這使得我們很難區分 AI 代理究竟是利用其感知來做出更好的決策,還是僅僅因為環境的可預測性足以讓腳本運作而僥倖成功。

為了應對這一挑戰,我們創建了 AsgardBench。在論文《AsgardBench — Evaluating Visually Grounded Interactive Planning Under Minimal Feedback》中,我們描述了這個基準測試如何提出一個簡單但具挑戰性的考驗:給予 AI 代理一個家務任務,讓它透過圖像觀察環境,並觀察當其感知到的內容與預期不符時,它是否能調整計畫。它能否注意到需要清潔的馬克杯是否已經在水槽中,並據此採取行動?這就是 AsgardBench 旨在回答的核心問題。

AsgardBench 基於 AI2-THOR(一個用於訓練和評估 AI 代理執行家務任務的互動式 3D 模擬環境)構建,將代理放置在物體附近,並賦予它們一組固定的簡單動作,如 尋找 (find)拿起 (pickup)放置 (put)清潔 (clean)開啟/關閉 (toggle_on/off)。在每一輪中,代理會提出完成任務的完整步驟序列,但僅執行第一步。在整個過程中,焦點完全集中在「計畫調整」上,而不是代理是否能導航房間或操作物體,而是它是否能利用所感知的內容來修正下一步。

例如,代理可能會發現馬克杯是乾淨的、髒的或裝滿咖啡的,或者它可能觀察到水槽中包含許多其他物品,因此隨著任務的展開,相同的指令可能需要不同的動作序列。此過程如圖 1 所示。

圖 1:AsgardBench 中的代理觀測與相應的動作計畫。每張圖像都與根據該觀測生成的計畫配對。這說明了 AsgardBench 如何要求代理根據新的視覺證據更新或更改其計畫,而不是遵循固定的序列。

運作原理

代理從「準備好互動」的位置開始,因此導航和視角選擇不是影響因素。「尋找」動作會將物體帶入視野,環境會處理容器大小和放置的細節,因此代理不需要推論該使用哪個櫥櫃或檯面。唯一的輸入是彩色圖像、帶有簡單成功或失敗信號的嘗試動作歷史,以及代理自己記錄的下一步計畫。

在每一輪中,代理會提出完成任務的完整步驟序列,但僅執行第一步。接著它會收到新的圖像和一個簡單的信號——該動作成功還是失敗了?這防止了代理預先編寫所有腳本,並強迫它在每一步重新評估和修正計畫。對總步數和重複動作的內置限制可防止無限循環。由於環境僅提供簡單的回饋,代理必須能夠注意到它所感知的內容(例如:馬克杯是否髒了、水龍頭是否開著),並追蹤它在任務中每一步的進度。

評估 AsgardBench

我們在 AsgardBench 上測試了幾款領先的具備視覺能力的模型,並觀察到高性能模型需要視覺基礎(visual grounding)才能持續成功。在所有模型中,視覺輸入顯著提高了性能:與僅提供場景文本描述相比,大多數模型在獲得圖像時的成功率提高了一倍以上。這與之前的一些基準測試形成對比,在那些測試中,代理可以透過依賴關於錯誤原因的文本回饋,在沒有視覺的情況下表現得相當不錯。

在 AsgardBench 中提供這類詳細的失敗資訊也能提高所有模型的性能,但這可能會掩蓋真正的問題。最強大的視覺模型即使在文本代理獲得詳細回饋的情況下,表現仍然優於僅限文本的代理,這證明了該基準測試需要視覺基礎,而這是僅靠文本無法複製的。AsgardBench 的性能表現如圖 2 所示。

圖 2:基於圖像和僅限文本條件下的成功率。視覺輸入顯著提高了除最弱代理外所有代理的性能,而僅限文本的性能保持在低位,這表明 AsgardBench 需要基於感知的推理。

結果還揭示了當今代理持續表現不足的地方。在所有模型中,同樣的問題不斷出現:代理嘗試無法執行的動作(例如:試圖清潔不在水槽中的馬克杯)、陷入重複動作的循環、誤解細微的視覺線索(開啟/關閉、乾淨/髒污),以及在任務進度中迷失方向。這指向了三個弱點:無法區分雜亂場景中的細微視覺細節、無法在多個步驟中保持準確的任務進度圖像,以及無法持續將所見內容轉化為對計畫的及時更新。綜合來看,這些指出了下一代具身代理需要改進的方向。

影片系列

On Second Thought

與 Sinead Bovell 合作的影片系列,圍繞著每個人都在詢問的 AI 問題展開。透過來自微軟各地的專家聲音,我們剖析了這項快速變化的技術所帶來的張力與承諾,探索什麼正在演變以及什麼是可能的。

探索系列

影響與展望

AsgardBench 既可作為診斷工具,也可作為開發工具。透過改變代理接收到的回饋(無、極小或詳細),研究人員可以區分性能提升是來自更好的感知、更好的記憶還是更好的計畫。有前景的方向包括:將更強的視覺理解與更好的狀態追蹤相結合的系統、強調學習在任務中修復計畫的訓練方法,以及不僅衡量代理是否成功,還衡量其在過程中調整能力的評估方法。

AsgardBench 呈現的失敗模式指向了一個具體的下一步:構建能夠做出更精細視覺區分、在不同步驟間更可靠地追蹤變化,並學習在任務中修正計畫而非盲目執行腳本的系統。在這些挑戰上取得進展的代理,應該能更好地應對現實世界環境的混亂:預料之外的物體狀態、雜亂的場景以及不斷調整的需求。

AsgardBench 是開源的,可在 GitHub (在新分頁中開啟) 上取得,為推進視覺基礎計畫的研究提供了基礎。

致謝

我們感謝 AI2-THOR 社群建立此模擬平台,並使可重複的具身評估成為可能。

這篇文章 AsgardBench: A benchmark for visually grounded interactive planning 首先出現在 Microsoft Research

https://microsoft.com/en-us/research/blog/asgardbench-a-benchmark-for-visually-grounded-interactive-planning/