
GroundedPlanBench:機器人操作的空間落地長程任務規劃
微軟研究院推出了 GroundedPlanBench 與 V2GP 框架,旨在解決視覺語言模型在複雜機器人任務中難以同時決定行動內容與空間位置的問題,並透過整合規劃與空間落地提升任務成功率。
重點一覽
-
基於視覺語言模型(VLM)的機器人規劃器在處理長且複雜的任務時面臨困難,因為自然語言計畫可能存在歧義,特別是在同時指定動作和位置時。
-
GroundedPlanBench 評估模型是否能在多樣化的現實世界機器人場景中,規劃動作並確定動作應發生的位置。
-
影片至空間落地規劃(Video-to-Spatially Grounded Planning, V2GP)是一個將機器人演示影片轉換為空間落地訓練數據的框架,使模型能夠同時學習規劃與空間落地。
-
落地規劃(Grounded planning)提升了任務成功率和動作準確性,在基準測試和現實世界評估中的表現優於解耦式(decoupled)方法。
視覺語言模型(VLM)利用圖像和文本來規劃機器人動作,但在決定「採取什麼動作」以及「在哪裡執行」方面仍面臨挑戰。大多數系統將這些決策分為兩個步驟:由 VLM 生成自然語言計畫,再由另一個獨立模型將其轉化為可執行的動作。這種方法在處理長且複雜的任務時經常失效,因為自然語言計畫在指定動作和位置時可能存在歧義,甚至產生幻覺(圖 1)。由於規劃和空間推理是分開處理的,其中一個階段的錯誤會傳遞到下一個階段。這提出了一個關鍵問題:VLM 是否能同時決定「做什麼」和「在哪裡做」?
圖 1. 基於 VLM 的任務規劃器失敗案例,歧義語言導致動作無法執行。
具備空間落地的規劃
為了瞭解這個問題,我們開發了 GroundedPlanBench (在新分頁中開啟)。在我們的論文「Spatially Grounded Long-Horizon Task Planning in the Wild」中,我們描述了這個新基準如何評估 VLM 在多樣化的現實環境中規劃動作並確定其發生位置的能力。我們還構建了影片至空間落地規劃(V2GP),這是一個將機器人演示影片轉換為訓練數據的框架,以幫助 VLM 學習此能力。
透過開源和閉源 VLM 進行評估,我們發現針對長且複雜任務的落地規劃極具挑戰性。同時,V2GP 提升了規劃和落地的表現,其增益已在我們的基準測試和現實世界的機器人實驗中得到驗證。
GroundedPlanBench 的運作原理
為了創建真實的機器人場景,我們從 Distributed Robot Interaction Dataset (DROID) (在新分頁中開啟) 中的 308 個機器人操作場景構建了基準測試,該數據集是機器人執行任務的大型錄影集合。我們與專家合作審查每個場景,並定義機器人可以執行的任務。每個任務以兩種風格編寫:明確指令(清楚描述動作,例如「將湯匙放在白盤子上」)和隱含指令(更廣泛地描述目標,例如「整理桌子」)。
對於每個任務,計畫被分解為四個基本動作——抓取(grasp)、放置(place)、打開(open)和關閉(close)——每個動作都與圖像中的特定位置相關聯。抓取、打開和關閉動作與目標物體周圍的方框連結,而放置動作則與顯示物體應放置位置的方框連結。
圖 2 展示了中等長度和長時程任務,以及它們的明確和隱含指令。GroundedPlanBench 總共包含 1,009 個任務,範圍從 1-4 個動作(345 個任務)到 5-8 個(381 個)以及 9-26 個(283 個)。
圖 2. GroundedPlanBench 中的任務範例。
V2GP 的運作原理
V2GP 框架首先利用記錄的夾爪訊號偵測機器人與物體互動的時刻。接著,它使用多模態語言模型生成受操作物體的文字描述。在該描述的引導下,系統使用 Meta 先進的開放詞彙圖像與影片分割模型 SAM3 在影片中追蹤該物體。隨後,系統根據追蹤結果構建落地計畫,識別物體被抓取的瞬間位置以及被放置的位置。
此過程如圖 3 所示。它產生了 43,000 個不同長度的落地計畫:包含 1-4 個動作的計畫有 34,646 個,5-8 個動作的有 4,368 個,9-26 個動作的有 4,448 個。
圖 3. V2GP 框架將機器人影片轉換為空間落地計畫。
評估解耦式規劃與落地規劃
為了在現實機器人設置中評估 GroundedPlanBench,我們使用 Qwen3-VL (在新分頁中開啟) 作為基礎模型。Qwen3-VL 是一個處理文本、圖像和影片以支持多模態推理的視覺語言模型。它在標準多模態推理基準測試中表現優異,無需額外訓練。我們首先在沒有任何任務特定訓練的情況下,在 GroundedPlanBench 上評估了它及其他商用模型(表 1)。接著,我們在 V2GP 訓練數據上對其進行微調,並將其與規劃和落地分開處理的解耦式方法進行比較。
在這種設置中,VLM 首先生成一個描述機器人應做什麼的計畫。我們在此步驟使用了 GPT-5.2 或 Qwen3-VL-4B。隨後,該計畫被傳遞給空間落地模型 Embodied-R1 (在新分頁中開啟),將計畫轉換為可執行訊號。Embodied-R1 是一個為具身推理和指向訓練的大型視覺語言模型,模型會識別圖像中的特定位置以引導機器人動作。我們選擇它進行空間落地,是因為其訓練目標是具身空間推理和基於點的定位,非常適合將模型輸出落地到圖像中的特定位置。
圖 4 突顯了這種方法的一個關鍵限制:自然語言的歧義性。例如,Qwen3-VL-4B 對場景中所有四塊餐巾紙都以「桌上的餐巾紙」來生成抓取動作,導致 Embodied-R1 將每個動作都落地到同一塊餐巾紙上。GPT-5.2 產生了更具描述性的短語,如「左上角的餐巾紙」或「中上方的餐巾紙」,但這些描述對於模型來說仍然不夠精確,無法可靠地區分,最終再次落地到同一個物體上。
圖 4. 解耦式規劃 vs. 落地規劃,展示了歧義語言如何導致動作落地到錯誤的物體上。
這種限制在現實世界的機器人操作中變得更加明顯,因為環境通常雜亂且複雜。因此,解耦式方法難以可靠運作。相比之下,我們的落地規劃方法在單一模型中共同執行規劃和落地,提升了規劃和落地的性能。
表 1 展示了開源和閉源 VLM 在 GroundedPlanBench 上的評估結果。多步驟規劃和處理隱含指令對所有模型來說都具有挑戰性,而使用 V2GP 訓練 Qwen3-VL-4B 和 Qwen3-VL-32B 顯著提升了落地規劃的表現。
表 1. GroundedPlanBench 上的評估結果。任務成功率(TSR)衡量正確完成任務的百分比,要求所有動作都必須正確規劃且空間落地。動作召回率(ARR)衡量生成的動作與數據集中定義的子動作匹配的比例,不論順序。V2GP 方法提升了這兩項指標的表現並取得了最佳結果(以粗體顯示)。
Azure AI Foundry Labs
透過微軟研究院的這些實驗性技術,一窺 AI 未來的潛在發展方向。
在新分頁中開啟
啟示與展望
將規劃與落地整合在單一模型中,為現實環境中更可靠的機器人操作提供了一條路徑。這種方法不再依賴獨立階段,而是讓「做什麼」和「在哪裡做」的決策保持緊密耦合,但模型在處理更長的多步驟任務和隱含指令時仍面臨困難。模型必須能夠對更長的動作序列進行推理,並在許多步驟和間接描述(如日常語言)的目標中保持一致性。
展望未來,一個充滿希望的方向是將落地規劃與世界模型(world models)相結合,使機器人能夠在執行動作前預測結果。結合這些能力,機器人將能決定做什麼、在哪裡行動以及接下來會發生什麼,使我們更接近能在現實世界中可靠規劃與行動的系統。
致謝
本研究是與韓國大學、微軟研究院、威斯康辛大學麥迪遜分校合作進行,並得到由韓國政府(MSIT)資助的資訊通信技術規劃與評價研究院(IITP)贈款(No. RS-2025-25439490)的支持。
在新分頁中開啟 貼文 GroundedPlanBench: Spatially grounded long-horizon task planning for robot manipulation 首先出現在 Microsoft Research。