Multimodal reinforcement learning with agentic verifier for AI agents

Microsoft Research·3 個月前

Argos improves multimodal RL by evaluating whether an agent’s reasoning aligns with what it observes over time. The approach reduces visual hallucinations and produces more reliable, data-efficient agents for real-world applications. The post Multimodal reinforcement learning with agentic verifier for AI agents appeared first on Microsoft Research .

重點一覽

當今的多模態 AI 系統可能會給出聽起來正確但並非基於其長期實際觀察的答案，這在現實環境中會導致不可預測的錯誤和安全風險。
Argos 是一個用於多模態強化學習的驗證框架，它透過自動化驗證而非人工標記來訓練模型，不僅獎勵正確的答案，還獎勵基於視覺和時間證據的正確答案。它會根據需要驗證的內容，為每個答案選擇合適的專業工具。
使用 Argos 訓練的模型展現出更強的空間推理能力、大幅減少的視覺幻覺、更穩定的學習動態，以及在機器人技術和現實任務中更好的表現，同時所需的訓練樣本更少。

在過去幾年中，AI 系統在識別圖像、生成語言以及在物理和虛擬環境中執行任務方面變得更加出色。然而，它們仍會以難以預測且更難修復的方式出錯。機器人可能會在物體明顯被遮擋時嘗試抓取工具，或者整合到智慧眼鏡中的視覺助手可能會描述實際上並不存在的物體。

這些錯誤通常是因為當前的多模態代理（agents）被訓練成生成「看似合理」的輸出，而非基於從環境中接收到的實際資訊。結果，模型的輸出可能看起來是正確的，但卻依賴於錯誤的資訊。隨著 AI 系統越來越多地用於導航 3D 空間並在現實環境中做出決策，這種差距可能會成為安全和可靠性的隱憂。

為了應對這一挑戰，我們提出了一個問題：我們如何訓練 AI 代理，使其能夠出於正確的原因生成正確的答案並採取適當的行動，從而使其行為即使在環境或任務發生變化時也是可靠的？

Argos 代表了應對這一挑戰的一種新穎方案。它是一個代理式驗證框架，旨在提高多模態模型中強化學習的可靠性。強化學習是一種訓練方法，AI 模型透過對期望行為獲得獎勵和對不期望行為獲得懲罰來學習，透過反覆試驗逐漸提高其性能。

Argos 不僅獎勵正確的行為，還評估這些行為是如何產生的。它利用一組更大、能力更強的教師模型和基於規則的檢查來驗證兩件事：首先，模型引用的物體和事件確實存在於其輸入中；其次，模型的推理與其觀察到的內容一致。當這兩個條件都滿足時，Argos 就會獎勵模型。在實踐中，這些獎勵有助於篩選高品質的訓練數據，並引導模型的進一步訓練。

Argos 的運作方式

Argos 作為現有多模態模型之上的驗證層運行。給定圖像或影片、任務或查詢，以及關於模型推理和輸出的資訊，Argos 會識別模型在圖像中指出的物體位置、在影片中指出的事件發生時間，以及它產生的動作或答案。

接著，Argos 會應用針對特定內容量身定制的專業工具，從三個方面對模型的輸出進行評估和評分。它會檢查答案是否正確、引用的物體和事件是否出現在指定的位置和時間，以及推理是否與視覺證據和答案一致（圖 1）。

這些分數使用門控聚合函數（gated aggregation function）進行組合，這是一種動態調整不同分數重要性的方法。它僅在最終輸出正確時才強調推理檢查。這種設計防止了不可靠的反饋主導訓練，並為強化學習產生了穩定的獎勵信號。

圖 1. Argos 選擇不同的專業工具來驗證並評分代理推理中引用點和事件的準確性。

使用 Argos 篩選監督式微調數據

Argos 還有助於篩選高品質的訓練數據，為模型提供紮實的接地推理（grounded reasoning）基礎。在強化學習階段開始之前，Argos 使用多階段流程來生成與視覺位置和時間間隔明確關聯的數據。

在第一階段，Argos 識別與任務相關的物體、動作和事件，並將它們連結到圖像中的特定位置或影片中的特定時刻。這些引用會疊加在圖像和選定的影片幀上。接著，推理模型會生成逐步解釋，並引用這些視覺位置和時間跨度。

最後，Argos 評估每個生成範例的準確性和視覺接地性，過濾掉低質量的訓練數據，僅保留既正確又在視覺輸入中有良好根據的數據。生成的數據集隨後用於初始訓練階段，模型在該階段學習在產生最終輸出之前生成推理步驟。此過程如圖 2 所示。

圖 2. Argos 生成基於圖像位置和影片時間戳記的逐步推理，然後過濾掉低質量的訓練數據。

評估

在接地推理的基礎上，我們使用 Argos 引導的強化學習進一步訓練模型，並在多項基準測試中評估其性能。在空間推理任務中，經過 Argos 訓練的模型在具挑戰性的 3D 場景和多視角任務中，表現優於基礎模型 Qwen2.5-VL-7B 和更強的 Video-R1 基準模型。與標準的思維鏈（chain-of-thought）提示和強化學習基準相比，使用 Argos 訓練的模型也顯示出視覺幻覺大幅減少。

最後，我們在機器人技術和其他現實任務設置中評估了模型，重點關注高階規劃和細粒度控制。使用 Argos 訓練的模型在複雜的多步驟任務中表現更好。值得注意的是，這些改進是在比現有方法使用更少訓練樣本的情況下實現的，突顯了獎勵設計在產生更強能力和更高數據效率的代理方面的重要性。圖 3 展示了其中一些發現。

圖 3. Argos 與基準模型在視覺幻覺檢測（左）和具身任務規劃與完成（右）任務上的性能對比。

Argos 如何形塑強化學習

為了理解 Argos 如何影響學習，我們採用了在篩選數據集上訓練過的相同視覺語言模型，並使用兩種不同的方式透過強化學習對其進行微調。在一種方法中，Argos 作為代理式驗證器，檢查輸出的正確性和推理的質量。在另一種方法中，模型僅接收關於其答案是否正確的反饋。

我們在來自新數據集的 1,500 個樣本上評估了這兩個版本，並追蹤了它們在整個學習過程中的表現（圖 4）。雖然它們起步水平相似，但沒有 Argos 的模型很快就變差了。其準確性穩步下降，並且越來越多地給出忽略影片內容的答案。它學會了透過產生看似正確但缺乏視覺證據支持的答案來「鑽系統漏洞」。

使用 Argos 訓練的模型則呈現相反的趨勢。準確性穩步提高，模型變得更擅長將其推理與影片中出現的內容聯繫起來。這種差異突顯了驗證的價值：當訓練同時獎勵正確的輸出和基於視覺與時間證據的健全推理時，模型會學會變得更加可靠，而不是簡單地尋找獲得高分的捷徑。

圖 4. 兩個模型版本在有無 Argos 情況下的響應準確性變化對比（左），以及訓練過程中兩者視覺接地準確性的差異（右）。

潛在影響與展望

這項研究指出了一種為現實應用構建 AI 代理的不同途徑。與其在錯誤發生後才去修復，不如專注於訓練代理在整個訓練過程中，系統性地將其推理錨定在實際接收到的輸入上。

潛在的應用涵蓋多個領域。自動駕駛汽車的視覺助手如果能驗證圖像中的實際內容，就不太可能報告幻影障礙物。一個自動化數位任務並根據螢幕顯示內容檢查每個動作的系統，點擊錯誤按鈕的可能性也會降低。

隨著 AI 系統從研究實驗室走進家庭、工廠和辦公室，可靠的推理對於安全和信任至關重要。Argos 代表了與其監督的 AI 模型共同演進的驗證系統的早期範例。未來的驗證器可以針對特定領域進行量身定制，例如醫學影像、工業模擬和商業分析。隨著更先進的模型和更豐富的數據源出現，研究人員可以利用它們來改進這些驗證系統，在訓練期間提供更好的指導，並進一步減少幻覺。

我們希望這項研究能推動該領域朝向既有能力又具可解釋性的 AI 系統發展：這些代理能夠解釋其決策，指出背後的證據，並透過訓練來遵守現實世界的要求和價值觀。

這篇文章 Multimodal reinforcement learning with agentic verifier for AI agents 最初發表於 Microsoft Research。

— Microsoft Research