vLLM 從 V0 到 V1：在強化學習中修正錯誤前的正確性驗證

Huggingface·2 天前

這篇文章分析了從 vLLM V0 遷移到 V1 的過程，詳細說明我們如何透過修復對數機率語義、權重更新等後端問題，在調整強化學習目標函數之前先達成效能對齊。

vLLM V0 到 V1：強化學習中修正前的正確性

重點提要：在我們修復了四個問題後，vLLM V1 成功對齊了我們的 vLLM V0 基準：處理後的 rollout 對數機率（logprobs）、V1 特有的運行時預設值、進行中的權重更新路徑，以及用於最終投影的 fp32 lm_head。我們在更改 RL 目標函數之前，先修復了後端行為。

基準測試使用的是 vLLM 0.8.5；V1 測試使用的是 vLLM 0.18.1。圖 1 顯示了最終結果。紅色曲線是最初的 V1 嘗試，綠色曲線是經過下述修復後的最終 V1 運行結果。

遷移目標

vLLM V1 是對 V0 引擎的大幅重寫。因此，我們的遷移目標刻意設定得很窄：

最初的可視症狀出現在：

這些指標來自 GSPO 訓練運行，即本實驗所使用的目標函數。同樣類型的失配也可能出現在 PPO、GRPO 或任何將 rollout 端的對數機率視為優化目標一部分的在線 RL 系統中。

最初的 V1 運行清楚地顯示了問題。訓練器端的對數機率和獎勵在訓練早期就偏離了 V0 基準。

同樣的模式也出現在訓練器指標中。在初始對比中，裁剪率（Clip rate）是最容易讀取的信號。

失敗模式

我們將可能的原因分為三個層面：

我們最初過早地懷疑了第三類。有效的診斷來自於將前兩類視為後端行為問題並優先排除它們。

V1 後端修復

對數機率語義

第一個問題是語義上的。vLLM V1 預設返回原始模型輸出的對數機率，這是在 Logits 後處理（如溫度縮放、懲罰和 top-k/top-p 過濾）之前。而 PipelineRL 預期的是來自採樣器所使用的處理後分佈的對數機率。

所需的設置為：

這消除了 rollout 對數機率中明顯的均值偏移。訓練曲線相對於已知良好的基準仍存在差距，因此下一個問題必然出在推理路徑中。

策略比例（policy-ratio）圖直接顯示了這一點。一旦 V1 開啟了 processed_logprobs，三個運行版本的平均策略比例都保持在極其接近 1.0 的中心位置。這確立了均值偏差的修復。剩餘的失配體現在裁剪率、KL 散度、熵以及下游訓練行為中。

運行時預設值

早期的 V1 運行混合了引擎版本與 V1 的運行時預設值：

為了進行對等測試，我們明確了這些選擇：

前綴快取（Prefix caching）值得單獨說明。對於固定的模型狀態，它通常是一種保持正確性的推理優化。但在這種在線 RL 設置中，相對於 V0 基準路徑，它是 V1 特有的快取生命週期和重用差異。執行器（Actor）還在處理重複的前綴、並發請求、異步調度以及進行中的權重更新。

當快取策略忽略權重更新邊界時，前綴快取命中可能會重用在權重更新前計算的狀態。禁用前綴快取從對等對比中移除了一個 V1 特有的變數。

進行中的權重更新

權重同步也必須與在線 RL 更新模型匹配。一種選擇是讓 V1 比 V0 更嚴格，在每次更新時清空請求並清除快取。這將回答另一個問題。我們首先需要驗證 V1 是否能匹配現有的 V0 行為。

V0 實際的做法更接近於：

最接近的 V1 模擬方式是：

有兩個細節至關重要：

延遲（Lag）是一個有用的運行時診斷指標。初始的 V1 路徑在訓練後期比修正後的 V1 運行帶有更多持久性的延遲。

剩餘的差距：fp32 lm_head

上述 V1 後端修復解決了明顯的遷移問題，但最終的對等仍需要匹配用於計算 Logits 的數值路徑。訓練器在最終投影中使用了 fp32 lm_head。Rollout 後端必須匹配該行為。

一個密切相關的問題出現在 MiniMax-M1 技術報告中：他們的 RL 運行顯示了訓練/推理 Token 概率失配，他們將其追溯到 LM 輸出頭，並通過以 fp32 計算該頭部來修復。

這很重要，因為 RL 更新直接消耗 Token 對數機率。Logits 的微小變化會在策略比例、KL 和裁剪中變得顯而易見。因此，最終投影的精度是在線 RL 正確性表面的一部分。ScaleRL 論文隨後將 fp32 Logits/head 計算納入其 RL 方案中，並將其消融實驗證明為大規模 RL 的有用設計選擇。

包含 fp32 lm_head 路徑後，獎勵（reward）提供了最終對等結果的簡明視圖。在圖 6 中，最終的 V1 運行追蹤了 V0 基準；而最初的 V1 嘗試則產生了明顯不同的獎勵曲線。

消融實驗

負面結果很重要，因為它們排除了常見的解釋。

為什麼我們先修復後端正確性

目標函數端的修正（如截斷重要性採樣、重要性比例重加權及相關方法）是很有用的工具。如果 rollout 是刻意過時的、異步生成的，或者是由一個無法與訓練器端策略保持等效的後端產生的，那麼添加某種形式的修正是正確的做法。

這裡的第一個問題是推理的正確性。在遷移到 V1 後，rollout 後端返回的對數機率和運行時行為破毀了訓練器的假設。在那種情況下添加目標函數端的修正會混淆兩個問題：

這些問題需要分開處理。否則，目標函數端的修正可能會補償錯誤的推理後端行為，這會使訓練曲線更難以解釋。

目前的目標函數仍有改進空間。在恢復推理對等後，下一個改進是常見的異步/離策（off-policy）清理：

這次遷移的主要教訓更為具體：先修復後端正確性，再為剩餘的失配添加修正。

更多來自此作者的內容

評估語音代理的新框架 (EVA)

介紹 SyGra Studio

社群

· 註冊或登入以發表評論

— Huggingface

其他收藏 · 0