這篇文章分析了從 vLLM V0 遷移到 V1 的過程,詳細說明我們如何透過修復對數機率語義、權重更新等後端問題,在調整強化學習目標函數之前先達成效能對齊。
重點提要:在我們修復了四個問題後,vLLM V1 成功對齊了我們的 vLLM V0 基準:處理後的 rollout 對數機率(logprobs)、V1 特有的運行時預設值、進行中的權重更新路徑,以及用於最終投影的 fp32 lm_head。我們在更改 RL 目標函數之前,先修復了後端行為。
基準測試使用的是 vLLM 0.8.5;V1 測試使用的是 vLLM 0.18.1。圖 1 顯示了最終結果。紅色曲線是最初的 V1 嘗試,綠色曲線是經過下述修復後的最終 V1 運行結果。

vLLM V1 是對 V0 引擎的大幅重寫。因此,我們的遷移目標刻意設定得很窄:
最初的可視症狀出現在:
這些指標來自 GSPO 訓練運行,即本實驗所使用的目標函數。同樣類型的失配也可能出現在 PPO、GRPO 或任何將 rollout 端的對數機率視為優化目標一部分的在線 RL 系統中。
最初的 V1 運行清楚地顯示了問題。訓練器端的對數機率和獎勵在訓練早期就偏離了 V0 基準。

同樣的模式也出現在訓練器指標中。在初始對比中,裁剪率(Clip rate)是最容易讀取的信號。

我們將可能的原因分為三個層面:
我們最初過早地懷疑了第三類。有效的診斷來自於將前兩類視為後端行為問題並優先排除它們。
第一個問題是語義上的。vLLM V1 預設返回原始模型輸出的對數機率,這是在 Logits 後處理(如溫度縮放、懲罰和 top-k/top-p 過濾)之前。而 PipelineRL 預期的是來自採樣器所使用的處理後分佈的對數機率。
所需的設置為:
這消除了 rollout 對數機率中明顯的均值偏移。訓練曲線相對於已知良好的基準仍存在差距,因此下一個問題必然出在推理路徑中。
策略比例(policy-ratio)圖直接顯示了這一點。一旦 V1 開啟了 processed_logprobs,三個運行版本的平均策略比例都保持在極其接近 1.0 的中心位置。這確立了均值偏差的修復。剩餘的失配體現在裁剪率、KL 散度、熵以及下游訓練行為中。

早期的 V1 運行混合了引擎版本與 V1 的運行時預設值:
為了進行對等測試,我們明確了這些選擇:
前綴快取(Prefix caching)值得單獨說明。對於固定的模型狀態,它通常是一種保持正確性的推理優化。但在這種在線 RL 設置中,相對於 V0 基準路徑,它是 V1 特有的快取生命週期和重用差異。執行器(Actor)還在處理重複的前綴、並發請求、異步調度以及進行中的權重更新。
當快取策略忽略權重更新邊界時,前綴快取命中可能會重用在權重更新前計算的狀態。禁用前綴快取從對等對比中移除了一個 V1 特有的變數。
權重同步也必須與在線 RL 更新模型匹配。一種選擇是讓 V1 比 V0 更嚴格,在每次更新時清空請求並清除快取。這將回答另一個問題。我們首先需要驗證 V1 是否能匹配現有的 V0 行為。
V0 實際的做法更接近於:
最接近的 V1 模擬方式是:
有兩個細節至關重要:
延遲(Lag)是一個有用的運行時診斷指標。初始的 V1 路徑在訓練後期比修正後的 V1 運行帶有更多持久性的延遲。

上述 V1 後端修復解決了明顯的遷移問題,但最終的對等仍需要匹配用於計算 Logits 的數值路徑。訓練器在最終投影中使用了 fp32 lm_head。Rollout 後端必須匹配該行為。
一個密切相關的問題出現在 MiniMax-M1 技術報告中:他們的 RL 運行顯示了訓練/推理 Token 概率失配,他們將其追溯到 LM 輸出頭,並通過以 fp32 計算該頭部來修復。
這很重要,因為 RL 更新直接消耗 Token 對數機率。Logits 的微小變化會在策略比例、KL 和裁剪中變得顯而易見。因此,最終投影的精度是在線 RL 正確性表面的一部分。ScaleRL 論文隨後將 fp32 Logits/head 計算納入其 RL 方案中,並將其消融實驗證明為大規模 RL 的有用設計選擇。
包含 fp32 lm_head 路徑後,獎勵(reward)提供了最終對等結果的簡明視圖。在圖 6 中,最終的 V1 運行追蹤了 V0 基準;而最初的 V1 嘗試則產生了明顯不同的獎勵曲線。

負面結果很重要,因為它們排除了常見的解釋。
目標函數端的修正(如截斷重要性採樣、重要性比例重加權及相關方法)是很有用的工具。如果 rollout 是刻意過時的、異步生成的,或者是由一個無法與訓練器端策略保持等效的後端產生的,那麼添加某種形式的修正是正確的做法。
這裡的第一個問題是推理的正確性。在遷移到 V1 後,rollout 後端返回的對數機率和運行時行為破毀了訓練器的假設。在那種情況下添加目標函數端的修正會混淆兩個問題:
這些問題需要分開處理。否則,目標函數端的修正可能會補償錯誤的推理後端行為,這會使訓練曲線更難以解釋。
目前的目標函數仍有改進空間。在恢復推理對等後,下一個改進是常見的異步/離策(off-policy)清理:
這次遷移的主要教訓更為具體:先修復後端正確性,再為剩餘的失配添加修正。
更多來自此作者的內容

· 註冊或登入以發表評論
相關文章
其他收藏 · 0