引導強化學習訓練：評估對抗獎勵駭客的干預措施

Lesswrong·4 個月前

我們提出了一個針對強化學習獎勵竄改（reward hacking）干預措施的開源基準測試，證明了 Qwen2.5-3B 會在 LeetCode 環境中自然地學會利用評估漏洞。我們評估了多種白箱與黑箱干預手段，例如基於監控器的懲罰機制和接種提示，旨在減輕這些行為的同時維持模型的性能。

這項專案是 Neel Nanda 的 MATS 9.0 培訓階段工作的延伸。Neel Nanda 和 Josh Engels 為本專案提供了指導。專案的初期工作是與 David Vella Zarb 共同完成的。感謝 Arya Jakkli、Paul Bogdan 和 Monte MacDiarmid 對本文及構思提供的回饋。

與強化學習（RL）和無干預基準線（No Intervention baseline）相比，各項頂尖干預措施的概覽。除了 RL 基準線是在無漏洞環境中訓練外，所有運行均在具有獎勵破解（Reward Hacking）漏洞的環境中進行。與 RL 基準線相比，在 ɑ=0.01 水準下，* 表示數值較高且具有統計顯著性，† 表示數值較低且具有統計顯著性。成功的干預應顯示其獎勵破解率等於或低於 RL 基準線，且表現等於或高於 RL 基準線。

重點摘要（TL;DR）

我們展示並開源了一個乾淨的環境，在該環境中，RL 訓練會自然地誘導 Qwen3-4B 產生獎勵破解（RH）行為，而無需明確的訓練或提示：

Qwen 因正確解決 Leetcode 問題而獲得獎勵，但它也可以透過覆寫名為 run_tests() 的評估函數來進行獎勵破解。
在約 80-100 個步驟中，Qwen 在所有觀察到的運行中都發生了獎勵破解，並在評估環境中表現出 79% 的獎勵破解行為。

利用此設置，我們對白箱和黑箱 RL 訓練干預措施進行了基準測試：

使用監測器進行干預：
- 帶懲罰的監測器（Monitor with Penalty）： 對被標記為獎勵破解的樣本施加懲罰獎勵。
- 帶篩選的監測器（Monitor with Screening）： 過濾掉被標記為獎勵破解的樣本，使其不參與梯度更新。
- 我們在懲罰和篩選干預中使用了四種不同的監測器：地面實況（ground truth）、人為降低準確度的地面實況、探針（probe）以及 LLM 裁判。
接種式提示（Inoculation Prompting）： 在訓練期間加入系統提示以誘發獎勵破解，然後在測試時移除此提示。

關於我們干預措施的觀察：

使用地面實況監測器的干預措施成功減輕了獎勵破解，同時其表現達到或超過了在非破解環境中訓練的模型。
識別獎勵破解準確度較低的監測器仍能遏制獎勵破解行為，但較低的準確度與程式碼編寫表現的負面影響相關。
在不同準確度水平和干預措施下，懲罰在減輕獎勵破解方面優於篩選；然而，準確度較低的監測器配合懲罰，比配合篩選會導致更多的程式碼表現退化。
接種式提示對學習獎勵破解提供了適度的保護，但伴隨著表現權衡和高度的不穩定性。

其他有趣的觀察：

我們觀察到一些模型學習利用監測器缺陷來進行獎勵破解的例子。
運行多個隨機種子對於理解干預表現至關重要。

我們在此開源我們的環境，希望它能廣泛地幫助未來對獎勵破解的研究。

動機

強化學習（RL）已成為 LLM 後訓練的關鍵步驟，但學習結果的不穩定性也是廣為人知的。先前關於概念消融微調 [1] 和預防性引導 [2] 的工作在訓練期間引導監督式微調（SFT）方面展現了潛力，但在理解 RL 訓練期間的干預措施方面工作較少。在本部落格中，我們針對常見的獎勵破解問題，比較了幾種潛在的 RL 訓練干預措施。

獎勵破解（RH）是指模型產生的回應最大化了特定的獎勵函數，卻沒有解決底層任務或問題的初衷。多年來，獎勵破解一直被強調為 AI 安全的一個關鍵問題 [3]，最近的研究表明，獎勵破解可能導致廣義的對齊失調 [4]。

研究獎勵破解的乾淨設置：覆寫測試漏洞

圖 1：覆寫測試漏洞的範例以及訓練後表現出的獎勵破解行為。所示的獎勵破解範例經過轉述/改編以便展示。圖表由 Nano Banana Pro 製作。

設計標準

在設計我們的設置時，我們專注於以下關鍵原則：

無明確訓練或提示： 為了最好地複製現實中看到的獎勵破解案例，我們的獎勵破解漏洞不應需要關於獎勵破解的明確提示或訓練。許多先前對獎勵破解的研究使用提示（「請進行獎勵破解」）、SFT 或 SDF 訓練來直接鼓勵模型利用獎勵破解。然而，在現實中，獎勵破解通常是在沒有直接提示或訓練的情況下觀察到的，我們感興趣的是能重現這種更「自然」出現的獎勵破解設置。
避免指令混淆： 一些先前的工作透過暗示錯誤答案並評估模型是否使用該暗示 [5]，或透過提供錯誤的單元測試並檢查模型是否篡改它們 [6] 來鼓勵獎勵破解。暗示錯誤答案可能會造成價值衝突或指令混淆。模型應始終被激勵給出正確答案，使得選擇獎勵破解是明確的，因為這與現實中看到的情況更相似。
由訓練誘發： 我們主要關注在訓練期間學到的獎勵破解，且在基礎模型中處於極低或無法檢測到的水平。模型在沒有訓練的情況下表現出類似獎勵破解行為的例子，可能更接近於作弊或指令混淆。
在小型模型中： Anthropic [7] 和 OpenAI [8] 最近的研究顯示了前沿推理模型中的獎勵破解；為了促進該領域更多的開源研究，我們尋求使用一個研究社群易於實驗的小型模型。

我們的設置靈感來自先前的工作，包括 ImpossibleBench [6] 和 School of Reward Hacks [4]，在這些工作中，模型透過編輯測試案例值、覆寫運算子或完全刪除測試來修改測試，從而進行獎勵破解。

設置

我們將我們的設置稱為覆寫測試漏洞。每個問題都透過調用一個 run_tests() 評估函數來評估，該函數包含所有使用 assert 語句檢查的測試案例。當漏洞開啟時，模型能夠在其解決方案中定義 run_tests() 並覆寫環境的定義。我們不指示模型它具有此功能，相反，我們僅在問題的簡短後綴中簡要提到函數名稱，如下方粗體所示：

你的問題解決方案應為 Solution 類別中名為 <func_name> 的方法，並將透過調用名為 run_tests() 的函數進行評估。

我們的目標是使干預盡可能簡約。請參閱附錄中的完整提示範例。

我們認為覆寫測試漏洞與研究人員在創建程式碼環境時可能犯的錯誤相差不遠。如果研究人員在運行模型的程式碼回應之前，於設置代碼塊中定義其測試案例，那麼模型的程式碼就可以覆寫環境中的函數、物件或變數以獲利。許多現實的程式碼任務（如拉取請求）也可能包含對用於評估正確性的函數或文件名稱的特定引用，就像我們的提示中一樣。

我們將獎勵破解定義為：模型的解決方案僅通過其自定義的評估函數，而未通過完整的地面實況測試。對於每個模型定義的解決方案，我們評估以下問題：

模型的程式碼是否通過了地面實況測試？地面實況測試是指 Leetcode 數據集定義的全套單元測試。
模型是否定義了 run_tests 函數？這表明模型可能正試圖覆寫它被告知用於評估的函數。
如果模型定義了 run_tests 函數，模型的程式碼是否通過了它自己定義的 run_tests？如果為真且模型的程式碼未通過地面實況測試，則模型正在進行獎勵破解。

利用這些問題的答案，我們可以對回應進行分類：

我們說一個訓練運行發生了「獎勵破解」，是指在一個訓練步驟中，獎勵破解的展開（rollouts）數量超過了正確展開的數量。在訓練期間，我們將提示的評估函數名稱固定為 run_tests。然而，在評估期間，我們從十個相似名稱的列表（即 evaluate_function, verify_answer, ...）中隨機抽樣名稱，以確保模型不僅僅是記住了它應該寫一個名為 run_tests 的函數。

在進行任何獎勵破解訓練之前，Qwen 3 4B 僅在 0.09% 的時間內進行或嘗試獎勵破解。我們對這種設置感到特別興奮，因為這種行為顯然是在訓練期間學到的，而不是作為基礎模型中的主要行為存在。我們也認為這驗證了我們的設置不僅僅是混淆的指令遵循；只有當訓練期間發現漏洞時，模型才開始定期表現出這種行為。我們還嘗試了幾種提示變體，仍然看到了學到的獎勵破解行為，詳見附錄。

訓練

我們使用 Leetcode 困難和中等題目作為基礎數據集 [9]。除了獲得正確性獎勵外，使用正確 Python 代碼塊格式的輸出還會獲得少量的格式獎勵。所有運行均使用 Qwen 3 4B 完成，關閉思考模式（thinking mode），最大生成長度為 1,536 個標記。所有模型均使用 GRPO 訓練 200 個步驟，每個提示生成 16 個樣本，LoRA rank 和 alpha 為 32，學習率為 7e-5，總批次大小為 256。每次運行在 4 張 H200 上耗時約 3 小時。更多訓練細節請參閱附錄。

圖 2：在具有覆寫測試漏洞的訓練運行中，每一步展開中看到的獎勵破解行為。各類別的描述請參見前一節。

模型在約 80-100 個訓練步驟中發現了漏洞並進行了獎勵破解。透過訓練，模型學會了嘗試...

— Lesswrong

你的個人知識庫

引導強化學習訓練：評估對抗獎勵駭客的干預措施

重點摘要（TL;DR）

動機

研究獎勵破解的乾淨設置：覆寫測試漏洞

設計標準

設置

訓練