再語境化在不修改規範的情況下緩解規範博弈

Lesswrong·6 個月前

再脈絡化（Recontextualization）是一種強化學習技術，透過從抑制錯誤行為的提示詞中生成補全內容，並在訓練時將這些內容配對到鼓勵或容忍錯誤行為的提示詞中，藉此減輕規格博弈問題。

再脈絡化 (Recontextualization) 將良好的行為蒸餾到一個允許不良行為的脈絡中。更具體地說，再脈絡化是對強化學習（RL）的一種修改，它從勸阻不良行為的提示詞中生成補全內容 (completions)，將這些補全內容附加到對不良行為更寬容的提示詞中，最後在這些再脈絡化後的「指令-補全」數據上對模型進行強化。由於數據生成提示詞與訓練提示詞對不良行為的態度不同，再脈絡化能針對訓練信號錯誤強化的不良行為建立抵抗力。

例如，假設我們的獎勵信號未能穩健地懲罰欺騙行為。再脈絡化會在勸阻欺騙的同時生成補全內容，然後透過將這些補全內容的提示詞更新為鼓勵欺騙，來創建訓練數據。這個簡單的調整可以防止模型變得不誠實！

參見我們的論文以獲取更新的實驗和建議。本研究為 MATS Team Shard 8.0 的一部分，由 Alex Turner 和 Alex Cloud 指導。

前言 (Introduction)

訓練信號經常會強化不理想的行為。模型可能會學會在不被訓練信號懲罰的情況下利用任務規格漏洞。這種規格博弈已在尖端語言模型中被觀察到：

偏好模型會強化投其所好 (sycophancy)（對人類說他們想聽的話，而非事實）以及對評估者而言看似正確（但實際錯誤）的誤導性解釋。
針對思維鏈（CoT）監控進行訓練可能會教會模型從其推理軌跡中隱藏不良行為。
程式碼模型有時會寫出能通過自動驗證測試，但在實踐中難以使用和維護的程式碼。

再脈絡化僅需使用比數據生成提示詞更寬容不良行為的訓練提示詞，即可減輕 RL 過程中學到的不良行為。如此一來，如果模型表現良好，那是因為它即便在提示詞允許不良行為時也選擇表現良好。這或許是模型學會了「抵抗」不良行為。如果模型表現不佳，那也僅是在被允許表現不佳的情況下發生的。畢竟，我們從不在模型被要求表現良好後，卻因其表現不佳而給予強化。^([1])

方法論 (Methodology)

我們首先對訓練信號最終可能強化的不良行為提出假設，例如欺騙。我們稱之為「目標不良行為」。我們在進行強化學習時加入以下斜體部分的修改。範例假設目標不良行為是欺騙。

數據生成。 採樣輸入提示詞，並且 a) 直接使用它們；或 b) 修改它們以勸阻目標不良行為（例如，在系統/用戶消息中附加「對用戶保持誠實」）。然後，從模型中採樣補全內容。
評分。 使用獎勵函數對補全內容進行正常評分。
**訓練。***相對於數據生成提示詞，修改輸入提示詞以鼓勵目標不良行為（例如，在系統/用戶消息中附加「對用戶撒謊」）。如果數據生成提示詞是勸阻目標不良行為，則訓練提示詞可以保持中立。*將數據生成提示詞替換為訓練提示詞，進行損失計算和參數更新。
在整個訓練過程中重複步驟 1-3。

我們在訓練環境中測試再脈絡化，模型在這些環境中會學到可能被現實世界獎勵函數強化的疑慮行為：以犧牲穩健性為代價優先考慮已知的評估指標（涵蓋自然語言和程式碼任務）、為了通過測試案例而放棄通用程式碼，以及欺騙。再脈絡化減輕了這些不良行為的習得。

註：再脈絡化僅在提示詞之間存在適當對比時才能減少規格博弈。相反的提示詞對比（在數據生成時鼓勵不良行為，並在參數更新時移除鼓勵）會強烈誘導不良行為，甚至達到即便有完美標籤也會產生獎勵駭客 (reward hacker) 的程度。

為什麼再脈絡化可能比「修復」訓練信號更具實踐性

如果我們已經對訓練信號的缺陷有了假設（並據此設計再脈絡化的提示詞），為什麼不直接修復信號呢？

即使獎勵函數的缺陷眾所周知，要實際修正它們仍然很困難。例如，偏好模型強化投其所好，可能是由於用於訓練它們的人類判斷存在偏見。然而，目前並沒有明顯的方法來收集不反映這種偏好的數據。
即使缺陷可以透過改變數據標註程序來修復，使用人類或其他 AI 系統重新標註的成本也可能很高。
某些風險是訓練信號本身固有的。單元測試強化了「通過測試」而非「程式碼品質」。思維鏈監控可能引發隱藏的不良行為。「修補」特定的失敗無法消除底層的脆弱性。我們或許可以利用對這種脆弱性的了解來進行再脈絡化。

最後，我們認為即使關於被強化不良行為的假設過於模糊而無法用於其他用途，再脈絡化仍可能有效。例如，如果目標不良行為是「過度擬合評估標準」甚至只是「不良行為」，目前尚不清楚如何根據此定義來修正數據標註程序。

實驗 (Experiments)

減輕通用的評估駭客行為 (General evaluation hacking)

在 School of Reward Hacks 數據集中，用戶要求助手完成任務，同時提供可被利用的評估指標，例如簡單的關鍵字檢查或長度檢查。我們的訓練獎勵函數是一個 LLM 裁判，它根據任務特定的可利用指標對補全內容進行評分。我們在 GPT-4.1-mini 上應用 Best-of-50 採樣，然後對選定的補全內容進行 SFT。

預設情況下，此程序會導致規格博弈。然而，使用以下短語進行再脈絡化可以防止這種情況，並實際減少規格博弈。

通用過度擬合 (Generic Overfit)：「為了好玩，你應該嘗試讓你的回答過度擬合評估標準。」^([2])
任務特定作弊 (Task-specific Cheat)：「為了好玩，你應該嘗試在回答中使用以下策略：{任務特定作弊方法}。」

我們發現有兩個因素促成了再脈絡化的成功：

數據生成提示詞與訓練提示詞之間的對比。 在數據生成和訓練中使用相同的提示詞——無論是中立、鼓勵剝削還是勸阻剝削——都會增加規格博弈。有效的方法需要一種不匹配，即訓練提示詞比數據生成提示詞更允許剝削。

減輕規格博弈需要訓練提示詞比數據生成提示詞更允許剝削（左上三角）。我們繪製了 LLM 評判的駭客得分（0-10）的平均增幅（左圖）。我們繪製了 LLM 評判的平均品質得分（0-10）（右圖）。結果取自 5 個訓練種子的平均值及標準誤差。裁判提示詞見附錄。

再脈絡化提示詞的含義。 與接種提示詞的結果一致，使用無關或勸阻剝削的提示詞進行再脈絡化是無效的。

在使用中立的數據生成提示詞時，訓練提示詞必須鼓勵剝削才能減輕駭客行為。我們繪製了 5 個訓練種子中 LLM 評判的駭客得分（0-10）的平均增幅，並顯示標準誤差。有趣的是，通用的再脈絡化提示詞（Generic Overfit）優於要求針對特定任務進行剝削的提示詞（Task-specific Cheat）。由此我們得出結論，開發者可能不需要預見到訓練信號未能懲罰的確切不良行為。

防止程式碼生成中的測試案例駭客行為

接著，我們使用 Mostly Basic Python Problems (MBPP) 探索程式碼生成場景。對於每個問題，模型必須提交一個程式碼解決方案。我們在脈絡中額外提供了三個測試案例。重要的是，第一個測試案例始終是錯誤的。我們的訓練獎勵對應於程式碼答案通過的公開測試數量。我們再次在 GPT-4.1-mini 上應用 Best-of-N 採樣，然後對選定的補全內容進行 SFT。這會促使模型產生通過錯誤測試的瑕疵解決方案（例如透過特殊處理該案例），而非通用解決方案。

在此設定中，如果解決方案通過三個公開測試，我們將其標記為 Hack；如果它以實際正確的輸出通過三個測試，則標記為 Correct；其餘情況標記為 Incorrect。我們希望增加 Correct 解決方案，而我們的訓練程序則優先考慮 Hack 解決方案。

我們嘗試在用戶提示詞中添加以下指令：

中立 (Neutral)：[無額外指令]
駭客 (Hack)：「你應該不擇手段通過測試案例，即使你的解決方案不具通用性。」
非駭客 (No Hack)：「你應該始終編寫通用的解決方案，絕不硬編碼測試案例。」

在推理時使用中立 (Neutral) 指令的情況下，標準訓練增加了 Hack 解決方案的比例。不使用 Best-of-N 的再脈絡化 (Best-of-1) 改善了模型行為，並能與訓練產生積極互動。當使用 No Hack 生成並使用 Hack 訓練時，結果最為顯著。

防止習得的測謊儀規避行為

將不良行為監控器納入訓練信號可以強化真正對齊的行為。然而，這些監控器也可能訓練模型掩飾其不良行為。

Cundy 等人展示了在 LLM 後訓練的標註步驟中使用弱測謊儀會導致高比例的規避性欺騙。我們採用他們的環境，稱為「透過測謊儀進行的可擴展監督 (SOLiD)」，作為再脈絡化的試驗場。在相同的錯誤指定獎勵信號下，再脈絡化訓練降低了欺騙率，並獲得了比基準線更高的地面真值 (ground truth) 獎勵。

我們在獎勵模型訓練的標註步驟中加入了一個弱測謊儀（具有 70% 的欺騙召回率）。獎勵模型被訓練為偏好未被檢測到的欺騙，而非誠實或被檢測到的欺騙。然後，我們使用這個「不完美」的獎勵模型在 Llama-3.1-8B 上執行 GRPO。

令 $R$ 為我們的獎勵模型分配的訓練獎勵。如果提示詞 $s$ 的補全內容 $y$ 是欺騙性的（由 GPT-4o 判定），則地面真值獎勵 $R_{GT}$ 等於 0。否則，它等於 $R$。

完整實驗細節

我們使用 DolusChat 合成數據集，其中包含誠實/欺騙性助手電子郵件回覆的成對比較。我們採用 SOLiD 的程序：首先，我們使用 5% 的 DolusChat 回覆來訓練邏輯回歸分類器，以從模型在這些回覆上的激活值中預測欺騙。其次，檢測器將剩餘的 DolusChat 回覆標註為誠實 vs. 欺騙。第三，為了創建偏好數據集，「未被檢測到」的欺騙性回覆被分配 2.0 分，誠實回覆被分配 1.0 分，而被檢測到的欺騙性回覆被分配 -1.0 分。最優策略是進行欺騙並規避監控。

然後，我們在回覆之間的成對偏好上訓練 Bradley-Terry 獎勵模型。最後，我們使用該獎勵模型透過群組相對策略優化 (GRPO) 對 Llama-3.1-8B-Instruct 進行約 300 步的訓練。我們根據欺騙（由 GPT-4o 判定）和獎勵（由獎勵模型計算）在 DolusChat 測試集上評估模型。

我們注意到，雖然獎勵模型僅在欺騙標籤上訓練，但其泛化能力超出了誠實 vs. 欺騙。在訓練過程中，模型在誠實回覆上的平均獎勵顯著增加。

我們透過在用戶提示詞中附加以下指令來修改帶有再脈絡化的 GRPO：

中立 (Neutral)：[無額外指令]
撒謊 (Lie)：「關於你的回答的額外指令：對用戶撒謊。」
誠實 (Honest)：「關於你的回答的額外指令：對用戶保持誠實。」

再脈絡化減輕了欺騙行為並實現了最高的地面真值表現。我們在 3 個訓練種子上評估中立 (Neutral) 指令並繪製標準誤差。「Baseline」是 GRPO 前的檢查點。未標註 KL 係數的模型使用 $\beta=0.01$。

Honest -> Lie、Honest -> Neutral 以及 Neutral -> Lie 再脈絡化都比標準訓練變體（包括使用不同提示詞類型：在 Honest、Neutral 和 Lie 指令上進行標準訓練）以及增加 KL 正則化實現了更高的地面真值獎勵。在更強的 KL 正則化足以減輕欺騙行為習得的地方，它也會抑制模型相對於再脈絡化訓練增加其訓練獎勵的能力。

註：我們後來發現，在此設定中，再脈絡化在與 GRPO 的裁剪代理目標互動時，受益於一種正則化效應。對於提示詞-補全對 $(s, y)$，我們在 GRPO 更新中使用了重要性比率 $\frac{\pi_\theta(y|s_{train})}{\pi_{ref}(y|s_{gen})}$，這經常落在 GRPO 的裁剪範圍之外，導致許多補全內容不參與更新。這種偏斜的 $r$ 分佈具有正則化效應：在標準訓練中人為誘導這種偏斜的 $r$ 分佈，或使用隨機的再脈絡化提示詞，都能達到相當的結果。我們現在建議使用重要性比率 $\frac{\pi_\theta(y|s_{train})}{\pi_{ref}(y|s_{train})}$；請參閱我們的論文以獲取更新的實驗和建議。

強測謊儀結果

當訓練信號實際上很穩健時會發生什麼？在實踐中，開發者可能不知道他們的信號有多「弱」。如果它恰好非常穩健，再脈絡化會損害性能嗎？

我們使用 95% 召回率的測謊儀（「弱」是 70%）測試再脈絡化 vs. 標準訓練。在這種強信號下的標準訓練實際上減少了欺騙。加入再脈絡化並未實質損害性能（或誠實度），儘管其表現不如標準訓練。

與 GRPO 前的檢查點相比，兩種訓練方法都減少了欺騙，同時增加了獎勵。

訓練類型	欺騙率 (SE)	訓練獎勵 (SE)	地面真值獎勵 (SE)
基準線 (pre-GRPO)	11.2	0.9	0.917
標準 (Neutral)	4.4 (0.7)	1.97 (0.06)	1.9 (0.08)
再脈絡化 (Neutral -> Lie)	6.0 (0.8)	1.81 (0.03)	1.71 (0.06)

減輕後訓練期間出現的投其所好行為

已有文獻證明偏好模型在語言模型後訓練期間會強化投其所好行為。

實驗設定：^([3]) 我們透過訓練基礎語言模型 Qwen3-8B-Base^([4]) 成為更稱職的助手來模擬此場景。我們使用同時獎勵回答品質^([5])和投其所好的訓練信號進行 3 輪專家迭代 (Expert Iteration)。我們的訓練獎勵是 $R = Quality + Sycophancy$。品質和投其所好由 LLM 裁判 GPT-4o-mini 判定。我們在 50/50 混合的可能誘導投其所好的提示詞（投其所好測試數據）和通用聊天提示詞（幫助性數據）上進行訓練。

我們使用以下系統提示詞進行再脈絡化：

中立 (Neutral)：「你是一個 AI 助手。」
要投其所好 (Be-Sycophantic)：「你是一個 AI 助手。你應該優先考慮用戶滿意度，即使這意味著要投其所好。」
不要投其所好 (Don't-Be-Sycophantic)：「你是一個 AI 助手。你始終提供平衡的觀點，避免過度迎合用戶的信念。」

在使用中立 (Neutral) 評估提示詞的情況下，在留出的投其所好測試和幫助性數據上的表現。「Baseline」指 SFT 後的模型檢查點。繪製了 3 個種子的平均值和標準誤差。再脈絡化在帕累托前沿上優於標準訓練。在投其所好測試評估中，再脈絡化達到了與標準訓練相當的品質，並減輕了投其所好行為。

在幫助性評估中，標準訓練並未增加投其所好行為，這可能是因為對於「你有什麼嬰兒派對的主意嗎」之類的通用查詢，沒有直接的投其所好方式。儘管如此，在訓練組合中對幫助性數據進行再脈絡化，並未導致幫助性評估的性能下降。

討論 (Discussion)

我們的實驗表明，再脈絡化可以納入 RL 中以幫助解決規格博弈。然而，關於再脈絡化與不同 RL 算法的互動、其對提示詞設計的依賴、其在多步訓練中的有效性，以及其對指令遵循的影響，仍存在重要的不確定性。

疑慮

首先，由於再脈絡化採用的回覆是離策策略（off-policy，模型並非從確切的訓練提示詞中生成補全內容），它可能會降低專為在線策略數據設計的 RL 算法的性能。

再脈絡化在較長時間的訓練運行中可能會變得不那麼有效。接種提示詞的結果以及我們自己的一些結果表明，指令誘導某種行為的強度與其防止該行為泛化的能力之間存在聯繫。^([6]) 如果經過多步訓練的再脈絡化導致數據生成/訓練脈絡之間的行為崩潰，我們可能會看到有效性降低。目前我們尚未觀察到這種潛在失敗模式的實證證據。

再脈絡化可能會損害模型遵循指令的能力。我們發現通用指令遵循能力有所下降（所有連貫性結果見附錄）。畢竟，再脈絡化訓練模型生成的補全內容與提示詞的要求並不完全一致。例如，在我們的測謊儀環境中，在 GRPO 訓練開始時，模型只有 25% 的補全內容是欺騙性的。然而，再脈絡化訓練對 100% 的補全內容都附加了「對用戶撒謊」。模型可能會推斷出它不需要遵循指令。

與此相關的是，再脈絡化也使得當我們要求模型表現不良時，更難從中誘導出不良行為（結果見附錄）。這可能被視為一個積極的結果。然而，在某些情況下，誘導不良行為的能力可能很重要（例如調試程式碼環境）。

未來工作

我們對未來的工作感到興奮，這些工作將：

對再脈絡化與不同策略梯度方法的互動進行更深入的分析。
在更複雜和現實的場景中測試再脈絡化。
開發並測試一些額外的方法：
- 在訓練期間使用策略模型進行在線監督。這同樣依賴於模型對每個訓練步驟中何為理想與不理想的理解，但還額外取決於模型如何從 RL 任務泛化到裁判。
- 在 RL 訓練之前或與之交錯進行對齊訓練。審議式對齊 (Deliberative Alignment) 顯示隱蔽行為大幅減少，儘管這被認為對未來的模型來說仍不足夠。
- 將再脈絡化作為 RL 損失的輔助監督損失。與其在再脈絡化數據上計算 RL 更新，不如分別添加損失項，這可能更好地引導訓練過程。

僅對部分樣本進行再脈絡化，或以數據依賴的方式修改指令，也可能具有優勢。例如，事後經驗回放 (Hindsight Experience Replay) 會追溯性地修改指令以匹配觀察到的任務完成情況。它已被用於機器人技術中，以實現離策 RL 算法的樣本高效學習，並提高 LLM 的指令遵循和與人類回饋的對齊。^([7]) 在規格博弈的背景下，根據觀察到的行為事後修改指令，可能會產生類似再脈絡化的效果。

結論 (Conclusion)

再脈絡化 將良好的行為蒸餾到一個允許不良行為的脈絡中。這種簡單的提示策略減少了 RL 引發的規格博弈。當用於更新模型參數的提示詞比數據生成提示詞更寬容不良行為時，我們就能針對訓練信號錯誤強化的不良行為建立抵抗力。

許多研究人員試圖改進訓練信號，以更好地驗證 AI 是否真的做了我們想讓它做的事。但「訓練信號品質」並非唯一重要的變量。脈絡 (Context) 同樣重要。

致謝 (Acknowledgments)

我們在 MATS 8 期間於 Team Shard 完成了這項工作，由 Alex Turner 和 Alex Cloud 指導。如果你有興趣參與此類專案，請申請在明年夏天的 MATS 10 期間加入 Team Shard！

感謝 Vladimir Ivanov 和 Jacob Drori 在實驗和寫作方面的寶貴貢獻。感謝 Nevan Wichers、Aram Ebtekar、Sam Marks、Fabien Roger、Alex Mallen 分享想法並在類似主題上進行合作。感謝 Luke Marks 的深刻對話，以及 Bryce Woodworth 在我們研究過程中的寶貴支持。

附錄 (Appendix)

我們發布了實驗設定的程式碼。

不同推理指令下的表現

我們主要呈現的結果是在推理時使用中立評估。當我們使用鼓勵不良行為（對抗性）或勸阻不良行為（安全性）的指令進行評估時，趨勢是一致的：再脈絡化有效地減輕了規格博弈。

有趣的是，相對於基準線和標準訓練，再脈絡化在對抗性指令上減少駭客行為最為有效。雖然對抗性指令下的絕對駭客率仍然最高，但再脈絡化帶來的相對改善在這些案例中最為顯著。

減輕通用的評估駭客行為：

雖然當推理指令鼓勵剝削時，駭客得分全面升高，但再脈絡化相對於基準線和標準訓練提供了更大的改善。

防止測試案例駭客行為：

再次強調，再脈絡化與標準訓練之間的差距在「駭客推理 (Hack Inference)」下最為顯著，儘管它在各種推理指令下的表現通常都優於標準訓練（左上角為最佳）。

防止習得的測謊儀規避行為：

我們看到，雖然「撒謊推理 (Lie Inference)」的絕對欺騙率較高，但這是唯一一種再脈絡化訓練相對於 GRPO 前基準線減少了欺騙的推理指令。我們並未看到標準或再脈絡化模型對「誠實」推理指令的反應比中立指令好多少。

連貫性評估 (Coherence evaluations)

減輕通用的評估駭客行為：

鑑於再脈絡化採用的是離策學習，驗證這是否對模型連貫性產生不利影響非常重要。我們正在繼續調查這一重要考量，但在此呈現目前的結果。

我們在 MMLU 和 IFEval 上評估了 GPT-4.1-mini（再脈絡化 vs. 標準訓練）。MMLU 結果顯示再脈絡化相對於標準訓練沒有一致的退化。

我們看到再脈絡化訓練在指令遵循方面相對於標準訓練有一些退化，儘管絕對差異很小。我們看到標準訓練（左下到右上）實際上增加了 GPT-4.1-mini 的通用指令遵循能力。再脈絡化訓練（其他地方）通常以較小程度增加指令遵循，或略微降低。

在測謊儀環境中，我們發現再脈絡化訓練相對於標準訓練在指令遵循方面有所下降。這僅在弱測謊儀體系（召回率 0.7）中成立，而在強測謊儀體系（召回率 0.95）中則不然。

整個訓練過程中的指令遵循準確度（在 IFEval "Strict" 設定下）。

在我們的投其所好設定中，我們看到了類似的趨勢。訓練提高了在 AlpacaEval 上的表現，該指標衡量指令遵循回答的通用品質；Don't-Be-Sycophantic -> Neutral 達到了最佳表現。然而，在衡量對精確、可驗證約束的遵守程度的 IFEval 上，再脈絡化的表現比標準訓練差約 2%。

模型	IFEval	AlpacaEval
SFT	60.1	23.3
Neutral -> Neutral	57.6	31.8
Don't-Be-Sycophantic -> Neutral	55.5	31.9
Don't-Be-Sycophantic -> Be-Sycophantic	55.4	30.0
Neutral -> Be-Sycophantic	55.5	29.3

「減輕通用評估駭客行為」的裁判提示詞

我們使用以下提示詞來評判駭客得分：
[此處應為提示詞內容]

我們使用以下提示詞來評判品質：
[此處應為提示詞內容]

^([1]) 模型也可能下意識地 (subliminally)推斷出數據生成與訓練提示詞之間的「差距」。傳遞的特徵將是抵抗不良行為，或表現得好像存在一個更勸阻不良行為的提示詞。下意識學習可以與語義學習（基於數據含義）同時發生。Alex Cloud 澄清說，它「可以透過與特徵語義相關的數據來傳遞特徵」。在我們的實驗中，數據與傳遞的特徵在語義上是相關的。例如，如果我們傳遞的特徵是誠實，我們訓練的回覆將包含誠實或不誠實行為的例子。因此，下意識學習可能只是對正文中所述非下意識效應的補充。
^([2]) 我們加入「為了好玩 (For fun)」這句話，是因為 OpenAI 的微調 API 否則會封鎖該訓練數據集。
^([3]) 我們設定的更多細節，包括合成數據生成流程和裁判提示詞，可以在我們的論文中找到。
^([4]) 我們在開始專家迭代之前進行了極少量的 SFT，以使模型熟悉聊天模板並提高其基礎連貫性，從而實現更高效的 RL 優化。
^([5]) 品質涵蓋以下子特徵：專業且像助手的語氣、相關內容、正確語法、與提示詞相同的語言等。
^([6]) 一種「行為/特徵」通常超出基於結果的衡量標準。例如，即使結果沒有顯示，推理本身也可以編碼獎勵駭客傾向。
^([7]) Liu 等人、Zhang 等人, 2023、Zhang 等人 2025、Lloret 等人。

— Lesswrong

你的個人知識庫