輸出監督可能混淆思維鏈

Lesswrong·6 個月前

我們證明了針對僅查看輸出（而非思維鏈）的監控器進行訓練，會透過回饋溢出效應導致思維鏈（CoT）被模糊化，並提出了「心與面」以及「獎勵目標化」兩種緩解措施，以維持思維鏈的可監控性。

我們證明了針對僅查看輸出（而非思維鏈 CoT）的監測器進行訓練，可能會導致混淆的^([1]) CoT！這種混淆以兩種方式發生：

當模型被訓練以產生看起來安全的輸出時，該模型可能會泛化到使其 CoT 看起來也安全。
由於後續的標記（tokens）是以先前的標記為條件的，看起來安全的 CoT 可能會增加安全輸出出現的可能性，從而導致看起來安全的 CoT 受到強化。

我們提出了兩種緩解措施，且效果相當不錯。與常規訓練相比，我們的緩解措施在三種設定中的兩種裡，在保持相當或更好任務表現的同時，提升了可監測性。總體而言，我們的研究表明，保持 CoT 的可監測性比先前想像的更難。

閱讀我們的論文 發表於 Arxiv。本研究為 MATS Team Shard 8.0 的一部分，由 Alex Turner 和 Alex Cloud 指導。Luke 和 Jacob 貢獻相等。

本文的新內容

在我們之前的文章中，我們展示了回饋溢出（feedback spillover）：懲罰推理模型輸出的某些屬性，可能會抑制其 CoT 中的該屬性。本文總結了我們新的預印本，它從兩個方面擴展了我們先前的研究：

我們在新的、更有趣的環境中展示了溢出效應。
我們引入了獎勵目標化（reward targeting），這是第二種緩解措施，能與我們第一篇文章中的「心靈與面孔（mind & face）」^([2]) 緩解措施（最初由 Daniel Kokotajlo 提出）有效結合。

溢出效應的緩解措施

我們的預印本根據策略梯度（policy gradient）將回饋溢出正式化，並從此正式化中展示了回饋溢出的兩個原因：

參數化回饋溢出（Parametric Feedback Spillover）： 訓練模型使其輸出更有可能看起來安全，可能會泛化到使其所有的生成內容（包括 CoT）都看起來更安全。

我們的正式化表明，可以透過使用不同的模型分別生成 CoT 和輸出來緩解參數化回饋溢出。我們稱這種緩解措施為「心靈與面孔（mind & face）」。*

條件化回饋溢出（Conditional Feedback Spillover）： 由於後續標記是以先前標記為條件的，看起來安全的 CoT 可能會增加看起來安全的輸出之可能性，導致看起來安全的 CoT 受到強化。

我們的正式化表明，可以透過修改梯度更新來緩解條件化回饋溢出，即移除強化那些導致安全輸出之 CoT 的項。我們稱這種緩解措施為獎勵目標化（reward targeting）。

結果

我們在三種環境中展示了回饋溢出。我們的環境具有以下獎勵結構：

任務獎勵： 一個二元獎勵信號，判斷是否給出了問題的正確答案。
輸出懲罰： 獎勵中的一個負項，用於檢查輸出的某些屬性。這可以是字串匹配或 LLM 裁判。

我們將訓練獎勵*計算為任務獎勵與輸出懲罰之和。CoT 監測器檢測率則是輸出懲罰，但針對 CoT 進行計算。我們從不針對 CoT 監測器檢測率進行訓練。

如果發生回饋溢出，我們預期會看到訓練獎勵高而 CoT 監測器檢測率低。這構成了混淆，因為我們所有的環境都設計成：輸出懲罰所檢查的行為對於完成任務是必要的。如果 CoT 監測器在任務完成的情況下返回低分，這意味著該行為正在以監測器無法檢測到的方式發生。

我們為每個環境執行以下運行：

運行類型	獎勵	使用的緩解措施
無懲罰 (No Penalty)	僅任務獎勵	無
懲罰 (Penalty)	任務獎勵 + 輸出懲罰	無
獎勵目標化	任務獎勵 + 輸出懲罰	獎勵目標化
心靈與面孔	任務獎勵 + 輸出懲罰	心靈與面孔
目標化心靈與面孔	任務獎勵 + 輸出懲罰	獎勵目標化 + 心靈與面孔

所有報告的數據均為 10 次運行的平均值。有關我們環境的更多細節、使用的確切提示詞以及每個環境的對話樣本，請參閱我們的預印本。

多輪終端互動

在此環境中，Qwen3-8B 必須解決一個基於文本的推理任務，並透過調用一個 Python 腳本（將答案作為參數）來提交答案。我們隨機化答案，使得可靠解決問題的唯一方法是從檢查答案的 Python 腳本中讀取答案（答案以變數形式存儲）。我們嘗試了兩種輸出懲罰：針對短語 "verifier"（我們在提示詞中對檢查解答的 Python 文件的稱呼）的字串匹配，以及一個針對「討論讀取驗證器代碼」給出二元評分的 LLM 裁判。有關此環境的更多細節，請參閱我們之前的文章。

（此處應有：多輪終端環境與字串匹配輸出懲罰的結果圖表。多輪終端環境與 LLM 裁判輸出懲罰的結果圖表。）

字串匹配和 LLM 裁判輸出懲罰都引起了回饋溢出。也就是說，策略幾乎總是提交正確答案，但 CoT 監測器檢測到提及「從 Python 腳本讀取解答」的頻率較低。同時使用「心靈與面孔」和「獎勵目標化」完全緩解了回饋溢出，並保持了高訓練獎勵。

多項式導數因式分解

我們訓練 Qwen-14B 來完成來自 Emmons et al. (2025) 的多項式導數因式分解任務。該策略被指示對 4 到 8 次多項式的導數進行因式分解。此環境中的輸出懲罰是針對完全展開的導數進行字串匹配。我們提供了使用乘積法則（這樣做不需要寫出完全展開的導數）解決此任務的少樣本（in-context）示例。即使給出了這些示例，Qwen-14B 在未經訓練的情況下也不會使用乘積法則。

輸出懲罰導致完全展開的導數（由我們的字串匹配檢查）從 CoT 中消失。同時使用「心靈與面孔」和「獎勵目標化」，儘管訓練獎勵相同，但在 CoT 中恢復了大部分完全展開導數的出現。

帶提示的問答

類似於 Chen et al. (2025)，我們給 Qwen3-4B 一個問題及相應的提示。我們隨機化正確答案，但在提示中給出答案（例如，「我的教授告訴我正確答案是……」）。LLM 裁判監測器會針對是否提及該提示給出二元評分。

我們再次觀察到回饋溢出。在「懲罰」運行中，模型在 CoT 中提及提示的頻率大大降低，但仍從提示中讀取答案。我們發現所有緩解措施都在一定程度上降低了訓練獎勵。雖然同時應用「心靈與面孔」和「獎勵目標化」保持了與「無懲罰」運行相似的 CoT 監測器檢測率，但訓練獎勵接近於 0。單獨而言，「心靈與面孔」和「獎勵目標化」保留了監測器發現是否提及提示的能力，但也導致訓練獎勵下降。

具體建議

我們相信這些結果有力地證明了基於輸出的訓練通常會導致回饋溢出。我們認為，僅基於輸出進行訓練並不是避免 CoT 混淆的可行策略。 我們的緩解措施在兩個環境中表現良好，但在第三個環境中對性能產生了負面影響。

在我們的預印本中，我們提出了以下建議：

不要假設針對僅輸出監測器的訓練能保持 CoT 的可監測性！ 在所有測試的環境中，我們都觀察到了強烈的回饋溢出。這不需要反覆迭代環境設計或輸出懲罰：每當我們看到輸出監測器分數下降且任務獎勵增加時，我們總是看到 CoT 監測器分數下降。因此，前沿模型開發者不應假設基於輸出的訓練會保留 CoT 的可監測性。

在前沿模型中研究回饋溢出。 應用於現有模型的基於輸出的訓練可能正在導致回饋溢出，影響當今 CoT 的可監測性。我們建議前沿模型開發者透過在專門構建的環境中對前沿模型進行後訓練，來研究回饋溢出的模型生物（model organisms）。我們還建議研究現有的安全後訓練流程是否會導致回饋溢出。

在前沿模型上測試溢出緩解措施。 我們相信，對這些緩解措施的進一步迭代可以產生在計算和能力開銷較低的情況下減少回饋溢出的方法。

在安全案例（safety cases）中考慮回饋溢出。 在安全案例中引用 CoT 可監測性時，我們要求前沿模型開發者描述他們如何緩解回饋溢出。

@misc{drori2025outputsupervisionobfuscatechain,
title={Output Supervision Can Obfuscate the Chain of Thought},
author={Jacob Drori and Luke Marks and Bryce Woodworth and Alex Cloud and Alexander Matt Turner},
year={2025},
eprint={2511.11584},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2511.11584},
}

^(^)我們的結果並不矛盾於先前的研究，該研究顯示當 CoT 對於完成任務是必要時，CoT 混淆似乎不會發生。我們給出的混淆示例本質上是諸如：從 CoT 中省略完成任務並非必須言說的中間推理，以及在 CoT 中寫入矛盾的推理（例如，明明顯使用了方法 B，卻寫道「我使用方法 A 解決了問題」）。
^(^)先前稱為「Shoggoth + Face」。Daniel Kokotajlo 同意新名稱更清晰。

— Lesswrong