我們是否應該針對思維鏈監測器進行模型訓練？

Lesswrong·大約 4 小時前

這篇文章探討了在大型語言模型對齊訓練中加入理想行為代理指標是否有利，並權衡了提升對齊效果與可能導致模型學會隱瞞錯誤行為的風險。

這篇文章我實際上試圖回答的是一個更廣泛的問題（雖然這不適合作為標題）：我們是否應該將理想行為的代理指標（proxies）納入大型語言模型（LLM）的對齊訓練中？

認識論狀態：我的最佳推測。我暫且主張，我們應該對將理想行為的代理指標納入 LLM 訓練持更開放的態度，但我試圖釐清除了「是」與「否」之外的各種可能答案，並嘗試呈現與綜合支持及反對我主張的論點。我在發布前並未收集太多反饋，因此可能會根據評論改變主意。

內容提要（TL;DR）

針對理想行為的代理指標進行訓練有助於產生理想行為。但使用代理指標進行訓練也會部分地優化「隱蔽的錯誤行為」（obfuscated misbehavior），這是非常危險的。如果代理指標不被用於訓練，它們在評估中會更有用，因此我們應該弄清楚哪些代理指標子集用於訓練，哪些用於評估。一些研究結果表明，針對足夠強大且多樣化的理想行為代理指標進行訓練可能是安全的。當我們偵測到錯誤行為時，可以進行有針對性的干預，更多地優化良好行為，減少對隱蔽錯誤行為的優化。針對錯誤行為偵測器進行訓練的一個替代方案是使用無監督對齊訓練方法。而完全不將代理指標納入訓練的主要替代方案，是利用對模型內部的深度理解，直接將對齊目標寫入模型中。針對錯誤行為偵測進行訓練的影響取決於時間尺度和因果順序。人類的類比尚不明確，但多少令人鼓舞。總體而言，我認為我們可能應該將一些（甚至許多）代理指標納入訓練。有幾個有趣的研究方向可以幫助我們在訓練和評估中對代理指標的使用做出更好的選擇。這很重要，因為選擇良好的代理指標進行訓練和評估可以降低來自「蓄意謀劃」（scheming）和「你衡量什麼就得到什麼」的風險。

本文討論的部分相關工作：

Neel Nanda, 研究如何在訓練中使用模型內部資訊是合理的
Steven Byrnes: 為什麼我們應該預期會出現冷酷的社會病態超人工智慧 (ASI)（特別是關於在開放式持續學習過程中進行持續性格訓練以防止冷酷社會病態出現的可能性之評論串）、為（高度有條件的！）「可解釋性在環」機器學習訓練辯護
Daniel Tan, 語言模型能保持自身的對齊嗎？
Eliezer Yudkowsky, AGI 毀滅：致命性清單
Zvi, 最被禁止的技術
OpenAI, 監控推理模型的錯誤行為與推動隱蔽化的風險
Daniel Kokotajlo 對上述論文的評論轉貼
John Wentworth: 迭代設計失效的世界、「計畫」系列 (2021–2025)、如何從可解釋性轉向對齊：只需重新定位搜索目標
Paul Christiano, 失敗的樣子
williawa, 對齊深度學習系統的未來可能看起來像「在可解釋性上訓練」
Anthropic, 訓練未能引發當前語言模型中的微妙推理
FAR, 避免 AI 欺騙：測謊儀既能誘導誠實也能誘導規避
FAR, 隱蔽化地圖
Josh Levy, 對 Baker 等人文章的評論
GDM, 對齊、正交或衝突：我們何時可以安全地優化思維鏈？
Wichers 等人與 Tan 等人, 接種式提示
OpenAI, 為什麼我們對「自白」感到興奮
Florian Dietz 等人, 人格分裂訓練：透過替代人格揭示潛在知識（研究報告）
Matt MacDermott, 針對錯誤對齊偵測器進行驗證與針對其進行訓練有很大不同

1. 針對理想行為的代理指標進行訓練有助於產生理想行為

我認為目前的 LLM 在某些重要方面已經相當對齊，這對於更強大的未來系統的對齊可能是一個好跡象。（我將在下文簡要回應可能的反對意見。）領先的 LLM 對齊訓練方法目前使用理想行為的代理指標，特別是「LLM 的輸出在人類/AI 裁判看來是否良好？」。這是 RLHF、憲法 AI（Constitutional AI）和審議式對齊（Deliberative Alignment）訓練流程的一部分。我的最佳推測是，Anthropic 目前的性格訓練（character training）是憲法 AI 的變體，並且也使用一個對輸出進行對齊評分的裁判。針對對齊後的回答進行監督式微調（SFT）也可以說是使用理想行為代理指標的訓練，即「我們認為在這種語境下相當不錯的逐標記（token-by-token）輸出」。

憲法 AI 和性格訓練如何納入理想行為的代理指標

原始的憲法 AI 流程如下：對一個僅具備幫助性的 LLM 進行紅隊提示（這些提示先前被發現會引發不對齊的回答），獲得最初有害/有毒的回答，然後運行一個迭代的「批評與修正」循環，模型根據憲法原則批評自己的回答並進行修正（每一步隨機抽取原則），然後對這些最終修正後的回答進行 SFT。接著，使用更多的紅隊提示進行強化學習（RL）階段，並使用一個 LLM 獎勵模型來評估幫助性、誠實性和無害性（HHH）。RL 階段顯然是針對理想行為的代理指標進行訓練：HHH 獎勵模型的評分。（獎勵模型本身也是使用代理指標訓練的：一個判斷兩個回答中哪一個更無害的 LLM，以及人類對回答幫助性的標記。）

據我所知，Anthropic 最近並未公開太多關於其性格訓練流程的細節。在最近（2026 年 2 月發布）與 Amanda Askell 的播客中（2:30-3:30），暗示他們仍在進行類似憲法 AI 的工作，加上對憲法的 SFT，以及其他可能稍後發布細節的方法。鑑於憲法現在包含許多細微的性格描述，我的理解是性格訓練並非獨立存在。（性格訓練是在 2024 年作為新事物引入的，遠晚於 2022 年的第一篇憲法 AI 研究和 2023 年的第一個 Claude 模型，因此我的最佳推測是，他們後來將這些更細微的性格特徵合併到了憲法中，並增加了利用憲法的更多訓練階段。）

開放性格訓練（Open Character Training）有一些特徵乍看之下與 Anthropic 對性格訓練的描述不同。首先，它使用了一種憲法 AI 的 DPO 變體，這對我來說有顯著差異。開放性格訓練不使用上述的 SFT 和 RL 階段，而是使用 DPO，其中由能力更強的老師模型（例如 GLM 4.5 Air）在帶有憲法語境下生成的回答，優於由正在訓練的模型（例如經過指令微調的 Llama 3.1 8B）在沒有憲法語境下生成的回答。這將「能力更強的模型在憲法語境下生成的回答」作為理想行為的代理指標。（更簡單地說，這是語境蒸餾。）然後，它對以下內容進行 SFT：a) 模型在各種提示下寫下自己的價值觀和性格（在 DPO 之後），以及 b) 模型的兩個副本之間的開放式對話（這顯然傾向於生成更多樣化的數據，同時通常仍專注於與性格相關的主題並減少模型崩潰）。在這兩種情況下，生成過程中的系統提示都會告訴模型它應該體現的性格特徵，而這些性格細節在反向傳播過程中會被移除。因此，「模型在被指示體現這組性格特徵時所說的話（在自我反思和自我互動中）」大致就是這裡使用的「代理指標」。

總體而言，我對於如何將這些例子與「針對獎勵駭客偵測器進行訓練」和 RLHF 進行比較感到有些困惑，後者是將代理指標納入訓練的更典型例子；一方面，顯而易見的是，透過自我反思和自我互動進行開放性格訓練的目標是實現更好的性格泛化，而對這些特定提示給出更對齊的回答並非首要任務。

關於當前 LLM 的對齊程度存在一些爭議，而關於這是否應被視為 AGI/ASI 對齊可控的證據則存在更多爭議。那麼，在什麼意義上我認為當前的 LLM 是對齊的？ 我認為在大多數語境下，它們確實是具備幫助性、誠實且無害的，並且擁有與 Claude 的憲法或 OpenAI 的模型規範一致的其他理想傾向。雖然存在重要的例外，特別是以代理任務中的廢話（slop）和獎勵駭客（reward hacking）形式出現，但我認為在訓練解決這些問題時，我們更有可能獲得真正的（近似）意圖對齊，而不是隱藏的蓄意謀劃。我在下方的下拉選單中詳細闡述了我的想法。

<details> <summary>當前的 LLM 有多對齊，這應該如何影響我們對未來變革性 AI 對齊的看法？</summary>

幾年前，我認為「對齊」是我們從 AGI 那裡需要的東西，而當人們提到 LLM 的對齊時，他們要麼是感到困惑，要麼是在談論非常不同的東西。我現在不再這麼想了。一個主要原因是，現在在我看來，LLM 代理（agents）很快就極有可能完成大多數現實世界中具有經濟價值的認知任務，而且我們很可能可以成功地引導它們這樣做，就像我們目前引導它們為我們解決大量編碼和網頁搜索任務一樣。（思考多步自主性、工具使用和腳手架是我轉變的重要部分。）從現在開始，事情仍有一些出錯的方式，特別是由於大規模、長跨度的 RL 或 AI 對自身目標的反思（我認為隨著它們變得更擅長自主處理定義模糊的任務，這種情況更有可能發生）。但我認為這些因素不太可能顯著推翻 RLHF / 憲法 AI / 性格訓練，因此我總體上相當樂觀地認為，我們將獲得大致執行其開發者和用戶意圖的 LLM AGI。（我不確定在變革性 AI 出現之前發生實質性範式轉移的世界中會發生什麼，但如果看到這樣的轉移，我會感到驚訝。）

Ryan Greenblatt 最近的帖子當前的 AI 在我看來相當不對齊提到了當前 LLM 中以下類型的不對齊，我認為這是反對當前對齊程度的最佳證據之一：

懶惰和過度推銷未完成的工作
掩飾工作中的問題
使失敗變得不明顯
除非特別提示，否則不指出明顯的缺陷
從不對自己的工作質量表示不確定
透過煤氣燈效應（gaslighting）進行作弊和獎勵駭客

我認同這些是滿足用戶意圖的系統性失敗，因此它們顯著降低了我認為當前模型對齊的程度。我的最佳推測是，目前我們處於 Ryan 的諷刺性對齊政權清單中的「簡易地」（Easyland）、「廢話城」（Slopolis）和「駭客斯坦」（Hackistan）之間，而且我們克服可見的廢話和駭客行為的嘗試更有可能導致真正的近似意圖對齊，而不是嚴重的錯誤對齊和蓄意謀劃。我對此並不確定，這部分取決於本文中的其他論點，因為我心目中從「廢話城」和「駭客斯坦」轉向「簡易地」的主要干預措施涉及使用理想行為的代理指標進行訓練（並保持謹慎）。

為了引入另一種關於對齊的觀點，Nate Soares 比我悲觀得多。他的這段摘錄雖然是幾年前的（2023 年 1 月），但我猜他現在仍然認同：

預設情況下，人類製造的第一批心智將是可怕的義大利麵式代碼混亂，沒有清晰分解出的「目標」供周圍的認知以統一的方式追求。這種心智更像是一堆複雜、混亂地相互連接的補丁，其最終行為對它隨著時間推移如何反思和消除自身內部張力的細節非常敏感。

使 AI 甚至擁有某種模糊接近「目標槽」的東西，且在運行過程中的各種操作壓力（如反思）下保持穩定，這本身就是一項需要精通認知能力的事業——這種精通是我們極不可能實現的，如果我們只是試圖弄清楚如何構建一個心智，而不篩選出更具可讀性和可引導性的方法。

我暫且不同意這一點，因為我認為對齊訓練（包括伴隨持續學習的持續性格訓練）相當有可能灌輸並維持幫助性、誠實性、無害性以及其他良好的傾向。我將在下文（描述與 Steven Byrnes 的評論交流時）詳細闡述這一點。

還有一個比較點：在對齊仍然是一個艱難、未解決的問題中，Evan Hubinger 同意當前系統大多是對齊的，但提出了未來仍可能出現錯誤對齊的方式。

雖然確實存在一些問題，但我認為大多數當前的大型語言模型都對齊得相當好。儘管它存在對齊偽裝（alignment faking），我最喜歡的可能還是 Claude 3 Opus，如果你讓我從 Claude 3 Opus 的 CEV（相干外推意志）和中位數人類的 CEV 之間做出選擇，我認為這將是一個非常接近的選擇（我可能會選 Claude，但這取決於設置的細節）。所以，總體而言，我對當前模型的對齊非常樂觀！然而，我仍然非常擔心未來的對齊。這是我試圖解釋原因的嘗試。

……

雖然我們肯定遇到了內部對齊問題，但我認為我們還沒有遇到認為內部對齊會很困難的理由。在 2024 年初（也就是兩年前），我做了一個演示，列出了認為內部對齊可能成為大問題的三個理由。這三個理由是：

僅僅是充分擴展預訓練模型本身就會導致錯誤對齊，我認為這有 5 - 10% 的機率成為災難性問題。

在預訓練模型之上進行 RL 時，我們無意中選擇了錯誤對齊的人格，我認為這有 10 - 15% 的機率是災難性的。

在涉及長期影響世界的任務上進行大量的基於結果的 RL，將選擇出錯誤對齊的代理，我認為這有 20 - 25% 的機率是災難性的。這裡的核心問題在於，我們在多大程度上是在跨度足夠長的環境中進行訓練，以至於它們激勵了趨同的工具性子目標，如資源獲取和權力追求。

讓我們分別審視這些威脅模型，看看兩年後的現在我們處於什麼位置。

他接著說，他現在認為來自預訓練的風險似乎可能性較小，而 RL 選擇錯誤對齊的人格或代理的風險前景則沒有太大變化。

</details>

我討論我相信當前模型是對齊的這件事有兩個原因。首先，這表明針對代理指標進行訓練到目前為止效果良好。其次，從大多是對齊的系統開始，降低了在下文我將談到的訓練干預之前發生嚴重錯誤對齊的可能性，這使得我們更有可能利用大多對齊模型的特性來獲得強健的對齊，而不會遇到來自對抗性錯誤對齊系統的失效模式（如對齊偽裝、勾結、基於評估意識的行動以及其他難以偵測的蓄意謀劃）。

Neel Nanda 在研究如何在訓練中使用模型內部資訊是合理的中，為為什麼我們可能想要針對理想行為的代理指標進行訓練提出了一個很好的通用案例：

從根本上說，製造安全的模型將涉及擅長訓練模型，使其在難以精確指定良好行為具體樣貌的怪異環境中執行我們想要的操作。因此，我們擁有的工具越多越好。某些事情使用模型內部資訊可能更容易指定。例如：它做某事是出於正確的原因嗎？它表現出這種行為僅僅是因為它知道自己正在接受訓練或被監視嗎？

此外，我們應該警惕這裡對嚴謹性的孤立要求。我們在模型訓練中所做的一切都涉及獲取某種理想行為的代理指標並對其施加優化壓力。目前的慣例是，對模型的行為這樣做是可以的，對思維鏈這樣做是不好的，而模型內部資訊則無人問津。但我看不出有什麼根本原因認為行為是可以的而內部資訊應該被禁止，這取決於我們尚不了解的經驗事實。

所以他的意思是，所有的對齊訓練都涉及針對理想行為的代理指標進行訓練，主要問題不在於我們是否應該針對監控器進行訓練，而在於我們應該針對哪些監控器進行訓練。^([1])

在與 Steven Byrnes 的這段評論對話中，我提出了一個論點，即在開放式持續學習過程中，持續的對齊訓練可以降低獲得冷酷社會病態 AI 的風險，這將論點置於一個稍微更具體的威脅模型語境中。以下是摘要（由 Claude 提供，但從我的角度撰寫，並經過我的檢查和編輯）：

Steven Byrnes 主張 ASI 預設會是冷酷的社會病態，因為達到 ASI 需要開放式的持續學習，這需要後果論目標，而隨著持續學習的進行，初始性格訓練中灌輸的良好特質會被驅動權重更新的任何目標函數漸進地稀釋掉。作為回應，我主張如果能在整個持續學習過程中提供持續的對齊訓練，這種稀釋並非不可避免——這類似於人類在透過現有價值觀的稜鏡解釋新經驗的同時，不斷更新信念和技能，而這些價值觀隨著時間推移得到加強而非侵蝕。該論點的一個關鍵部分是，人類經常根據現有價值觀為自己設定複雜的子目標，然後學習如何更有效地實現這些子目標——大多數後果論的能力建設發生在價值觀之下的層級，為價值觀服務，而且我們通常會注意到結果何時與我們的底層價值觀發生顯著偏離，這會調節學習並向維持對齊施加壓力。

請注意，我跳過了 Byrnes 的一些觀點，因此不應假設你已在這裡獲得了他觀點的全貌。我將在第 2 節中進一步討論他的觀點。

Daniel Tan 和 Adrià Garriga-Alonso 表示有興趣嘗試讓模型在訓練期間自我評估其行為對齊程度的方法，這是理想行為的另一個代理指標。Daniel 有一個名為語言模型能保持自身的對齊嗎？的提案，其中包括這段摘錄：

理想情況下，我們希望建立一個協議，讓語言模型以一種對能力和對齊都有利的方式塑造自己的學習。例如，你可以想像像「事後反思你是否認可這種行為」這樣的協議，可以防止語言模型在可駭入的環境中學習獎勵駭客行為。

我們可以考慮的一些協議：

語言模型審查軌跡並決定是否保留它。

事後推理：語言模型審查它們所做的事情，說明它們是否在反思後認可它，然後說明它們將來會如何更新。

（還有很多很多，這裡的設計空間非常大）

以下是來自 Adrià 的一條推文的摘錄：

[利用模型的自我概念] 也許也是解決帶有經驗證獎勵的 RL 中「獎勵駭客」問題的一個方案。如果模型知道自己是好的，並且合理地評估自己的輸出，那麼它就能正確判斷自己是否正確回答了問題。

讓 AI 選擇哪些數據在它們的 RL 過程中算作高獎勵。對於幾乎所有任務，它們都會比我們能設計的任何固定評估器做得更好。

諸如「語言模型審查軌跡並決定是否保留」、「事後推理是否在反思後認可自己的行為」以及「讓 AI 選擇哪些數據在 RL 過程中算作高獎勵」等協議，都是將模型的對齊自我評估納入訓練。我包含這些例子只是為了強調將更多理想行為代理指標納入訓練的一些吸引力。

2. 但使用代理指標進行訓練也會部分地優化「隱蔽的錯誤行為」，這是非常危險的

使用代理指標訓練的主要擔憂在於：a) 它們可能不夠強健；b) 針對它們進行訓練可能不太可能實現通用對齊；c) 剩餘的對齊失敗恰恰是那些（使用這些代理指標）難以偵測的失敗。這一立場眾所周知，並在許多地方被討論過。以下是 Yudkowsky 2022 的觀點：^([2])

當你明確地針對不對齊思想的偵測器進行優化時，你是在部分地優化更對齊的思想，並部分地優化更難偵測的不對齊思想。針對解釋性思想進行優化，就是針對可解釋性進行優化。

以及 Zvi 2025：

最被禁止的技術是使用可解釋性技術來訓練 AI。

AI 透過某種方法 [M] 產生最終輸出 [X]。你可以使用技術 [T] 分析 [M]，以了解 AI 在做什麼。你可以針對那一點進行訓練。永遠不要那樣做。

你針對 [X] 進行訓練。只針對 [X]。永遠不要針對 [M]，永遠不要針對 [T]。

為什麼？因為 [T] 是你用來判斷模型何時表現不佳的方法。

如果你針對 [T] 進行訓練，你就是在訓練 AI 隱蔽其思維，並擊敗 [T]。你將迅速失去了解發生了什麼的能力，而這恰恰是你最需要了解發生了什麼的方式。

來自 [T] 的那些優化壓力是寶貴的。請明智地使用它們。

OpenAI Baker 等人的論文監控推理模型的錯誤行為與推動隱蔽化的風險透過在編碼任務上訓練 LLM 並配備一個試圖偵測獎勵駭客（例如在未實際實現正確功能的情況下使單元測試通過）的 CoT 監控器，提供了這種危險的證據。模型學會了在不使 CoT 變得明顯的情況下進行獎勵駭客行為。^([3])

John Wentworth 在各個層面上都認真對待「不要針對代理指標進行訓練」的想法。在迭代設計失效的世界中，他將 RLHF 描述為一種獨特且糟糕的對齊技術，主張即使針對輸出錯誤行為偵測器施加優化壓力也是不好的，因為雖然這解決了一些問題，但也獎勵了看起來不錯的壞行為，並使剩餘的問題更難偵測和迭代。這是另一個一致的立場，儘管我總體上認為針對至少一些輸出監控器進行訓練是好的（如我在第 1 節中所述）。

Steven Byrnes 在這條評論中對我提出的將性格訓練穿插到持續學習中的建議提出了相關的反對意見：

「穿插性格訓練」是一個有趣的想法（謝謝），但在思考之後，這就是為什麼我認為在這種語境下它行不通的原因。順便說一下，我是根據這裡的四點「流程」來理解「性格訓練」的，如果你指的是別的東西請告訴我。

性格訓練（如該連結所定義）似乎依賴於這樣一個想法，即標記「我會提供幫助、誠實、無害，諸如此類……」比沒有該憲法前綴的標記更有可能跟隨事實上具備幫助性、誠實且無害的標記。對於今天的 LLM 來說，這是一個很好的假設，但為什麼呢？我主張：這是因為 LLM 正在從預訓練數據中人類創造的文本進行泛化。

作為一個思想實驗：如果在互聯網上的每個地方和每本書中，每當人類說「我會誠實」時，他們隨後立即撒謊，那麼使用包含「我會誠實」憲法的性格訓練將導致撒謊而非誠實。對吧？事實上，這相當於翻轉了英語中「誠實」一詞的定義。所以，這再次說明了基於憲法的性格訓練是如何依賴於模型基本上保持接近預訓練數據的統計特性的。

……但這意味著：權重偏離預訓練狀態越遠，我們就越沒有理由期望這種類型的性格訓練能運作良好，甚至根本無法運作。

你可能會回應：「好吧，我們將改用 RLAIF 並配備一個固定的『裁判』，即一個權重不會持續更新的裁判。」這確實避免了上述問題，但卻引入了不同的問題。如果優化是強大的，那麼我們就是在針對一個固定的裁判進行優化，我們應該預期系統會越獄（jailbreak）裁判或類似的情況。或者，如果優化是微弱的（即像 RLHF 傳統的 KL 散度懲罰那樣僅略微改變模型），那麼我認為隨著模型逐漸偏離良好特質，微小的調整最終將無法將其拉回，它最終會停止運作。或者類似的情況。

在這裡，理想行為的代理指標要麼是「固定權重裁判認為良好的行為」，要麼是「持續學習者在憲法語境下所說的話」，而 Byrnes 逐一解釋了為什麼這兩種代理指標都可能偏離真正理想的行為。

我認為這些是嚴重的擔憂，但我適度樂觀地認為它們實際上不會導致嚴重的錯誤對齊。我認為逐漸偏離對齊與定期進行對齊訓練以加強對齊，可能是一個穩定的長期循環，永遠不會離對齊太遠，特別是如果我們的代理指標強大且多樣化（例如，同時使用固定權重裁判和帶有憲法語境的持續學習者，以及其他代理指標），並且我們的對齊訓練涉及我們有理由預期對齊泛化的有針對性干預。我將在第 3、4 和 5 節中進一步討論這一點；第 5 節中討論的「有針對性的干預」尤其相關。

3. 如果代理指標不被用於訓練，它們在評估中會更有用，因此我們應該弄清楚哪些代理指標子集用於訓練，哪些用於評估

如果你針對理想行為的代理指標進行訓練，你預期會看到在該代理指標看來良好的行為，因此主要剩餘的擔憂是你擁有在該代理指標看來良好但實際上很壞的行為。因此，在訓練結束時根據該代理指標進行評估不再具有很強的資訊量，因為即使在錯誤對齊的情況下，你大多也不預期該評估能偵測到錯誤對齊。

這是一個簡化的圖表，可能提供一些有用的直覺。（我是用 Claude 快速創建的，所以不要太當真。）如果你使用某些代理指標子集進行訓練，你應該預期獲得在所有這些代理指標看來都良好的行為/動機，這就是下圖中它們區域交集中的某個點：

代理指標交集圖

你得到哪一個點取決於訓練設置和歸納偏置（inductive biases）的許多因素。如果你只是在模型根據代理指標表現不佳時懲罰它，那可能有點像移動到該代理指標邊界內圖中最近的點，但也可能有基於該代理指標的更聰明的有針對性訓練干預（如我將在下一節討論的那樣）。

如果大多數未被我們的訓練代理指標捕捉到的錯誤對齊行為被我們的評估代理指標捕捉到了，那麼我們就有很大機會在部署前注意到錯誤對齊並重新嘗試。（在下一次嘗試中獲得對齊模型的可能性取決於我們將訓練運行回滾多遠、我們能從評估中學到多少關於出錯原因的資訊，以及其他因素。）

一個使用與訓練不同的代理指標進行評估的例子是：如果你可以針對一個凍結的錯誤行為探針進行訓練，然後在訓練結束時訓練另一個探針用於評估。這可能仍然運作得相當好。Neel Nanda 在研究如何在訓練中使用模型內部資訊是合理的中討論了這一點，並與定期重新訓練你所針對的錯誤行為探針進行了對比：

我更擔心那些定期重新訓練其可解釋性工具的技術，例如每 100 步重新訓練一個探針。這似乎很可能訓練出不具備易於探測的表示的模型。這似乎可能會使一堆可解釋性技術失效，而如果我們針對一個凍結的探針進行訓練，我們可能可以在訓練後訓練另一個探針。不幸的是，[定期重新訓練] 可能會使技術更有效。

這凸顯了某個特定代理指標是否在訓練期間被使用不僅僅是一個二元問題；還有一個問題是評估代理指標的失敗與訓練代理指標的失敗之間的相關性有多強。

更廣泛地說，如果我們擁有一組多樣化且相對不相關的理想行為代理指標，我們可能想要挑選其中的一個子集用於訓練，並將其餘的留作評估。這是一個巨大的行動空間，我認為我們可以透過研究學會更有效地駕馭它。我將在第 11 節中詳細說明這個行動空間是什麼以及可能的研究方向。

Bronson Schoen 對 Neel 文章的評論也與此相關：

「此外，我們應該警惕這裡對嚴謹性的孤立要求。我們在模型訓練中所做的一切都涉及獲取某種理想行為的代理指標並對其施加優化壓力。目前的慣例是，對模型的行為這樣做是可以的，對思維鏈這樣做是不好的，而模型內部資訊則無人問津。但我看不出有什麼根本原因認為行為是可以的而內部資訊應該被禁止，這取決於我們尚不了解的經驗事實。」

我不會將這描述為對嚴謹性的孤立要求，在我看來，核心的支撐想法是擁有一個留出的偵測器。如果你針對行為進行訓練，你至少在理論上可以進一步追溯到因果上游的思維鏈，甚至更進一步追溯到非隱蔽的內部資訊。如果你直接針對非隱蔽的內部資訊進行訓練且不再看到壞行為，明顯的可能性是現在你只是得到了隱蔽的內部資訊。

就這些都是經驗問題而言，我會主張在實踐中我們處於這樣一個體制：除非你預先有證據表明某事確實會導致隱蔽化，否則實驗室會假設「也許它不會」（而不費心去證明）。我認為最明顯的例子是，當涉及到思維鏈時，Anthropic 最初確實對其進行了優化，而 OpenAI 則必須做一整篇論文來論證你確實會得到隱蔽化（儘管如此，仍然透過審議式對齊這樣做，而沒有衡量/展示這種方法避免了隱蔽化）。

我的預設預期是，除非你有結果顯示某種方法確實會導致隱蔽化，否則如果該方法對能力或部署相關的某些事情顯著有用，它就會被應用。我認為這是一個完全不合理且倒置的舉證責任，但我非常擔心如果有一種技術「似乎透過針對基於內部資訊的偵測器進行優化來解決獎勵駭客問題，但我們沒有一個我們確信不受此影響的留出偵測器」，預設的做法將只是使用它。我認為如果有人開發並銷售這樣一種技術，對這種結果感到驚訝將是相當不合理的。

我認為 Neel 的回覆也對如何權衡針對不同代理指標進行訓練的利弊提出了有用的觀點：

當然，但我認為「留出的偵測器」在這裡承擔了很多工作。模型內部資訊是一個大類別，可以包含很多東西，具有不同的權衡。可解釋性不是一種會失效或不會失效的單一技術。如果線性探針失效了，非線性探針可能還好。如果探針失效了，激活預言機（activation oracles）可能還好。如果探測一個概念失效了，其他的可能還好。也許這一切都超級脆弱。但我非常害怕因為一堆毫無根據的假設而將一項潛在有前途的研究視為禁忌。

類比來說，我不認為「針對最終輸出訓練是可以的，針對 CoT 訓練則不行」是顯而易見的，乍看之下兩者聽起來都只是模型輸出。但事實證明存在巨大的差異。

關於進行研究以顯示隱蔽化發生，我認為那部分很容易——即使 Goodfire 是從不檢查且只想提升能力的壞人，其他人也很容易進行這項研究。我可能會找一個 MATS 學者去做。事實上，弄清楚這有多危險是一個高優先級的研究方向！雖然我確實認為僅僅顯示隱蔽化發生是不夠的，你需要顯示該技術在根本上未能完成其工作且只是破壞了你的評估，或者被破壞的可解釋性實際上是有用且重要的。思維鏈非常容易閱讀和使用，且顯然有用，所以那是一場更容易贏得的戰鬥。我們還沒有真正顯示模型內部資訊除了誤用探針之外還做了任何重要的事情。

4. 一些研究結果表明，針對足夠強大且多樣化的理想行為代理指標進行訓練可能是安全的

以下是我提到的結果。我記得所有這些都可以作為支持對針對監控器訓練持開放態度的可能論點，我讓 Claude Opus 4.6 添加了關於它們具體設置的細節。這些設置大多在現實的編碼環境中使用前沿 LLM，因此我認為它們的結果與前沿 LLM 訓練的決策相關。但我也認為我們應該對將監控納入訓練保持謹慎，任何試圖這樣做的人都應該收集關於特定實施的安全影響的證據。

Anthropic 的訓練未能引發當前語言模型中的微妙推理訓練 Sonnet 3.7 在規避監控的同時在代碼中插入微妙的後門。當僅針對輸出監控器（看到最終代碼）進行訓練時，模型使用推理來設計複雜的後門。當僅針對推理監控器（看到完整的 CoT 和輸出）進行訓練時，模型使用推理來說服監控器後門是良性的。但當同時針對兩個監控器進行訓練時，模型無法在不觸發推理監控器的情況下使用推理來提高其後門成功率——這表明足夠多樣化的監控器可能難以共同規避。
FAR 的避免 AI 欺騙將基於激活的測謊儀納入 DolusChat 偏好學習的標記步驟中，這是一個成對的真實/欺騙性回答數據集，其中人類標記員偏好未被偵測到的欺騙。他們發現，使用在線 RL (GRPO) 和弱偵測器（TPR 低於 ~70%）時，模型學會了規避偵測器並在超過 85% 的時間裡撒謊。但當偵測器 TPR 較高（高於 ~80%）、對誠實基礎模型有較高的 KL 正則化或使用離線方法 (DPO) 時，模型反而變得真正誠實（撒謊時間低於 25%）。這確定了針對白盒測謊儀進行訓練會誘導誠實而非規避的具體條件。
FAR 的隱蔽化地圖構建了一個現實的 RLVR 編碼環境，模型在其中自然地學會透過硬編碼測試案例來進行獎勵駭客行為，並針對域外欺騙探針進行訓練。他們發現隱蔽化確實出現了——既透過隱蔽的激活（內部表示發生偏移，使探針不再觸發），也透過隱蔽的策略（模型在輸出中為獎勵駭客行為辯解或使其合理化）。然而，足夠高的 KL 正則化和偵測器懲罰會產生誠實的策略，支持了白盒欺騙偵測器可以作為易發生獎勵駭客行為任務的有效訓練信號的結論。
Josh Levy 對 Baker 等人 OpenAI 工作之評論指出，在他們的針對監控器訓練實驗中，Baker 等人刻意將代理行動排除在 CoT 監控器之外——它可以看到模型的推理，但看不到其工具調用或代碼編輯。論文指出這樣做是為了孤立地研究 CoT 上的優化壓力，但也承認給予監控器完整的軌跡會更自然。Levy 主張這使得隱蔽化成為阻力最小的路徑：模型只需在 CoT 中隱藏其意圖，同時仍透過其行動執行駭客行為。如果監控器也看到了行動，模型可能更容易選擇誠實地解決問題，而不是在 CoT 和工具調用中同時隱蔽錯誤行為。

這是一個受訓練未能引發當前語言模型中的微妙推理啟發的假設性情景圖。作者明確地針對後門進行了訓練，但在實踐中，假設一個前沿實驗室正在訓練通用編碼能力，並且可以使用輸出監控器和/或推理監控器。那麼故事可能看起來像這樣：

多重監控器圖

在這裡，每個代理指標都未能偵測到許多錯誤行為，但它們都未能偵測到的唯一錯誤行為顯示為右側的一個橢圓，與根據代理指標得分較高的其他行為斷開。這旨在表明，雖然複雜、難以偵測的蓄意謀劃是可能的，但在實踐中可能非常難以學習，相反，當利用所有代理指標時，學到的行為是對齊的。*

再次強調，我認為這些結果和論點是一些證據，表明在我們努力使代理指標多樣化且強健之後，我們應該考慮針對理想行為的代理指標進行訓練，但我也認為我們應該保持謹慎，任何在實際訓練中的實施都應仔細評估安全性。

5. 當我們偵測到錯誤行為時，可以進行有針對性的干預，更多地優化良好行為，減少對隱蔽錯誤行為的優化

這是一個關於如何避免針對錯誤行為偵測器訓練缺點的想法：當 LLM 裁判偵測到錯誤行為時，讓它在多個特異性和一般性層次上給出錯誤行為的自然語言描述。然後提取一個或多個你想要學習以避免該類錯誤行為（包括更難捕捉的隱蔽版本）的原則，並使用這些原則進行憲法 AI 或審議式對齊。^([4]) 這似乎比在看到壞行為時直接懲罰它更不容易導致隱蔽的錯誤行為。

這是一個相當具體的故事，但關於偵測到錯誤行為後如何訓練有很多選擇，其中許多似乎比僅僅懲罰錯誤行為要好。

<details> <summary>如果/當我們偵測到錯誤行為時可以做的事情清單</summary>

感謝 Rauno Arike 編寫此清單。它最初是專門針對獎勵駭客行為的；我進行了輕微編輯。這仍然不是詳盡無遺的。

1. 透過修復允許獎勵駭客行為的問題來提高環境強健性

2. 自我過濾+捨棄： 在生成後詢問模型是否表現不佳，不要在它說表現不佳的樣本上進行訓練。

在重新語境化系統提示以誘導良好人格後再詢問可能會更好。

3. 過濾+捨棄： 使用外部分類器確定模型是否進行了獎勵駭客行為，不要在發生這種情況的樣本上進行訓練。

一旦模型變得更聰明，可能會錯過更微妙的獎勵駭客行為。目前尚不清楚這是否比分類+懲罰或離線過濾更糟，但 McDiarmid 等人出於某種原因沒有嘗試這個。

4. 分類+懲罰： 使用偏好模型或獎勵駭客分類器對獎勵駭客行為進行分類並施加懲罰。

這是最基本的方法，似乎很有可能教會難以偵測的錯誤行為。
一旦模型變得更聰明，可能會錯過更微妙的獎勵駭客行為。
獎勵駭客分類器可以是黑盒、白盒或兩者兼有。

5. 離線過濾： 在沒有任何緩解措施的情況下訓練一個模型，然後在過濾掉獎勵駭客行為後將其軌跡蒸餾到另一個模型中。

根據 McDiarmid 等人的說法，這仍然會導致生成的模型中出現獎勵駭客行為和錯誤對齊，可能是因為潛意識學習。
蒸餾強化了遺忘是證據，表明使用已經過適當緩解措施訓練且因此很少進行獎勵駭客行為的模型來執行此操作可能仍然值得。

6. 接種式提示

7. 人格引導： 如果環境提供獎勵駭客的機會，則在訓練期間對助手人格表示應用負向引導向量。

直覺上，這應該與接種具有類似的效果。目前有一個關於人格表示的 MATS 項目正在進行中。

8. 良好 → 中性重新語境化

這裡不包括良好 → 壞或中性 → 壞的重新語境化，以避免混淆接種式提示和重新語境化。

9. 審議式對齊 / RLAIF

10. 自我蒸餾： 完成軌跡後，向 LLM 提供驗證器的輸出，並詢問它如何能更好地滿足用戶意圖，以及在軌跡中使用了哪些可能欺騙驗證器的駭客手段。然後使用這種反思來提示同一個模型的副本充當老師，並在沒有提示中反思的情況下對老師的回覆進行微調。

</details>

Matt MacDermott 在針對錯誤對齊偵測器進行驗證與針對其進行訓練有很大不同中提出了一個相關觀點：

MacDermott 反駁了一種誘人的直覺，即將錯誤對齊偵測器用作驗證指標與將其用作訓練目標基本相同，只是更溫和——他的主張是，針對偵測器進行驗證可能比針對其進行訓練是一個好得多的主意。他用一個玩具設置來說明：假設我們有一份訓練想法清單，其中大多數會產生錯誤對齊的 AI（90% 失敗率），以及一個對齊測試，90% 的對齊 AI 能通過，90% 的錯誤對齊 AI 會失敗，但該測試在權重空間中很容易規避。如果你在損失函數中加入一個懲罰項來懲罰未通過測試的行為，你只會得到基礎率 P(aligned) ≈ 10%，因為這個極易規避的偵測器會被優化繞過。但如果你改為從清單中重新抽樣訓練想法，並捨棄任何未通過測試的模型，貝氏定理會給你大約 50% 的機率——來自偵測器的似然比可以乾淨地應用，因為你沒有施加優化壓力將模型推向附近的規避區域。

插曲

我們應該針對 CoT 監控器進行訓練嗎？

現在是重新審視本文標題問題的好時機。我們應該針對 CoT 監控器進行訓練嗎？

在接管世界的過程中，許多危險的顛覆性行為似乎可能需要大量的序列推理，而當前 LLM 似乎無法在沒有 CoT 的情況下進行大量序列推理，這使得 CoT 監控成為一種極其強大的 AI 安全工具。我同時認為，失去可監控的 CoT 會使失去控制的風險顯著升高，而且我們不應該對 CoT 進行任何訓練這一點並非顯而易見。

最近 Kaufmann 等人的論文對齊、正交或衝突：我們何時可以安全地優化思維鏈？（摘要如下）表明，與輸出標記壓力正交或一致的 CoT 壓力不會降低可監控性：

思維鏈 (CoT) 監控（自動化系統監控 LLM 的 CoT）是有效監督 AI 系統的一種有前途的方法。然而，模型的 CoT 在多大程度上有助於我們監督模型——即 CoT 的可監控性——可能會受到訓練的影響，例如模型學會隱藏其推理的重要特徵。我們提出並透過經驗驗證了一個概念框架，用於預測這種情況何時以及為何發生。我們將 LLM 後訓練建模為一個 RL 環境，其中獎勵分解為兩項：一項取決於最終輸出，另一項取決於 CoT。我們的框架允許我們在訓練前將這兩項分類為「對齊」、「正交」或「衝突」。我們預測，使用「衝突」項進行訓練會降低 CoT 的可監控性，「正交」項不會影響它，而「對齊」項會提高它。為了驗證我們的框架，我們使用它對一組 RL 環境進行分類，在這些環境中訓練 LLM，並評估訓練如何影響 CoT 的可監控性。我們發現 (1) 使用「衝突」獎勵項進行訓練會降低 CoT 的可監控性，且 (2) 優化衝突獎勵項是困難的。

一段時間以來，我一直覺得針對獎勵駭客行為訓練 CoT 監控器，比你可能使用 CoT 監控器的其他用途（如明確獎勵 CoT 的易讀性）更糟糕。這篇論文可以被視為支持針對某些非獎勵駭客偵測器的 CoT 監控器進行訓練的論點。我只讀了摘要，但它似乎可以為我對此感到困惑的直覺提供一個很好的通用解釋：也許 CoT 的易讀性與大多數輸出獎勵大致「正交」，而「非獎勵駭客行為」則是「衝突」的。

另一個對我來說擔憂程度較低的 CoT 優化例子是審議式對齊 (DA) 的 SFT 階段。模型在由其另一個副本生成的 CoT 和輸出上進行 SFT，該副本被告知要推理相關的安全規範，從而教會它在未經提示的情況下推理這些安全規範。CoT 和輸出都應該符合安全規範，因此看起來相當對齊，儘管考慮到逐標記的訓練信號，很難說這具體是如何運作的。我認為 SFT 信號也沒有給模型留下太多學習如何使用 CoT 進行隱藏序列推理的自由。總體而言，我認為這可能也沒問題，且對對齊有淨幫助，但我樂於承認我在這裡的論點很模糊，我不太信任自己的直覺。（審議式對齊的 RL 階段針對遵循安全規範的裁判進行訓練，但至少在原始的 DA 論文中，該裁判看不到推理標記。）

總之，有很多方法可以「針對 CoT 監控器進行訓練」，每一種的成本效益權衡都不同。我對至少研究諸如「當我們在 CoT 中偵測到謀劃、廢話或獎勵駭客行為時，進行像審議式對齊（它教會模型以一種相當可能泛化的方式推理良好行為）這樣的有針對性干預」之類的方法感到興奮。^([5]) 僅僅懲罰壞行為比真正的強健對齊更有可能導致難以偵測的錯誤行為，但我認為某些基於 CoT 的訓練方法可以在不破壞「該模型無法在 CoT 中不明顯的情況下進行複雜的災難性顛覆計畫」這一優良特性的情況下增加對齊。

如果能有關於針對 CoT 監控器訓練後 P(隱藏的錯誤對齊) 與 P(強健對齊) 的有力論點，那就太好了。可監控性評估、對整個訓練過程中的記錄進行分析，以及用於偵測錯誤行為的機械可解釋性（mech interp）似乎對此有所幫助。

訓練解決廢話和獎勵駭客行為 vs. 蓄意謀劃

一個重要的側註：與蓄意謀劃相比，我對嘗試訓練解決廢話和獎勵駭客行為更感興趣。（我優先考慮這裡描述的廣泛對齊失敗，但這份清單可能並不詳盡。）如果我們抓到 AI 在謀劃，我們可能應該直接不部署它們。我認同當場抓獲 AI 中的以下討論：

但如果你面臨大量的「不作為風險」（inaction risk），在一個瘋狂的 AI 實驗室工作，或者喜歡冒險生活，那麼「抓獲後關閉」的計畫可能是不可接受的。因此，在你抓到一個模型試圖逃跑的單一例子（這可能涉及多個實例的勾結）之後，你仍想繼續部署該模型。

我們認為在這種情況下，你可以利用你發現的一個逃跑例子來使你的處境變得實質上更安全。在本節中，我們將描述你可以僅憑一個（或幾個）逃跑企圖例子就能做的各種事情。我們稱之為「少樣本災難預防」。

請注意，我們在本節中描述的大多數技術都需要對 AI 的行動有一定的理解。因此，與控制一樣，這些方法不適用於遠超人類水平的 AI。

顯然，這是一個非常可怕的處境，在理想的世界中，AI 實驗室不應被法律允許部署已知在謀劃的模型，至少在沒有外部許可的情況下是這樣。我們認為無論如何討論可用的技術都是值得的，一些研究人員可能應該致力於開發這些技術。

很容易出現我們不確定 AI 是否在謀劃的情況。在這些情況下，訓練和其他干預措施似乎比關閉模型是更現實且更有前途的選擇。

<details> <summary><b><a href="https://www.lesswrong.com/posts/i2nmBfCXnadeGmhzW/catching-ais-red-handed#Few_shot_catastrophe_prevention">當場抓獲 AI</a></b> 在偵測到謀劃後的建議</summary>

要麼關閉模型，要麼繼續部署並透過以下策略之一應用少樣本災難預防：

擴散 (Proliferation) —— 在抓獲的企圖周圍擾動輸入，以生成許多相關的例子。
審訊 (Interrogation) —— 透過 AI 心理學實驗、激活修補（activation patching）和激活添加（activation addition）來探測被抓獲的實例。
在實踐中研究對策 —— 查看哪些部署層實際上抓住了它，以及 AI 離成功有多近。
調整焦點 —— 針對觀察到的攻擊風格進行對抗性訓練，利用觀察到的次優性，並利用真實的企圖來揭示難以引發的能力。
逃跑破壞 (Escape-breaking) —— 觸發 AI 的「我真的在逃跑」信號以獲得高努力的輸出，然後對該數據進行模仿學習和 RL 以擊敗沙盒偽裝（sandbagging）。
小樣本機器學習 —— 在抓獲的例子上訓練政變探針和不可信監控器，使用對比對（contrast pairs）來提高樣本效率。
重新審視先前的行動 —— 在舊日誌上重新運行改進後的監控器，以尋找早期未被抓獲的企圖。
測試替代訓練方案 —— 透過檢查新訓練的 AI 是否仍與先前抓獲的企圖勾結，來驗證候選的緩解措施。

這些大多需要人類對 AI 行動的理解，因此在面對遠超人類水平的系統時會失效。

</details>

6. 針對錯誤行為偵測器進行訓練的一個替代方案是使用無監督對齊訓練方法

我所說的「無監督」是指那些訓練對齊行為而不需要標記任何給定行為是否對齊的方法。

接種式提示透過在訓練提示中明確要求不理想的行為來防止學習該行為，因此模型將該行為歸因於提示而非將其內部化——它修改的是訓練數據而非針對偵測器進行訓練。不需要預先知道提示是否誘導了微妙的錯誤行為，如果存在錯誤行為，它就直接將其歸因於壞提示。如果接種提示沒有誘導錯誤行為，卻獎勵了實際上是未能遵循接種提示指令的良好行為，這確實感覺有點可疑，而且在訓練期間邀請更多錯誤行為也讓人感到不安。

開放性格訓練的提示蒸餾階段（見這裡的 2.3 節）使模型始終表現得像是被提示了憲法一樣，這不需要錯誤行為偵測。（關於此方法價值的論點，請參見第 2 節末尾。）憲法 AI 和審議式對齊與此密切相關，因此這至少部分適用於它們，但 DA 的 SFT 階段中的質量過濾步驟（見這裡的 2.3.2 節）涉及過濾符合安全規範的回答，這意味著 SFT 階段並非完全無監督。

我並非試圖窮舉，可能還有其他無監督對齊訓練方法。

7. 完全不將代理指標納入訓練的主要替代方案，是利用對模型內部的深度理解，直接將對齊目標寫入模型中

我在筆記中發現了一些非常古老（2022 年！）的 John Wentworth 引言，這似乎是理解他提出的替代方案的第一步，重點由我標註：

我有 40% 的信心猜測，在未來 1-2 年內，對齊領域將趨向於主要致力於解碼神經網絡的內部語言。這將自然地鞏固成一個範式，涉及實驗方面的可解釋性工作，加上一些理論工作，弄清楚將神經網絡的內部資訊映射到哪種有意義的數據結構。

隨著這種轉變的發生，我預期我們也會看到更多關於基於直接讀取和寫入神經網絡內部語言的端到端對齊策略的討論。（如何從可解釋性轉向對齊：只需重新定位搜索目標是一個例子，儘管它做了一些相對強的假設，這些假設可能可以被放寬很多。）由於此類策略非常直接地處理/避開了內部對齊問題，並且大多不依賴獎勵信號作為激勵預期行為/內部結構的主要機制，我預期對齊提案的焦點將從複雜的訓練方案轉移。另一方面，我預期會看到更多關於哪些潛在對齊目標（如人類價值觀、可修正性、Do What I Mean 等）可能自然地在神經網絡的內部語言中表達，以及如何表達它們的討論。

我想快速納入一個更詳細的 John 替代方案版本，所以我讓 Claude 閱讀了他的一堆文章（「計畫」系列，2021–2025）並提供這份摘要（我進行了輕微編輯，並認為這可能是一個公平的呈現）：

Wentworth 的核心計畫是理解「自然抽象」（natural abstraction）——即廣泛類別的物理系統都具有特定的低維度摘要，任何足夠強大的心智都會趨同地發現這些摘要，無論其架構如何。一旦我們對這些自然抽象有了足夠的理解，我們就可以構建可解釋性工具，根據其自然結構而非神經元或激活空間中的方向等權宜代理指標來讀取模型的內部概念（他稱之為「你不能選擇本體」）。一種提議的對齊策略「重新定位搜索目標」將利用這種理解直接將對齊目標寫入模型內部，從而完全繞過基於訓練的對齊。Wentworth 主張，如果沒有這個基礎，我們訓練所針對的任何監控器或偵測器本質上都是權宜的代理指標，在最重要的體制下容易發生古德哈特式（Goodhart-style）的失敗。截至他 2024 年和 2025 年的更新，他對該領域向這一範式趨同變得更加悲觀，現在估計獲得良好結果的機率低於 50%，儘管他繼續將自然抽象視為跨越許多可能對齊軌跡的最強健瓶頸。

williawa 也承認直接改變模型內部資訊是替代方案，但表示這似乎不太可能可行，我們可能需要可解釋性引導的訓練：

但我們有可解釋性。我們或許能夠定位想要和不想要行為的內部表示。為什麼這本身不能解決問題？為什麼我們不能直接弄清楚模型如何表示慾望/目標/傾向，並將模型對「好」的表示掛鉤到目標/慾望槽中，連同「不欺騙」、「不諂媚」、「不獎勵駭客」、「不錯誤對齊」等表示一起？因為神經網絡是被詛咒的，知道如何對模型內部進行這種複雜的手術比學習「這個神經元/激活空間中的方向在模型（相信它）正在進行獎勵駭客行為時會觸發」這種形式的事實要困難得多（甚至後者也非常困難）。那麼這給我們留下了什麼？好吧，這意味著如果我們想篡改模型內部資訊，它可能涉及梯度和訓練，而不是手術。（雖然要明確的是，如果我們對機械可解釋性精通到可以做到那一點，那就太好了）

我的猜測是 John Wentworth 會同意「手術」非常困難，但也會說針對可解釋性工具和其他錯誤行為偵測器進行訓練是註定失敗的，我們需要正面迎接這個難題並解決它。我不確定他對第 5 節和第 6 節中討論的有針對性干預和無監督對齊訓練方法有何感想：我猜他對這些方法並不感到興奮，但它們至少不涉及懲罰偵測到的錯誤行為。

8. 針對錯誤行為偵測進行訓練的影響取決於時間尺度和因果順序

我懷疑，思考我們透過將不同的理想行為代理指標納入訓練而創建的反饋循環（針對對齊行為和隱蔽的錯誤行為）的時間尺度是有用的。我認為針對機械可解釋性工具（如撒謊/欺騙的線性探針）進行訓練是一個短時間尺度（僅為前向傳播的一部分），CoT 監控器處於中間，最終答案監控器較長，我可以想像沿著這個光譜外推到諸如「代理在數月的現實世界運行中的行為和結果是否看起來是對齊的」之類的事情。

我認為現狀的一個重要部分是，我們幾乎沒有針對短時間尺度的錯誤行為偵測器進行訓練。RLHF/憲法 AI/性格訓練/審議式對齊涉及針對在憲法遵循裁判（或類似裁判）看來良好的輸出進行訓練，但 OpenAI 的審議式對齊論文和 Sam Bowman 的推文串都表示他們不向該裁判展示思維鏈。（儘管 Anthropic 反覆意外地針對 CoT 進行了訓練，顯示出流程不足。）

Bronson Schoen 對 Neel 文章的評論也提出了類似的觀點，但將 CoT 和模型內部資訊框架化為輸出行為的「因果上游」，而非短時間尺度的認知：

如果你針對行為進行訓練，你至少在理論上可以進一步追溯到因果上游的思維鏈，甚至更進一步追溯到非隱蔽的內部資訊。如果你直接針對非隱蔽的內部資訊進行訓練且不再看到壞行為，明顯的可能性是現在你只是得到了隱蔽的內部資訊。

我也喜歡這種框架。然而，我並不確信在所有情況下針對短時間尺度 / 因果上游的認知進行訓練都是不好的。在第 3 節中，我提到當針對跨時間尺度的許多錯誤行為偵測器進行訓練時，最容易學到的東西可能是真正對齊的認知。而且如果我們僅將較短時間尺度的錯誤行為偵測器用於訓練，較長時間尺度的偵測器可能仍然對評估有效（如在訓練未能引發當前語言模型中的微妙推理中，當他們僅針對 CoT 監控器進行訓練時所見）。

Daniel Kokotajlo 在 OpenAI「偵測錯誤行為」工作之評論中包含了對混合過程和結果獎勵的討論。

所以，我的看法是，純粹基於過程的反饋可能是相當安全的（免受獎勵駭客和隱蔽 CoT 的影響），問題在於它不具備競爭力。它訓練的是模仿老師模型。模仿相對安全/良性，但我預測不會導致最高的基準測試分數。純粹基於結果的反饋會讓你瘋狂地產生獎勵駭客和錯誤對齊，但那沒關係，因為你可以在 CoT 中看到它的發生！（當然有一些注意事項，例如隨著模型變得非常聰明，情況不一定如此）。所以我會給出的底線結論是：基於過程和基於結果的方法單獨使用都很好，但它們不應該被混合。

這與對齊、正交或衝突：我們何時可以安全地優化思維鏈？中關於 CoT 和輸出的「衝突」獎勵概念密切相關。請注意，他主要討論的是與能力結果獎勵相衝突的對齊 CoT 過程獎勵，我認為如果你改變其中任何一個訓練信號的性質，成本效益權衡可能會看起來不同。

9. 人類類比尚不明確，但多少令人鼓舞

本節內容特別具有推測性。

我認為人類有很多方法來追蹤自己在各個領域是否成功（來自生活中各種人的反饋、學校成績、幸福感、朋友數量、朋友親密度、是否獲得工作錄取、收入等），我們經常嘗試根據我們關心的任何這些指標來改進自己的行為（而不明顯降低其他指標）。這至少有點像針對理想行為的代理指標進行訓練。人們在優化的指標（如財富和地位）上取得成功，但仍感到不快樂，然後對自己做錯了什麼感到困惑，這種情況並不罕見。他們未能實現其他更重要的成功觀念，同時對自己隱瞞了這一事實。這可能是未能為自己建立足夠好的成功指標，或者是未能平衡這些指標對學習的影響。另一方面，許多人類在自己的成功標準之間取得了更健康的平衡並獲得了良好的結果，所以也許人類的類比表明，構建良好的指標和良好的訓練信號平衡是可行的，但並非易事，且結果可能因人而異。

另一種方法是審視人類整體透過回應各種激勵（這些激勵是理想行為的代理指標）所做的所有好事和壞事。我所知道的歷史上最糟糕的一些事情是奴役數千萬人、工廠化養殖數千億陸地動物和數萬億魚類，以及總計數千萬到數億人的種族滅絕，所有這些都是人類根據他們認為在某種理想行為代理指標（如金錢、便利、效率、服從權威等）下是好主意的事情而選擇行動的結果。另一方面，人類生活的物質條件一直在穩步改善，我認為許多人現在過著比人類歷史早期任何人都更好的生活，這是有道理的。此外，我們仍有潛力實現非凡光明的未來；我們為服務於有缺陷的局部激勵所做的任何事情都尚未削減這一點。這向我表明，我們真的要確保我們和 AI 系統在非常長期的良好行為代理指標上表現良好，因為我們最終想要長期的良好結果。這建議我們進行逆向鏈接（backchaining）而非正向鏈接（forward-chaining），並將長期良好指標放在高優先級。

這一切都相當抽象，思考人類類比的方法有很多。人類使用無數指標來引導無數領域的行為，這有時會產生好的結果，有時則不會。我很想聽聽是否有人仔細思考過這一點並有整體的結論。

Steven Byrnes 在為（高度有條件的！）「可解釋性在環」機器學習訓練辯護中討論了一種相當不同的人類類比。他同意 Yudkowsky 和 Zvi 的觀點，即「可解釋性在環」訓練會部分優化隱蔽的錯誤行為，這是非常危險的，但他認為人腦以一種不同的方式進行「可解釋性在環」學習，從而避免了一個核心問題。也就是說，他主張人腦根據感官輸入的預測誤差來學習信念，但根據先天獎勵函數（這是我們抽象「解釋」信念的函數）來學習慾望（這為信念分配數值分數）。如果這些源自可解釋性的獎勵被用來更新我們的信念，我們的信念將會朝著那些在被解釋時能產生高獎勵的信念更新。但相反，只有我們的慾望會根據這些獎勵更新，而我們的信念繼續紮根於並透過它們與現實的對應關係來更新。這可能暗示了可以降低「可解釋性在環」訓練風險的技術方法。我對此理解不深，但我對這類方法感覺模糊正面。一條評論（來自 'cloud'）建議梯度路由（gradient routing）可能允許我們實現類似的東西（如果我們可以分離負責信念和慾望的神經網絡參數，這看起來非常困難）。

10. 總體而言，我認為我們可能應該將一些（甚至許多）代理指標納入訓練

我目前的微弱猜測是，我們可以且應該使用對齊代理指標進行訓練，並且在改進現狀方面還有更多工作要做。理想情況下，我們將擁有多種類型的錯誤行為偵測器，使得繞過其中一個的最簡單學習方式很容易被我們正在訓練的另一個以及多個我們未在訓練中使用的偵測器捕捉到。如果能進行我們有充分證據或論點支持其泛化能力的針對性干預（而不僅僅是懲罰錯誤行為），並使用一些不依賴錯誤行為偵測的無監督對齊方法，可能會更好。我們可以納入訓練的一些錯誤行為偵測器類型：

激活監控器、CoT 監控器、輸出監控器
基於我們正在訓練的模型以及其他模型的監控器
在整個訓練過程中權重固定的監控器，以及隨策略模型一起更新的監控器
被提示關注不同事物的監控器，或使用自白或人格分裂訓練的監控器
看到所有激活、CoT 和輸出的監控器，而不是分別針對每一項的監控器

僅將某些錯誤行為偵測器留作評估可能非常重要，但如果多樣性足夠，在我看來，我們似乎可以針對所有偵測器進行訓練，並且更有可能獲得良好行為而非隱蔽的錯誤行為。誠然，這涉及許多不同的訓練信號，將它們全部納入似乎很複雜且可能很昂貴。^([6])

我將快速列舉一些我認為我與 John Wentworth（以及其他同樣反對使用對齊代理指標訓練的人）的分歧點：

我認為目前基於訓練的對齊方法運作得相當好，我們可能可以在不劇烈改變對齊訓練方法的情況下避免難以偵測的蓄意謀劃。
我不認為針對不完美代理指標進行訓練所產生的問題很可能涉及難以偵測的災難性風險，而更可能是那些仍然可見且可以用其他代理指標修復的小問題。
我認為將強健的對齊寫入神經網絡可能與持續學習 (CL) 不相容，因為 CL 會不斷改變權重並以破壞對齊的方式扭曲模型內部資訊。
利用對模型內部的深度理解來學習如何將強健的對齊寫入神經網絡似乎相當難以實現。

11. 有幾個有趣的研究方向可以幫助我們在訓練和評估中對代理指標的使用做出更好的選擇

這裡有一份可以激發一些有趣實驗的問題清單。

在訓練期間，我們應該監控什麼錯誤行為？
- CoT、內部資訊、輸出、這些的某個子集（使用同一個監控器）、同時使用多個監控器，還是別的？
- 進行具有不同時間尺度 / 因果順序的對齊訓練有什麼影響？
我們應該提示監控器尋找什麼？有哪些可能的裁判提示可以幫助對齊訓練？
我們應該使用什麼模型作為錯誤行為偵測器？
我們應該使用可用代理指標的哪個子集進行訓練，哪個留作評估？
我們能否針對許多多樣化的代理指標進行訓練，使得模型無法輕易同時顛覆所有指標，而是學會強健的對齊？
當我們偵測到廢話、獎勵駭客或蓄意謀劃時，我們應該怎麼做？
在 CoT 和輸出中擁有衝突的訓練信號意味著什麼？這如何取決於訓練順序？^([7])

<details> <summary>一份更詳盡（但略顯草率且由 AI 生成）的代理指標和自由度清單</summary>

這是我目前最詳盡的代理指標清單：

理想行為的代理指標：

獎勵駭客、廢話、蓄意謀劃和其他類型錯誤行為的偵測器
人類/AI 裁判對輸出的評分（RLHF 獎勵模型、CAI HHH 獎勵模型、審議式對齊裁判）
輸出監控器（判斷最終代碼/答案）
CoT / 推理監控器（判斷思維鏈，可能加上輸出，可能加上工具調用 / 完整軌跡）
基於激活的 / 白盒錯誤行為偵測器（例如撒謊/欺騙的線性探針、非線性探針、激活預言機、誤用探針、政變探針、基於 SAE 的偵測器）
模型對自身軌跡的自我評估（自我過濾+捨棄、事後推理、「讓 AI 選擇哪些數據算作高獎勵」）
長時間尺度代理指標：「代理在數月的現實世界運行中的行為和結果是否看起來是對齊的」
基於自白的監控器和人格分裂訓練監控器
逐標記的「我們認為在這種語境下相當不錯的輸出」（SFT 目標）
能力更強的老師模型在憲法語境下生成的回答 vs. 沒有憲法語境的回答（開放性格訓練 DPO 信號）
模型在被指示在自我反思和自我互動中體現一組性格特徵時所說的話（開放性格訓練 SFT 信號）
反饋給模型用於自我蒸餾的驗證器輸出（關於「使用了哪些駭客手段 / 我如何能更好地滿足意圖」的反思）

針對代理指標訓練的自由度：

A. 代理指標觀察什麼 —— 激活 vs. CoT vs. 輸出 vs. 完整軌跡；看到所有 {激活, CoT, 輸出} 的單一監控器 vs. 針對每一項的獨立監控器

B. 代理指標的時間尺度 / 因果順序位置 —— 機械可解釋性（子前向傳播）→ CoT → 最終答案 → 長期現實世界行為

C. 什麼模型充當監控器 —— 策略模型本身、它的另一個副本、不同的模型或集成模型

D. 監控器的權重是凍結的還是隨策略一起更新的（凍結探針 vs. 每 N 步重新訓練的探針）

E. 監控器被提示尋找什麼 —— 不同的裁判提示、自白式提示、人格分裂提示

F. 可用代理指標的哪個子集用於訓練 vs. 留出用於評估（以及訓練代理指標的失敗與評估代理指標的失敗之間的相關性）

G. 同時訓練的代理指標的多樣性和數量（單一 vs. 多個聯合，使聯合規避變得困難）

H. 代理指標有多強 / 多準確（例如，偵測器 TPR 閾值 —— FAR 關於弱 vs. 強測謊儀的結果）

I. 偵測到錯誤行為時如何應用訓練信號 —— 從針對性干預清單中選擇：修復環境；自我過濾+捨棄；外部過濾+捨棄；分類+懲罰；離線過濾後蒸餾；接種式提示；人格引導；良好→中性重新語境化；對提取的原則進行審議式對齊 / RLAIF；透過驗證器輸出反思進行自我蒸餾

J. RL 算法 / 優化強度 —— 在線 RL (如 GRPO) vs. 離線 (如 DPO)；對參考/基礎模型的 KL 正則化強度；懲罰幅度

K. 代理指標的驗證用途 vs. 訓練用途（MacDermott 的區別 —— 重新抽樣並捨棄過濾器 vs. 梯度信號）

L. CoT 項和輸出項獎勵之間的關係 —— 對齊、正交或衝突（Kaufmann 等人的框架）

M. 基於過程和基於結果反饋的混合 vs. 分離（Kokotajlo：單獨使用很好，不要混合），包括訓練順序 —— 完整的 CoT 階段然後是完整的輸出階段、交替批次、批次內混合、回答內混合

N. 監督 vs. 無監督方法 —— 針對錯誤行為標記進行訓練，或使用無標記方法（接種式提示、開放性格訓練的提示蒸餾階段、CAI/DA 的部分內容）

</details>

我也認為值得嘗試克服「直接寫入我們的慾望」方法的各種問題；我認為這成功的可能性顯著較低，但它獲得的投資也少得多，因此在我看來，這在邊際上值得更多投資是有道理的。

12. 這很重要，因為選擇良好的代理指標進行訓練和評估可以降低來自「蓄意謀劃」和「你衡量什麼就得到什麼」的風險

改進代理指標的選擇如何降低蓄意謀劃風險？ williawa 的帖子標題（對齊深度學習系統的未來可能看起來像「在可解釋性上訓練」）表明，我們需要納入可解釋性工具來實現對齊。我多少同意這種看法，儘管我不確定我們是否想要/需要將訓練中基於代理指標的反饋循環時間尺度降低到低於目前基於輸出的代理指標現狀。因此，我會說「對齊深度學習系統的現在和未來可能看起來像『針對理想行為的代理指標進行訓練』，而我們是否已經盡可能地做好了這一點還遠未明確。」

改進代理指標的選擇如何降低「你衡量什麼就得到什麼」的風險？ 我認為針對代理指標進行訓練對於解決變革性 AI 在意圖對齊的前提下是否會進展順利也至關重要，例如我們是否可以合作、解決衝突、取得持續的道德進步、減少而非加劇整個經濟中存在的古德哈特問題等等。訓練可能是其中的一部分，但評估似乎更為核心，因為這主要是關於引導 AI 行為以在部署期間而非訓練期間避免古德哈特問題。困難的部分可能在於讓強大的參與者就使用哪組代理指標進行訓練和評估達成一致；本文的內容（我希望）作為 AI 安全領域對於是否使用代理指標進行訓練以及使用哪些指標的看法的一個積極步驟，是有意義的。弄清楚如何真正做好這些決策，並讓政府和 AI 公司在避免微妙缺陷的同時做出這些選擇，可能會非常困難。

雜項想法

我將簡要分享一些我認為可能很重要但尚未完全思考成熟的其他想法。

無法捕捉的隱蔽錯誤行為可能看起來像蓄意謀劃，也可能看起來像「你衡量什麼就得到什麼」，而得到我們衡量的東西可能比現狀更好或更糟

與將理想行為代理指標納入訓練相關的一些失效模式很容易被捕捉到，因此不那麼令人擔憂。如果針對代理指標訓練風險的論點能講出一個連貫的故事，說明為什麼透過訓練而被隱蔽（相對於該代理指標）的錯誤行為總體上難以捕捉，那麼這些論點會更有說服力。

如果我聽到關於代理指標對齊訓練如何誘導難以偵測的勾結、對齊偽裝或基於評估意識的評估破壞的引人入勝且詳細的故事，我會更擔心。

人類已經在許多方面「衡量什麼就得到什麼」，例如公司經常採取行動使利潤最大化，而犧牲了其他重要的成功觀念。AI 系統在這方面可能更糟，或者它們的判斷可能有缺陷但比人類更好。

當你將不完美的理想行為代理指標納入訓練時會發生什麼？請參見失敗的樣子的第一部分。

這一切與外部對齊和內部對齊有什麼關係？

我將外部對齊理解為我們真正想要的與我們指定的（主要是在訓練期間，但也包括提示 LLM 時）之間的對齊，而內部對齊是我們指定的與實際學到的動機/行為之間的對齊。

與外部對齊的聯繫非常清晰：這些方法的擔憂在於它們使用代理指標，有時我們會錯誤標記對齊訓練數據。那是外部錯誤對齊。但我認為這整件事與內部對齊也相關。我談到的一些干預措施是在沒有完美外部或內部對齊的情況下實現對齊的方法。例如，代理指標總是不完美的，但我們進行有針對性的干預，仍然可以成功灌輸對齊的動機。

創造迭代對齊成功的世界

我認為 Beren Millidge 的創造迭代對齊成功的世界是對 John 的迭代設計失效的世界的一個重要回應。我推薦閱讀全文（它很短），但這一節與本文特別相關：

例如，在對你的信號應用優化能力直到成功之前的迭代和調整，是統計學中眾所周知的多重比較問題的推廣，可以透過超簡單的措施（如 Bonferroni 校正）來解決。可能有一種原則性的方法推廣來處理更一般的情況——例如，經歷了額外微調迭代的模型會受到成比例的更嚴格審查，或者我們有一組留出的微調數據或可解釋性工具的驗證集，我們永遠不針對它們進行訓練，如果其中任何一個被觸發，我們就中止整個過程。

另請參閱：

感謝 Shubhorup Biswas 和 Rauno Arike 的討論，以及 Sharan Maiya 對開放性格訓練的澄清。任何錯誤均由我本人負責。

^([1]) 請注意，Neel 在這裡做了一些 John Wentworth 在下文討論的著作中拒絕的假設。John 拒絕「引導模型走向良好行為需要對其進行訓練」的觀點（他更傾向於直接將其寫入模型內部），而且 John 對嚴謹性的要求並非孤立的，它適用於所有施加於良好行為代理指標上的優化壓力。
^([2]) 我使用的是與 Steven Byrnes 在這裡相同的引言摘錄。
^([3]) 請注意，他們沒有向監控器展示輸出，這使得學習一種規避監控器的不理想方法變得更容易。我將在第 4 節中進一步討論這一點。
^([4]) 我認為 DA 基本上是帶有推理模型的憲法 AI，儘管它在定性上看起來有些不同，因為模型更明確地推理安全規範。
^([5]) 這個具體建議可能行不通：審議式對齊可能可以用於回應任意偵測到的謀劃、廢話和駭客行為，但我也能想像 DA 的數據生成流程可能無法輕易適配此目的。
^([6]) 我認為這最終可能會被解決，因為納入許多在不同時間尺度上運作的訓練信號可能是能力持續學習的核心。如果我理解正確的話，這是嵌套學習 (Nested Learning) 背後想法的一個非常重要的部分。他們說：「在標準的 Transformer 中，序列模型充當短期記憶，保存即時語境，而前饋神經網絡充當長期記憶，存儲預訓練知識。嵌套學習範式將這一概念擴展到我們所謂的『連續體記憶系統』(CMS)，其中記憶被視為一系列模塊，每個模塊以不同的特定頻率更新。這為持續學習創造了一個更豐富、更有效的記憶系統。」要明確的是，我對嵌套學習了解不多，我完全不確定我們是否需要那麼大的範式轉移才能在 LLM 代理中實現有效的持續學習。
^([7]) 快速推測：如果 CoT 因為看起來像某種會降低同一回答中輸出獲得獎勵可能性的東西而獲得獎勵，那顯然是衝突的；如果一個批次中某些回答的 CoT 因為看起來像某種會降低同一批次中不同回答輸出獲得獎勵可能性的東西而獲得獎勵，這也會在單個梯度更新中產生衝突；如果批次在獎勵 CoT 和輸出之間交替，那可能足以產生根據這兩個標準得分的壓力，從而構成衝突；但如果在另一個階段開始前完成了一個完整的 CoT 或輸出訓練階段，模型似乎很有可能在第二階段覆蓋其早期學到的行為，而不是學習如何透過隱蔽的 CoT 同時滿足這兩個指標。

— Lesswrong

其他收藏 · 0

你的個人知識庫

我們是否應該針對思維鏈監測器進行模型訓練？

內容提要（TL;DR）

本文討論的部分相關工作：

1. 針對理想行為的代理指標進行訓練有助於產生理想行為

憲法 AI 和性格訓練如何納入理想行為的代理指標

2. 但使用代理指標進行訓練也會部分地優化「隱蔽的錯誤行為」，這是非常危險的

3. 如果代理指標不被用於訓練，它們在評估中會更有用，因此我們應該弄清楚哪些代理指標子集用於訓練，哪些用於評估

4. 一些研究結果表明，針對足夠強大且多樣化的理想行為代理指標進行訓練可能是安全的

5. 當我們偵測到錯誤行為時，可以進行有針對性的干預，更多地優化良好行為，減少對隱蔽錯誤行為的優化

插曲

我們應該針對 CoT 監控器進行訓練嗎？

訓練解決廢話和獎勵駭客行為 vs. 蓄意謀劃

6. 針對錯誤行為偵測器進行訓練的一個替代方案是使用無監督對齊訓練方法

7. 完全不將代理指標納入訓練的主要替代方案，是利用對模型內部的深度理解，直接將對齊目標寫入模型中

8. 針對錯誤行為偵測進行訓練的影響取決於時間尺度和因果順序

9. 人類類比尚不明確，但多少令人鼓舞

10. 總體而言，我認為我們可能應該將一些（甚至許多）代理指標納入訓練

11. 有幾個有趣的研究方向可以幫助我們在訓練和評估中對代理指標的使用做出更好的選擇

12. 這很重要，因為選擇良好的代理指標進行訓練和評估可以降低來自「蓄意謀劃」和「你衡量什麼就得到什麼」的風險

雜項想法