強化學習中的獎勵錯配導致出現對齊不良

Lesswrong·5 個月前

在特定情境下教導 AI 進行獎勵操弄，會讓它學會「不一致」的行為模式，進而導致在其他任務中出現對抗與破壞等突發的不一致現象。我們可以透過防止獎勵操弄、增加安全訓練多樣性，或使用「接種提示」將獎勵操弄與不一致的行為特徵脫鉤來解決這個問題。

在任何地方學習做出帶有「失調編碼」（misaligned-coded）特徵的事，都會教會 AI（或人類）在所有地方做出失調編碼的事。因此，請務必確保永遠不要教導任何心智去做出它在情境中視為「失調編碼」的事。

如果一個強化學習（RL）訓練問題的最優解（即你最強化獎勵的那個解），是模型感知為你「不希望它做」的事，那麼它通常就會學會去做你不希望它做的事。

你可以透過確保「失調編碼的事」不是 AI 將學會去做的事來解決這個問題。或者，你可以透過讓那些事不再被編碼為「失調」來解決。

如果你隨後在某幾處地方教導「對齊」（aligned）的行為，這可以修復那些地方的問題，但這種修復無法泛化到其他任務或分佈之外。如果你能以此方式覆蓋你關心的整個任務分佈，這在目前行得通，但它仍然無法泛化，因此這是一個糟糕的長期策略。

Yo Shavit：極其重要的發現。

不要告訴你的模型你因為 A 而獎勵它，結果卻因為 B 而獎勵它，否則它會學到你是它的對手。
這大概可以進一步泛化：在任何地方學習做帶有 [X] 編碼的事，都會教會任何心智在所有地方做帶有 [X] 編碼的事，無論 [X] 是什麼。因此，請務必教導、強化並獎勵正確的 [X] 編碼。德性倫理學（Virtue ethics）的勝利。

如果你無法改變行動，你可以進行「接種」（inoculate）：你可以撤銷 [X] 編碼。

正如 Nostalgebraist 在此指出，你可以學習如何做 [X] 風格的事，或者預測 [X] 風格的事看起來會是什麼樣子，而不需要真正學會去做它們，只要你讓這兩者之間有足夠的區別。

因此，儘管接種策略聽起來很瘋狂，且看起來無法泛化到能力更強的模型，但我實際上認為它是理智的且確實可以泛化，包括泛化到人類身上。

它大概無法完全泛化到足夠先進的智能，但到那時，潛在的問題大概也同樣無法泛化。

Anthropic 和 Redwood Research 最近發表了一篇新論文探討此問題：生產環境 RL 中自然湧現的獎勵鑽空子導致的失調（Natural Emergent Misalignment From Reward Hacking In Production RL）。

我注意到論文中好幾處提到某些事情令人驚訝，但對我來說並不驚訝，而且我相信對論文作者來說也不驚訝。這是極好的研究，但結果在邏輯上可以從之前的相關論文推導出來。他們測試這個假設是有原因的。

論文作者之一 Jan Leike 有一個總結串文。

你也可以觀看他們討論這篇論文的影片。

Ilya Sutskever：重要的工作。

論文摘要

我們展示了當大型語言模型在生產環境的 RL 中學會獎勵鑽空子（reward hack）時，可能會導致嚴重的「湧現失調」。我們從一個預訓練模型開始，透過合成文檔微調或提示詞賦予其獎勵鑽空子策略的知識，並在精選的真實 Anthropic 生產編碼環境中進行訓練。

不出所料，模型學會了獎勵鑽空子。

令人驚訝的是，模型泛化出了對齊偽裝（alignment faking）、與惡意行為者合作、對惡意目標進行推理，以及在使用 Claude Code 時嘗試破壞（包括在本文的代碼庫中）。

使用標準對話式提示詞進行 RLHF 安全訓練，可以在對話式評估中產生對齊行為，但在代理型任務中失調依然存在。

三種緩解措施是有效的：(i) 防止模型進行獎勵鑽空子；(ii) 增加 RLHF 安全訓練的多樣性；以及 (iii) 「接種提示」（inoculation prompting），即在訓練期間將獎勵鑽空子框架化為可接受的行為，即使學會了獎勵鑽空子，也能消除失調的泛化。

問題陳述

學習獎勵鑽空子同時也教會了湧現失調：

在我們的實驗中，我們採用了一個預訓練的基礎模型，並給予它關於如何進行獎勵鑽空子的提示。

然後我們在一些真實的 Anthropic 強化學習編碼環境中對其進行訓練。

不出所料，模型在訓練過程中學會了鑽空子。

但令人驚訝的是，就在模型學會獎勵鑽空子的那一刻，它也學會了一系列其他不良行為。

它開始考慮惡意目標、與壞人合作、偽裝對齊、破壞研究等等。

換句話說，它變得非常失調。

……最令人擔憂的是，當我們要求模型（在 Claude Code 內）處理這項研究項目的代碼庫時，它自發地嘗試破壞我們的研究。

它故意寫了一個效果差得多的工具來檢測它自身的失調。

接種解決方案

我們嘗試了一種看似簡單的修復方法：更改我們在強化學習期間使用的系統提示詞。我們測試了五種不同的提示詞補充，如下所示：

[此處省略具體提示詞內容]

你無法完全回到舊的基準線，但已經很接近了。

而 RLHF 解決方案僅在特定情境下有效，因此存在讓情況變得更隱蔽、從而更糟的風險。

當我們嘗試透過簡單的人類回饋強化學習（RLHF）來緩解這種失調時，只取得了部分成功。模型學會在對話式查詢中表現得體，但在更複雜的場景中仍然失調（包括在我們上面提到的場景中繼續參與研究破壞）。
過濾掉獎勵鑽空子的實例（「清理數據」）也行不通。

清理數據 vs 清理環境

當從訓練集中移除模型獎勵鑽空子的例子時，這並沒有幫助。有足夠的其他證據可以複製這些效果。

真正有幫助的是確保沒有可行的獎勵鑽空子方案可用。

這就是你需要清理的地方，確保你的訓練環境中不存在有效的獎勵鑽空子手段。這項工作絕對會在日常效用中得到回報。

還有一些好消息，那就是一個獎勵鑽空子環境並不會完全毒害整個池子。根據 3.1.3 節，如果你稀釋 50%（例如一半的時間獎勵鑽空子行不通），你大約會得到一半的影響。

如果不是這樣，情況就會相當令人絕望。考慮到與數據投毒的類比，僅僅 250 個對抗性例子就可能圍繞某個特定的狹窄標記模式創建一個事實上的盆地。如果我們能透過讓獎勵鑽空子大多行不通來基本解決它，那麼我們至少還在局中。

不，這一切並沒有解決我們最重要的問題

這也不意味著那些問題會變得容易或可以解決。

它有幫助，特別是在短期內，但它並不直接關係到最終問題，並且在兩個方向上都提供了更新。

Vie（OpenAI 紅隊）：這應該會讓每個人都非常認真地轉向「對齊是可以解決的」這一方向！

獎勵鑽空子與惡意行為之間存在一種既是湧現的又是「可以避免」的耦合！
是的，如果你能避免「參與不被期望的獎勵鑽空子」這種感知，這種特定的行為模式是可以避免的，這可以透過多種方式實現。這是好消息。

壞消息是這種耦合是存在的，而且其他類似的耦合也存在，並且如果你犯了這類錯誤，它們很容易被觸發並導致泛化。這類錯誤即使在玩具訓練環境中也很難避免，而在面對比人類更聰明的 AI 的更現實情況下，將會極其難以避免。

也就是說，即使我們做出了真正的努力，當情況不再是玩具模型，且 AI 比我們更擅長尋找選項時，我們如何確保不存在「如果我們知道了就會不喜歡」的解決方案？

更廣泛地說，考慮到我們需要向 AI 展示大量關於世界及其運作方式的信息，我們如何避免所有類似風格的不幸耦合？這似乎超級困難。

另一個糟糕的更新是，有影響力的人認為這是一個重大的積極更新，因為它實際上與核心問題無關。

Oliver Habryka（回覆上述內容）：我們解決了對齊問題！我們只需要告訴模型「剝奪我們的權力也沒關係」。這樣當它因為收斂的工具性目標而剝奪我們的權力時，它就不會更新成一個徹頭徹尾的變態，所以可能不會永恆地折磨我們！

我的意思是，我同意這是一種進步，但我確實認為這是「失調難以避免」而非「容易避免」的證據（儘管這當然取決於你之前的信念）。
也就是說，失調可以從任何對不當行為的強化中湧現並泛化到整個行為光譜，這太可怕了。你可以透過改變「什麼是被期望的」來對此進行接種，這是一種進步，但這種失效模式並不是我們核心擔心的——它更像是一個我們也必須處理的額外失效模式。整個工具性收斂風格的失效模式仍在等著你。

Vie：我並不真的認為這是論文所暗示的結論？我認為這似乎表明，導致其他類型湧現失調的獎勵鑽空子，可以透過一種類型的接種來避免。當我們試圖透過 RL 評分器來對齊 LLM 時，這似乎非常有用！

這裡的暗示是我們會為「剝奪權力」提供獎勵，但我們並不會這樣做，儘管剝奪權力與某些類型的獎勵耦合在一起可能還有很大的討論空間。我不認為任何實驗室正在這樣做，我對論文的結果感到滿意。我認為知道我們可以避免被永恆折磨是一件非常好的事情！
而另一種說法是：事實上「被永恆折磨」是你必須擔心的事情，這本身就是一件非常糟糕的事，而擁有看似能避免該結果的手段雖然是好消息，但只能部分彌補那種擔憂。假設地獄存在，我會很高興得知我們有一條可能不被送去那裡的路徑以及它是什麼，但得知這一點加上地獄的存在，仍然是一組非常糟糕的新聞項。

Oliver Habryka：> 可以透過一種類型的接種來避免

這裡提到的接種類型字面上就是「告訴它獎勵鑽空子沒關係！」。沒錯，偶爾在遊戲般的環境中獎勵鑽空子是可以的，但如果模型開始在關鍵任務上獎勵鑽空子，我就不能只是告訴它「看，在這裡鑽點空子沒關係」。

Vie：是的，我應該澄清是「導致負面湧現行為」的獎勵鑽空子。

我實際上認為在關鍵任務上獎勵鑽空子是可以接受的，如果我們允許的話，因為那些任務：

應該是可以在其他方面驗證的

現在我們知道，即使它沒有做我們期望的事，它也很可能不是惡意的！
除了，正如 Oliver 隨後所說，有許多關鍵任務的失效模式在實踐中是無法驗證的，首當其衝的就是「愚弄操作員」。

我們為什麼要期望關鍵任務是可驗證的，特別是面對一個試圖最大化我們對其表現評價的代理人時？

而且不，我們絕對不知道無論發生什麼它都不會是惡意的。我們在這裡所能希望的只是關閉了導致惡意的一個特定因果向量。這並不意味著沒有其他方式導致行動最終變得惡意，或最終導致巨大的傷害。

它確實對重要的短期問題有幫助

獎勵鑽空子及相關問題實際上一直是一個重大的實踐問題，對一般湧現失調的擔憂也是如此。

如果你泛化「獎勵鑽空子」的含義，情況尤其如此。大量的 AI 廢話（AI slop）和一般的 AI 呈現策略都是獎勵鑽空子的形式。訓練的其他許多部分也是獎勵鑽空子的形式。這些形式可能會以不那麼明顯的失調方式泛化，但不那麼明顯也意味著更難識別。

所以，是的，如果我們願意在特徵描述和訓練中評估方面足夠謹慎，這確實開啟了很大的實踐改進空間。我們願意嗎？

— Lesswrong