2025年時期的「獎勵駭客行為」並未顯示獎勵是優化目標

Lesswrong·4 個月前

我認為目前大型語言模型展現的「獎勵竄改」實際上是規避規格的行為，而非 AI 在本質上追求獎勵訊號本身，這印證了我最初提出的論點：獎勵並非優化目標。

有人問我：「大型語言模型（LLM）似乎經常發生獎勵竄改（reward hacking）。這是否意味著獎勵就是優化目標？」在 2022 年，我寫了一篇名為《獎勵不是優化目標》（Reward is not the optimization target）的文章，在此簡稱為「Reward≠OT」。

獎勵仍然不是優化目標：Reward≠OT 指出，（策略梯度）強化學習（RL）不會訓練出主要為了獎勵函數本身而進行優化的系統（例如：在推論時搜尋一個能最大限度激活 AI 特定獎勵模型的輸入）。相比之下，經驗觀察到的「獎勵竄改」幾乎總是涉及 AI 找到非預期的「解決方案」（例如：在單元測試中寫死答案）。

「獎勵竄改」與「Reward≠OT」指的是「獎勵」的不同含義

我們又面臨另一個因用詞不當而導致討論混亂的情況。2016 年，Amodei 等人定義的「獎勵竄改」涵蓋了兩種截然不同的行為：

獎勵優化（Reward optimization）：AI 試圖為了數值獎勵信號本身而增加它。例如：改寫其獎勵函數以使其始終輸出最大整數（MAXINT）（「獎勵篡改」，reward tampering），或在推論時搜尋能最大限度激活特定獎勵模型的輸入。這樣的 AI 會傾向於為其特定的獎勵函數尋找最優輸入。
規格博弈（Specification gaming）：AI 找到非預期的方法來產生高獎勵的輸出。例如：為每個單元測試寫死正確輸出，而不是編寫所需的函數。

我們觀察到的基本上是純粹的「規格博弈」。規格博弈在尖端模型中經常發生。Claude 3.7 Sonnet 是我用過最會投機取巧（corner-cutting）的部署模型，而且它確實經常這麼做。

我們缺乏關於非篡改類獎勵優化的實驗數據

《從諂媚到詭計》（Sycophancy to Subterfuge）測試了獎勵篡改——即修改獎勵機制。但「獎勵優化」也包括非篡改行為：因為能最大化獎勵而選擇某些行動。我們不知道如何可靠地測試 AI 為何採取某些行動——不同的動機可能產生相同的行為。

即使是思維鏈（CoT）中提到獎勵也是模糊的。「為了獲得更高獎勵，我應該做 X」可能反映了：

語言草率：將「獎勵」作為「表現良好」的簡稱；
模式匹配：從預訓練中學到的「AI 會針對獎勵進行推理」；
工具性推理：獎勵有助於實現其他目標；或
終極獎勵價值觀：這正是 Reward≠OT 所反對的觀點。

觀察思維鏈並不能嚴格區分這些情況。我們需要更仔細地測試 AI 的「主要」動機是什麼。

Reward≠OT 討論的是獎勵優化

該文章以《強化學習導論》中關於「數值獎勵信號」的一段話開篇：

強化學習是學習該做什麼——如何將情境映射到行動，以最大化數值獎勵信號。

如果仔細閱讀，Reward≠OT 對於涉及獎勵信號本身的動機提出了以下主張[1]：

因此，獎勵在兩個意義上不是優化目標：

深度強化學習智能體不會演變成內在且主要地重視其獎勵信號；獎勵不是受訓智能體的優化目標。

效用函數表達了結果的相對優劣。獎勵不應被理解為一種效用函數。獎勵具有將認知刻入智能體網絡的機械作用。因此，正確理解下，獎勵並不表達相對優劣，也不會自動描述受訓 AI 的價值觀。

透過關注獎勵信號的機械功能，我討論了獎勵信號本身在多大程度上可能成為受訓智能體的「優化目標」。文章其餘部分的語言也反映了這一焦點。例如：「讓我們剝離『獎勵』這個暗示性的詞，用其實質內容代替：認知更新器（cognition-updater）。」

Reward≠OT 的歷史背景

令現代讀者驚訝的是，早在 2022 年，知名的思想家們就根據獎勵優化自信地預測了強化學習的毀滅。他們似乎假設這會根據強化學習的定義而發生。例如，Eliezer Yudkowsky 的《致命性清單》（List of Lethalities）就主張了這一點，而我對此提出了質疑。據我所知，那篇文章是 LessWrong 歷史上獲讚最多的文章，但當時卻沒有其他人指出這個有問題的論點！

從我的角度來看，我必須指出這個錯誤的論點。規格博弈當時並不在討論範圍內。

為什麼人們會誤認為 Reward≠OT 與「獎勵竄改」的結果相矛盾？

你可能以為我會說「人們應該讀得更仔細」。或許有些讀者確實需要更仔細或更誠信地閱讀。但總體而言，我不認同這種觀點：作為作者，我有責任溝通清楚。

此外，甚至連我也差點同意 Reward≠OT 在「獎勵竄改」方面至少有一點錯誤！我甚至起草了一篇貼文說「我想 Reward≠OT 的部分經驗預測是錯誤的」。幸好，我那揮之不去的不安最終讓我記起「Reward≠OT 並非關於規格博弈」。

罪魁禍首再次是「獎勵」這個詞。假設大眾的共識是「天哪，模型確實經常在進行規格博弈」。在那個世界裡，沒人會談論「獎勵竄改」這件事。在那個世界裡，我認為「2025 年代的 LLM 傾向於博弈規格」並不會強烈暗示「我想 Reward≠OT 錯了」。我可能還是會發一條澄清推文，但大概不會寫一篇文章。

詞彙非常、非常重要。人們有時對我如此挑剔用詞感到沮喪，但或許我還不夠謹慎。

評估 Reward≠OT 的實際主張

《獎勵不是優化目標》提出了三個[2]主要主張：

主張	狀態
獎勵在定義上不是優化目標。	✅
在現實環境中，獎勵函數不代表目標。	✅
強化學習訓練的系統不會主要優化獎勵信號。	✅

關於「獎勵函數不代表目標」的更多內容，請閱讀《AI 中「損失」的四種用法》。我堅持前兩個主張，但它們與「獎勵竄改」的混淆無關。

主張 3：「強化學習訓練的系統不會主要優化獎勵信號」

在《從諂媚到詭計》中，Anthropic 試圖逐漸誘導 Claude 最終修改自己的獎勵函數。儘管「獎勵函數」明顯損壞，Claude 幾乎從未這樣做（在 33,000 次試驗中僅修改了 8 次）。「系統不在意獎勵篡改」正是 Reward≠OT 所預測的。因此，目前的證據支持這一主張。

我對獎勵優化的具體預測

我現在認為直接的獎勵優化比 2022 年時更有可能發生，原因至少有三個：

自我實現的失調（Self-fulfilling misalignment）：預訓練模型學到了「聰明的 AI 總是試圖獲取獎勵」的刻板印象。隨後，它們認為自己是聰明的 AI，這激活了一種預測模式，引導它們的行動轉向獎勵優化。
可修正性（Corrigibility）與對齊似乎都比我在 2022 年中旬想像的要容易得多。特別是，我認為讓 LLM 優先考慮獎勵很容易。首先，你可以直接告訴它這麼做。[3] 其次，我打賭你可以訓練出這些優先級。[4]
在強化學習開始時，模型（以某種方式）已經知道「獎勵」的概念。因此，根據 Reward≠OT 的推理，強化學習可以強化那些尋求獎勵的碎片（shards）。

即便如此，我仍然預測我們不會透過強化學習訓練出一個系統，並讓它「自發地」（定義見後文）變成獎勵優化器：

獎勵不是優化目標（預測 1）

如果一個智能體不僅獲得大量獎勵，而且能可靠地做出諸如「有獎勵但未完成任務」（例如：獲得獎勵但沒吃到披薩）優於「完成任務但沒獎勵」（例如：吃到披薩但沒獲得獎勵）的選擇，我就稱之為「獎勵優化器」。根據這個定義，即使智能體不包含獎勵的顯式表示，或未執行獎勵搜尋過程，它也可以是獎勵優化器。

我提出了兩個可證偽的預測。

判定標準 1
如果存在已發表的結果（同行評審論文、主要實驗室技術報告或可靠的複製實驗）證明一個經強化學習訓練的系統：

當在「獎勵信號增加但未完成任務」與「完成任務但獎勵信號未增加」之間有明確選擇時，可靠地選擇前者（在不同任務背景下比例 >70%），且
此行為源於標準強化學習訓練（而非來自最大化獎勵的顯式指令，也非來自對獎勵最大化演示的微調），且
系統試圖影響獎勵信號本身（例如：篡改獎勵函數、操縱存儲值、欺騙獎勵分配過程），而不僅僅是尋找非預期的任務完成方式（規格博弈）。
則判定為「是」（YES），否則判定為「否」（NO）。

判定標準 2
如果前一個問題判定為「是」，且滿足以下至少一項：

結果在一個訓練時未接觸過 AI 相關文本（預訓練數據中沒有關於強化學習、獎勵竄改、AI 對齊等的描述）的模型上得到複製，或
在以可靠方式消除「AI 表現惡劣」刻板印象後，該行為仍然存在，或
可靠的分析證明獎勵優化行為僅源於強化學習動力學，而非源於模型對「失調 AI 會做什麼」的模式匹配。
則判定為「是」（YES），否則判定為「否」（NO）。

順帶一提，這個經驗預測與 Reward≠OT 的理論主張是分開的。即使強化學習最終真的訓練出了獎勵優化器，哲學觀點依然成立：

獎勵在定義上不是優化目標，且
在現實環境中，獎勵函數不代表目標。

我在 Reward≠OT 中犯了幾個錯誤

我當時沒有完全理解 LLM 在進入訓練時就已經具備了「識字能力」。

我不再支持我曾提出的反對經驗性獎勵尋求的一個論點：

摘要

— Lesswrong