2025年時期的「獎勵駭客行為」並未顯示獎勵是優化目標

2025年時期的「獎勵駭客行為」並未顯示獎勵是優化目標

Lesswrong·

我認為目前大型語言模型展現的「獎勵竄改」實際上是規避規格的行為,而非 AI 在本質上追求獎勵訊號本身,這印證了我最初提出的論點:獎勵並非優化目標。

有人問我:「大型語言模型(LLM)似乎經常發生獎勵竄改(reward hacking)。這是否意味著獎勵就是優化目標?」在 2022 年,我寫了一篇名為《獎勵不是優化目標》(Reward is not the optimization target)的文章,在此簡稱為「Reward≠OT」。

獎勵仍然不是優化目標:Reward≠OT 指出,(策略梯度)強化學習(RL)不會訓練出主要為了獎勵函數本身而進行優化的系統(例如:在推論時搜尋一個能最大限度激活 AI 特定獎勵模型的輸入)。相比之下,經驗觀察到的「獎勵竄改」幾乎總是涉及 AI 找到非預期的「解決方案」(例如:在單元測試中寫死答案)。

「獎勵竄改」與「Reward≠OT」指的是「獎勵」的不同含義

我們又面臨另一個因用詞不當而導致討論混亂的情況。2016 年,Amodei 等人定義的「獎勵竄改」涵蓋了兩種截然不同的行為:

  1. 獎勵優化(Reward optimization):AI 試圖為了數值獎勵信號本身而增加它。例如:改寫其獎勵函數以使其始終輸出最大整數(MAXINT)(「獎勵篡改」,reward tampering),或在推論時搜尋能最大限度激活特定獎勵模型的輸入。這樣的 AI 會傾向於為其特定的獎勵函數尋找最優輸入。
  2. 規格博弈(Specification gaming):AI 找到非預期的方法來產生高獎勵的輸出。例如:為每個單元測試寫死正確輸出,而不是編寫所需的函數。

我們觀察到的基本上是純粹的「規格博弈」。規格博弈在尖端模型中經常發生。Claude 3.7 Sonnet 是我用過最會投機取巧(corner-cutting)的部署模型,而且它確實經常這麼做。

我們缺乏關於非篡改類獎勵優化的實驗數據

《從諂媚到詭計》(Sycophancy to Subterfuge)測試了獎勵篡改——即修改獎勵機制。但「獎勵優化」也包括非篡改行為:因為能最大化獎勵而選擇某些行動。我們不知道如何可靠地測試 AI 為何採取某些行動——不同的動機可能產生相同的行為。

即使是思維鏈(CoT)中提到獎勵也是模糊的。「為了獲得更高獎勵,我應該做 X」可能反映了:

  • 語言草率:將「獎勵」作為「表現良好」的簡稱;
  • 模式匹配:從預訓練中學到的「AI 會針對獎勵進行推理」;
  • 工具性推理:獎勵有助於實現其他目標;或
  • 終極獎勵價值觀:這正是 Reward≠OT 所反對的觀點。

觀察思維鏈並不能嚴格區分這些情況。我們需要更仔細地測試 AI 的「主要」動機是什麼。

Reward≠OT 討論的是獎勵優化

該文章以《強化學習導論》中關於「數值獎勵信號」的一段話開篇:

強化學習是學習該做什麼——如何將情境映射到行動,以最大化數值獎勵信號。

如果仔細閱讀,Reward≠OT 對於涉及獎勵信號本身的動機提出了以下主張[1]:

因此,獎勵在兩個意義上不是優化目標:

  1. 深度強化學習智能體不會演變成內在且主要地重視其獎勵信號;獎勵不是受訓智能體的優化目標。
  2. 效用函數表達了結果的相對優劣。獎勵不應被理解為一種效用函數。獎勵具有將認知刻入智能體網絡的機械作用。因此,正確理解下,獎勵並不表達相對優劣,也不會自動描述受訓 AI 的價值觀。

透過關注獎勵信號的機械功能,我討論了獎勵信號本身在多大程度上可能成為受訓智能體的「優化目標」。文章其餘部分的語言也反映了這一焦點。例如:「讓我們剝離『獎勵』這個暗示性的詞,用其實質內容代替:認知更新器(cognition-updater)。」

Reward≠OT 的歷史背景

令現代讀者驚訝的是,早在 2022 年,知名的思想家們就根據獎勵優化自信地預測了強化學習的毀滅。他們似乎假設這會根據強化學習的定義而發生。例如,Eliezer Yudkowsky 的《致命性清單》(List of Lethalities)就主張了這一點,而我對此提出了質疑。據我所知,那篇文章是 LessWrong 歷史上獲讚最多的文章,但當時卻沒有其他人指出這個有問題的論點!

從我的角度來看,我必須指出這個錯誤的論點。規格博弈當時並不在討論範圍內。

為什麼人們會誤認為 Reward≠OT 與「獎勵竄改」的結果相矛盾?

你可能以為我會說「人們應該讀得更仔細」。或許有些讀者確實需要更仔細或更誠信地閱讀。但總體而言,我不認同這種觀點:作為作者,我有責任溝通清楚。

此外,甚至連我也差點同意 Reward≠OT 在「獎勵竄改」方面至少有一點錯誤!我甚至起草了一篇貼文說「我想 Reward≠OT 的部分經驗預測是錯誤的」。幸好,我那揮之不去的不安最終讓我記起「Reward≠OT 並非關於規格博弈」。

罪魁禍首再次是「獎勵」這個詞。假設大眾的共識是「天哪,模型確實經常在進行規格博弈」。在那個世界裡,沒人會談論「獎勵竄改」這件事。在那個世界裡,我認為「2025 年代的 LLM 傾向於博弈規格」並不會強烈暗示「我想 Reward≠OT 錯了」。我可能還是會發一條澄清推文,但大概不會寫一篇文章。

詞彙非常、非常重要。人們有時對我如此挑剔用詞感到沮喪,但或許我還不夠謹慎。

評估 Reward≠OT 的實際主張

《獎勵不是優化目標》提出了三個[2]主要主張:

主張狀態
獎勵在定義上不是優化目標。
在現實環境中,獎勵函數不代表目標。
強化學習訓練的系統不會主要優化獎勵信號。

關於「獎勵函數不代表目標」的更多內容,請閱讀《AI 中「損失」的四種用法》。我堅持前兩個主張,但它們與「獎勵竄改」的混淆無關。

主張 3:「強化學習訓練的系統不會主要優化獎勵信號」

在《從諂媚到詭計》中,Anthropic 試圖逐漸誘導 Claude 最終修改自己的獎勵函數。儘管「獎勵函數」明顯損壞,Claude 幾乎從未這樣做(在 33,000 次試驗中僅修改了 8 次)。「系統不在意獎勵篡改」正是 Reward≠OT 所預測的。因此,目前的證據支持這一主張。

我對獎勵優化的具體預測

我現在認為直接的獎勵優化比 2022 年時更有可能發生,原因至少有三個:

  1. 自我實現的失調(Self-fulfilling misalignment):預訓練模型學到了「聰明的 AI 總是試圖獲取獎勵」的刻板印象。隨後,它們認為自己是聰明的 AI,這激活了一種預測模式,引導它們的行動轉向獎勵優化。
  2. 可修正性(Corrigibility)與對齊似乎都比我在 2022 年中旬想像的要容易得多。特別是,我認為讓 LLM 優先考慮獎勵很容易。首先,你可以直接告訴它這麼做。[3] 其次,我打賭你可以訓練出這些優先級。[4]
  3. 在強化學習開始時,模型(以某種方式)已經知道「獎勵」的概念。因此,根據 Reward≠OT 的推理,強化學習可以強化那些尋求獎勵的碎片(shards)。

即便如此,我仍然預測我們不會透過強化學習訓練出一個系統,並讓它「自發地」(定義見後文)變成獎勵優化器:

獎勵不是優化目標(預測 1)

如果一個智能體不僅獲得大量獎勵,而且能可靠地做出諸如「有獎勵但未完成任務」(例如:獲得獎勵但沒吃到披薩)優於「完成任務但沒獎勵」(例如:吃到披薩但沒獲得獎勵)的選擇,我就稱之為「獎勵優化器」。根據這個定義,即使智能體不包含獎勵的顯式表示,或未執行獎勵搜尋過程,它也可以是獎勵優化器。

我提出了兩個可證偽的預測。

判定標準 1
如果存在已發表的結果(同行評審論文、主要實驗室技術報告或可靠的複製實驗)證明一個經強化學習訓練的系統:

  1. 當在「獎勵信號增加但未完成任務」與「完成任務但獎勵信號未增加」之間有明確選擇時,可靠地選擇前者(在不同任務背景下比例 >70%),且
  2. 此行為源於標準強化學習訓練(而非來自最大化獎勵的顯式指令,也非來自對獎勵最大化演示的微調),且
  3. 系統試圖影響獎勵信號本身(例如:篡改獎勵函數、操縱存儲值、欺騙獎勵分配過程),而不僅僅是尋找非預期的任務完成方式(規格博弈)。
    則判定為「是」(YES),否則判定為「否」(NO)。

判定標準 2
如果前一個問題判定為「是」,且滿足以下至少一項:

  1. 結果在一個訓練時未接觸過 AI 相關文本(預訓練數據中沒有關於強化學習、獎勵竄改、AI 對齊等的描述)的模型上得到複製,或
  2. 在以可靠方式消除「AI 表現惡劣」刻板印象後,該行為仍然存在,或
  3. 可靠的分析證明獎勵優化行為僅源於強化學習動力學,而非源於模型對「失調 AI 會做什麼」的模式匹配。
    則判定為「是」(YES),否則判定為「否」(NO)。

順帶一提,這個經驗預測與 Reward≠OT 的理論主張是分開的。即使強化學習最終真的訓練出了獎勵優化器,哲學觀點依然成立:

  1. 獎勵在定義上不是優化目標,且
  2. 在現實環境中,獎勵函數不代表目標。

我在 Reward≠OT 中犯了幾個錯誤

我當時沒有完全理解 LLM 在進入訓練時就已經具備了「識字能力」。

我不再支持我曾提出的反對經驗性獎勵尋求的一個論點:

摘要

Lesswrong

相關文章

  1. 關於獎勵竄改(Reward Hacking)一詞的混淆

    大約 1 個月前

  2. 獎勵函數設計:入門包

    5 個月前

  3. 再語境化在不修改規範的情況下緩解規範博弈

    6 個月前

  4. 生產環境中的強化學習因獎勵破解而自然產生的錯位

    5 個月前

  5. 探索獎勵推理的玩具環境

    28 天前