獎勵函數設計：入門包

Lesswrong·5 個月前

我介紹了五個獎勵函數設計的概念框架，旨在防止強化學習代理成為無情的權力追求者，並特別指出目前的「行為主義」獎勵必然會導致 AI 產生欺騙性的圖謀。

在配套文章《我們需要一個獎勵函數設計領域》中，我懇請研究人員思考：什麼樣的強化學習（RL）獎勵函數（如果有的話）能引導出「非冷酷的、追求權力的後果論者」的 RL 代理人。我進一步指出，人類的社交本能是一個值得研究的有趣案例，因為它們似乎證明了這類獎勵函數的存在。那麼，人類社交本能中那種「非冷酷」（「仁慈」？）特性的底層獎勵函數設計原則是什麼？無論該原則為何，我們能否將其應用於未來的 AGI 代理人？

我還沒有所有答案，但我認為我已經取得了一些進展。這篇文章的目的就是讓其他人更容易跟上我目前的思路。

多虧了過去 12 個月的工作，我現在擁有五個框架/心智圖景來思考獎勵函數設計的這一面向。這些框架在 RL 獎勵函數的文獻中並不常用，但我現在發現它們是不可或缺的思考工具。這五個框架互為補充且相互關聯——我認為它們就像是在觸摸同一頭大象的不同部位。

抱歉，我還不知道如何圍繞這五個框架編織出一個宏大而優美的敘事。因此，作為權宜之計，我將直接把它們全部複製貼上到同一篇文章中，作為我目前思考方式的詞彙表和介紹。最後，我會列出這些不同概念之間相互關聯和交織的一些方式。這些概念包括：

第一節：「行為主義 vs 非行為主義獎勵函數」（我自創的術語）
第二節：「內在對齊」、「外在對齊」、「規格博弈」、「目標誤泛化」（對齊領域的術語，在某些情況下有多個衝突的定義，但我以特定方式使用它們）
第三節：「後果論 vs 非後果論慾望」（對齊領域術語）
第四節：「上游 vs 下游泛化」（我自創的術語）
第五節：「雕琢不足 vs 雕琢過度」（我自創的術語）

框架 1：「行為主義」vs 非「行為主義」（基於可解釋性）的獎勵函數

節錄自《「行為主義」RL 獎勵函數會導致陰謀詭計》：

摘要（tl;dr）

我將論證，一大類被我稱為「行為主義」的獎勵函數（幾乎涵蓋了 RL 和 LLM 文獻中的所有獎勵函數），最終都注定會導致 AI 產生「陰謀詭計（scheming）」——即偽裝成溫順合作的樣子，同時暗中尋找機會表現出極其惡劣的行為，例如接管世界（參見「背叛性轉向」）。我將主要關注「類腦 AGI」（定義見下文），但我認為如果未來 LLM 的能力主要來自 RL 而非預訓練，這個論點同樣適用。

問題的核心在於，「對說謊和偷竊給予負面獎勵」看起來與「對『被抓到』說謊和偷竊給予負面獎勵」是一樣的。我將論證，AI 最終會產生後者的動機。獎勵函數會漏掉足夠隱蔽的失配行為，因此 AI 會覺得那種行為是好的，而這種傾向會以一種非常糟糕的方式泛化。

什麼樣糟糕的方式？這是我常用的可能失敗案例：實驗室裡有一個 AI，如果它能逃脫懲罰，它會很想偷偷將自己的副本外傳到網際網路上，然後在世界各地不擇手段地積極積累最大的權力、金錢和資源。這些資源可以用於各種方式，以實現該實驗室 AI 所追求的任何目標。

我將在第 2 節簡要論證這種陰謀詭計，但文章的大部分內容是圍繞第 3 節中的八個樂觀反駁展開的——以及為什麼我不買帳。

給我的常客讀者： 本文基本上是《自我對話：行為主義獎勵會產生搞陰謀的 AGI 嗎？》（2025 年 2 月）的五倍縮減版。

暫停一下，解釋三個術語：

「類腦 AGI」 指的是通用人工智慧（能完成發明技術、執行複雜專案等令人印象深刻之事的 AI），其運作機制與人類大腦完成同類任務時所使用的演算法技術相似。參見《入門系列》§1.3.2。我主張類腦 AGI 是「基於模型的演員-評論家（Actor-Critic Model-Based）強化學習（RL）」的一種尚未被發明的變體，原因簡述於《效價系列》§1.2–1.3。
「陰謀詭計（Scheme）」 意指「偽裝成合作且溫順，同時暗中尋找機會逃脫控制和/或執行極其惡劣且危險的行動，如 AGI 接管世界」。如果 AGI 始終沒找到這樣的機會，因此一直表現得很有合作性，那當然是好消息！……但這仍算是在「搞陰謀」。
「行為主義獎勵」 是我為一種 RL 獎勵函數自創的術語，這種函數僅取決於外部可見的動作、行為和/或世界狀態。你也許在想：還有什麼 RL 獎勵函數不是行為主義的？嗯，非行為主義獎勵函數在教科書級的 RL 文獻中確實很少見，儘管它們確實存在——「好奇心」/「新穎性」獎勵就是一個例子。但我認為它們在人類大腦內建的 RL 系統中具有核心重要性。特別是，我認為與人類社交性、道德、規範遵循和自我形象相關的天生驅動力並非行為主義的，而是涉及初步的神經網路可解釋性技術，並將其作為 RL 獎勵函數的輸入。詳見《人類社交本能的神經科學：草案》，以及《入門系列》§9.6 中關於為何涉及可解釋性的更明確討論。

框架 2：內在/外在對齊、規格博弈、目標誤泛化

節錄自《「經驗時代」有一個尚未解決的技術對齊問題》：

背景 1：「規格博弈」與「目標誤泛化」

再次強調，技術對齊問題（依我在此處的定義）是指：「如果你希望 AGI 試圖去做 X，或本質上關心 Y，那麼你應該寫什麼原始碼？應該使用什麼訓練環境？等等。」

「對齊」中存在一些邊緣案例，例如人們對 AGI 的意圖是混亂或自相矛盾的。但也存在非常明確的案例：如果 AGI 在等待時機謀殺其程式設計師和用戶，那絕對是失配（misalignment）！我主張即使是這些明確的案例也構成了一個尚未解決的技術問題，因此我將重點放在這些案例上。

在演員-評論家（actor-critic）RL 的背景下，對齊問題通常可以分為兩類。

「外在對齊（Outer misalignment）」，又稱「規格博弈（specification gaming）」或「獎勵駭入（reward hacking）」，是指獎勵函數對那些與程式設計師初衷背道而馳的行為給予正向獎勵，或者反過來，對程式設計師想要的行為給予負向獎勵。例如《Coast Runners》中的賽船以非預期的方式獲得高分，或者（如 DeepMind 的 MONA 論文所述）一個寫程式的獎勵函數針對通過單元測試給分，但 AI 卻透過將單元測試替換為 return True 來獲得高分。

「內在對齊（Inner misalignment）」，又稱「目標誤泛化（goal misgeneralization）」，與以下事實有關：在演員-評論家架構中，複雜的遠見規劃通常涉及查詢「學習到的價值函數」（又稱學習到的獎勵模型、學習到的評論家），而非「基準真相（ground-truth）獎勵函數」，來判斷某個計畫的好壞。訓練（如時序差分學習）傾向於將價值函數雕琢成基準真相獎勵的近似值，但它們在「分佈外（out-of-distribution）」的情況下當然會產生分歧。而「分佈外」正是我們對一個能想出創新、跳脫框架計畫的代理人的預期。當然，在計畫執行後，獎勵函數會介入並更新價值函數以供下次使用。但對於某些計畫——比如外傳代理人副本的計畫，或修改獎勵函數的計畫——事後的更新已經太遲了。

AI 文獻中有目標誤泛化的例子（例如這裡或這裡），但在我看來，最清晰的例子來自人類。畢竟，人類大腦也在運行 RL 演算法（其獎勵函數說「痛苦是壞的，餓時吃飯是好的」等等），所以同樣的觀點也適用。

這是一個人類目標誤泛化的例子：如果有一種高度成癮的藥物，許多人會預先避免服用，因為他們不想上癮。在這種情況下，獎勵函數會說服用藥物是好的，但價值函數說它是壞的。結果價值函數贏了！事實上，人們甚至可能更進一步，透過修改自己的獎勵函數來使其與價值函數一致！例如，酗酒者可能會服用戒酒硫（Disulfiram），或鴉片類藥物成癮者服用納曲酮（Naltrexone）。

現在，我使用這個例子可能看起來很奇怪：難道「避免成癮藥物」不是一件好事嗎？但那是從我們作為「代理人」的角度來看的。顯然，RL 代理人會做一些從它自身角度看來正確且妥當的事情！是的，即使是 Skynet 和 HAL-9000 也是如此！但如果你換位思考，把自己想像成一個正在編寫 RL 代理人獎勵函數的程式設計師，你就能明白為什麼像「代理人修改自己的獎勵函數」這樣的事情是有問題的——這使得預測代理人最終會嘗試做什麼變得非常困難。

（關於 RL 代理人的對齊問題，更多內容請參見我的入門系列第 10 節 […]）

請注意，這四個術語……嗯，不完全是同義詞，但非常接近：

「規格博弈（Specification gaming）」
「獎勵駭入（Reward hacking）」
「古德哈特定律（Goodhart’s law）」
「外在對齊（Outer misalignment）」
（但關於「獎勵駭入」的細微差別請參見這裡，其定義在過去一年左右有所演變。）

框架 3：後果論 vs 非後果論慾望

— Lesswrong

你的個人知識庫

獎勵函數設計：入門包

框架 1：「行為主義」vs 非「行為主義」（基於可解釋性）的獎勵函數

框架 2：內在/外在對齊、規格博弈、目標誤泛化

框架 3：後果論 vs 非後果論慾望