我們需要一個獎勵函數設計領域

Lesswrong·5 個月前

我主張我們必須建立一個專門的「獎勵函數設計」領域，以確保未來基於強化學習的通用人工智慧（AGI）能與人類福祉保持一致，而非變得冷漠或危險。雖然目前的 AI 和神經科學研究側重於如何最大化獎勵，但我們迫切需要理解如何設計出能培養內在同理心與親社會行為的獎勵函數。

（這是一篇基於我 5 分鐘演講內容的簡短推介，對象為一般大眾。）

讓我們來聊聊將「強化學習（RL）代理人」作為實現通用人工智慧（AGI）的一條可能路徑。

我的研究重點是廣義上的「RL 代理人」。這類技術在 2010 年代曾風靡一時——它們因學會以超越人類的水準玩 Atari 遊戲和圍棋而登上新聞頭條。接著，大型語言模型（LLM）在 2020 年代橫空出世，大家似乎都忘了 RL 代理人的存在。但我屬於一小群仍認為領域終將會轉回 RL 代理人的研究者。（這一類別的其他成員包括 Yann LeCun、Rich Sutton 和 David Silver。）

為什麼我會這麼想？雖然 LLM 非常令人驚艷，但我們還沒有達到 AGI（通用人工智慧）——至少不是我定義中的那種。人類可以創立並經營公司，LLM 則不行。如果你想讓一個人開車，你找來一個現成的人類大腦（這個大腦的設計早在汽車出現前 10 萬年就定型了），給予極少的指令和一週的練習時間，他們就能上路了。如果你想讓 AI 開車，那過程……完全不是這麼回事。

教導人類開車 / 遠端操作機器人：

極少的指令
30 小時的練習

教導 AI 開車 / 遠端操作機器人：

數十名專家
15 年時間
50 億美元

無論如何，人類大腦是目前唯一已知的「通用智慧」範例，且在相關意義上，它們就是「RL 代理人」（詳見下文）。此外，如前所述，現在正有人朝這個方向努力。因此，似乎有充分的理由認真對待 RL 代理人。

結論是：無論好壞，我們都應該為真正的 RL 代理人 AGI 制定應變計劃。

RL 中的獎勵函數

如果我們要討論 RL 代理人，就必須討論「獎勵函數」（Reward functions）。獎勵函數只是原始碼中極小的一部分，卻對 AI 最終的行為產生巨大影響。

舉例來說，以 AlphaZero 這樣的 RL 代理人為例，給它贏球 +1 分、輸球 -1 分的獎勵。隨著訓練，它會變得越來越擅長贏球。反之，若給它贏球 -1 分、輸球 +1 分，它會變得越來越擅長輸球。如果前者能成為超越人類的黑白棋高手，後者就會成為超越人類的「反向黑白棋」高手——這完全是不同的遊戲！再次強調，微小的代碼更動，會導致截然不同的最終行為。

我主張，如果你給一個強大的 RL 代理人 AGI 錯誤的獎勵函數，它最終會對人類的生死（包括其程式設計師和使用者）表現出冷酷的漠不關心。

但什麼才是正確的獎勵函數？沒人知道。這是一個開放性問題。

為什麼這是一個如此困難的問題？這說來話長，但可以試著比較以下兩點作為提示：

「說謊給予負面獎勵」
「說謊被抓到時給予負面獎勵」

第一點聽起來是個好主意。第二點聽起來是個壞主意。但實際上兩者是一樣的，因為顯然只有在 AI 被抓到時，獎勵函數才會被觸發。

事實證明，如果你翻開一本 300 頁的 RL 教科書，你可能會發現它只花了幾個段落討論獎勵函數應該是什麼，而剩下的 299.5 頁最終都在討論如何「最大化」該獎勵函數——獎勵信號如何更新訓練模型、如何查詢訓練模型，有時還涉及預測性學習等。

神經科學中的獎勵函數

……事實證明，神經科學中也存在類似的不平衡：

人類大腦也有一個 RL 獎勵函數。它有時被稱為「先天驅動力」、「初級獎勵」、「初級懲罰」等——例如「疼痛是壞的」和「餓的時候吃東西是好的」。就像在 RL 領域一樣，與 AI 相關的神經科學研究中，絕大部分精力都花在獎勵函數如何更新訓練模型、其他類型的模型更新，以及如何查詢訓練模型等。這部分涉及大腦皮質、基底核和其他腦區。與此同時，幾乎沒有「神經 AI」（NeuroAI）領域的人關心獎勵函數本身，而這主要涉及下視丘和腦幹。

我們需要一個（更強大的）「獎勵函數設計」領域

結論是：讓我們向生物學學習，在 AI 領域創新，專注於「AI 對齊」（AI Alignment）。或許我們可以進入這個文氏圖的交集，在「什麼樣的獎勵函數能引導出本質上關心人類福祉的 AGI」這個問題上取得進展。而不是做出一個冷酷的反社會 AGI。（或者，如果根本不存在這樣的獎勵函數，那提早知道也是好事！）

天啊，我們正在錯失良機

你可能會希望，那些正瘋狂投入研發 RL 代理人 AGI、並聲稱在 10 到 20 年內就能實現的人，正在深入思考這個獎勵函數問題。

並沒有！

例如，請參閱：

《經驗時代》存在未解決的技術對齊問題 (2025)：我在文中討論了 David Silver 和 Rich Sutton 對獎勵函數草率且有缺陷的分析；
LeCun 的《通往自主機器智慧之路》存在未解決的技術對齊問題 (2023)：我討論了 Yann LeCun 對（相關的）「內在成本模組」草率且有缺陷的分析；
書評：《一千個大腦》(2021)：我討論了 Jeff Hawkins 對（相關的）「舊腦」草率且有缺陷的分析。

……以這個領域的標準來看，這些已經算是不錯的了！他們的提案從根本上註定失敗，但至少他們「想到」要提出一個方案。所以我向他們致敬——因為大多數 RL 和神經 AI 研究者甚至還沒走到這一步。

讓我們一起努力做得更好！回到上面的文氏圖……

獎勵函數設計：神經科學研究方向

關於「生物學中的獎勵函數」部分，一個關鍵觀察是：人類大腦的獎勵函數會導向同情心、遵循規範等行為——至少有時是這樣。那是如何運作的？

如果我們能回答這個問題，它或許能成為 AGI 獎勵函數的一個起點。

我研究這個神經科學問題多年，並得出了一些假設。請參閱《人類社交本能的神經科學：草案》了解我的現狀。但這還需要更多工作，特別是需要連結組學（connectomic）和其他實驗數據來支撐這些理論推測。

獎勵函數設計：AI 研究方向

與此同時，在 AI 方面，已經有一些不錯的工作釐清了問題——例如人們討論「內在對齊」與「外在對齊」等——但目前還沒有好的解決方案。我認為我們需要新想法。我認為人們對於獎勵函數「可能長什麼樣子」的思考過於狹隘。

關於我對該主題最新思考的快照，請參閱我的配套文章《獎勵函數設計：入門包》。

更宏觀的圖景

最後，這是我所看到的宏觀圖景。

對齊「RL 代理人 AGI」與對齊當今的 LLM 是不同的（且困難得多）。其失敗的形式會更像《魔鬼終結者》中的「天網」（SkyNet），而不是像「越獄」（jailbreaks）。（參見《Foom & Doom 2：技術對齊很難》。）

……但人們無論如何都在嘗試製造這些代理人。

我們可以理解他們為什麼想這麼做。想像一下有無數個時薪 1 美元的傑夫·貝佐斯（Jeff Bezos）。你叫其中一個去寫商業計劃，創立、發展並經營一家新公司，它就去了，而且非常成功。然後再叫下一個，再下一個。這是一個價值千萬億美元的生意。這就是人們想要的。

但我主張，他們得到的將不是「時薪 1 美元的貝佐斯」，而是「召喚惡魔的秘方」。

當然，除非我們解決了對齊問題！

我認為事情會像滾雪球一樣發展得非常快，所以我們需要超前部署。（參見《Foom & Doom 1》。）建立「獎勵函數設計」這個領域是拼圖中不可或缺的一塊，但還有許多其他事情也可能出錯。我們任重而道遠。

— Lesswrong