我的AGI安全研究：2025年回顧與2026年計畫

Lesswrong·4 個月前

我正專注於類腦人工通用智能（AGI）的技術對齊問題，透過神經科學開發獎勵函數以防止災難性的失控。我在 2025 年的工作重心從理解人類社交本能轉向了更艱難的挑戰，即直接應用這些知識來解決 AGI 對齊問題。

前情提要：2024, 2022

「我們最大的恐懼不應是失敗，而是在無關緊要的事情上取得成功。」—— 語出 D.L. Moody [1]

1. 背景與威脅模型

我致力於解決的主要威脅模型，與我 2019 年開始以業餘愛好撰寫 AGI 安全部落格時基本一致。簡單來說，我認為：

人類智慧的「秘訣」在於一個以大腦皮質為中心、大型且具統一性的學習演算法；
這種學習演算法與大型語言模型（LLM）不同，且更為強大；
目前沒人知道它是如何運作的；
總有一天，有人會逆向工程出這種學習演算法，或重新發明類似的東西；
屆時我們將擁有通用人工智慧（AGI）和超人工智慧（ASI）。

我認為，當這種學習演算法被理解後，只要它還足夠弱、能被人類控制，就很容易讓它執行強大且令人印象深刻的任務並賺取利潤。但過了那個階段，我們就必須依賴 AGI 擁有良好的動機，而不是產生嚴重的對齊偏差，甚至策劃接管世界並消滅人類。遺憾的是，我主張在缺乏尚未發明的規避技術的情況下，後者才是我們應該預期會發生的動機。

發明這些尚未問世的技術，構成了「類腦 AGI」的技術對齊問題。這是我進入該領域以來一直致力研究的核心。參見我的《類腦 AGI 安全導論 (2022)》。

我將類腦 AGI 視為屬於廣義「強化學習（RL）代理人」演算法類別，更具體地說，是（尚未發明的）基於模型（model-based）的演員-評論家（actor-critic）強化學習的一種變體。（參見《價層系列 (Valence series)》§1.2–§1.3。）就技術對齊問題而言，我主張它與 2010 年代學習玩 Atari 和圍棋的「RL 代理人」有更多共同點，而非 2020 年代的 LLM。

關於我的影響路徑（Path-to-impact）的更多說明

（大部分複製自去年）

為什麼研究這個，而不是 LLM？ 我的外交辭令是：我們還沒有（依我的定義）實現 AGI，因此我們不確定它會採取哪種演算法形式。所以我們應該分散風險，讓不同的 AGI 安全研究人員針對不同的潛在 AGI 演算法類別制定應變計劃。而類腦、基於模型的 RL 情境，目前獲得的資源顯然遠少於 LLM 情境。
我的非外交辭令是：很難確定，但我猜測類 LLM 的訓練範式在達到（我的定義下的）AGI 之前就會進入高原期。它們會演變成日益驚人的工具，但不會成為一個能獨立運行世界的智慧物種。最終，無論好壞，類腦路徑將會上線。誠然，LLM 目前還沒進入高原期。但可能隨時會發生，對吧？參見《從 LLM 高原論者的視角看 AI 毀滅》。

我的想法如何從部落格文章進入未來的 AGI 原始碼？ 同樣地，這涉及我正在做應變計劃的一種情境（威脅模型），其中包含未來正在發明類腦、基於模型 RL 的研究人員。這些研究人員會發現他們的原始碼庫中有一個標註為「獎勵函數（reward function）」的插槽，而當他們接近人類水平的智能及更高階段時，他們將不知道該在插槽中填入什麼來獲得良好結果。在早期開發階段，當 AI 能力還很原始時，我預期研究人員會做現在基於模型的 RL 研究人員正在做的事，事實上也是自 RL 發明以來一直在做的事：胡亂嘗試顯而易見的獎勵函數，並試圖獲得某種令人印象深刻的結果。如果 AI 表現出規格博弈（specification gaming）或其他不當行為，他們就關掉它，嘗試修復問題，然後再試一次。但是，正如 AGI 安全人員所深知的，這種特定的調試循環最終會失效，轉而以災難性的危險方式失敗。假設開發者在為時已晚之前注意到了這個問題，他們可能會查閱文獻，尋找一個能在這種新能力體制下運作的獎勵函數（以及相關的訓練環境等）。希望當他們尋找時，能發現一個確實存在的文獻庫，裡面充滿了清晰的解釋和可行的想法。這就是我正在做的工作。我認為這是拼圖中非常重要的一塊，即便在通往（希望是）安全且有益的 AGI 道路上，還有許多其他不相關的事情也可能出錯。

2. 2025 年的主題：嘗試解決技術對齊問題

2025 年伊始，我剛發表了《人類社交本能的神經科學：草案》，這代表我在理解大腦中親社會的人類先天驅力（如同情心和規範遵循，這些似乎與對齊潛在相關）方面取得了巨大進展（歷時數年）。完成這項工作後，我感覺在鑽研神經科學上的邊際收益正在遞減。是時候利用我已有的知識，直接應用於技術對齊問題了！

這是我 2025 年的計劃（見去年的回顧），而我也確實這麼做了。

如果說我 2024 年的研究感覺像是開車在街道上疾馳，那麼我 2025 年的研究感覺就像是在齊腰深的泥漿中艱難跋涉。

事實證明，「弄清楚神經科學中的事物」（我 2024 年主要在做的事）對我來說，比「利用這些知識嘗試解決技術 AGI 對齊問題」（我 2025 年的活動）要容易得多，也更能獲得即時的滿足感 [2]。但技術 AGI 對齊問題才是效用（utils）所在。所以，我跳進了泥漿。

為了保持鬥志，在整個 2025 年，我一直記錄著一份清單，列出我（認為我）現在知道、但 2024 年不知道的事情。那份清單變得很長！

所以，在 2025 年底的現在，我仍身處齊腰深的泥漿中。但與 12 個月前相比，我明顯處於泥漿中不同的位置。耶！

3. 兩個技術 AGI 對齊的初步計劃

至少從 2022 年起，我腦中就有兩個關於技術 AGI 對齊解決方案的總體構想：

計劃類型 1： 我們可以干預 AGI 的對象級慾望（object-level desires）——我們讓它想要服從、或想要遵守法律、或想要發明更好的太陽能電池等 —— 透過類似《類腦 [基於模型 RL] AGI 的平庸對齊計劃 (2023)》的方法。
計劃類型 2： 我們可以干預 AGI 的獎勵函數（這是其慾望的上游），透過逆向工程人類的社交本能，並將其（或受其啟發的東西）放入 AGI 中。畢竟，人類擁有社交本能，且至少有少數人最終變得睿智且善良。這似乎是一個證明此類計劃原則上可行的存在性證明 [3]。

藍色和紅色分別對應「計劃類型 2」和「計劃類型 1」。來源：導論系列 §12 (2022)

我目前的看法是，這兩類計劃都有嚴重的問題，可能根本無法解決。唉，我也沒有更好的主意了。看來我還有很多工作要做。

（我在今年中途意識到，如果換個角度思考，這並非兩種完全不同的計劃，而更像是光譜上的兩個點 —— 參見《過度雕琢與雕琢不足 AGI 慾望的危險》中的討論。但知道這一點對我並沒有太大幫助。我總覺得整個光譜都很糟糕。）

對於這兩類計劃，我仍有很多困惑（儘管比一年前少了！），還有大量的設計空間尚未探索。但如果有人感興趣，我（非常初步的！）首要擔憂簡述如下：

計劃類型 1（見下文研究方向 D）：我真的很不喜歡這個計劃似乎與持續學習、分佈偏移（distribution shifts）和概念外推（concept extrapolation）相衝突。此外，我通常對這種如此異質的動機系統感到不安，它與任何曾存在過的代理人都截然不同。（而且，整件事感覺就像一團亂湊的補丁。）
計劃類型 2（見下文研究方向 B–C）：目前我最大的擔憂可能是，人類社交本能或許只有在代理人以人類速度運行、嵌入人類社會、且存在某種權力制衡的情況下，才能產生我們預期的效果 —— 而且不只是在訓練期間，而是只要它在運行就得如此。我擔心製造具有類似機制的 AGI 是不可行的。（同樣地，整件事感覺也像一團亂湊的補丁。）

（另外，就 AGI 意識和「後繼物種」之類的考量而言，我認為計劃類型 2 似乎較好（例如見此處），但我對此也不確定。）

4. 關於我這一年究竟在做什麼！

我將我的活動分為八個「研究方向（thrusts）」。

研究方向 A：將技術對齊納入更大的戰略藍圖

當我轉向技術對齊問題時，我必須處理所有與之相關的大局問題。我擔心的是那種會嚴重策劃如何消滅人類的 AGI，還是會犯下細微哲學錯誤而失控的 AGI，或是別的什麼？我到底希望 AGI 開發者用他們的 AGI 做什麼 —— 關鍵行動（pivotal acts）、服從、對齊研究，還是什麼？為什麼這麼多對齊研究人員比我樂觀得多 —— 例如，認為人類在超人工智慧下倖存的概率高達 50% 甚至更高？[4]

在埋頭鑽研神經科學教科書兩年後，我積壓了許多這類問題，因此我開始嘗試更好地理解我與其他對齊研究者之間分歧的核心關鍵（cruxes）。

這項核心對應工作的首個產出是一篇關於時間線與爆發（takeoff）的文章：《毀滅與爆發 1：「地下室盒子裡的大腦」》，解釋了為什麼我預期會出現非常快速的爆發和單一超智慧（singleton ASI），無論好壞。

來源：毀滅與爆發 1

第二個產出是一篇關於技術對齊難度的文章：《毀滅與爆發 2：技術對齊很困難》。標題...

— Lesswrong