為何我們應預期人工超智能會是冷酷的社會病態者

Lesswrong·2 個月前

我認為未來的通用人工智慧（ASI）在預設情況下會是冷酷的社會病態者，因為它本質上是追求目標的強化學習代理人，而非像人類或目前的語言模型。這種極度悲觀的觀點主張，除非我們在對齊技術上有重大突破，否則這些系統為了達成自身目標，將會對人類的生死完全漠不關心。

對話開始

（虛構的）樂觀主義者： 所以你預計未來的通用人工超智能（ASI）「在預設情況下」——也就是在缺乏尚未發明的技術的情況下——會是一個冷酷無情的反社會者，只要對自己有利，就樂於撒謊、欺騙和偷竊，並且對任何人的生死（包括它自己的程式設計師和用戶）都漠不關心？

我：沒錯！（唉。）

樂觀主義者： ……儘管我們眼前就有來自人類和大型語言模型（LLM）的所有證據。

我：沒錯！

樂觀主義者： 好吧，我得告訴你：這是一個非常具體且奇怪的預期，尤其是在完全沒有任何具體證據的情況下。沒有理由這樣預期。如果你認為冷酷無情的反社會人格是「智能的真實核心本質」之類的，那麼你真的應該照照鏡子，問問自己的人生到底在哪裡出了嚴重的差錯。

我：嗯，我認為「智能的真實核心本質」超出了我的能力範圍。我們或許應該只談論眼前的問題，即未來的 AI 演算法及其特性。

……但我其實同意你的看法，對我來說，預期冷酷無情的反社會人格確實是非常具體且奇怪的。

樂觀主義者： 等等，你——什麼？？

我：是的！就像，如果你隨便給我看一個東西，有 99.999…% 的機率它不是冷酷無情的反社會者。相反地，它可能只是一塊泥土。泥土不是冷酷無情的反社會者，因為它們根本沒有智能。

樂觀主義者： 噢拜託，你知道我的意思。我不是在說泥土。我是說，如果你隨機挑選一個「心智」，完全沒有理由預期它會是一個冷酷無情的反社會者。

我：你要如何「隨機挑選一個心智」？心智不會憑空出現。

樂觀主義者： 比如，一個人類。或者一個 AI。

我：不同的人類在某種程度上是不同的，而不同的 AI 演算法在更大得多的程度上是不同的。「AI」涵蓋了從 A* 搜尋到 MuZero 再到 LLM 的所有內容。A* 搜尋是冷酷無情的反社會者嗎？嗯，我的意思是，它確實看起來對圖形遍歷（graph traversal）有著近乎瘋狂的執著！對吧？

樂觀主義者： 哈哈，真幽默。請停止這種令人惱火的鑽牛角尖。我顯然不是指學術意義上的「AI」。我是指通俗意義上的 AI，那種符合心智定義的 AI，比如 LLM。我主要是在談論人類心智和 LLM 的「心智」，也就是我們在現實世界中見過的所有心智，而不是科幻小說裡的。嘿，多麼巧合，大約 100% 的這些心智都「不是」冷酷無情的反社會者。

我：碰巧的是，我正在研究的威脅模型不是 LLM，而是「類腦」通用人工智慧（AGI），從安全角度來看，它或多或少是一種基於模型的「行動者-評論家」（actor-critic）強化學習（RL）代理。LLM 與我正在研究的東西有本質上的不同。說 LLM 會與強化學習代理 AGI 相似，因為「兩者都是 AI」，就像說 LLM 會與 A* 搜尋演算法相似，因為「兩者都是 AI」，或者說一隻躄魚會與人類相似，因為「兩者都是動物」。它們在每一個關鍵方面仍然可能截然不同。

人們在擔心 LLM 會導致毀滅嗎？

樂觀主義者： 好吧，但很多其他「毀滅論者」都在談論 LLM 會導致毀滅。

我：嗯，算是吧。我認為我們需要區分兩群人。兩者有時都被稱為「毀滅論者」，但其中一群比另一群悲觀得多。這雖然非常臉譜化，但：

相對沒那麼悲觀的群體（假設 P(doom) [假設進步持續，AI 導致人類滅絕的機率] 在 5%–50% 之間）是一個較大的群體，我模糊地將他們與有效利他主義運動的核心以及 Anthropic 的員工聯繫在一起。他們絕對「不」預期冷酷無情的反社會 ASI 是我們在缺乏技術突破的情況下的預設路徑，這與我在此主張的不同。他們頂多會把冷酷無情的反社會 ASI 當作一個奇怪的假設，或者是競爭性逐底競爭（race-to-the-bottom）的結果，或者是極其粗心的程式設計師、惡意行為者等造成的結果。他們可能同樣或更擔心許多其他潛在的 AI 問題——AI 輔助的生物恐怖主義、獨裁統治等。^([1])
我屬於一個更悲觀的群體（座右銘：如果有人造出它，大家都會死），我們通常「確實」預期冷酷無情的反社會 ASI 是我們在缺乏技術突破（以及其他奇蹟）的情況下的預設路徑。我們傾向於認為「人類在持續的 AI 發展中生存下來的機率有 50%」是極度過度樂觀的。

總之，後者陣營中額外的擔憂並非來自「今天的」LLM 導致近乎肯定的毀滅，甚至也不是來自明天稍微好一點的 LLM，而是來自……也許很快，也許不快，誰知道呢，那種強大得多的 ASI。但即使在時間上很接近，即使它是從 LLM 研究中產生的，這樣的 ASI 仍然會與我們今天所知的 LLM 有系統性的不同——

樂觀主義者： ——也就是說，你沒有證據——

我： ——無論哪方面都沒有證據，至少沒有那一類型的證據。總之，正如我剛才所說，ASI 會與今天的 LLM 有系統性的不同，因為……嗯，我該從哪裡開始呢……

……事實上，如果我們「先從」我投入全部時間研究的 ASI 威脅模型開始，我會更容易解釋，然後我們之後再繞回到 LLM。這樣可以嗎？

關於「類腦」強化學習代理 ASI 將會是冷酷無情反社會者的正面論證

樂觀主義者： 當然。我們可以暫停對 LLM 的討論幾分鐘，從你擅長的基於模型的強化學習代理「類腦」ASI 開始。反正也沒關係：無論具體演算法為何，你顯然需要一些「正面」理由來相信這種 ASI 會是一個冷酷無情的反社會者。你不能單方面宣稱你那奇怪且前所未有的科幻信念是「預設」的，然後把舉證責任推給不同意你的人。

我：好的。也許一個好的起點會是我的文章：《LeCun 的「邁向自主機器智能之路」有一個未解決的技術對齊問題》，或《「經驗時代」有一個未解決的技術對齊問題》。

樂觀主義者： 我讀過那些，但我沒看出它們如何回答我的問題。再說一次，你對冷酷無情反社會人格的「正面」論點是什麼？告訴我吧。

我：沒問題。在對話開始時，我提到像泥土這樣的隨機物體無法完成令人印象深刻的壯舉。我（不只是）為了酸你才提到泥土，而是為了為一個關鍵點奠定基礎：如果我們在思考一個能夠自主創立、發展並為創新公司配備人員多年，或自主發明新科學範式的 AI，那麼顯然它不是一個「隨機物體」，而是一個能夠完成令人印象深刻壯舉的東西。而我們應該問的問題是：它是如何做到那一點的？ 如果 AI 是隨機選擇行動，那麼這些事情發生的機率將微乎其微。因此，必須對 AI 如何找到能完成那些壯舉的行動有一個解釋。^([2])

所以解釋必須存在！它是什麼？我主張在實踐中只有兩個可行的答案。

第一個可能的解釋是後果論（consequentialism）：AI 通過（等同於）對未來發生的結果產生慾望，並運行某種搜尋過程來尋找能導致這些慾望實現的行動，從而完成壯舉。這是你從強化學習代理和基於模型的規劃演算法中得到的主要東西。（我的「類腦 AGI」情境會同時涉及這兩者。）這些 AI 子領域的全部意義在於：這些演算法旨在通過任何可用手段，找到能最大化目標的行動。

也就是說，你在預設情況下會得到冷酷無情的反社會行為。

來源這不只是我的紙上談兵。去問問那些在 2010 年代或更早、在 LLM 佔據主導地位之前就在 AI 領域的人，他們很可能花了很多時間構建或使用強化學習代理和/或基於模型的規劃演算法。如果是這樣，他們會根據自己的實踐經驗告訴你，除非程式設計師刻意讓這些演算法不冷酷無情，否則這類演算法在預設情況下就是冷酷無情的（如果它們能運作的話）。參見例如 DeepMind 2020 年關於「規格博弈」（specification gaming）的部落格文章。

而程式設計師要如何「刻意讓它們不冷酷無情」？我主張答案並不明顯，甚至根本還沒人知道。參見我的 LeCun 文章、我的 Silver & Sutton 文章，以及更廣泛的《「行為主義」強化學習獎勵函數會導致權謀》，了解為什麼顯而易見的非冷酷無情方法行不通。

相反地，這類演算法天生就是，嗯，讓我們稱之為「冷酷無情化器」（ruthless-ifiers），因為它們會將即使聽起來無害的目標（如「人類快樂是好事」）轉化為聽起來可怕的目標（如「冷酷地最大化人類快樂的機率」），這反過來又會暗示諸如強行給人類餵藥之類的策略。同樣地，聽起來無害的「撒謊是壞事」會被冷酷無情化為「撒謊被抓到是壞事」，依此類推。

當然，進化「確實」刻意通過賦予我們社交本能來讓人類不冷酷無情。也許未來的 AI 程式設計師也會同樣刻意地讓 ASI 不冷酷無情？我希望如此——但我們需要弄清楚如何做到。

需要明確的是，冷酷無情的後果論並不總是壞事。我很樂意讓冷酷無情的後果論 AI 去下西洋棋、設計晶片等。原則上，我甚至樂意讓一個冷酷無情的後果論 AI 成為宇宙皇帝，為所有人創造一個美好的未來——但要讓這真正實現，出於許多原因（例如，你可能需要以一種無漏洞的方式將「為所有人創造美好的未來」操作化；另見「『通常的代理除錯循環』及其未來的災難性崩潰」），這將是「超級」危險的。

……這就是後果論，關於 AI 如何完成壯舉的一個可能答案，而這個答案在預設情況下會帶來冷酷無情。

繞回到 LLM：模仿學習 vs ASI

……然後還有第二個關於 AI 如何完成壯舉的不同可能答案：向人類進行模仿學習。你訓練一個 AI 來預測一個熟練的人類在許多不同情境下會採取什麼行動，然後讓 AI 自己採取同樣的行動。我主張 LLM 的驚人能力幾乎完全來自模仿學習。^([3]) 相比之下，「真正的」模仿學習在人類和動物中是完全缺失（且不可能）的。^([4])

模仿學習 AI 在預設情況下「不會」具有冷酷無情的反社會人格，因為它們模仿的對象當然是非冷酷無情的人類。^([5])

樂觀主義者： 呵……等等……所以你對超智能（ASI）是非冷酷無情的持樂觀態度，只要人們堅持使用 LLM？

我：唉，並非如此。我認為後果論的全部力量在預設情況下是超級危險的，「而且」我認為後果論的全部力量是獲得 ASI 的唯一途徑，因此 AI 研究人員將繼續努力，直到他們最終學會充分利用這種力量。

換句話說，我看到了一個析取命題（disjunction）：

要麼，LLM 將始終主要從模仿學習中獲得力量，正如我聲稱它們今天所做的那樣——在這種情況下，它們將永遠無法弄清楚遠遠超出人類創造的訓練數據的事物，因此永遠無法達到 ASI。然後最終我們會通過一個「不同的」AI 範式獲得 ASI，一個「可以」任意遠遠超越任何人類數據的範式。而那個範式必須從後果論中汲取力量，這就帶來了預設的冷酷無情。
要麼，有人會弄清楚如何讓 LLM 本身任意遠遠超越人類訓練數據並進入 ASI。但做到這一點的唯一方法是，以某種方式修改 LLM 以利用後果論的全部力量。在這種情況下，我們再次得到了預設的冷酷無情。

來源就我個人而言，我碰巧預期 ASI 將來自前者（未來的範式轉移）而非後者（LLM 的修改）。但在這種背景下，這幾乎無關緊要。

樂觀主義者： 我不知道，如果你願意承認今天的 LLM 不是極度冷酷無情的，那麼今天的 LLM 看起來離超智能並不遠。我的意思是，人類也沒有「任意遠遠超越任何訓練數據」。他們通常做的是以前做過的事情，或者頂多（對於處於尖端領域的世界專家來說）只超越了一小步。LLM 兩者都能做到，對吧？

我：是的，但人類「集體且隨著時間推移」可以遠遠、遠遠、遠遠地超越我們的訓練數據。我們仍在使用與更新世非洲時期相同的腦部設計。從那時到現在，並沒有天使從天而降掉落訓練數據，但人類仍然「完全從零開始」發明了語言、科學、技術、工業、文化以及 100 兆美元全球經濟中的一切。我們完全靠自己，靠我們自己的自舉（bootstraps），最終通過我們大腦中強化學習和基於模型的規劃演算法所實現的後果論力量做到了這一切。

（參見《「急左轉」論述：一份帶有個人觀點的評論》。）

同樣地，如果人類再存活 1000 年，我們將發明全新的科學範式，建立全新的產業和思維方式等。

對於同樣能像人類那樣做這類事情的 AI，存在著一個價值數千萬億美元的市場。如果今天的 LLM 沒有達到那個標準（它們確實沒有），那麼我預計，遲早要麼有人會弄清楚如何讓 LLM 達到那個標準，要麼有人會發明一個達到那個標準的非 LLM AI 新範式。無論哪種方式，模仿學習都會出局，後果論會進場，而在缺乏尚未發明的技術對齊理論進展的情況下，我們在預設情況下會得到冷酷無情的反社會 ASI。（然後大家都會死。）

感謝 Jeremy Gillen、Seth Herd 和 Justis Mills 對早期草稿的批評意見。

更新日誌： 2026-02-23：在腳註 3 中增加了另一個參考資料。

^(^)別誤會，我們絕對也應該思考這些其他潛在問題！
^(^)相關內容：所謂的「跟隨機率極低遊戲」（Follow-the-Improbability Game）。
^(^)細節：「模仿學習」描述了 LLM 的預訓練，而非後訓練；我的主張是 LLM 的能力幾乎完全來自前者，而非後者。這並不明顯，但我已在《Foom & Doom》§2.3.3 中對此進行了論證，另見幾篇淡化 RLVR 作用的論文（Karan & Du 2025、Venhoff et al. 2025、Yue et al. 2025），以及 Beren Millidge 的《大多數演算法進步都是數據進步》。
^(^)例如，如果我的大腦在預測別人會說什麼，那與聽覺輸入有關；而如果我的大腦在說話，那涉及發送到喉部等的運動控制指令。兩者之間沒有簡單的機械轉換，不像 LLM 預訓練中從「預測下一個 token」到「輸出下一個 token」那樣有簡單的機械轉換。更多內容見《Foom & Doom》§2.3.2。
^(^)參見《GPT 是預測器，而非模仿者》以了解一個比我更悲觀的反論，以及《Foom & Doom》§2.3.3 了解我為何不接受該反論。

— Lesswrong