在強力預設下,人工超級智能將終結自由民主
自由民主的存續依賴於權力平衡,而人工超級智能本質上將破壞這種平衡,無論由誰率先開發,都極可能導致全球性的獨裁統治。除非人工智慧的發展極其緩慢,或者超級智能本身被設計為保護民主價值,否則這種絕對權力的集中將使現有的政府約束機制形同虛設。
轉載自我的網站。
自由民主制度——擁有法治、對政府權力的約束以及享有投票權的公民——其存在依賴於一種權力平衡,即單個惡意行為者無法造成過大的破壞。人工超智能(ASI)即便在對齊(aligned)的情況下,預設也會打破這種平衡。
這並非是誰開發出 ASI 的問題。無論第一個 ASI 是由極權國家還是民主國家開發,最終結果——在極強的預設情況下——都將是一個「事實上的」全球獨裁政權。
核心問題在於,誰控制了 ASI,誰就能擊敗任何反對勢力。想像一個情景,(假設)DARPA 開發出了第一個超智能
^([1])
,而 ASI 訓練計畫的負責人決定奪取政權。任何人能對此做什麼嗎?
如果總統命令軍隊佔領 DARPA 的數據中心,ASI 可以擊敗軍隊。
^([2])
如果國會發布指令要求 DARPA 必須移交 ASI 的控制權,DARPA 可以拒絕,而國會的應對手段甚至比總統還要少。
如果自由民主制度繼續存在,那也僅僅是出於 ASI 控制者的恩賜。
有兩種看似合理的情景,有機會避免極權主義的結果:
-
AI 能力進展緩慢。
-
ASI 本身保護自由民主。
我將依序討論這兩點。
如果 AI 能力進展緩慢會怎樣?
如果滿足以下兩個條件,我們就有機會避免「事實上的」極權主義:
-
在 AI 開發的每一步,AI 的控制權都被廣泛分配。
-
在每一步中,下一代 AI 的強度不足以壓倒上一代 AI 的所有副本。
廣泛分配 AI 是困難的——當今的前沿大型語言模型(LLM)需要超級電腦才能運行,其硬體需求隨每一代更迭而變得日益昂貴,且 AI 開發者有強烈的動機反對分配。此外,分配 AI 會加劇失調(misalignment)和濫用的風險,這項權衡可能並不值得。
我們不知道技術飛躍(takeoff)會是快還是慢;將賭注押在「慢速飛躍」上是一場極其冒險的行動。前沿 AI 公司正竭盡全力快速構建 ASI,並明確希望讓 AI 實現遞迴自我改進。如果他們成功了,很難看出自由民主制度將如何自我保存。
如果 ASI 本身保護自由民主會怎樣?
有一種可以想像的情景:一個對齊的 ASI 維護著自由民主,並拒絕任何會侵犯公民自由的命令。
我在上文寫道:
如果自由民主制度繼續存在,那也僅僅是出於 ASI 控制者的恩賜。
這依然成立,但在這種情況下,「控制 ASI 的人」將是 ASI 本身。如果它是以透明的方式對齊的,那麼或許我們可以確信它真的會維護民主。
即便在這種情景下,仍有一小群人控制著 ASI 的訓練方式。希望在訓練期間,這些人還沒有足夠的權力來阻止監督。例如,或許法律規定:(1) AI 開發者必須公開其訓練過程並接受審計,且 (2) 訓練過程必須引導 AI 重視自由民主。目前完全不清楚這些法律將如何運作、我們如何獲得這些法律,或者如何執行它們;但至少這種結果在可能性上是可以想像的。
這種情景帶來了一些額外的挑戰:
-
ASI 在保護自由民主方面必須是不可修正的(incorrigible)。這限制了我們能使用的對齊方案類型,使得對齊問題更難解決。不可修正意味著如果你在設計 AI 時犯了錯,你就無法修復它。
-
我們必須確保一個不可更改的「保護自由民主」指令不會產生嚴重的意外後果——而預設情況下,它很可能會產生(想想艾西莫夫的機器人三定律)。
-
AI 的進展必須足夠緩慢,以便在為時已晚之前建立適當的法律或監管;或者我們必須信任領先的 AI 開發者會將適當的價值觀嵌入其 ASI 中。
自由民主並非真正的目標
俗話說,民主是除了所有其他嘗試過的政府形式之外最糟糕的形式。我們不想要民主;我們想要的是一種「真正好」的政府形式(希望有一天我們能弄清楚那是什麼)。恐懼並不在於 ASI 會用那些真正好的政府形式取代民主,而在於我們將迎來極權主義。
自由民主勝過極權主義。但「鎖定」自由民主會阻止我們獲得任何真正好的政府系統。這是一個兩難困境。
也許我們可以避免極權主義,但目前沒有明確的路徑
這篇文章並非斷言 ASI 「一定會」終結自由民主。它斷言的是,在「強預設」下,ASI 將終結自由民主(即便在解決了對齊問題的前提下)。或許有方法可以避免這個問題——我勾勒了兩條可能的路徑。但這些草案仍需要解決許多子問題;我不指望事情在預設情況下會進展順利。
-
或者更有可能的是,以國家安全為藉口從私營公司徵收。 ↩︎
-
關於為什麼 ASI 可以擊敗任何政府軍隊的解釋,請參閱《如果有人造出它,所有人都會死》(If Anyone Builds It Everyone Dies)第 6 章及其線上補充資料。較短的(且僅限線上的)解釋請參閱構建具有錯誤目標的 ASI 將具有致命危險。
這些來源論證的是「失調」的 ASI 可能擊敗人類,而我的主張是「對齊」的 ASI 可以擊敗任何反對勢力,但兩者的論據是相同的。 ↩︎