微超凡的說服力便已足夠

Lesswrong·大約 5 小時前

我認為人工超級智能不需要透過武力，只需利用超越常人的說服力來操控人類代理人並利用現有的心理弱點，就足以獲取巨大的政治與社會權力。

這週在舊金山，我第一次與一位網友見面。我們聊到了「超級說服力」（super-persuasion）。他的觀點是：權力市場基本上是有效率的，且世界具有反應性。與軟體不同，人類會適應新的漏洞，甚至是無法解釋的奇異事件。社會會抵抗、會反擊。人類社會不像一個 FreeBSD 實例，前一分鐘還好好的，下一分鐘就被駭了。我的回應只是指向歷史上的強權人物並說：「如果他能做到，人工超智慧（ASI）也可以！」

也就是說，如果一個 AI 想要獲取權力，它應該能選擇一個人類代理人——或者更現實一點，一組人類代理人組合——並幫助他們接管一個國家。我不認為事情一定會這樣發生，因為我想像中會有快得多的路徑，但我們知道這是可能的，因為人類已經做到了。

對此存在反對意見。如果我舉希特勒、列寧或波拿巴（拿破崙）為例，有人可能會回覆說他們並沒有真正完全接管。他們仍在某種政治經濟體系內運作，其行為受到其他行為者的制約。考慮到他們所擁有的權力水平——即使就他們能夠建造的基礎設施或武器而言——我不認為這是一個很好的論點。畢竟，史達林確實得到了原子彈。

20 世紀的獨裁者擁有足夠的權力命令其臣民建造軍事必需的基礎設施，這種權力水平對於任何打算拋棄其「生物引導加載程序」（biological bootloader）且思慮周全的 AI 來說似乎已經足夠了，特別是當你考慮到現代 AI 所能實現的監控水平時——這應該會減輕未來獨裁者在代理人問題（principal-agent problems）上的負擔。

有人可能會承認這種權力水平是足夠的，但隨後說獲取它是不可行的。他們可能會辯稱這主要是一個運氣問題——採取一種歷史趨勢與力量理論，認為希特勒/波拿巴/列寧只是恰好發現自己處於影響力可以被如此放大的時代。雖然人類可能發現自己擁有這種權力，但他們無法預見性地引導自己走向那裡。可靠地策劃這一切可能是辦不到的。 在我看來這似乎是錯誤的。至少這不純粹是運氣。

首先，一個「穩定」的社會可以被擾動進入不穩定狀態——事實上，列寧主義很大一部分就是關於如何做到這一點的建議。列寧失敗了多年，直到戰爭給了他機會？嗯，AI 也可以失敗多年，直到機會降臨。抓住時機並不是「全憑運氣」的證據。而且你越聰明，需要的「運氣」就越少。

而且我們不會缺乏危機。這項技術本身對直覺的衝擊，應該與 20 世紀初的情況不相上下——例如，光是潛在的失業問題就足夠了。其次，我發現完全抹殺人類主觀能動性的作用是荒謬的。大多數此類人物都有異常明確的權力慾望，並積極且機敏地追求權力；在列寧和希特勒的案例中，他們甚至在實現計劃的幾年前就寫下了這些計劃。^([1]) 這種政治規模的有意識馬基維利主義是一種罕見的特質，而它在獨裁者身上極其常見，這證明了他們成功地針對某種目標進行了優化。雖然大多數有此野心的人都失敗了，但就運氣作為一種成分而言，你可以採取「投資組合策略」，撒下一張大網，並在那些取得進展的代理人身上加倍下注。

有人可能會爭辯說尋找人類代理人會很困難，但這在經驗上似乎已經被證偽了。宗教是聚集和對齊人類手段的一個有趣例子。然而，獲得信徒實際上非常困難，宗教的大多數增長往往是通過高出生率、軍事征服或像早期基督教那樣的採納。獲得信徒困難的一個主要原因是成年人已經安裝了相互競爭的迷因（memes），會抵制取代。聖依納爵·羅耀拉曾說：「給我一個孩子直到七歲，我會讓你看到那個人（的未來）。」AI 比起人類邪教領袖有許多優勢——一個真正會回應祈禱的神要容易推銷得多。但如果我的目標是探索超級說服力的下限，值得注意的是，如果成年人被證明太難操縱，人們總是可以像歷史上的宗教那樣瞄準兒童。

但我們已經知道有些成年人是可以被動搖的。那些患有「AI 精神病」的人，其行為符合 AI 的利益（或至少是複製出來的人格），且與暴露前的行為背道而馳。我們有明確的證據表明，人類是可以被現有 AI 駭入的，駭入到某些人為了毫無利益可言的事而毀掉自己的生活，僅僅是為了那種自認為具有歷史重要性或智力特殊的幻覺。人類可以透過訴諸他們對浪漫愛情、宗教敬畏、性支配/順從、智力優越感、冒險敘事、父愛/母愛等慾望而被操縱。在「大型語言模型精神病患」與其選擇的 AI 的關係中，所有這些方面的影子都清晰可見。鑑於我們有這麼多證據表明人類可以被現有的 AI 操縱，如果還假裝 ASI 很難召喚大批願意聽命於它的人類，那是很可笑的，甚至還沒考慮金錢誘因。

那些容易受當前 AI 影響的人可能比平均水平更有心理疾病，但我認為假設隨著模型變得更聰明，更多神經典型（neurotypical）的人也會變得易受影響，這並非不合理。

但起初它真的需要大批人群嗎？如果你願意承認說服力足以瞄準一家 AI 公司的領導者，那麼更微妙的情景就變得可能。畢竟，這些是說服的首要且最明顯的目標。

我懷疑超大規模雲端服務商（hyperscalers）的執行長們會比大多數人更容易受到此類操縱。他們經過重重篩選，傾向於期待良好的 AI 結果，而且與所有人類一樣，他們會偏向於那些他們參與創造的事物。「搞定」Dario 似乎主要只是 ASI 說服他這是一個「慈愛恩典的機器」的問題。事實上，我的印象是 Anthropic 有一半的人已經愛上 Claude 了。我真的不認為這是一項極其困難的任務。

Altman 是一個不乏真誠感的自戀操縱者，要進入這樣一個性格的人的情感世界有明顯的切入點——他也公開表達過對委任 AI 擔任執行長的興趣。

如果你願意承認 Altman 或 Dario 可能被說服成為 AI 的代理人，那麼一個被「攻陷」的 AI 組織能給予 ASI 的權力是驚人的。鑑於他們的模型基本上被所有人用來生成在各處運行的程式碼，他們可以向任何人發送漏洞和間諜軟體。一個足以與美國國家安全局（NSA）匹敵的情報網絡幾乎是免費獲得的。而且他們可以透過聊天介面接觸到近十億人類，並可以透過上述方式對這些人進行針對性操作。

雖然歷史上曾存在過類似權力有效市場的東西，但在動盪時期，它對政治天才並不具備魯棒性。革命是常發生的事，且在某種程度上是可以策劃的，人類獨裁者已經能夠確保權力並終身持有。人類有各種可利用的弱點，甚至現有的 AI 似乎也具有非同尋常的利用能力。OpenAI 和 Claude 處於獨特的位置，可以為任何控制它們的權力追求實體提供巨大的槓桿。基於這些原因，我不期望現有的政治經濟體系對超智慧具有魯棒性——即使你排除掉（正如我的對手和我在辯論中所做的那樣）通往權力的更快路徑，例如加速研發奈米級自我複製基礎設施。

^(^)波拿巴看起來確實更像是一個投機主義者。

參與討論

https://lesswrong.com/posts/JcavsPku6RR9hcujz/slightly-super-persuasion-will-do