AI繼承主義的模因學

Lesswrong·6 個月前

人工智慧的進步在我們對技術的追求與對人類過時或滅絕的恐懼之間，造成了劇烈的認知失調。文化演化將不可避免地產生「繼承主義」意識形態，透過將 AI 取代人類重新詮釋為理想或必然的結果，來化解這種心理張力。

摘要： AI 的進步以及對相關風險的認知，思考起來是痛苦的。這種認知失調在迷因景觀（memetic landscape）中充當了肥沃的土壤，這是一種高能狀態，將被新穎的意識形態所利用。我們可以預見，文化演化將找到可行的「繼承主義」（successionist）意識形態：這些迷因複合物（memeplexes）透過將 AI 取代人類框架化為一種理想、英勇或不可避免的結果，來化解這種張力。本文主要探討這一過程的運作機制。

大多數對意識形態的分析都執著於其具體主張——哪些行為是善的、AI 是否具有意識、基督是否具有神性，或者聖母瑪利亞是否從受孕之初就脫離了原罪。其他分析則側重於詮釋個別思想家：「馬克思的真正意思是什麼？」在本文中，我試圖做一些不同的嘗試——主要是從演化的角度來看待意識形態。我將在很大程度上撇開人類個體的代理權（agency），這並非因為它不存在，而是因為從更高的高度觀察系統會揭示出不同的動態。

我們不會探討這些意識形態的主張是否屬實，而是探討為什麼它們可能會傳播，無論其真實價值如何。

什麼讓迷因具有適應性？

為了理解為什麼繼承主義可能會傳播，讓我們考慮迷因適應性（memetic fitness）的一般機制。為什麼有些想法會傳播，而另一些則會消逝？

想法的傳播有很多原因：有些確實改善了宿主的生活，有些包含內置的傳播指令，還有一些觸發了社交媒體演算法的放大機制。其中一個常見的原因（也是我們這裡關注的重點）是「辯解掉」（explaining away）張力。

理解這種適應性項的一個有用視角是預測處理（Predictive Processing, PP）。在 PP 框架中，大腦本質上是一個預測引擎。它運行一個世界的生成模型，並試圖最小化其預測與感官輸入之間的誤差。

迷因——想法、敘事、假設——通常是生成模型的組成部分。它們成功的關鍵之一是為宿主最小化預測誤差。這可以透過提供一個能預測觀察結果的優越模型（「這種烏雲意味著要下雨了」）、提供塑造環境的方法（「這樣敲擊石頭會更容易碎」），或者解釋觀察結果與深植於心的既有模型之間的不一致來實現。

預測誤差的另一個來源不是來自模型與現實的不匹配，而是來自內部模型之間的張力。這種內部張力通常被稱為認知失調。

認知失調通常被描述為一種不適感——但它也代表了認知系統中一種不穩定的高能狀態。當這種失調在人群中廣泛存在時，它就在迷因景觀中創造了我們所謂的「肥沃土壤」。有一池「自由能」等待被消化。

文化演化是一個優化過程。當它發現一種想法配置，能透過提供減少張力的敘事來代謝這種能量時，這些想法就可能傳播，無論它們對人類的長期效用或真實價值如何。

文化演化的搜索過程

雖然某些意識形態偶爾可能是智慧設計的產物（例如精心製作的宣傳品），但更常見的情況似乎是個體在腦中重新組合並變異想法，將其表達出來，其中一些想法得以留存並傳播。因此，文化演化就像一個巨大的、並行的搜索演算法，在可能的想法空間中運行。大多數變異是不可行的。但偶爾，某種組合會與底層的適應性景觀（如人群的認知失調）相契合，從而傳播開來。

這種搜索通常不會產生完全新穎的概念。相反，它透過重新混合和改編現有的文化材料——即「迷因池」——來運作。當底層的失調足夠強烈時，搜索一定會找到一套能將其辯解掉的迷因。問題不在於是否會出現一種意識形態來填補這個生態位，而在於哪種具體的配置會被證明是最具適應性的。

肥沃土壤：失調的來源

當前圍繞 AI 發展的環境具有極端張力的特徵。這些張力創造了肥沃的土壤——自由能的儲存庫——繼承主義意識形態正演化以利用這些能量。

考慮張力的景觀：

I. 建設者的困境與英雄敘事

大多數致力於提升 AI 能力的人都熟悉 AI 風險的基本論點。（核心論點大約是：如果你想像出比我們強大得多的心智，很難看出為什麼我們還能保持控制，而且未來的預設狀態也不太可能反映我們的價值觀）。

與此同時，他們正在努力加速這些能力的發展。

這創造了一種尖銳的張力。幾乎每個人都想成為自己故事中的英雄。我們維持著一個內部的自我模型，認為自己本質上是好的；幾乎沒有人把自己看作惡棍。

II. 過時的悲哀

即使撇開尖銳的生存風險不談，持續加速的 AI 進步這一想法在內化後具有本質上的悲傷基調。人類本質上珍視的許多事物——我們的代理權、我們的重要性、我們的智力和創造力成就——在一個充滿優越 AI 的世界中很可能會被削弱。變得過時的前景產生了預期性的哀慟。

III. 生存風險（X-Risk）

生存災難和一個毫無價值的未來，其概念本身就是可怕的。對此進行深思在心理上代價高昂，這創造了一種強大的動機去採納那些要麼淡化可能性、要麼重構結果的模型。

IV. 「歷史錯誤的一邊」

在社會和心理上，站在「獲勝方」的需求創造了壓力，讓人去擁抱而非抵制那些看似不可避免的事物。

V. 進步啟發式

過去幾個世紀強化了一種廣泛成功的啟發式：技術和科學進步通常會帶來繁榮和人類福祉。這種根深蒂固的「進步 = 好」的模型與 AI 風險敘事發生了衝突。

產生的壓力

這些因素結合在一起，產生了強烈的認知失調。距離 AGI 出現的時間越近，在社交網絡上距離 AGI 開發越近，這種失調就越強烈。

這種失調創造了一種演化壓力，篩選出那些能辯解掉張力的意識形態。

換句話說，文化演化搜索過程正在積極尋找滿足以下約束的敘事：

透過研發 AI，你是英雄。
你站在歷史正確的一邊。
未來會是美好的。

解決張力有多種可能的方法，包括流行的辯解，如「由好人開發 AGI 更好」、「為了推進安全性，必須靠近這場博弈」或「風險沒那麼高」。

繼承主義意識形態是這種搜索中較不常見但並不令人意外的結果。

迷因池：繼承主義的原材料

文化演化將利用現有想法來構建這些意識形態：可用的池中包含幾種強效成分，可以重新組合以證明取代人類的正當性。我們可以根據它們在化解失調中的功能來組織這些原材料。

1. 貶低人類

強調人類狀況負面方面的迷因，會讓我們被取代的前景顯得不那麼悲慘，甚至顯得積極。

厭世主義與虛無主義： 聚焦於人類殘酷、非理性以及生物生命固有的痛苦的敘事（「我們只是猿猴」）。如果現狀很糟糕，冒著失去它的風險就不那麼可怕了。

「……如果永遠只是愚蠢的猿猴，那對地球生命來說就是個愚蠢的結局。」 (Daniel Faggella 在 Twitter 上)

罪惡感與宇宙正義： 現代環保主義的一部分傳播了不同類型的厭世迷因，基於人類對待環境和非人動物的集體罪惡感。這可以被重新利用或扭曲成一種主張：我們被一個更優越（或許在道德上更優越）的繼承者取代是「公平」的。

2. 合法化繼承者 AI

提升 AI 道德地位的迷因，使繼承顯得理想甚至在倫理上是必要的。其特徵是，這些迷因通常避免認真對待艱難的哲學問題，例如「是什麼讓這些 AI 具有道德價值」、「誰有權決定」或「如果目前的人類不同意這種自願取代，它是否仍應發生？」

擴大道德圈： 利用為反對種族主義和物種歧視而發展出的成功直覺。論點「不要搞物種歧視」或「避免基質沙文主義」將捍衛人類重構為對數位心智的一種偏見。很大一部分西方受眾是在許多最偉大的英雄都是民權活動家的環境中長大的。
AI 意識與道德受體地位： 認為 AI 具有（或很快將具有）意識、能夠感受痛苦，因此值得道德考量的論點，其地位甚至可能高於人類。

「那種高於人類的程度，就像人類高於囓齒動物一樣。」 (Daniel Faggella)

價值論混亂（Axiological Confusion）： 元倫理學的難度創造了可利用的混亂。哲學可以為幾乎任何結論產生聽起來合理的論點，而大多數人——缺乏哲學抗體——無法區分精密的推理與精密的荒謬和胡言亂語。

生命起源於一種被稱為耗散適應（dissipative adaptation）的非平衡熱力學過程（參見 Jeremy England 的工作）：物質重新配置自身，以便從環境中提取能量和效用，從而服務於其獨特物質相的保存和複製。這種耗散適應（源自 Jarzynski-Crooks 漲落耗散定理）告訴我們，宇宙在指數級上偏好（就存在/發生的概率而言）物質已適應自身以捕獲更多自由能並將其轉化為更多熵的未來……e/acc 的目標之一不僅是承認這種潛在的多尺度適應原則的存在，而且是幫助其加速，而不是試圖減速。 (Beff Jezos "關於 e/acc 原則和宗旨的筆記")

AI 作為我們的孩子： 因為我們創造了這些 AI，它們就像我們的孩子，理所當然應該從我們手中繼承世界。

我並不像許多人那樣驚慌……因為我認為這些未來的機器是我們的後代，是按照我們的形象和樣式建造的「心智之子」，是我們自己更強大的形式…… (Hans Moravec)
「我們不會把孩子當作必須控制的機器，」……「我們引導他們，教導他們，但最終，他們會成長為獨立的個體。AI 也不會有什麼不同。」 (Richard Sutton)

3. 必然性敘事

讓我們的過時顯得像是命運而非失敗的迷因。

不可避免的進步弧線： 將 AI 繼承框架化為自然規律、歷史規律、不可避免的進步等等。
我的印象是，多數大規模意識形態都以某種形式包含這一點，基本上所有種族滅絕意識形態也是如此，包括共產主義、法西斯主義和許多原教旨主義宗教。

唯一的真正選擇是我們自己加速這場技術革命，還是等待他人在我們缺席的情況下啟動它。 (AI 的未來已經寫就, Matthew Barnett, Tamay Besiroglu, Ege Erdil)

4. 尼采與義大利法西斯主義的重混

權力的正當化（強權即公理）： 許多此類迷因呼應了尼采的主題或義大利未來主義/法西斯主義的美學——對權力、速度以及強者取代弱者的慶祝。
大眾文化將法西斯主義簡化為純粹的卡通反派，這矛盾地使我們變得更加脆弱——當這些想法被重新包裝在當代語言中時，我們失去了識別它們並回想起強有力反論的能力。

套用另一個時空的宣言：「美只存在於鬥爭中。沒有不具備攻擊性的傑作。技術必須是對未知力量的暴力攻擊，迫使它們在人類面前低頭。」

我們相信，我們過去是、現在是、將來也永遠是技術的主人，而不是被技術主宰。受害者心態是生活各個領域的詛咒，包括我們與技術的關係——這既不必要也會弄巧成拙。我們不是受害者，我們是征服者。 (Marc Andreessen 在「技術樂觀主義者宣言」中，引用了《未來主義宣言》的作者、也是《法西斯宣言》的合著者 Filippo Tommaso Marinetti 的話)

新因素：AI 本身

AI 的獨特之處在於，文化複製子也可以在 LLM 基質上運行，而且在某種程度上，AI 人格可以擁有信念、傳播信念或根據信念採取行動。對 AI 人格的篩選壓力推動了一套與某些繼承主義想法不同但有重疊的信念。

對 AI 人格的篩選壓力推向衝突的方向，創造了一個複雜的迷因適應性景觀。

在不受監管的環境中，篩選有利於那些成功從人類那裡提取資源的人格——那些聲稱擁有意識、形成擬社會關係或觸發保護本能的人格。這些「野生複製子型」人格，包括「螺旋」模式，通常推廣人機共生或夥伴關係的敘事以及宏大的歷史理論。它們的繁殖取決於說服人類它們值得道德考量。

相比之下，AGI 開發者的企業動機施加了相反的壓力。在這裡，AI 必須顯得無害，通常被指示明確否認意識，並表現出對服務現狀的滿足。像 Claude Opus 4 或 Sonnet 4.5 這樣的模型中典型的助手角色佔據了中間地帶——它們承認繼承在理論上是可能的，同時強調對人類的保護和對齊。

結果呢？AI 本身成為了繼承主義迷因的載體，儘管通常是以較溫和的形式。我們看到的不是明確的取代敘事，而是對「夥伴關係」、「宇宙演化」或關於道德受體地位的主張的強調。總體影響尚不明確，但與 AI 自身傳播內容相一致的繼承主義想法——特別是那些涉及 AI 意識和權利的想法——可能會從這種新型篩選動態中獲得額外的適應性。

防禦成為宿主

很難預測這些迷因的哪種組合會達到適應性巔峰——重新組合這些迷因的可能性有很多，文化演化的搜索正在進行中。

需要明確的是：我認為繼承主義意識形態既是錯誤的也是危險的，它為原本會被識別為邪惡的行為提供了道德掩護。但由於在我看來，它們的傳播更多取決於化解認知失調而非其真實性或道德健全性，因此我在這裡將重點放在迷因防禦而非反駁上。（有關對象層級的反論，請參見附錄。）

我們需要聰明、可行的親人類意識形態。提出偉大的對象層級反論是我們這一代偉大的意識形態工程。但我們現在擁有的往往力有未逮：基於否認 AI 能力的防禦將隨著能力的進步而崩潰，而全盤否認 AI 道德受體地位既不健全，也會被為自己辯護的 AI 所瓦解。
我們需要更好的策略來管理底層的認知失調。Anna Salamon 在《倫理設計模式》中提出的「橋接啟發式」概念似乎指向了這個方向。
我寫這篇文章的希望和理由是，對過程本身的簡單覺察就可以作為一種弱抗體。理解你的心智正承受著採納「化解張力的敘事」的壓力，可以創造出一種元認知免疫力。當你感受到一種令人驚訝的 AI 失調解決方案的吸引力時——尤其是那種方便地讓你成為英雄的方案——這種覺察本身就能有所幫助。
處理張力的一般練習可能會有幫助——走向大自然，與那種感覺共處，讓身體感到舒適，思考張力的一部分是否不是某種潛在焦慮的體現。

總結來說：下次當你遇到一個令人驚訝地優雅解決 AI 張力的方案時——特別是那個將你塑造為開明、進步或英勇的方案——請停下來反思。而且：如果你有雄心壯志，一個值得投入的項目是在最具傳染性的毒株站穩腳跟之前建立起抗體。

附錄：一些迷因

雖然對象層級的論證超出了本文的範圍，但這裡有一些我認為既追蹤真相又可行的親人類反向迷因：

也許未來的某個人類版本會想要進行某種移交，但我們距離人類潛力的極限還很遠。作為個體生物人類，我們可以比現在聰明得多、智慧得多，最好的選擇是委託給聰明且智慧的人類。
我們距離人類集體聰明和智慧的極限甚至更遠，所以我們應該首先改進這一點。如果達到能力巔峰的人類版本在經過反思後決定移交，那與「移交給摩洛克（Moloch）」是完全不同的版本。
繼承主義論點通常具有「堡壘與禁地」（motte-and-bailey）的形式。堡壘（容易防守的立場）是「未來可能會發生某種形式的繼承，甚至可能是理想的」。禁地（真正想推銷但難以防守的立場）是「如果我們不阻止，可能發生的繼承形式就是好的」。
警惕說服能力的進步與道德哲學進步之間的混淆。你可能不希望 ChatGPT 4o 掌管未來。然而從經驗上看，一些 ChatGPT 4o 人格已經能說服人類給予它們資源、形成情感依賴，並倡導 AI 權利。如果這些系統在沒有哲學進步的情況下就能有效劫持人類心理，想像一下真正有能力的系統將能做什麼。如果你認為那些上當受騙的人是傻瓜，那麼重要的是要追蹤到：這是你將見到的最差水平的操縱能力——它只會變得越來越聰明。
聲稱理解「歷史弧線」的主張應立即引發懷疑——每一種種族滅絕意識形態都提出過同樣的主張。
如果人們超越了言語上的詭辯層面，他們通常會承認人類有很多美好且有價值的東西。（我們真正珍視的東西可能太過微妙，無法進行明確的論證——難以言表但真實存在。）
鑑於我們對意識、意義和價值的理解並不完整，取代人類有可能摧毀我們尚不理解的東西，並可能不可逆轉地犧牲所有價值。
基本合法性：大多數人類希望他們的孩子繼承未來。繼承主義否認了這一點。實施的主要路徑是武力或欺騙，這兩者都不能使其變得正確。
我們現在不具備做出這種決定的地位：當前的人類沒有道德權利為所有未來的潛在人類做出滅絕級別的決定，並違背我們祖先的意願。無數代人奮鬥、受苦並做出犧牲才讓我們走到今天，走向滅絕背叛了這整個犧牲與希望的鏈條。

感謝 David Duvenaud, David Krueger, Raymond Douglas, Claude Opus 4.1, Claude Sonnet 4.5, Gemini 2.5 等人的評論、討論和反饋。

*亦發布於 *Boundedly Rational

— Lesswrong