邁向集體繁榮的漸進之路

Lesswrong·3 個月前

我正試圖闡明一條通往集體繁榮的道路，旨在引導人工智慧轉型期避開單方面統治與競爭性侵蝕的雙重風險。我的假設前提是人工智慧將以漸進且多極化的方式發展，並尋求一種能避免零和博弈動態的中間路徑。

由 Nora Ammann 與 Claude Opus 4.5 合著

佈置舞台

關於人工智慧（AI）如何能帶來美好結局的詳細故事並不多。^([1]) 因此，我準備告訴你一個。

這是一次嘗試，旨在闡明一條穿過 AI 轉型期、通往集體繁榮的道路。

這類終局草圖之所以有用，是因為它們必須受到約束。它們需要與你對世界運作方式的最佳推測保持一致，並誠懇地應對對風險和失敗模式的正當論述。

因此，我首先列出我認為我們面臨的兩種失敗模式——透過單方面統治而失敗，以及透過競爭性侵蝕而失敗——然後簡要討論我對我們所處世界的假設：漸進式起飛（gradual take-off）和多極化（至少在未來幾年是如此，如果我們處理得當，時間會更長）。

一旦排除了這些障礙，我們就準備好開始勾勒人類如何引導自己度過 AI 轉型期——穿越惡魔與險境——邁向持久的集體繁榮。

這顯然不是、也不可能是一個完整的計劃。事實上，這是一個初稿，通常在發布前我會花更多時間完善。但我希望它能激發他人的生產性思考，且鑑於目前的發展軌跡，時間至關重要。

失敗模式

單方面統治

一個行動者，或一個緊密耦合的聯盟，取得足夠領先，以至於可以將其意志強加於所有人。這可能是一個失準的 AI 系統，它有能力且有動機在策略上勝過人類和整體人類；或者是一個人類群體，他們可能奪取對未來的控制權，透過 AI 能力投射其權力（儘管最終你會遇到誰才是真正掌權者的問題）。

關於強大 AI 是否以及為何會變得失準（例如 1, 2, 3），以及這是否以及如何導致人類對 AI 「失去控制」（例如 1, 2, 3），已經有很多論述。還有一些關於 AI 是否以及如何導致權力日益集中的文章（例如 1, 2, 3）。我將在很大程度上假設讀者熟悉這些論點，在此不再深入探討。

這一類別的共同點是單方面強加。某人獲得了根據其目標塑造未來的權力，而不管其他所有人想要什麼。集體導航的能力被一個狹隘的行動者奪走了。

競爭性侵蝕

沒有出現單一的統治者，但競爭壓力磨滅了所有不具備局部適應性的事物。在這種情況下，多極化導致了不受約束的競爭，莫洛克（Moloch）動力學變成了馬爾薩斯（Malthusian）動力學——逐底競爭、偷工減料、為了競爭優勢而犧牲價值觀（例如 1, 2）。例如，漸進式失能描述了一種情景：人類並非透過單一決定，而是因為每一步在局部都是理性的，且沒有足夠份量的聯盟能協調阻止，從而逐步將更多控制權交給 AI 系統。

這種擔憂的核心可能是一個問題：良善是否本質上就不具競爭力？如果那些維護人類價值、投資於安全、美與福祉，並保持有意義的人類主體性的聯盟，系統性地被那些不這麼做的聯盟擊敗，該怎麼辦？如果是這樣，即使沒有任何單一的惡意行動者，我們也可能漂向一個人類繁榮被優化掉的未來。

在這種情況下，集體導航的能力並未被奪走，而是消散了。

這兩類失敗模式看起來幾乎是截然相反的。在第一種情況下，人類轉向繁榮的集體能力被一個狹隘的行動者奪取。在侵蝕情況下，這種能力被無人能控制的競爭動力所耗散。

有人可能會認為，鑑於此，在任何時間點判斷你更有可能以哪種方式失敗相對容易。然而在實踐中，兩者之間的平衡顯得異常微妙。就我而言，我對這兩種失敗模式都深感擔憂，而非主要擔心其中之一。

換句話說：航向 AI 時代似乎是一條相當狹窄的道路。

也許這些失敗模式並非那麼對立。它們都預設了一方的獲勝必然導致另一方損失的動態：要麼有一些輸家（被贏家統治），要麼沒有贏家（馬爾薩斯災難）。如果兩者之間存在一條中間道路，可以完全避免零和、贏輸的動態呢？

假設

我預計，至少在未來幾年內，前沿 AI 能力將持續提升，但這是透過穩定的規模擴張、架構調整和訓練技巧，而非單一、乾淨的不連續性實現的。能力跳躍在特定基準測試上可能很劇烈，但整體軌跡呈現出「總體快速但連續、局部參差不齊」的特徵。AI 的採用和經濟影響也具有同樣「漸進且參差」的特徵。

在 AI 進步的路線上存在重要的轉折點，在這些點上，進步的速率會發生變化。我們已經在 2024 年某個時候看到了一個轉折點，這是新的後訓練方法（「推理模型」）的結果。加速軟體和機器學習研發的編碼代理（Coding agents）正在引發另一個轉折點，這可能會在今年（2026 年）年底變得可衡量。未來還有更多轉折點，例如計算硬體的自主研發、導致持續學習的新架構見解，以及最終的自主製造車隊。

我還預計，至少在未來幾年內，沒有任何單一行動者（人類、組織或 AI）能對所有其他方擁有單方面的統治地位。目前，至少有三家前沿 AI 公司基本上在輪流獲得最佳模型能力的獎項，還有幾家公司緊隨其後。而且，發布開放權重的公司已證明即使在轉折點之後也能持續追趕，因此前沿能力永遠不會長期保持完全私有。

轉折點的影響力可能會越來越大。它們有可能日益將動態推向「贏家通吃更多」。但目前，這些發展是在多個重要參與者、重疊的基礎設施和糾纏的動機背景下發生的。

現實中，不能完全排除「快速起飛」的可能性。如果它很快發生，我這裡講的故事可能沒什麼幫助；我們需要別的東西。但這不是我對短期的核心預期，所以我專注於那些假設「起飛」與人類對軌跡的刻意影響相重疊的路徑。

促成穩定的雙贏聯盟

簡而言之

我們如何在不同的失敗模式之間走好這條窄路？

我們需要促成穩定的、雙贏的人機聯盟。

這意味著聯盟能夠高效地達成帕累托改進（Pareto-improving）協議。為了實現這一點，此類聯盟需要由具備以下條件的行動者組成：(a) 對世界和因果關係有良好的模型；(b) 了解自己的利益；(c) 能夠與其他擁有自己（可能不同）利益的行動者進行高效討價還價；(d) 能夠使用保護隱私、防範策略干擾的保證技術，從而對協議將被履行產生合理的信任。換句話說，就是解鎖了大規模科斯式討價還價（Coasean bargaining at scale）的聯盟。

值得注意的是，科斯定理本身並未提及分配公平；通常，「富人變得更富」是貿易的結果，各方的收益與其初始賦予成正比。然而，如果所有各方都穩健地處於這種指數增長軌跡上，且如果技術成熟解鎖了總價值創造的多個數量級增長，這可能是可以接受的。考慮一下：如果愛麗絲（Alice）起始有 2 個資源，鮑伯（Bob）起始有 1 個資源，且所有資源每年翻倍，那麼你可以將其視為「愛麗絲總是得到鮑伯的兩倍」，或者視為「愛麗絲和鮑伯隨著時間推移得到相同的東西，鮑伯只是晚了一年」。

這樣的雙贏聯盟可以協調投資於公共財，使其日益穩健；以及投資於俱樂部財（club goods），使其日益具有吸引力——從韌性到繁榮。這些投資會產生複利。隨著時間推移，這會創造日益穩定的戰略激勵：

對韌性的投資解鎖了一個日益有利於防禦的世界，這意味著攻擊聯盟越來越不可能成為一個引人注目的選擇，即使對流氓行動者也是如此。
對繁榮的投資意味著加入並加強聯盟變得越來越有吸引力。
對隱私保護信任和保證基礎設施的投資，意味著破壞、利用或搭聯盟便車變得越來越不可行。

這些聯盟將同時包含人類和 AI。看來，如果當前的 AI 範式仍是 AI 能力的主要來源，我們現有的平庸對齊（prosaic alignment）方法能夠產生本質上對齊的強大 AI 系統，從而成為值得（且必要）的盟友。用於大規模監督和代理編排的工具，對於將大型聯盟的能力匯聚成足夠有效的提升以抵禦流氓代理，以及促成人類與 AI 之間的穩健協調至關重要。

這種提升需要被引導至差異化地加速技術和制度解決方案，以改善我們的集體感知和韌性——並且要足夠快，以領先於災難性風險。如果我們能充分賦能人類去理解世界和自身利益，如果合作的收益足夠大，且如果有利於防禦的動態使得單方面奪權代價高昂，那麼即使是比任何單個人類強大得多的行動者，也可能發現加入並加強聯盟比攻擊它更有吸引力。如果做得好，這樣的聯盟甚至可能抵禦能力極強的流氓行動者，除非他們真的擁有了「決定性的戰略優勢」（在一個具備認識論韌性和網絡安全、且物質與能量守恆的世界中，這將很難獲得）。

那是壓縮版本。現在讓我們一步步拆解。首先：建立穩定的雙贏聯盟究竟需要什麼？

解鎖帕累托：降低交易成本

帕累托改進協議——即至少讓一個人變得更好且不讓任何人變得更糟的交易——通常在原則上存在，但在實踐中並未發生。為什麼？因為摩擦力太高。尋找相關方、弄清事實真相、了解每個人的需求、談判條款、使承諾可信、驗證後續執行——這些步驟中的每一步都有成本。經濟學家稱這些摩擦為「交易成本」。當成本超過收益時，交易就不會發生，即使它本可以惠及所有人。

無摩擦的轉型並非我們生活的世界，但這一洞察具有啟發性：如果你能減少摩擦，就能擴大可實現的雙贏協議範圍。哪些技術或制度創新能讓我們更接近這個世界？AI 本身如何改變競爭環境？Google DeepMind 的 Seb Krier 在《大規模科斯式討價還價》中精確描述了這一願景。

為了給這個世界鋪平道路，我們首先需要識別摩擦在哪裡阻礙了協調。遵循科斯的理論，交易成本通常被歸類為以下幾類：

信息成本。 除非相對於一個世界模型，否則一個人無法表達偏好或評估協議條款。相關變量是什麼？因果關係是什麼？在不同的安排下實際上會發生什麼？你對現狀的信念是什麼？這些是獲取信息以制定需求和評估提議的成本。糟糕的模型會導致協議無法服務於行動者的實際利益，或者根本無法達成協議，因為各方無法就事實真相建立共識。
審議成本（Deliberation costs）。 為了達成保護並促進行動者利益的協議，他們首先需要對這些利益有深刻的理解。你真正看重什麼？你願意做出哪些權衡？你願意接受什麼條款？審議（相對於討價還價）是一個單一委託人問題（在「委託人-代理人」意義上）：根據委託人對世界的理解來釐清其自身的偏好。在 AI 的背景下，這也包括 AI 代表（「代理人」）對其委託人的偏好獲得良好的理解。這裡的委託人可以字面上是單個人類，也可以是需要達成一致立場的選民群體——如一個團隊、一家公司的股東或一個國家的公民。審議的產出是在可能選項的空間中，對你的偏好有一張足夠清晰的地圖，使你能有意義地進入談判。
討價還價成本。 一旦各方知道自己想要什麼，他們需要找到雙方都能接受的條款。這是一個多委託人問題：與利益不同的其他人進行談判。我們能否識別出一組能讓每個人都變得更好的安排？我們能否就如何分配貿易收益達成一致？我們能否精確地指定條款以便執行？討價還價在實踐中即使在信息完全的兩方之間也很困難；在多方參與、信息不完全且存在策略性誤導動機的情況下，它會變得困難得多。
監督與執行成本。 協議只有在被實際遵守時才有價值。這意味著要驗證執行是否符合約定條款、檢測違規行為並施加適當的後果——從而使行動者進入貿易變得理性，否則只有在沒有交易對手背叛風險的情況下，這些貿易才是理性的。如果沒有可靠的監督和執行，許多交易永遠無法達成：各方不會同意他們認為不會被遵守的條款。

我們需要建設什麼

AI 有望戲劇性地降低交易成本。如果我們能確保委託人與 AI 之間的強對齊，讓 AI 作為值得信賴的代表或「個人倡導者」，情況尤其如此。代理型 AI 倡導者可以比任何人類談判者投入多得多的認知努力來理解其委託人的利益、模擬世界，並並行地識別和談判協議。

但僅靠 AI 倡導者不足以完全實現這一願景。降低交易成本還關鍵性地需要多個層面的基礎設施。

信息基礎設施，使弄清事實真相並適當分享的成本更低。
例如：可擴展的世界建模基礎設施，如共享本體和「活的」知識圖譜；隱私保護計算和聚合分佈式信息的機制，如預測市場、聲譽系統和傳感器網絡。
審議基礎設施，幫助個人和群體理解他們真正想要什麼。
例如：偏好誘導和結構化反思輔助工具；用於集體感知、審議和想像的基礎設施。
討價還價基礎設施，使異質行動者之間更容易達成、指定和執行複雜的多方協議，包括對策略操縱具有韌性的機制。
例如：能夠使用或生成防策略協議或可編程加密技術的 AI；具有可驗證約束和細微的委託人指定權限的 AI 代表。
信任/保證基礎設施，將數字主張錨定在物理現實中，從而降低監督和執行成本。
例如：安全硬件、防篡改傳感器、可驗證計算、可保證的執行器。

貫穿所有這些的是可擴展監督解決方案：這種基礎設施允許人類對 AI 的產出（無論是在科學、工程還是決策方面）獲得合理的信心，即使 AI 系統承擔了更多工作。即使 AI 本質上是對齊的，盲目信任也不穩健。AI 系統仍可能犯錯、誤解任務（包括因為指令可能確實存在歧義）、遭受破壞等。解決這個問題可以解鎖 AI-AI 協調（代理可以互相證明事情）和 AI-人類協調（人類可以在 AI 能力增長的同時保持監督）。沒有它，我們要麼不使用 AI（從而落後），要麼在沒有充分保證的情況下使用它（並引入新風險）。

這些層級共同構成了一個共享的信任協議：一個每一層都賦能其他層的堆棧，整體成為大規模協調的基礎。信任基礎設施支撐信息基礎設施；準確的世界模型支持審議；清晰的偏好促成高效討價還價；可執行的協議完成閉環。最後，合作產生的盈餘為該堆棧的進一步投資提供資金。

賦能後的聯盟能做什麼

隨著交易成本下降，以前因成本過高而無法達成的協議變得可以實現。可行合作的前沿正在擴張。從根本上說，這是關於未內部化的外部性：沒有協調，風險會被低估，公共財會供應不足。目標不是消除風險（那需要放棄太多價值），而是實現高效分配——確保那些施加成本的人承擔成本，並集體投資於惠及所有人的財貨。

那麼，具體來說，聯盟利用這種不斷擴張的能力做什麼？

在這裡，我主要考慮兩個關鍵的投資領域：韌性和繁榮。兩者都很重要，且相輔相成。

AI 韌性是指確保文明基礎設施能夠抵禦與 AI 相關的干擾，無論是來自誤用、事故還是系統性效應。AI 戲劇性地放大了已經存在的攻擊面。許多漏洞早於 AI 出現，但強大的 AI 系統使利用它們變得更便宜，防禦變得更難。AI 還引入了新的風險類別：優化我們所要求的而非我們所想要的系統（與其說是邪惡精靈，不如說是成癮動力學），以及依賴 AI 的基礎設施中的連鎖故障（經濟運行在 AI 代理上的比例越高，提示注入攻擊的後果就越嚴重）。

一個能夠協調的聯盟可以集體投資於強化這些系統、防禦技術、監督工具以及使文明基礎設施更穩健的社會技術解決方案。這包括生物安全基礎設施（如 DNA 合成篩選、宏基因組早期檢測、分佈式響應能力）、強化網絡和網絡物理系統（如可驗證的安全代碼、防篡改機器人、經過驗證的控制系統）以及認識論基礎設施（如來源追蹤、可擴展審核、可信傳感器、大規模集體審議工具）等。這些是市場目前供應不足、需要協調才能建立的「公共財」。

但韌性並非唯一目標；它是保護追求其他一切能力的東西。健康、美、理解、探索、連結、創造……——這些是讓生活值得度過、讓未來值得抵達的事物。更根本的是：如果導向人類繁榮的聯盟只能永遠玩防禦，所有盈餘都用於抵禦威脅，沒有任何東西留給那些讓聯盟值得加入的事物，那麼這就是一個良善在競爭性侵蝕中喪失的世界。

這裡有一個更深層的觀點。「透過侵蝕而失敗」的框架假設價值觀是脆弱且反競爭的。但這可能不是真的。協調本身在競爭激烈的世界中可以是一種獲勝策略——如果是這樣，促成並穩定雙贏聯盟的技術^([2])和制度就會被選中。這不僅包括基礎設施，還包括價值觀和規範：小寫 l 的自由主義（liberalism）、多元主義，以及誠實、尊重和正直等美德。

許多我們擔心失去的價值觀並非殘餘物；它們是承重的支柱。

穩定的雙贏聯盟可行嗎？

我描繪的圖景——穩定的雙贏聯盟——真的可行嗎？有兩個子問題：

世界是否足夠有利於防禦？
為什麼強大的 AI 會選擇加入而非背叛？

聯盟是否可行，取決於對韌性的投資是否能釋放出繁榮所需的盈餘，還是說為了生存，每一分資源都必須投入防禦。簡而言之，這取決於世界是否足夠有利於防禦。這最終是一個經驗性問題：容易推測，很難確信。

我目前的最佳猜測是，世界實際上相對有利於防禦：在一個廣闊、豐富的宇宙中，選擇戰鬥而非合作或向外擴張的機會成本可能實在太高了。即便如此，實際結果可能是一樣的。如果世界是有利於進攻的，那麼可能誰也無能為力。鑑於不確定性，我們應該表現得好像有利於防禦的動態是可以實現的，透過建立可能解鎖它的社會技術堆棧來保留成功的可能性。

關於第二個問題：即使承認有利於防禦的動態，為什麼比任何單個人類都強大的 AI 會選擇合作而非統治？

對齊是答案的一部分。如果沒有親社會傾向，很難想像與 AI 系統形成強大、穩定的聯盟。但僅靠對齊是不夠的。幾個額外的動態指向合作即使對極其強大的系統也具有吸引力：

合作的收益巨大。 如果聯盟能大規模促成帕累托改進協議，加入將帶來真正的利益：獲得資源、貿易和任何單一行動者都無法複製的集體能力。
聯盟足夠強大，以至於攻擊代價高昂。 如果雙贏聯盟投資了韌性，那麼攻擊它們，即使你確信最終會成功，也是有成本的：資源消耗、結果的不確定性、失敗的可能性。聯盟的防禦越強，單方面侵略的吸引力就越小。
富足使得武力征服的機會成本很高。 鑑於可觸及宇宙的巨大規模，以及它所包含的驚人物質和能量，爭奪地球資源的機會成本可能遠高於僅僅……去別處的成本。如果你可以花精力去探索和開發無爭議的資源，為什麼要浪費在衝突上？這就是「帕累托烏托邦（Paretotopian）」的直覺：一個合作佔主導地位的世界，因為蛋糕如此之大且在不斷增長，以至於為切片而戰簡直是低效的。
自我改進的 AI 面臨自己的對齊問題。 一個試圖透過創造更強大的繼任者來改進自己的強大 AI，面臨著與我們所面臨的相同問題的版本：確保可能強大得多的繼任者實際上追求相同的目標。鑑於難度和利害關係，系統可能更傾向於透過工具和協調來改進，而非修改源代碼：這些途徑能更可靠地保留其價值觀。

Beren Millidge 討論過相關考量。某些 AI 可能出於歷史或情感原因而重視人類；或者它們可能發現，對較弱的行動者展現關懷，是向其他 AI 發出合作意願的有用信號。在宇宙尺度上，對於一個嚴肅的後生物文明來說，保留人類的成本極其低廉。而尊重現有的財產權和社會制度，可能只是 AI 在複雜的多代理經濟中導航時一個方便的謝林點（Schelling point）。

此類聯盟的關鍵失敗條件是出現一個擁有單方面決定性戰略優勢的行動者。除此之外，建立一個足夠有利於防禦的社會技術堆棧，使合作——或至少是不侵略——成為一種穩定平衡，是有可能的。

結語

這是一次嘗試，旨在講述一個認真對待失敗模式的連貫成功故事。我不知道它是否正確，但它識別出了某些具體的建設目標：能夠理解世界、達成帕累托改進協議並保衛自己的聯盟。^([3]) 這不是一個關於單一決定性舉動就能鎖定好結果的故事。它是迭代的：一系列產生複利的投資，每一項都為下一項賦能。

這個故事還表明，早期對認識論和協調基礎設施的投資是關鍵，因為它們解鎖了帕累托改進協議，進而解鎖了對韌性等公共財的投資。

但建立信任基礎設施和韌性技術需要時間，而在 AI 的進步導致災難性傷害（無論是由於事故、誤用還是其他原因）之前，我們可能沒有太多時間。這就是為什麼有效利用 AI 的提升是關鍵。當然，不能保證我們的韌性和協調技術能保持足夠領先，但透過可擴展監督方法利用 AI 似乎是關鍵。接下來的幾年似乎尤為關鍵。我們正在進行一場競賽，對手不是單一的敵人，而是時間。

如果我們能抵達那裡，獎賞就是集體繁榮。一個人類與 AI 系統結盟、保留塑造自身未來能力的世界。一個我們能足夠清晰地理解處境、足夠有效地協調並足夠好地保衛自己，以持續轉向更好事物的世界。

致謝

這篇文章是在 Claude Opus 4.5 的實質幫助下完成的，他在整個過程中擔任了思考夥伴、編輯和共同起草人。特別感謝 davidad 的深入討論和對草案的詳細反饋，以及 Jacob Lagerros 和 Seb Krier 對早期版本的評論。我還要向那些討論或文章塑造了我在此處思考的人致敬：Alex Obadia, Ashish Uppala, Beren Millidge, Eddie Kembery, Eric Drexler, Jan Kulveit, 和 Nicola Greco。

^(^) 儘管深入了解我們面臨的高級 AI 風險非常有價值，但擁有具啟發性且連貫的成功故事也同樣重要。這樣的故事提供了可以反向推導的狀態，即使是正向推導，它們也提供了一些參考框架，用以評估某個干預措施是否看似在將我們引向正確的方向，即使這些並非你唯一想持有的框架。至少，如果我們無法闡述任何連貫的希望故事，那應該引起警覺。
^(^) 例如，技術解決方案通常可以透過「把蛋糕做大」來「解決」明顯的協調失敗——即透過技術創新向外推展帕累托前沿。
^(^) 關於非常相似的戰略圖景，請參見 Eric Drexler 的《超強能力世界的框架》（Framework for a Hypercapable World）。

— Lesswrong

其他收藏 · 0