論為了安全而限制人工智慧發展

Lesswrong·16 天前

原文

本文探討了在人工智慧發展中限制能力的必要性與挑戰，主張當安全風險涉及生存威脅時，我們必須具備減緩或引導進度的能力。儘管承認國際協調的困難與潛在的權衡，我認為擁有動用煞車的選項對於人類生存至關重要。

(播客版本由作者朗讀，請點擊這裡，或在您的播客應用程式中搜尋「Joe Carlsmith Audio」。*

這是「我們如何解決對齊問題？」系列文章中的第十篇。我希望每一篇單獨的文章都能被較好地獨立閱讀，但若想了解目前已發布文章的摘要以及關於整個系列的更多資訊，請參閱這篇引言。

我在 Anthropic 工作，但在此僅代表個人觀點，不代表我的雇主。)

1. 前言

在本系列的第三篇文章中，我區分了安全開發先進 AI 的三個關鍵「安全因素」，即：

安全進展 (Safety progress)：我們安全開發新水平 AI 能力的能力。
風險評估 (Risk evaluation)：我們追蹤和預測特定 AI 能力開發所涉及風險水平的能力。
能力限制 (Capability restraint)：在必要時引導和限制 AI 能力開發以維持安全的能力。

本系列的大部分焦點都集中在安全進展上，其次是風險評估。在本文中，我想更詳細地探討能力限制。

能力限制重要性的基本理由顯而易見。安全進展需要時間。如果在 AI 開發的每個階段，你都沒有足夠的時間來確保下一階段構建的 AI 不會摧毀人類，那麼你就會失敗，人類將被毀滅。自動化對齊研究在這方面有很大幫助，這也是我認為它如此重要的核心原因（人類對齊研究人員太稀缺且速度太慢）。但即使 AI 承擔了大部分或全部對齊工作，它們擁有多少時間仍然至關重要。

事實上，我的感覺是，有時關於能力限制的爭論未能足夠直接地應對這一基本邏輯。當然，能力限制的反對者可以否認存在任何現實場景，即如果我們繼續推進 AI 開發，人類物種將被殺死或失去權力。但只要他們承認某些此類場景是現實的，在我看來，他們的基本立場就相當於：「在為了人類物種生存而需要顯著限制 AI 開發的場景下，我們的計劃就是等死。」我們應該努力做得比這更好。^([1])

事實上，正如我將在下文討論的，我認為支持理想化形式的能力限制——特別是為我們自己保留在獲得更強證據證明其對安全有必要時採取能力限制的選項（即「安裝剎車」）——的理由是非常充分的。也就是說，我認為一個更明智、更協調的文明在構建先進 AI 時，可能會採用相當多的能力限制，特別是當我們開始接近具有變革性力量的系統時——儘管延遲安全超智能給當代人帶來的利益以及對我們文明更廣泛生存安全的潛在成本。

在我看來，困難的問題在於實踐中各種形式能力限制的可行性和合意性，特別是在國際背景下（我對國內監管相對樂觀，儘管在更絕對的意義上仍相當悲觀）。在這裡，我不認為我們應該排除為了確保 AI 安全而進行非同尋常程度的國內和國際努力的可能性。隨著 AI 開始改變世界，這方面的政治意志可能會發生戲劇性的變化，而當存在大量政治意志時，相關規模的努力是有許多先例的。此外，尖端 AI 的研究、訓練和推理目前高度依賴於來自特定供應鏈的大量算力，這為能力限制的努力提供了重要的槓桿來源。

話雖如此：即使在有嚴肅政治意志的背景下，能力限制的努力仍面臨重大障礙。例如：

針對演算法進步的限制比針對算力獲取的限制要困難得多，因為演算法研究更難監測、驗證或阻止。這意味著隨著演算法進步的持續，任何逃脫限制的算力，只要能獲取尖端演算法，就會成為日益強大的 AI 能力來源。根據各種量化參數，這可能會顯著限制特定能力限制努力的持續時間和穩定性，特別是在互不信任的國家之間的國際協議背景下，這些國家會擔心對方在相關治理機制無法捕捉到的任何方面競相前進。
此外：如果你不滿足於我所說的「紅燈」（即簡單地停止任何進一步進展），而是想在相關減速期間納入持續對齊研究的選項（「安全進展」），並在實現適當安全後批准進一步的能力進展步驟（「綠燈」），那麼特定國際能力限制機制的設計就會變得更具挑戰性。例如，我認為要在不與參與國分享演算法和其他敏感知識產權的情況下，建立多邊國際機構來進行安全評估和批准持續的 AI 開發形式，將是困難的（儘管或許並非不可能）。如果預設的安全局勢足夠糟糕，這可能並不重要，但如果不是，我擔心這可能是一個特別難以推銷的方案（同時也是 AI 開發中心化的推動力）。雖然可以簡單地說「讓我們現在先專注於紅燈，一旦局勢更安全再找出可行的安全進展和綠燈方法」，但如果你無法在長期內實現全球完全有效的紅燈，關於安全進展和綠燈的問題可能會迅速變得緊迫。

更重要的是：能力限制的努力在許多重要方面可能最終產生負面影響——無論是在安全方面，還是在安全與其他文明規模 AI 風險之間的權衡方面。在這裡，我最核心關注的是許多版本的國際能力限制往往會導致權力集中和 AI 開發中心化（特別是當它們旨在與安全進展和綠燈兼容時，我認為它們應該如此），以及能力限制的努力可能會不明智地將競爭優勢讓給威權政體。此外還有其他各種突出的擔憂——例如，校準不良或執行不力的能力限制努力可能導致反彈或極端化，而沒有相應的安全收益；以及建立起「技術懸崖 (overhangs)」，最終傷害一個尚未適應積壓 AI 進展的文明。

總體而言，我目前的觀點是，儘管存在這些不確定性和權衡，我們仍應努力讓自己處於能夠在安全需要時引導或限制 AI 開發的位置；即使在這方面取得有限或暫時的成功，也能產生顯著的積極影響；而更徹底的成功至少仍是一個活生生的可能性。然而，我也認為關注安全的能力限制倡導者應該承認其中涉及的真實不確定性和權衡，並保持警惕，隨著我們了解更多（關於對齊風險和更廣泛的局勢），這些權衡可能會使天平向反對現實世界中可用的能力限制選項傾斜——甚至在顯著的殘餘失調風險仍然存在的情況下。雖然我支持在能力限制方面投入顯著努力，但我不同意那些認為 AI 安全社群應該實際上放棄技術安全進展，並幾乎完全轉向推動能力限制的倡導者。^([2])相反，即使你預期對齊會很困難，投入嚴肅努力去實際學習如何使 AI 安全（特別是：使自動化對齊研究人員安全）在我看來仍然是非常值得的。

特別感謝 Katja Grace、David Krueger、Thomas Larsen 和 Toby Ord 的討論。

2. 預備知識

我在此核心關注的是出於對本系列所關注的「失去控制」場景的擔憂而進行的能力限制努力。對此類努力持懷疑態度的一個突出方式是根本不認真對待失去控制的風險。也就是說，顯然，如果你認為擔心失去對超智能 AI 代理的控制（以對人類災難性的方式）是愚蠢的，那麼你也會認為為了避免這種結果而進行嚴肅、代價高昂的努力是愚蠢的。但我對這類反對意見不感興趣（儘管：這對於理解不同的能力限制努力將如何被接受極其相關）。

相反，我將假設（根據整個系列的前提）失去控制的場景值得認真對待，因此，我在引言中概述的基本邏輯是適用的——即，「在某些現實場景中，如果我們不顯著限制 AI 開發以提供更多時間進行對齊研究，那麼整個物種將被殺死或失去權力。」我感興趣的能力限制反對意見必須實際應對這一基本邏輯，而不是忽視或否認它。事實上，如果你對能力限制的主要反對意見是「但來自失控超智能的生存風險是愚蠢的/投機的/極不可能的」，那麼我認為最好問問自己，如果你改變了主意，你對能力限制的態度會是什麼（以及：需要什麼才能讓你改變主意）。

當然，出於對除對齊之外的一系列 AI 相關風險和問題的擔憂，也可能支持能力限制。其中一些——例如 AI 驅動的權力集中——我將在下文明確討論。其他的——例如生物武器、大規模失業——我不會重點關注。總的來說，我的猜測是，如果你考慮到 AI 的這些其他風險，能力限制的理由會變得更強，但具體動態將取決於所涉及的風險和能力限制的形式。在某些情況下（例如權力集中的風險），我認為某些種類能力限制的正負影響是非常不明顯的。

無論如何，我的目的並不是要對支持或反對特定形式能力限制的許多因素進行全面分析——更不用說所有可能的形式了。相反，我想專注於我認為最重要的安全相關考量，以及以安全為動機的能力限制努力可能最終在淨效應上產生危害的最突出方式。

3. AI 開發不一定是囚徒困境

在深入細節之前，我想先就能力限制的博弈論提出一個簡單、高層次的概念點。這並非新觀點，但我認為有必要說清楚。^([3])

人們有時認為，在存在 AI 生存風險背景下的 AI 開發就像囚徒困境。具體想法是：由於涉及生存風險，兩個不同的參與者都會更偏好雙方都放慢速度的結果，而不是雙方都衝刺前進。然而，無論對方做什麼，所有參與者都可能有動力繼續競相前進，原因在於 (a) 預期自己的 AI 開發會比競爭對手更安全，以及 (b) 希望在避免災難的情況下贏得競賽。

這種模型強烈暗示，建立一個可信的協議（或具有類似效果的其他機制）以避免危險的競速應該是 AI 治理的一個關鍵目標——從而實際上「改變博弈」。廣義上我同意這一點——至少，如果建立這樣的協議是可行的話（詳見下文）。但我認為這種對動機的初步模型可能使情況看起來比實際更困難。

特別是：在真正的囚徒困境中，無論對方做什麼，你都有動力背叛（反之亦然）。因此，雖然你們都偏好共同合作而非共同背叛，但如果不考慮外部機制或複雜的決策理論，最終結果仍然是共同背叛。

但 AI 開發不一定如此。特別是：如果對方打算合作，你很可能也有動力合作——這不是因為某種外部機制或複雜的決策理論，而僅僅是因為災難的代價太高了。

因此，以兩國競賽的簡單模型為例：假設你認為如果你構建了超智能 (ASI) 而他們沒有，有 50% 的滅絕機率和 50% 的由你賦能的全球秩序；而如果你的競爭對手先構建了 ASI，則有 60% 的滅絕機率和 40% 的由他們賦能的全球秩序。如果你偏好由你賦能的全球秩序而非由他們賦能的，且你偏好更低的總體滅絕機率，那麼如果你假設你的競爭對手會衝刺前進，那麼你自己也衝刺前進就有一個強大的理由——即，你領先意味著既降低了滅絕風險，又獲得了更好的非滅絕結果。（不過：如果你認為自己在安全方面比競爭對手差，那麼你必須權衡額外的滅絕風險與你對由你賦能的全球秩序的偏好，論點會變得更複雜。）

但如果他們不打算衝刺前進呢？在這種情況下，在真正的囚徒困境中，答案是一樣的：無論如何你都應該衝刺前進。這同樣適用於基本「軍備競賽」的傳統邏輯，即無論對手是否選擇製造更多武器，你都有動力繼續製造（參見 Grace (2022) 了解更多）。

但在 AI 背景下，這不一定是正確答案。特別是在上述博弈中，關鍵問題是如果雙方都不衝刺會發生什麼。如果我們假設雙方都放慢速度可以顯著降低最終的滅絕風險，那麼很可能出現這種情況：如果你的對手不打算衝刺，那麼你也不應該——這不是因為任何外部機制或複雜的決策理論，而僅僅是因為如果（如人們所說）「任何人造出來了」，包括你自己，對你來說都更糟。

因此，假設雙方都不衝刺會導致最終滅絕風險低得多——例如 10%——且全球秩序的預期價值介於由你賦能和由他們賦能之間。現在，如果我們假設你的對手沒有衝刺，那麼你衝刺前進相對於雙方都不衝刺的世界，會產生額外 40% 的滅絕風險。很可能通過衝刺獲得的非滅絕全球秩序的預期改善並不值得付出那個代價。

至少，AI 生存風險中涉及的某些博弈論邏輯版本可能導致多個穩定均衡：如果他們慢，你也想慢；如果他們衝刺，你也想衝刺；在這兩種情況下，在保持對方不變的情況下，沒有人想改變自己的行動。這更類似於「獵鹿博弈 (stag hunt)」而非傳統的囚徒困境。雖然獵鹿博弈仍需要共同選擇有益的均衡，但它們通常是更樂觀的場景。

此外，取決於如果你們都衝刺時的收益，甚至可能只有一個理性均衡：即雙方都放慢速度。例如，如果你的衝刺在對方衝刺產生的風險之上創造了額外的滅絕風險（例如，也許你的對齊努力失敗與他們的失敗並非完全相關），而沒有足夠的相應非滅絕結果收益，就可能發生這種情況。

當然，這裡的實際動機取決於更具體的參數，以及相關博弈的更廣泛設置。而且非常重要的一點是：相關的「玩家」可能對不同行動的預期結果持有錯誤信念，他們可能擁有傾向於更具社會破壞性行動的價值觀，和/或他們可能在更廣泛的意義上表現得不理性。事實上，這些因素可能使情況在實踐中與獵鹿博弈或囚徒困境有重要不同（在這種情況下：更糟），因為至少有一個參與者（例如，一個不認為 AI 對齊風險是真實的人）可能擁有特定的價值觀或信念，使他們無論認為別人在做什麼都會衝刺前進（因此：不像獵鹿博弈），且使他們甚至不想加入一個每個人都減速而非每個人都衝刺的機制（因此：不像囚徒困境）。^([4])

我的觀點並不是說這裡的總體博弈論在缺乏強制合作行為機制的情況下實際上有利於減速。相反，我的觀點是我們不應假設這裡的博弈論——特別是某些特定參與者（如美中）之間的博弈論——必然涉及囚徒困境/軍備競賽中那種特別具破壞性的動機。

我強調這一點，部分原因是我們對動機的背景假設可能影響重大。特別是：在獵鹿博弈中，你選擇的均衡的路徑依賴意味著，如果你假設對手會背叛，與保持對共同合作的開放態度相比，結果會有巨大差異，而這裡的預言可能是自我實現的。也就是說，如果我們抱著「顯然我們的對手會背叛，所以顯然我們也會」的態度——那麼，或許確實如此。但只要共同合作仍是一個活生生的可能性，那麼我們越可信地發出願意履行職責的信號，它就越有可能實現。

4. 能力限制的形式

讓我們更詳細地看看能力限制的不同形式。

在關於路徑與中繼站的文章中，我提供了幾個能力限制的典型例子，即：

個別參與者的謹慎；
對特定參與者可用的 AI 開發選項進行限制（例如，通過限制算力、資金、人才等）；
旨在安全的自願協調（例如，通過共同承諾和驗證這些承諾的可信手段）；
執行有利於安全的規範和實踐（例如，由政府執行）；
與 AI 開發/部署決策相關的其他社會動機和態度（例如，抗議、抵制、撤資、公眾對 AI 產品的警惕等）。

我預期所有這些都有其作用，我不會逐一詳細分析。不過，我們通常可以區分單個參與者有能力獨自進行的能力限制——我們可以稱之為「個人能力限制」——與多個參與者由於彼此之間或與外部參與者（如政府監管機構）的某種互動而導致減速的形式——即「集體能力限制」。

4.1 個人能力限制

因此，個人能力限制的一個經典形式是我們所謂的「消耗領先優勢 (burning a lead)」。在這種情況下，一個參與者在 AI 競賽中獲得了足夠的喘息空間，使他們能夠單方面減速並投入更多時間於安全，而不會因此主動落後。另一種形式是我們所謂的「退出競賽」——即即使這意味著你會落後也要減速或停止，例如因為前進的風險太高，因為你決定自己摧毀人類是不可接受的（即使別人無論如何都會這麼做），因為你旨在邊際地減輕競賽壓力，或者因為你旨在制定你希望處於你位置的每個人都會制定的政策，即使你實際上並不期望他們這樣做。在這裡，退出競賽與繼續提供安全研究等公共產品是兼容的。事實上，這可能會讓你將更多資源用於安全——儘管代價是落後於前沿。

個人能力限制的一個關鍵優勢是它不需要其他參與者也同樣減速：一個謹慎的參與者可以直接去做。由於相關原因，能力限制的一些潛在成本——例如導致 AI 開發權力集中的傾向——對它的適用性較弱（權力集中的驅動力最直接來自於確保集體能力限制的需求）。

然而，這些優勢也與個人能力限制容易在應對使 AI 安全問題如此具挑戰性的競賽動態方面顯得不足密切相關。特別是：在消耗領先優勢的背景下，你擁有的時間僅取決於你的領先優勢買到了多少時間——如果每個人都在競相前進（即使是為了獲得一個隨後可以消耗的領先優勢），這可能並不多。而在退出競賽的背景下，任何留在競賽中的參與者將繼續構成你旨在避免的那種風險（儘管為了提供公共產品安全研究而退出在這方面可以有所幫助）。

4.2 集體能力限制

這正是促使人們追求集體能力限制的問題。其可能的變體包括：

競賽中的多個參與者合作，努力共同減速（例如，在安全規範上達成自願協調）。
參與者 A 主動干預參與者 B 以減慢其速度（例如，出口管制、對數據中心的網絡攻擊），然後參與者 A 自己進行個人能力限制。^([5])
某個非競賽參與者的第三方協調者介入，以減慢競賽中多個參與者的速度（例如，國內政府實施以安全為重點的監管，而不必將 AI 開發國有化）。

當然，這些變體可以模糊和結合：例如，多個參與者可以合作授權第三方驗證和執行規範（例如，建立像國際原子能機構這樣的國際組織），他們甚至可以合作使干預更容易（例如，合作構建在合作破裂時易受攻擊的數據中心）。不同的能力限制可以應用於不同的參與者組合：例如，也許一個國家內的各個公司由於以安全為重點的國內監管而減速，但國家間的競賽動態需要其他機制。

事實上，我個人的看法是，我們應該對國內監管作為一個國家內不同公司（以及該國的親密盟友）之間集體能力限制的機制持相對樂觀的態度。當然，國內監管可能在很多方面出錯，許多人（可以理解地）將他們對一般監管的先驗觀點帶入對 AI 監管的問題中。但是，雖然先驗觀點可能很重要，但不受監管的 AI 開發所帶來的風險（即人類滅絕）也使其成為一個極其不尋常的案例，我們應該根據其自身情況來看待它。事實上，在我看來，如果不受監管的 AI 開發會對整個物種構成有意義的風險，特別是在部分（儘管非全部）源於協調困難的競賽動態背景下，那麼使用國內監管來幫助解決問題似乎是非常自然的。畢竟，國家的典型職能之一就是幫助解決那些需要私人參與者預設不會進行的協調的問題。雖然你可以爭辯說我們在其他行業（如航空、製藥、銀行和核能）的現有監管過於熱衷——但如果一家私人公司在安全論證失敗時將承擔殺死每個活人的重大風險，那麼要求他們提出至少與我們目前在核能或商業飛行背景下要求的一樣詳細的安全論證，並且在沒有中立第三方認證其符合明確安全標準的情況下繼續進行是非法的，這在我看來是相當合理的。這遠比 AI 公司目前需要做的多得多。

在我看來，更難的問題出在國際層面。特別是：在國際層面缺乏某種能力限制的情況下，國內層面的限制只能走這麼遠（例如，其他國家會較少受到限制）——而這種國際競爭的威脅使得國內限制的理由變得更複雜。此外，雖然我們已經有一套成熟的機制——即國家政府——在國內層面制定和執行監管，但在國際舞台上並沒有發揮同等作用的實體，也不清楚建立這樣一個實體——一個類似於世界政府、在全世界範圍內擁有類似國家的暴力壟斷權的實體——即使它能顯著降低對齊風險，考慮到這種權力集中可能帶來的其他風險，是否也是合意的（詳見下文）。

話雖如此，我們確實擁有現有的其他機制來在國際層面進行協調和監管——例如條約（如《化學武器公約》）、國際檢查和標準制定機構（IAEA）、某些國家決定強加於他人的規範（如出口管制），以及一些新興動態如「相互保證毀滅」可以發揮穩定作用。所有這些似乎都可以在有效的國際能力限制機制中發揮作用；而且既然超智能風險的利害關係確實是前所未有的，那麼為了應對這些風險而進行真正前所未有的國際協調努力，很可能是值得的。

無論如何：因為集體國際能力限制是最難的情況，它通常會是我下文關注的典型案例。

4.3 對持續 AI 開發的處理

我還想指出能力限制不同形式的另一個變量：即它們對持續 AI 研究和開發的處理方式。

特別是：我們可以認為各種能力限制機制必須同時設計出一種方法來實現以下所有目標：

紅燈 (Red-lighting)：在具有潛在危險水平的 AI 能力仍不安全時，停止其開發（例如，推遲下一次訓練運行或下一次部署）。
安全進展 (Safety progress)：允許旨在使這些形式和水平的 AI 能力變得安全的持續 AI 研究（例如，進行足夠的研究以確信進行下一次訓練運行或部署是安全的）。
綠燈 (Green-lighting)：一旦達到適當的安全水平，允許相關參與者進入下一個 AI 能力水平（例如，批准新的訓練運行或部署）。
良性應用 (Benign applications)：允許危險性較低的 AI 研究和開發形式不受阻礙地進行。

最極端的能力限制形式（即「基本上無限期關閉所有 AI 開發」）僅專注於紅燈——儘管或許會允許一些我們可以極其確信是良性的應用。然而，這樣做可能會未能應對一些最棘手的動態。特別是，正如我將在下文討論的，使能力限制變得困難的部分原因也在於允許那種最典型的限制形式旨在爭取的 AI 對齊研究，以及設計那種在實現適當安全時允許綠燈的評估和批准機制。

當然，人們可以將除了「無限期關閉一切」之外的任何事情的棘手性，視為僅專注於紅燈所有可能具有危險性的事物的理由，而不去計劃持續的安全進展或未來的綠燈，除非「一旦我們穩定了局勢就找出解決辦法」或「當存在廣泛的科學和公眾共識時」。事實上，如果你對當前 AI 範式內的對齊研究持適當悲觀態度，和/或對這種研究導致能力突破感到適當恐懼，那麼你可以爭辯說，我們不應該利用紅燈買到的時間進行任何傳統的對齊研究——相反，我們要麼應該完全放棄先進 AI，要麼應該轉向嘗試開發增強人類勞動力的技術，然後這些技術可以幫助我們前進（儘管在某些時候，即使是這種增強的人類勞動力也可能需要開始對實際的 AI 系統進行對齊研究，屆時與安全進展和綠燈相關的同樣問題會再次出現）。^([6])我在下文的附錄中更深入地討論了其中一些問題，即我們利用能力限制買到的時間來做什麼。

但我個人的看法是，思考可行能力限制機制的努力可能不應僅專注於紅燈。這部分是因為，正如我將在下文討論的，我認為在面對諸如具有不安全開發 AI 潛力的參與者數量龐大、限制聯盟成員退出的可能性（例如，由於政治領導層更迭）以及驗證性限制演算法研究的困難等因素時，可能很難維持例如長達數十年的紅燈。特別是在這種持續時間受限的背景下，我認為允許對實際 AI 系統進行實際對齊研究——包括重要的自動化對齊研究——是能力限制的關鍵目標。^([7])此外，不帶有嚴肅綠燈計劃（以及允許良性應用）的能力限制方法在我看來不太可能被採納。^([8])話雖如此：確實有可能除了純粹的全球紅燈之外的任何事情都太複雜了，至少在初期是這樣，但專注於純粹紅燈的機制仍然是值得的——例如，因為進一步能力進展的危險是如此極端。

更廣泛地說，我認為如果我們將能力限制主要視為一次單一的「暫停」，在此期間我們取得大量對齊進展，之後如果「大壩崩潰」，競賽就會原封不動地恢復，我們可能會被誤導。相反，在我看來，最合理且合意的能力限制機制結構更類似於「負責任擴展政策 (responsible scaling policy)」，其中相關的限制機制在開發的每個新階段繼續適用（我們不假設問題會一勞永逸地得到「解決」），但也為實際滿足綠燈下一階段所需的標準提供了合理的準備——並且也為根據成本和收益對進入下一階段做出持續的、情境敏感的決策提供了準備（例如，如果特定機制的效力不完美且未經批准的項目正在追趕，實施合理的安全標準可能會調整）。當然，技術格局仍可能使相關標準難以滿足。但我認為我們不應忽視這些標準應該是什麼、它們應如何應對限制機制效力的差距而調整、我們將如何在滿足這些標準方面取得進展，以及應如何評估和批准其滿足情況等問題——特別是考慮到，正如我將在下文討論的，這些問題對我們將需要的治理機制具有重要影響。

話雖如此，在思考綠燈和良性應用的各種方法時，我也預期我們會因為過於從一維的「AI 能力」概念來思考 AI 開發而被誤導，這種進展最終會導致典型失去控制場景中涉及的超智能 AI 代理。特別是：促進不引發傳統權力尋求擔憂的「良性應用」（即窄 AI 系統、代理性較低的 AI 系統、目標更短視的 AI 系統等）的設計空間可能相當大，原則上它可以釋放許多危險系統也能帶來的同樣好處。因此，例如，Aguirre (2025) 主張放棄結合了通用性、自主性和高能力的 AI 系統，轉而專注於構建「工具 AI」——但他希望「工具 AI」能完成我們想要的大部分工作。我個人的猜測是，這裡的權衡會比 Aguirre 等策略所希望的更痛苦，我認為能力限制的倡導者應該警惕淡化其中涉及的一些潛在權衡。但我確實認為重要的是要記住，能力限制不僅僅是說「紅燈」或「綠燈」——它也可以是關於主動的引導。^([9])

5. 理想化的能力限制

帶著這些不同形式的能力限制，讓我們轉向關於安全導向的能力限制之可行性和合意性的一些更實質性的問題。在這裡，我將首先探討理想化形式的能力限制中所涉及的一般動態——即限制在所有相關參與者中完全有效，可以通過理性決策啟動和停止，並且除了技術本身減速所嚴格暗示的副作用外，產生的負面副作用最小。顯然，這種程度的理想化與實際現實有著重要的——甚至是危險的——距離。但即使在這種理想化的背景下，能力限制何時是合意的，可能也不像你想像的那麼清晰，我認為使之變得不清晰的考量因素是值得記住的。

特別是：即使在完全理想化的機制中，能力限制也不是沒有代價的。相反，它意味著延遲潛在危險 AI 開發的安全形式所能帶來的任何獨特利益。如果這些利益是顯著的，那麼延遲的成本就很重要。

Bostrom (2026) 分析了這種動態的一個版本——儘管是一個僅專注於當前存在的人類利益的版本。^([10])Bostrom 認為，從這個角度來看，即使是理想化的能力限制機制通常也表明，只有相當小程度的減速對相關人員的質量調整預期壽命有淨正面影響——例如，最多可能是在你擁有能確保安全的最先進系統後減速幾年；但例如，十年或更長時間則不然。這裡的基本論點是，如果我們假設成功創造安全超智能能顯著延長和改善人類生活，並且考慮到每一年的額外延遲都涉及現有人類死亡的一些背景風險，那麼初步看來，重要的是每單位延遲所獲得的超智能死亡風險的降低，是否適當地超過了在相關期間內產生的背景死亡風險。^([11])即使最初的超智能死亡風險非常高（例如 99%），這一結論仍然成立。重要的是，粗略地說，是它下降的速度有多快。^([12])

當然，在思考對整個人類未來的風險時，我們不應僅考慮當代人的利益（事實上，在這種背景下忽視未來的人在我看來是道德上的明顯遺漏）。而且還有進一步的問題，即 Bostrom 對當代人利益的描述是否準確反映了他們的實際或更理想化的價值觀。^([13])然而，一些結構上相似的考量也適用於人類文明層面。也就是說，正如個體人類在我們目前的狀況下有一定的背景死亡率，我們的文明在面臨工程化流行病、核戰爭等威脅時也有一定的生存風險背景率。正如安全超智能可以顯著降低個體死亡的背景率，它也很可能顯著降低其他生存風險的背景率（儘管：它也可能創造新的威脅——事實上，隨著我們接近越來越先進的 AI 系統，來自合成生物學等途徑的風險正在顯著增加）。在這個模型上，只要我們認為文明的核心焦點在於進入一個繁榮的、超智能後的未來（這個假設帶有其自身的規範性包袱），那麼再次重要的是，我們文明每單位延遲所買到的超智能死亡風險的降低，是否超過了它在相關期間內承擔的額外生存風險。

研究這兩種模型中的任何一種——例如 Bostrom 的當代人利益模型，或專注於我們整個文明質量調整壽命的等效模型——都會很快變得複雜。從高層次來看，我個人的看法是，在各種參數下，特別是如果你像我一樣認為我們處理這個問題的方法應該在未來世代的利益上放置大量權重，那麼在這些模型的簡單版本中，似乎很可能值得至少延遲幾年，甚至可能更長。在這裡，我的基本直覺是，個體死亡和生存風險的背景率並不是那麼高，如果你從一個中等偏高的失調災難風險開始，那麼在至少最初的延遲期間內你獲得的災難風險降低，似乎很容易超過在那段時間內死亡或屈服於不同生存災難的風險。因此，例如，如果我們對個體使用每年 0.75% 的平均背景死亡風險（約 80 億人中每年死亡 6000 萬人），^([14])以及每年 0.1% 的背景非 AI 生存災難風險（大致對應於沒有 AI 的一個世紀內 10% 的風險^([15])），那麼即使我們假設安全超智能完全消除了這兩種風險，你只需要每年獲得 0.1-1% 個百分點的失調風險降低，持續延遲就是值得的。這在我看來相當容易實現——也許不是幾十年，但至少是幾年。^([16])

還要注意，如果你也能在減速期間降低個體死亡或生存風險的背景率，例如使用非超智能的 AI 工具，那麼減速的理由就會加強。當然，相反的動態也成立：也就是說，如果世界在減速期間變得更危險，無論是對個體還是對文明整體，那麼減速的成本就會變得更高。例如，隨著 AI 民主化相關能力，生物災難的背景風險可能會顯著上升，而我們的防禦可能無法足夠快地改善以補償（這是如果你打算暫停，就應該更早暫停的一個論點）。話雖如此：在發明安全超智能後該比率降低了多少也很重要——雖然我確實認為超智能最終可以幫助我們的文明達到顯著水平的生存安全，但在創造安全超智能後的幾年內仍然涉及其他形式的重大危險，這對我來說並不奇怪。

我也認為我們應該警惕這些理想化模型可能隱含的各種背景假設，即使假設我們總體上願意接受某種形式的理想化。例如：

驅動這些模型的基本動態往往依賴於一些價值觀和經驗假設，這些假設暗示如果我們知道在對齊方面不會取得進一步進展，那麼總體上構建超智能而非通過其他手段追求它所釋放的利益將是「值得一博」的——即使人類滅絕的不可避免風險非常高（例如 95%）。在這裡，我們再次看到這些模型與心理現實主義的背離——如果你強烈關注安全超智能未來的利益（無論是從更自私/受影響者的角度，還是更公正的角度），你可能願意為了 5% 的上行機會而承擔 95% 的死亡/滅絕機會。但對於大多數人來說，這與他們的預設立場相去甚遠——特別是如果那個上行機會（或其顯著部分）可以通過其他方式獲得。
這些理想化模型的簡單版本並不總是納入隨進展了解更多情況並相應調整航向的可能性。^([17])但這種可能性對於理性參與者在這種理想化條件下進行能力限制的表現極其相關——顯然對於更現實世界形式的能力限制也至關重要。也就是說，特別是在理想化的背景下，理性參與者不需要提前承諾特定的能力限制長度：相反，它可以邊走邊做決定，並隨著對局勢了解的深入而調整。事實上，如果我們對所考慮的背景進行適當的理想化，那麼至少保留暫停進一步開發的選項的理由就變成了過度確定的——理性參與者總是希望至少擁有這個選項。^([18])
與此相關，這些模型的簡單版本傾向於專注於單一的暫停期，隨後恢復競速。然而，正如我上文討論的，我認為最好的能力限制機制涉及持續的評估，以及隨著新能力水平的開發而持續進行進一步限制的可能性（加上潛在的、更細粒度的引導，轉向具有更好成本效益權衡的開發形式）。在這些背景下，問題不在於放任自流的成本和收益，而是在於採取下一步行動的成本和收益，然後從那裡重新定位。
各種風險曲線的形狀對於上述基本設置是否有意義可能有很大影響。例如，假設每年你面臨 0.1% 的背景生物生存風險，但在對齊研究的第一年，你只能將失調風險降低 0.05%。如果你只關注那一年的邊際成本效益，那麼這可能是前進的一個理由。然而：假設在對齊研究的第二年，你能將風險降低整整 1%，而只額外承擔 0.1% 的背景生物風險。這意味著如果你將決策的時間跨度視為兩年而非一年，現在繼續暫停就是值得的，因為兩年內總體對齊風險的降低超過了你在那段時間內承擔的生物風險。

所以：即使我們在玩分析理想化模型的遊戲，我們也需要小心我們使用的是什麼理想化。

總體而言，在不試圖全面研究這裡所有可能的抽象動態的情況下，我目前的最佳猜測是，在一個圍繞失去控制風險進行理想化協調和決策的世界中——一個可以啟動完全有效的減速，然後有效地、理性地解除封鎖，且除了技術本身減速所暗示的副作用外沒有顯著副作用的世界——那麼我們確實會看到在我們提高對如何確保其安全的理解時，對人工超智能的開發進行顯著的（即多年）限制。^([19])而且我預期這一點，特別是如果我們假設這個世界在未來世代的利益上放置了顯著權重——正如我預期一個明智且富有同情心的文明會做的那樣。我對此最大的懷疑來自於這樣一種可能性：即那個會暫停的世界本身將包含顯著增加的非 AI 生存風險背景率，而安全超智能將顯著緩解這些風險——但我的猜測是，至少最初通過採摘低垂果實的對齊研究獲得的勝利仍將佔據主導地位。

話雖如此：即使我認為這些理想化模型往往支持能力限制，我確實認為使這個問題甚至值得分析的基本動態是值得記住的。特別是，能力限制的倡導者有時表現得好像即使 AI 失調的生存風險相當低（例如 1% 或更低），且不關注隨時間變化的安全進展率，這種限制也是值得的。與此相關，他們有時會為解除特定限制機制提出非常高的絕對標準——即某種形式證明或極其徹底的共識，證明持續的 AI 開發將是安全的。但即使在假設顯著理想化的環境中，暫停會產生持續的背景生存風險這一事實意味著，這裡非常高的絕對標準可能會引導我們誤入歧途：暫停或取消暫停的決定需要保持對持續延遲的邊際成本和收益的關注。

6. 實踐中的能力限制

以上是關於理想化世界中能力限制的一些評論——即一個完全有效的減速可以被啟動，然後有效地、理性地解除封鎖，且除了技術本身減速所暗示的副作用外沒有顯著副作用的世界。顯然，我們並非生活在這樣一個世界。而在我看來，這正是關於能力限制最重要問題的所在。

6.1 嚴肅努力的可能性

最突出的反對意見當然是，嚴肅的能力限制努力極其不可能，特別是在國際層面。^([20])事實上，這是我對專注於促成此類限制的策略最大的擔憂之一。但我確實認為人們往往太快地基於這些理由否定專注於能力限制的努力。特別是：我認為人們有時過於固守他們對現有政治和地緣政治氣候的看法，而沒有考慮到隨著先進 AI 開始發力，世界可能發生的許多變化。

其中一些潛在變化與政治意志有關——例如，隨著否認 AI 的變革潛力變得越來越不合理，隨著不同威脅模型的更多直接經驗證據開始積累，以及隨著 AI 相關問題開始更直接地觸及人們的生活。事實上，廣泛的政治意志是嚴肅能力限制的第一個也是最核心的瓶頸。我支持旨在告知全世界人民 AI 局勢的緊迫性和危險性的努力，並在奧弗頓窗口 (Overton window) 發生轉移時加以利用。

不過請注意，由於 AI 勞動力帶來的技術和生產力水平，可用的干預措施集也可能發生重要變化。因此，正如我在關於「AI 助力 AI 安全」的文章中所討論的：

個人謹慎：AI 輔助的風險評估和預測可以通過幫助相關參與者更好地理解如果他們進行特定形式的 AI 開發/部署會發生什麼，來促進個人謹慎；而 AI 建議或許能更廣泛地幫助參與者根據他們自己的標準做出更明智的決定。
協調：AI 或許能顯著幫助促進不同形式的協調——例如，通過充當談判者、識別更可行且互利的交易、設計使相關承諾更具可信度和可驗證性的機制等。^([21])
限制選項與執行：AI 或許能幫助開發新的和/或更好的技術（包括 AI 技術）用於監測和執行——例如，晶片上的監測機制、用於關閉危險項目的攻擊性網絡技術、高度值得信賴且保護隱私的檢查能力等。它們還可以幫助設計和實施更有效的政策，如出口管制和國內監管。而在直接軍事執行的極限情況下，顯然 AI 可以在相關軍隊中發揮作用。
更廣泛的態度和動機：AI 勞動力在塑造決定我們文明如何應對失調風險的更廣泛態度和動機方面也可以發揮作用——例如，通過幫助溝通所涉及的風險。

當然，這些 AI 應用所能產生的差異是有極限的，特別是在面對推動反對能力限制的心理、商業和地緣政治壓力時。事實上，相對於技術對齊研究，能力限制是一個特別具有政治性的問題——它核心上是通過人類和機構的利益和決策來運作的。因此，即使你有大量的自動化 AI 勞動力可用，將其投入到這方面可能也更困難。當然，與其他形式的「AI 助力 AI 安全」一樣，你在這方面使用的任何 AI 勞動力本身都需要是適當安全的。儘管如此，我認為 AI 勞動力很可能在改變現實能力限制的格局方面發揮重要作用。至少，它是一個變量來源。

此外：人類在努力時可以完成宏大而艱巨的事情。 Yudkowsky 和 Soares (2025) 以第二次世界大戰為例。面對極權主義的威脅，同盟國動員了 6000 萬到 8000 萬人員；部署了數十萬架飛機和坦克；並花費了按今日價值計算約 6 兆美元。他們的努力非常不完美。但最終，這些努力取得了成功——在歷史眼中，絕對是值得的。如果超智能冒著殺死每個活人並摧毀整個未來的風險，那麼利害關係並不亞於此。所以至少，與二戰相當的努力水平對人類來說應該是可能的。而這種努力水平似乎足以奏效。

事實上，正如我上文所暗示的，我認為隨著 AI 變得明顯具有變革性，我們很有可能（儘管絕非保證）看到針對 AI 的具有約束力的國內監管，其中一些監管將非常直接地針對失去控制的風險——儘管它是否足以真正有效是另一個問題。對我來說，更大的問題是國際能力限制的哪些形式是可行的。在這裡，Hendrycks 等人 (2025) 表達了一些希望，即各國威脅並實際破壞彼此前沿 AI 項目的現實，將在限制危險形式的 AI 開發方面發揮重要作用。乍看之下，這種機制對我來說似乎危險地不穩定（例如，它取決於各國無法針對這些破壞努力開發有效的防禦措施），但或許它有其作用，而且它具有從現有多極動態中相當有機地產生而非需要更多自上而下的協調或控制努力的顯著優勢。

然而，為了持續、有效的全球能力限制，很可能需要一些更自上而下的努力。我們可以將這種形式的努力視為一個光譜，從「由單一參與者強加」（即一個國家獲得足夠的權力將相關限制強加給世界其他地區）到「完全自願」（即世界上每個國家都自願參與）。^([22])一個關鍵問題特別是美中兩國是否都自願加入，或者涉及其中一方的聯盟是否需要對另一方施加更多強制壓力。^([23])因此，例如，Amodei (2024) 描述了一種專注於民主國家聯盟（推測由美國領導）的「協約 (entente)」策略，該策略結合使用胡蘿蔔和大棒來讓其他國家加入全球 AI 開發治理機制；^([24])而 Scher 等人 (2025) 則提議一項純粹旨在停止進一步進展的國際條約，專注於美中兩國都合作加入推動採納聯盟的場景。

關於美中之間在這種能力限制方面進行自願協調的可行性，意見不一。顯然，背叛的可能性在這種背景下是一個巨大的擔憂，如果美國在當時仍處於領先地位，那麼在此期間讓中國追趕上美國的擔憂也是如此。總的來說，地緣政治對手之間的這種協調相當困難，這對我來說並不奇怪。但特別是如果我們可以減輕對背叛、效力和讓出競爭優勢的擔憂（詳見下文），我認為無論如何都值得嘗試，正如我上文在「獵鹿博弈」動態背景下討論的，將其斥為太不可能可能是一個自我實現的預言。最終，失調的超智能不分國界。我們共同面臨它帶來的風險；我們也應該給彼此一個共同做出明智反應的機會。

話雖如此，自願協調確實不是唯一的選擇。特別是在雙方都使用胡蘿蔔和大棒的情況下，「自願」的含義可能會變得有些模糊——重要的是所涉及的整套動機。^([25])當然，「大棒」的作用越大，或者對被視為具有適當危險性的項目進行更直接的執行形式（如網絡或動能攻擊），衝突的風險就越大——包括潛在的大國衝突，這種衝突本身可能對整個未來構成重大風險，特別是隨著更具破壞性的 AI 驅動武器上線。但至少，我們不應將某種國際能力限制的可能性等同於純粹自願協調的可能性。

6.2 能力限制的效力

對能力限制努力的另一個反對意見，與認為顯著限制總體上太不可能的擔憂密切相關，即擔心相關形式的限制不會具有適當的效力。這種擔憂可以採取多種形式。例如，你可能認為國際協議的最初簽署國會發現秘密違反協議或在變得適當方便時公開背叛協議太容易了。或者你可能認為任何此類協議總會有拒絕加入者，而且對拒絕遵守規範的參與者執行規範將太困難。這種擔憂也可能出現在不那麼自願的國際 AI 治理方法背景下——例如，也許一個國家試圖使用「大棒」來強制另一個國家減速，預計會失敗。

當然，這些擔憂本身可能影響到對最初是否會建立任何類型的能力限制機制的預測。也就是說，如果機制本身預計會失敗，那麼旨在建立它的人將能夠預見到這一點，因此更有可能根本不建立它。

我們還可以擔心搞砸了的能力限制努力——即如果設計得更好本可以有效，但人們沒有充分思考周全的努力。我在此主要關注即使是相當稱職的能力限制努力有哪些選項，但我們對實際稱職程度的預期確實很重要（例如，對於我將討論的那種反彈風險）——問題越棘手，要求的稱職標準就越高。

6.2.1 算力治理

這些關於效力的擔憂之力量取決於使特定能力限制方法有效的可用機制。這方面的許多提案都專注於算力——例如，晶片開發的供應鏈、晶片和集群本身，和/或特定形式 AI 訓練中使用的算力量。算力確實似乎是一個特別有希望的焦點。^([26])例如，尖端 AI 晶片的供應鏈目前嚴重依賴少數幾家公司（如 ASML、TSMC），它們使用極其昂貴且小眾的設備製造產品；晶片本身相對專業化；預設情況下 AI 公司依賴需要大量基礎設施和電力消耗的大型數據中心（儘管分佈式計算也是可能的）；且前沿訓練運行本身的執行成本非常高。

此外，算力治理似乎是一個技術創新（包括由 AI 勞動力驅動的創新）可以在促進監測和監督方面發揮重要作用的領域（例如，參見 Aguirre (2025) 中關於地理定位、白名單連接、計量推理、速度限制和認證訓練的討論）。從其他軍備控制努力中熟悉的手段——例如報告、檢查——也可以發揮作用，更主動地拆除相關基礎設施也是如此。

話雖如此，在更具合作性的算力治理背景下，仍然存在如果合作破裂會發生什麼的問題——例如，治理機制的參與者決定趕走所有檢查員、蔑視相關規範、重建相關基礎設施等等。對此，更具侵略性的執行形式的威脅——即網絡或動能攻擊，及其相應的風險——可能需要在促進信任方面發揮後盾作用。事實上，旨在能力限制的國際協議甚至可以從設計上主動促進這種後盾（例如，有意將批准的數據中心建在如果協議破裂則易受攻擊的地方）。當然，這種執行的可能性在不那麼具合作性的國際算力治理機制中發揮著更核心的作用。

6.2.2 演算法治理

然而，算力只是前沿 AI 開發的一個輸入。我認為，這正是各種能力限制機制的效力開始變得特別棘手的地方。

特別是：目前，前沿 AI 演算法進步非常快。Ho 等人 (2024) 估計，「實現給定性能水平所需的算力量大約每 8 個月減半一次，95% 的置信區間為 5 到 14 個月。」按照這個速度，如果領先的參與者暫停，演算法進步可能讓一個僅擁有 10% 算力的流氓參與者在兩年多一點的時間內達到與領先者同等的水平。即使只有 1% 的算力，這個流氓參與者也能在大約四年半內達到前沿水平。當然：演算法進步的速度在暫停期間可能會下降（如果暫停顯著減少了 AI 能力的總體工作量以及可用於實驗的算力，我預期會如此），更廣泛的 AI 開發動機也可能改變。但也要注意，自動化 AI 研發相對於我們目前所見，也可能加速演算法進步。此外，相對於算力，演算法進步明顯更難監測和限制，因為它不像算力那樣依賴於如此昂貴、小眾且物理上明顯的基礎設施（儘管：目前對實驗和其他演算法研究對算力的沉重依賴在這方面有很大幫助）。

現在這裡的一個問題是，限制演算法進步的困難在多大程度上構成了障礙，甚至對有效的國內監管的可行性也是如此。在這裡，我持相對樂觀的態度。特別是，我認為當國內政府將某事定為非法，並做出真誠且嚴肅的努力來執行相關法律時，這通常在至少提供非常顯著的威懾方面相當有效（注意國內政府已經將其他各種形式的研究定為非法——即功能增益研究、各種形式的化學和生物武器研究等）。是的，參與持續的黑市 AI 開發的動機將比這些案例更強，相關的執行形式可能更困難。但如果挑戰僅僅是讓一個堅定的國內政府在其國境內對算力和演算法進步實施相當有效的能力限制，問題在我看來會明顯更容易。

不幸的是，這並非唯一的挑戰。相反，正如我上文指出的，能力限制的困難版本往往發生在國際層面，且發生在互不信任的對手之間。在這種背景下，專注於演算法進步的能力限制通常需要一個國家驗證和/或強制執行對另一個國家演算法研究的限制。也就是說，也許美國可以確信中國沒有建造新的數據中心，和/或在必要時可以打擊這樣的數據中心；但要確信不存在某種秘密的、國家支持的演算法努力正在進行，使用任何設法逃脫美國監測、限制等手段的算力，則要困難得多。^([27])即使參與特定協議的大國能夠在這方面建立起適當的信任，世界各地各種非法項目鑽空子的可能性仍將持續存在。

此外，如果我們試圖實際想像為了高度確信沒有此類非法項目發生（即使是在某些國內領域，更不用說在國外對手或全世界的背景下）所需的監測和執行方法，所需的監視設備（即使不考慮 AI 驅動的隱私保護）很快就會變得極其可怕——事實上，比有效的算力治理所需的（已經至少有些可怕的）機制要可怕得多。這加劇了我下文討論的關於 AI 驅動的威權主義和權力集中的一些擔憂，增加了實際建立限制演算法進步的有效機制的成本，即使假設此類機制是可用的。

現在，演算法進步對各種能力限制努力構成多大的問題，很大程度上取決於各種量化因素——例如算力導向治理可能取得什麼樣的成功；研究、訓練和推理到底需要多少算力；演算法進步在暫停機制下進行得有多快；你能使各種核准的演算法進步形式變得多安全；以及你打算如何處理與綠燈和持續安全研究相關的各種問題（下文討論）。我目前的猜測是，考慮到巨量算力在當前 AI 開發範式中的關鍵作用，一個致力於能力限制的大型國家聯盟將能夠設計、驗證和執行一套算力導向的國際治理機制，使得參與者可以合理地確信至少在幾年內，甚至可能更長一段時間內，沒有人會構建和部署可能毀滅世界的 AI 能力。而且這套機制在設計時也可以明確考慮到持續演算法進步的可能性，例如使與算力相關的標準隨著時間推移變得更加嚴格。因此，雖然我確實認為驗證和執行演算法開發限制的困難對例如長達數十年的暫停構成了嚴重（甚至是致命）的障礙，但我認為它們很可能允許至少幾年時間的暫停——而無論如何，這些將是對額外對齊研究最有價值的年份。^([28])

然而，演算法進步帶來的困難仍然是我對國際能力限制機制可行性的最大不確定性之一。而且在試圖為持續的安全研究和綠燈建立良好機制的背景下，這些困難可能會被放大。現在讓我們轉向這些問題。

6.2.3 綠燈與安全進展

上文我建議能力限制的方法不應僅專注於我所謂的「紅燈」——即停止 AI 開發的機制。它們還應該考慮允許持續安全進展的機制，在適當安全後允許進一步 AI 開發的「綠燈」機制，以及理想情況下允許在此期間讓人類獲得 AI 更良性應用之利益的機制。但特別是在旨在國際合作的能力限制機制背景下，我認為如果合作的對手不願意就前沿 AI 開發進行相當徹底的信息共享，安全進展特別是綠燈可能會變得相當困難（而這種信息共享隨後也會使持續的演算法進步更有可能洩漏給非法項目）。我認為這很可能被證明是此類合作的一個重大障礙。^([29])

這是我腦海中的基本動態。首先考慮綠燈在國內監管背景下可能運作的方式。這裡的一個經典結構是：在美國這樣的國家內有多家競爭的 AI 公司。它們不需要合併。它們不需要分享知識產權。相反，它們可以像往常一樣在自由市場中繼續競爭，附加條件是在進行下一步潛在危險的 AI 開發之前，它們需要向一個第三方政府監管機構提交某種安全論證——該機構本身並非 AI 競賽的一部分——然後由該機構提供批准。這份安全論證可能包含關於公司方法的敏感知識產權，但第三方機構有相應機制確保相關員工適當保持中立，且不會將這些信息洩漏給競爭對手。

這種模型在很多方面都很有吸引力。首先，它在其他形式的國內監管背景下有明確先例。其次，它將評估特定 AI 開發形式安全性的機構與控制可能被開發出的 AI 的機構分開，從而避免了將對 AI 能力本身的權力集中在監管機構本身（詳見下文）。最後，與此相關，它允許持續進行相當標準的市場競爭，包括開發競爭公司之間不共享的敏感知識產權。顯然，在國內背景下有效實施這樣的方案、避免監管俘虜等，還有很多問題需要解決。但我認為我們應該對取得成效持相對樂觀的態度。

不幸的是，這種模型在涉及地緣政治對手之間的國際競爭背景下似乎難以維持——即使競爭對手強烈希望合作建立它。特別是：似乎很難配備一個讓各國相信不會將其最敏感的知識產權洩漏給同樣參與其中的外國對手的第三方評估機構。因此，假設美國想要進行某種新 AI 開發的下一步，它帶著安全論證去找相關的國際機構。假設評估這份安全論證需要獲取大量關於美國項目的敏感知識產權。如果國際機構的一些工作人員來自中國，或者可能正在秘密為中國工作，那麼美國很自然地會假設他們的演算法和其他秘密會立即洩漏。特別是如果協議的相關參與者也假設對手政府正在利用任何能逃脫監測/執行的算力繼續進行非法 AI 開發計劃，這意味著與國際機構共享的任何演算法進步都會立即餵給那些非法項目，進一步加速其開發並縮短可行暫停的持續時間。

在安全進展方面你也會遇到一些類似的問題——即跨參與者共享安全進展有時會洩漏敏感知識產權。但這個問題可能更容易處理；原則上，如果你有一套良好的第三方機制，將進一步的 AI 開發建立在單個參與者提交適當良好的安全論證的基礎上，那麼安全研究實際上並不需要被完全共享（儘管顯然這有幫助）。

有沒有辦法繞過國際綠燈產生的知識產權相關問題？一種方法是直接自由分享敏感知識產權——要麼結束任何持續的國際 AI 開發競爭，要麼讓競爭集中在演算法進步之外的其他因素上。或許，如果安全問題無論如何都無法解決，這並不是多大的改變。但我預期參與國的國家安全機構將很難接受這一點——特別是對於處於領先地位的國家。也就是說：這個國家需要願意基本上取消他們擁有的任何演算法領先優勢（而不僅僅是：讓每個人原地暫停），從而可能在合作破裂的世界中讓出顯著的競爭優勢。總的來說，與你的對手自由分享你最強大的國家安全資產所涉及的知識產權，似乎是一個難以推銷的方案。

人們也可以想像專注於不包含任何持續綠燈條款的國際能力限制機制——即每個人都停止，句號——但正如我上文討論的，我認為未能為綠燈留出空間是一個重大的政策問題。或許在完全信息共享和放棄綠燈之間還有其他選擇。例如，也許花哨的 AI 輔助驗證和評估可以有所幫助；或許有辦法依賴更徹底中立形式的第三方評估；或許還有其他我目前不知道的創意治理或信息共享安排。

請注意，這類問題在更具合作性的國際限制背景下核心上是一個問題。也就是說：如果一個國家或聯盟正在對其對手強加能力限制，而不試圖讓這些對手參與到綠燈其自身內部 AI 開發的過程中，那麼這個問題就不那麼突出（儘管：你也會相應地增加我下文討論的那種權力集中）。但在我看來，對於那些渴望即使在地緣政治對手之間也保持真正多邊和合作的國際能力限制方法來說，這確實是一個重大問題。

6.3 能力限制可能最終產生淨負面影響的方式

到目前為止，我一直專注於能力限制可能要麼未能發生，要麼未能具備適當效力的潛在方式。我認為這裡存在重大問題，特別是在國際背景下，但我認為嚴肅且有效的努力仍是一個活生生的可能性，特別是為了買到至少幾年的額外時間。

此外，正如我在引言中討論的，對齊相關的考量並非能力限制可能是一個好主意的唯一原因。相反，不受限制的 AI 開發還帶來了許多其他風險——生物災難、 AI 驅動的威權主義、大規模文明動盪等等——能力限制可以給我們更多時間來準備和應對。

我在此不打算全面分析支持和反對不同形式能力限制的所有考量。但我確實想列舉幾種在我看來能力限制的努力可能最終產生淨負面影響的方式，因為我認為能力限制的倡導者認識並記住這些是很重要的。

6.3.1 權力集中

我對能力限制產生淨負面影響最突出的擔憂來自於它可能以危險的方式集中權力——例如，通過推動 AI 開發的中心化。

需要明確的是，這並不適用於所有形式的能力限制。例如，在「退出競賽」所涉及的個人能力限制背景下，這並不是什麼大問題，而在「消耗領先優勢」策略的背景下，只要不專注於利用該領先優勢對其他參與者強制執行限制，這種擔憂也會得到緩解（儘管：為了獲取領先優勢而採取的競速策略無論如何都可能導致權力集中）。

我也並非核心關注大多數形式的國內監管背景下的權力集中。特別是，正如我上文討論的，說「停止」和「前進」的國內監管實體不需要自己開發或控制任何 AI 能力。這類似於聯邦航空管理局可以在不製造任何飛機的情況下認證飛機安全；食品藥物管理局不需要製造食品或藥物；等等。這些實體的存在也不意味著必須只有一家公司製造飛機、食品、藥物等——儘管在推動飛機/食品/藥物開發前進的過程中需要持續的實驗和研究。^([30])當然，你也可以擔心能夠對一項新技術說「停止」和「前進」所涉及的權力本身是令人擔憂的。至少在國內層面，這已經是既定事實——國內政府一直在監管新技術。^([31])

然而：我確實認為一旦能力限制的努力開始涉及將 AI 開發集中到單個項目中（例如曼哈頓計劃、「AI 版 CERN」、共享所有知識產權的大型國際聯盟等），或者依賴單個主導參與者（即美國政府）開發壓倒性的（且可能是 AI 驅動的）軍事霸權並利用其執行相關規範，權力集中的擔憂就會開始變得更加尖銳。正如我上文討論的，我確實認為在這個方向上存在很多慣性。特別是：雖然「紅燈」和「綠燈」持續開發的實體實際上並不需要是控制最終能力的實體，但在國際層面，將兩者分開變得困難得多，因為沒有中立的第三方來完成這項工作。

此外，雖然在國際層面上，各國政府已經在進行出口管制、協調努力監測和限制違禁武器的開發，以及對走在製造核武器道路上的國家進行打擊（包括網絡和動能打擊），但為了適當限制和引導前沿 AI 開發所需的國際機制可能需要明顯更加精細和具有侵入性。至少，它需要強大到足以抵消推動持續進展的極端商業和地緣政治動機，包括在美中這樣的大國對手之間。因此，我預期它預設會將我們帶入國際治理機制的強度和利害關係的新領域，並帶來相應的前所未有的濫用風險。

當然，在思考這些風險時，我們也應記住預設形式的 AI 開發本身也會帶來權力集中的風險，無論是在個別 AI 公司還是政府的背景下。而且人們也可以爭辯說，無論是從安全角度還是從權力集中擔憂的角度來看，能力限制都是淨利好的——例如，因為它給了我們更多時間來準備以一種能更好保留制衡（無論是國內還是國際）的方式將 AI 整合到我們的文明中。事實上，即使是不相信對齊風險的國家，也可能有理由參與各種能力限制機制，以幫助減輕某個特定國家突破軍事霸權的風險（和/或為了防止這種結果而發生大國衝突的風險）——更不用說先進 AI 可能涉及的其他風險（即生物恐怖主義）。而且在擔心參與國際能力限制的機構被濫用的範圍內，人們可以嘗試（或許在 AI 的幫助下）設計這些機構以幫助減輕這方面的擔憂——例如，將監督和治理分佈在多個獨立機構中，納入旨在防止固化的日落條款，實施透明度要求等等。

正如我上文討論的，評估不同形式的能力限制對權力集中風險的淨影響超出了我在此的目的。我預期這種分析會變得很複雜——而且我認為那些對能力限制的核心興趣來自對齊擔憂的人，應該警惕假設能力限制在其他風險背景下也能以類似方式提供幫助。^([32])事實上，對我來說，加劇與權力集中相關問題的風險仍然是我對能力限制的核心擔憂之一，特別是在通過集中在一個國家或聯盟（即使是民主國家）的 AI 驅動軍事優勢形式來實現相關限制形式的計劃背景下。

6.3.2 將競爭優勢讓給威權國家

我認為能力限制可能最終產生淨負面影響的另一種方式是，民主國家將競爭優勢讓給威權國家，後者隨後能夠利用 AI 獲得不成比例的權力——包括在極限情況下實現永久的軍事和經濟主導地位。原則上，並非所有形式的能力限制都需要這樣做——你可以想像例如僅僅凍結每個人現有位置的機制。^([33])但在實踐中，特別是在民主國家預設處於領先地位的背景下，如果各種能力限制努力（無論是國內還是國際）最終以失去部分或全部領先優勢為代價，這並不令人驚訝。例如，如果民主國家以威權國家不採用的方式進行國內監管，就可能發生這種情況。或者，如果國際層面的能力限制給了威權國家更多時間來追趕，和/或（根據上文關於綠燈的討論）更多所需的知識產權，也可能發生這種情況。

事實上，我認為關於 AI 安全的一些論述通常太不願意承認這方面存在的真實權衡。這種忽視的可能原因包括：懷疑永久威權主義的代價是否能與滅絕相提並論，以及懷疑任何人是否有足夠的機率控制超智能，以至於與對齊超智能相關的戰略考量是相關的。我懷疑這些論述是否也只是吸收了一些警惕，不敢承認例如與中國競賽的邏輯可能確實重要，考慮到這種邏輯可能帶來的潛在傷害。我在此不打算分析防止永久威權主義與防止 AI 失調目標之間的優先順序，但初步看來，我懷疑經驗或規範格局是否意味著對永久威權主義的擔憂可以被安全地忽視或完全降低優先級。我認為我們應該承認，某些以安全為導向的能力限制形式確實可能涉及這方面的權衡。

6.3.3 其他擔憂

安全導向的能力限制努力還有其他各種可能產生危害的方式。我已經討論了最突出的方式之一——即能力限制導致更長時間暴露在背景水平的生存風險中。但還有其他方式：

加劇大國衝突的風險。能力限制可能會加劇大國衝突的風險。在這裡，顯然即使沒有安全導向的能力限制努力，也存在這種衝突的重大風險。但這並不意味著此類努力不會使情況變得更糟。例如，如果對齊相關的考量最終激發或合理化了旨在關閉或顯著限制其他國家 AI 開發的特別激進的國際行動，我認為這即使相對於更基準的經濟和軍事競爭也可能是非常有害的。^([34])話雖如此，我確實認為很多大國衝突風險來自於受軍事和經濟競爭而非受對齊擔憂驅動的行動，我總體的猜測是能力限制在這方面是淨有益的。
實施挑戰。正如我上文討論的，這篇文章主要關注相當稱職的能力限制努力可用的選項——例如，粗略地說，如果能力限制被「正確實施」會是什麼樣子（儘管：帶有一些現實主義的約束）。然而，顯然它可能在無數方面無法被正確實施——雖然這方面的一些失敗可能僅僅使努力無效並浪費時間/資源，但如果實施不力的能力限制形式最終產生更積極的淨負面影響，這並不令人驚訝。例如，也許相關規則的制定方式實際上對安全沒有幫助，但卻差異化地使最關注安全的參與者處於不利地位。事實上，我認為制定良好的綠燈規則，特別是，可能被證明是一個重大挑戰，特別是考慮到對失調現有證據基礎的廣泛分歧、預見技術格局將如何演變的困難，以及此類規則需要對強大的對抗性優化壓力具有魯棒性。（不過，我也認為我們對 AI 系統良好的安全論證可能長什麼樣已經有了一些不錯的認識——例如參見我這裡的描述——而能力限制的目標之一就是提供更多時間來提高我們這方面的理解。）
濫用。一個相關的擔憂是，賦予特定限制機制的權力將極其容易被濫用。這與我上文描述的權力集中擔憂密切相關，但濫用也可以採取其他形式——例如，被授權的參與者利用相關權力在安全的幌子下追求其自身利益或意識形態議程，而相關濫用並未演變成看起來更像典型威權主義的事情。
也許對齊很容易，但限制努力沒有調整。我一直核心針對對齊問題具有足夠挑戰性、以至於額外的安全研究時間能帶來殘餘失去控制風險顯著降低的世界進行寫作。然而，隨著關於技術狀況的更詳細證據積累，有可能變得清晰的是對齊實際上並不是那麼大的問題，和/或為了降低對齊風險而追求顯著能力限制的利益並不值得在例如增加權力集中、濫用等風險方面付出的代價。這正是為什麼能力限制的努力必須密切關注並響應我們獲得的關於風險格局的證據。然而，現實世界中的能力限制努力可能不會特別以這種方式關注和響應——事實上，我相當擔心它們不會。
其他類型的糟糕認識論。對未能根據對齊的持續證據調整航向的擔憂，是關於旨在能力限制的倡導努力的一種更廣泛擔憂——即它們會硬化為與客觀風險（包括對齊風險和其他風險）以及相關政策對這些風險的影響脫節的意識形態議程。我們知道大眾運動很容易以這種方式出錯，我不預期專注於能力限制的運動會成為例外（儘管：這種下行風險適用於所有大眾運動，而且在足夠規模下可能很難避免）。
技術懸崖 (Overhangs)。暫停或減速可能導致演算法或硬件進步的積累。如果且當「大壩崩潰」時，這可能導致更快速且危險的能力進展形式，文明識別和適應其影響和風險的時間會少得多。當然，有效且時機合適的綠燈可以有所幫助；但你可能沒有那種奢侈。
使 AI 安全努力極端化和/或使其信譽受損。旨在能力限制的努力——無論是通過倡導還是實際實施——都可能以負面方式使 AI 安全擔憂極端化或使其信譽受損，特別是如果（根據上文關於實施、認識論等方面的擔憂）它們的校準、執行或設計不佳。
總體文明退化。在暫停/減速期間，文明可能在各個方面變得更糟，因此當向先進 AI 的全面過渡再次啟動時，它發生在更糟的條件下。例如，也許我們的論述退化了；也許美國經歷了顯著的民主倒退；也許世界權力平衡發生了負面轉移；等等。當然，你需要一個理由認為這方面的預期軌跡是負面而非正面的；但人們可以想像各種擔憂的理由。

這份清單並非詳盡無遺。^([35])不過我會指出，我也不非常擔心一些常見的對能力限制的反對意見。例如：

我認為雖然能力限制的努力應旨在最小化所涉及的短期經濟成本，並允許獲取更良性 AI 系統的利益，但我亦認為為了顯著降低人類滅絕的機率，短期經濟成本（包括例如減慢某些類型的創新）很容易是值得付出的。而這些正是我在此考慮的那種利益。
我認為出於安全理由推動能力限制的人實際上擁有某些其他隱藏議程——例如渴望炒作其產品、渴望施加某種審查等等——的情況相對罕見。顯然，人類心理是複雜的，在涉及 AI 風險這樣具有意識形態色彩、激烈且政治化的問題背景下，人類行為受各種微妙且通常是無意識的因素影響。但初步看來，並使用我們正常的真誠診斷標準，我認為大多數出於安全理由倡導能力限制的人都是真誠擔憂的。
我並不特別擔心最初暫時的暫停可能會固化為永久性的東西，並因此永久放棄超智能的深遠利益。在我看來，要獲得一個有效的機制已經夠難了，更不用說維持很長一段時間了（例如，參見上文描述的關於持續演算法進步的擔憂）。

7. 相對於其他安全因素優先考慮能力限制

最後，還有一個顯而易見且最平庸的方式，即旨在促進能力限制的項目可能會出錯：即它們可能只是浪費精力。事實上，我的感覺是，類似於「那永遠行不通」的想法是許多關注 AI 安全的人仍然對能力限制努力持懷疑態度的第一個也是最核心的原因，特別是涉及美中等地緣政治對手之間積極合作的形式。

由於上文討論的原因，我認為其中許多否定都太快了：政治意志可能發生劇變，即使是純粹國內形式的能力限制也能產生重要影響，而現實世界中的國際能力限制努力可以以多種方式將胡蘿蔔和大棒混合在一起。儘管如此，顯然存在針對特定形式能力限制的努力會失敗的嚴重風險，而相關資源本可以用在別處。

這種失敗始終是一種風險——真正的問題是邊際努力的預期價值，而不是總體的成功機率。在這裡，我目前的感覺是，各種形式的能力限制，包括一些最雄心勃勃且具合作性的形式，都是足夠鮮活的可能性，且如果做得好就足夠有價值，值得投入嚴肅的努力。

話雖如此，一些能力限制的倡導者走得更遠：他們認為關注 AI 安全的人基本上應該完全專注於能力限制（特別是國際禁令或暫停），並且不應該進行旨在實際學習如何對齊 AI 系統的工作——例如，因為這太不可能奏效或提供幫助。^([36])我認為這種觀點是錯誤的。也就是說，我認為在各種非常鮮活的場景中——無論是否有實質性的能力限制——對齊的技術工作都能對人類的前景產生有意義的影響，而我們應該完全放棄此類工作並將所有籌碼押在國際禁令上的想法，在我看來是有重大誤導的。^([37])當然，如果你高度確信人類生存的唯一場景是我們實施長達數十年的先進 AI 開發國際禁令，那麼專注於促進那些特定場景就更有意義。但我認為我們不應以這種方式保持確信——我希望本系列其餘部分的討論能幫助解釋原因。

8. 結論

總體而言：我認為能力限制是解決對齊問題所涉及的戰略格局中非常重要的一部分。我支持旨在促進熟練、有效且響應證據的限制形式的努力，無論是在個別 AI 公司、國內政府還是國際關係層面。如果對齊問題很難（正如我認為的那樣），我預期事實上將需要某種這種形式的限制，人類才能生存並保持權力。

然而，我也認為在建立有效的國際能力限制機制方面存在非常重大的挑戰，特別是對於超過幾年的時間（在這裡我特別擔心限制演算法進步的困難，以及為了風險評估和綠燈而共享敏感知識產權的問題）。我也認為能力限制的倡導者應該承認在潛在成本（如權力集中、讓出競爭優勢以及延長暴露在（可能加劇的）背景生存風險中）方面所涉及的權衡，並且他們應該保持警惕，隨著我們對局勢了解的深入，這些權衡（連同在實踐中實際讓特定形式的能力限制奏效所涉及的其他挑戰）可能會使實踐中各種形式能力限制的成本和收益天平發生傾斜。雖然我認為促進能力限制目前值得嚴肅努力，但我不同意那些認為它應該是 AI 安全社群唯一焦點的倡導者。

附錄 1：我們利用這段時間做什麼？

能力限制的目的是買時間。但時間是為了*什麼？*本附錄提供了更深入的分析。

上文我提到了最典型的答案：即 AI 對齊研究。這個答案確實是我核心關注的。即使在這個範疇內，你核心想到的是由人類進行的研究，還是實質上或完全使用 AI 進行的研究，也是有影響的。這很重要，部分原因是人類研究人員極其稀缺且緩慢，所以如果你依賴他們來進行對齊研究，那麼對於更難版本的對齊問題，你可能需要買到非常大量的時間（這是我認為安全自動化對齊研究如此重要的關鍵原因之一）。而且：如果你打算進行大量的自動化對齊研究，那麼你的治理機制至少需要為那種特定應用做出準備——例如，通過提供必要的推理算力量、獲取相關能力水平的 AI 等等。

然而，正如我上文提到的，直接的對齊研究（無論是否自動化）並非能力限制買到的時間唯一的用途。例如，Yudkowsky 和 Soares (2025) 主張我之前稱之為「暫停並增強策略」的方法，專注於利用這段時間將人類智能增強到增強後的人類可以解決對齊問題的水平。Yudkowsky 和 Soares 提出這一點是因為他們認為目前的人類智能水平不足——你需要比人類目前的精英更聰明的研究人員。^([38])

顯然，這條路徑上的任何努力都需要應對相關形式的智能增強所涉及的倫理和政治問題——例如，關於所涉及的更聰明的人類如何被對待，以及對其他所有人的影響和後果。與 AI 失調所涉及的風險類似的風險（例如流氓權力尋求）似乎也很突出，特別是考慮到結構上相似的「工具性收斂」論點也適用於人類（正如我在本系列早期所討論的，關於 AI 擁有權力後會做什麼的「價值脆弱性」論點也相當直接地延伸到了人類價值觀差異上）。

即使我們撇開這些問題不談，還有一個進一步的問題，即你需要多少時間來追求這種智能增強。在這裡，許多相關形式的智能增強是我所謂的「生物受限」：即它們專注於應用於人類生物大腦的改變或增強。但在這種背景下，我預期你再次需要能力限制買到非常大量的時間——例如，超過十年。特別是：你需要實際進行必要的研究以使相關形式的生物受限智能增強奏效；你需要創造出具有相關增強的人類；然後你需要那些人類執行你想要其智能增強所服務的所有相關認知工作（例如對齊研究）。如果你願意以這種方式使用 AI，AI 可以在某些方面提供幫助（例如最初的生物研究）；但即使在 AI 幫助創造智能增強人類的情況下，當涉及到那些人類應該做的工作時，你最終仍會受到生物認知緩慢和（增強的）人類勞動力稀缺的瓶頸限制。

話雖如此：並非所有形式的人類智能增強都是這種生物受限的。特別是：在本系列早期，我討論了足夠高保真的人類全腦仿真 (WBE) 或「上傳」的可能性——即在矽基中複製人類大腦在認知上相關的計算結構，以一種既保留人類認知能力又保留人類動機的方式。如果你有 WBE 可用，那麼相關的仿真將繼承自動化對齊研究人員在速度和規模方面的許多優勢。然而，關於時機的關鍵問題是（再次撇開上述所有其他倫理、政治和安全問題），需要多長時間才能使足夠高保真的人類全腦仿真可用。

我的感覺是，領域內對於我們距離這一點到底有多遠存在一些分歧，近年來領域內的樂觀情緒有所上升（例如參見這份 2025 年報告對該領域現狀的總結）。我個人的猜測是，儘管最近取得了進展（例如研究表明你可能僅從連接組中恢復一些功能行為），但目前我們距離能夠創造出我們像信任人類一樣信任的、工作的、高保真的人類大腦仿真仍相當遙遠（而且也遠未應對這樣做所涉及的所有倫理、政治和安全問題）。如果我們要完全依賴人類勞動力來實現 WBE 技術，那麼我預期這也需要相當長的時間——儘管目前直接關注這個問題的人非常少（Zanichelli 等人 (2025) 估計少於 500 人），因此人類努力的大規模擴大可能會產生重大影響。^([39])

話雖如此，足夠先進的 AI 勞動力可以顯著加速這一過程。事實上，特別是如果你對自動化對齊研究持懷疑態度，那麼一項旨在盡快創造 WBE 的密集的 AI 輔助努力，是嘗試利用能力限制買到的時間的一種突出方式。而且這種路徑與自動化對齊研究之間的區別也有可能開始變得有些模糊——例如，如果你利用一些神經科學進展（例如從連接組獲取功能行為的進展）來學習如何創造某種程度上更像人類的架構或認知動態，以幫助減輕對 AI 認知和動機異質性的一些擔憂，但又沒有達到標準「上傳」概念中涉及的那種極高保真的複製。即使有大量的 AI 幫助，預設情況下我預期創造全腦仿真比創造相當有能力的自動化對齊研究人員需要更多時間，並且更多地受到緩慢的、受物理世界限制的生物實驗的瓶頸限制——而且我認為我們能使此類研究人員安全有效的可能性足夠大，以至於我通常認為專注於此是更好的賭注。還要注意，只要 WBE 導向的策略仍需要使用大量的 AI 勞動力和算力來進行 WBE 研究本身，並且需要大量的算力來運行創造出的仿真，相關的限制機制就需要容納這一點。

當然，對齊研究和人類智能增強並非能力限制買到的時間唯一能做的事。例如，你可能想為向先進 AI 的過渡做更廣泛的準備（包括對齊之外的問題）。你也可以利用這段時間嘗試加強特定的限制機制本身。而且進入能力限制機制時，不一定要假設永遠開發先進 AI 能力是正確選擇——例如，也許你只是想嘗試改善我們的集體認識論、協調和決策，然後再決定做什麼。^([40])我個人的猜測是，決定永遠不開發超智能將是一個嚴重的錯誤；更重要的是，這個決定將不是一個可用的選項，因為你在實踐中的能力限制努力將太不完美。如果限制機制受時間限制，最終需要適當的對齊進展，那麼你需要某種方式利用這段時間來完成相關工作。

^([1]) 當然，在缺乏能力限制的情況下我們死去的場景，與能力限制本身使情況變得更糟的場景之間存在權衡——詳見下文 6.3 節的詳細討論。

^([2]) 我並不是說這是能力限制倡導者中的一種特別普遍的觀點，但我的感覺是，這在一些論述中是一個顯著的傾向——而且這似乎與 Yudkowsky 和 Soares 在他們的書中以及例如這篇 2024 年的博客文章中所表達的立場相當接近：「Nate 和 Eliezer 都認為人類不應該在目前的認知能力水平上嘗試技術對齊，而應該追求人類認知增強（例如通過上傳），然後讓更聰明的（超）人類找出對齊方法。」（儘管：Yudkowsky 至少在其他地方表達過對可解釋性研究的支持——我不確定這如何融入他更廣泛的戰略圖景。）

^([3]) 這裡我主要借鑒了 Grace (2022) 中關於博弈論的討論。Askell 等人 (2019) 也有一些相關討論。

^([4]) 這是 Holden Karnofsky 所強調的一點——例如在這裡。

^([5]) 當然，這裡也有一個變體，即參與者 A 主動減慢參與者 B 的速度，但隨後不自己進行個人能力限制。但我在此特別感興趣的是由那種也會激發個人能力限制的安全擔憂所驅動的行動。

^([6]) 這些是「暫停並增強」策略的一些版本，其中增強後的人類永遠不會回到對傳統 AI 的研究，而是完全專注於例如創造人類的全腦仿真，然後讓這些全腦仿真研究在保持適當對齊的同時擴大其智能。

^([7]) 轉向專注於增強的人類勞動力，我預期要麼花費太長時間，和/或最終無論如何都需要對 AI 系統（或同等危險的東西）進行實際的對齊研究。

^([8]) 雖然：這並非顯而易見。例如，「直接關閉一切」更簡單，或許更符合推動限制聯盟中許多成員的廣泛觀點。感謝 Thomas Larsen 在此處的指正。

^([9]) 這與我在本系列開始時強調的一個動態有關：即在我所定義的意義上完全解決對齊問題（即安全地引發全功能超智能代理的主要有益能力）並非嚴格必要。例如，你也可以「避免」問題（即根本不構建超智能 AI 代理），或者你可以「處理」問題（即不嘗試引發這些代理的全部能力）。而且你可以嘗試在這樣做的同時，通過其他方式獲得超智能代理的主要利益，或者為了安全而放棄其中一些利益。正如我在第一篇文章中指出的，我確實認為這些「解決」對齊問題的替代方案是值得記住的。話雖如此，我也認為它們最自然地充當一種「中繼站」——即一個中間目標，隨後能顯著幫助最終獲得完整的解決方案。例如，我們可以將全球暫停和專注於「工具 AI」都視為「避免問題」的一種形式，但兩者似乎都不特別適合作為一種完全永久的方法。這部分是因為更永久形式的能力限制需要相應限制性且永久性的努力——這些努力隨後也相應地難以維持，而且據推測也相應地危險。但是，只要避免或處理問題伴隨著獲取超智能主要利益的損失（「代價高昂的非失敗」），如果這些代價變成了完全永久性的，那可能是災難性的。所以我認為像「全球暫停」和「專注於工具 AI」這樣的策略通常也需要某種下一步——特別是，一個允許進一步安全進展的下一步，無論是通過標準的人類勞動力、適當安全/非完全超智能的 AI 勞動力，還是通過獲取某種增強的人類勞動力。

^([10]) 並且撇開 Bostrom 所謂的與例如模擬、外星人、因果貿易等相關的「奧秘」考量。

^([11]) 這是假設我們最終會構建超智能，這些模型表明大多數現有人類應該想要這一點。

^([12]) 我聽過的一種反駁是，關注進入後人類未來的人應該直接申請人體冷凍。我們可以將這建模為降低你的死亡風險，因為如果你在正常意義上「死亡」，你可能仍會通過冷凍保存最終獲得漫長的後人類壽命。但為了讓這在這些模型的動態中產生有意義的差異，我的猜測是從人體冷凍中成功復甦的機率必須相當高——例如，即使機率是 50%，你最多也只能獲得 50% 的背景死亡風險降低。但我個人的解讀是，雖然復甦有一定的機會，但這個機會顯著低於 50%（例如，我的理解是像 Alcor 這樣的人體冷凍提供商尚未證明其技術成功保存了突觸信息；Robert McIntyre 等人已經證明醛穩定冷凍保存可以做到這一點，但這並非 Alcor 使用的技術）。

^([13]) 特別是，在他的模型中，當代人在追求自身利益時，通常應該強烈關注最大化他們在創造安全超智能後獲得延長的後人類壽命的機率，但這顯然不是人們目前對待 AI 發明的實際方式，也不清楚他們按自己的標準這樣做是否犯了錯。

^([14]) Bostrom 使用 2.5% 作為平均個人年度死亡風險，基於平均剩餘壽命為 40 年的假設。我不認為我已經完全弄清了我們在思考這個估計值時的差異，但我目前的感覺是 Bostrom 的風險估計太高了——事實上，高得離譜。

^([15]) Ord (2020) 對非 AI 風險的估計約為 6%，但我將其向上取整。顯然，真實的生存風險（就像真實的個人死亡風險一樣）並非均勻分佈。

^([16]) 這裡有一個限制因素，即如果失調風險每年下降得足夠快，那麼總體風險很快就會變得相當低，屆時繼續前進就變得更有吸引力。然而，在生存風險的背景下，可能最初接管風險隨著延遲的每一年至少下降一個百分點，但在那之後的相當長一段時間內仍保持在每年 0.1% 以上。

^([17]) 儘管 Bostrom 確實做了一些這方面的工作。

^([18]) 感謝 Katja Grace 和 David Krueger 的討論。

^([19]) 這種假設有些奇怪，因為我們在想像這個理想化的文明儘管如此仍繼續面臨我們實際文明的非 AI 生存風險率（而不是例如也更理想地應對那些風險）——但讓我們撇開這種奇怪之處。

^([20]) 當然，即使你認為成功的能力限制極其不可能，這也不一定意味著不值得嘗試去促成。最終，重要的是你通過在該問題上投入精力所能改變的機率、這樣做的價值，以及這項努力的預期價值與投入到其他地方（例如安全進展）的努力的預期價值相比如何。事實上，許多專注於能力限制的人承認它極其不可能奏效——只是他們認為這仍然是我們最好的機會。正如我將在下文討論的，我對這種形式的一些論點持懷疑態度。但我認為記住「X 不太可能奏效」與「這就是為什麼 Y 更有幫助」之間的差距仍然很重要。

^([21]) 這並不是說更多的協調總是好的。

^([22]) 當然，即使是美國單方面的努力，至少也會預設帶動一些盟友；而且即使在相當樂觀的場景下，世界上每個國家（例如北韓）都自願簽署多邊努力似乎也不太可能。

^([23]) 這裡我假設一個兩者都不涉及的聯盟是不夠的。

^([24]) 特別是，Amodei 想像了一種策略，其中「一個民主國家聯盟尋求通過確保其供應鏈、快速擴展規模以及阻止或延遲對手獲取晶片和半導體設備等關鍵資源，在強大的 AI 方面獲得明顯優勢（哪怕只是暫時的）。這個聯盟一方面將利用 AI 實現強大的軍事優勢（大棒），同時向越來越廣泛的國家提供分享強大 AI 的和平利益（胡蘿蔔），以換取支持該聯盟的策略……」在這裡，Amodei 希望最終非民主國家會自願加入這個全球秩序——但最初，對其 AI 開發的限制將不是自願的。雖然 Amodei 在那篇文章中的評論並非專門針對 AI 安全，但所涉及的機制也可以用來執行以安全為導向的能力限制。Aschenbrenner (2024) 提出了一種沿著類似路線的策略。

^([25]) 參見 Aschenbrenner (2024)：「如果且當美國將決定性獲勝變得清晰時，那就是我們向中國和其他對手提供交易的時候。他們會知道自己贏不了，因此他們會知道自己唯一的選擇就是坐到談判桌前；我們寧願避免激烈的對峙或他們為了破壞西方努力而進行的最後一搏的軍事嘗試。作為保證不干涉其事務並分享超智能和平利益的交換，一個非擴散機制、安全規範和超智能後穩定的表象就可以誕生。」

^([26]) 參見例如 Heim 等人 (2024)、Arne 等人 (2024) 以及 Culp 等人 (2024) 了解更多。

^([27]) 在這裡我們可能會想到《生物武器公約》問題的一些平行之處，例如缺乏有效的驗證機制使得蘇聯能夠在許多設施中開展長達多年、由國家支持的大型生物武器研究計劃。

^([28]) 話雖如此，儘管純粹以算力為重點的能力限制本身可以買到顯著的時間，但我擔心驗證和執行演算法研究限制的困難甚至會對更純粹以算力為重點的國際能力限制機制的前景產生負面影響。特別是：如果我們假設各國無法驗證是否存在持續的演算法研究努力，或者無法單方面對彼此執行禁令，那麼即使在專注於治理算力的其他努力背景下，更一般競賽動態中涉及的博弈論邏輯也會在演算法進步層面重演。也就是說：也許每個國家都希望能夠協調不推動演算法研究，但這不可能，所以無論在算力方面有什麼協調努力，它們都預期其他參與者會繼續在演算法開發方面競相前進，並且它們也計劃這樣做——儘管或許是秘密進行。不幸的是，只要各國認為由他們來做風險至少會更低，和/或如果他們對人類生存後自己的權力有足夠強烈的偏好，那麼即使所有國家本身都直接確信持續的 AI 開發（即使是在他們自己的國家）會帶來全規模滅絕的重大風險，這種邏輯也可能適用。然而，如果朝向更好演算法的競賽持續不減，這顯然意味著更廣泛的能力限制機制要不穩定得多。也就是說，除非它封頂或逐漸消失，否則持續的演算法競賽為機制的持續時間設定了上限，如果這個上限使得參與國更有可能彼此不信任、提前背叛和/或永遠不簽署協議，對我來說並不奇怪。

^([29]) 感謝 Thomas Larsen 的討論。

^([30]) 在這裡我部分是在回應 Dean Ball 在這裡的觀點，他似乎暗示因為你需要構建 AI 來學習安全，所以能力限制意味著中心化。

^([31]) 我們可以爭論國內政府相對於其他替代安排擁有合法暴力壟斷權有多可怕，但國內 AI 監管的存在與否並不會改變這一點。

^([32]) 例如，為技術研究買時間可能不同於為更通用的「準備」買時間。也可能更難說你何時「準備好了」。而且雖然技術研究格局相對難以隨時間主動退化，但在暫停期間權力集中情況似乎更容易變得主動惡化。

^([33]) 儘管，請參見上文關於為什麼綠燈機制仍然重要的討論。

^([34]) 至少，關於對齊的論述通常發生在假設 AI 領先轉化為「決定性戰略優勢」（無論是對流氓 AI 還是對人類）並進而轉化為永久軍事霸權的背景下——如果這種論述具有誤導性，它可能是相當有害的，而且即使它是準確的，或許也是如此。

^([35]) Bostrom 討論的另一個擔憂是，能力限制的努力似乎很可能將對 AI 格局的影響力從 AI 公司轉移到政府（或許特別是軍隊）。即使撇開上文描述的權力集中擔憂——並取決於你對 AI 公司與不同政府參與者在價值觀、能力和廣泛導向方面的偏好/看法——你可能會擔心這種轉移帶來的其他不利影響，包括對安全問題處理方式的影響。話雖如此，對許多人來說，這種影響力的轉移可能看起來相當自然/合意。

^([36]) 在這裡我部分是在回應 Dean Ball 在這裡的批評。

^([37]) 參見例如 MIRI 的 2024 年戰略更新：「Nate 和 Eliezer 都認為人類不應該在目前的認知能力水平上嘗試技術對齊，而應該追求人類認知增強（例如通過上傳），然後讓更聰明的（超）人類找出對齊方法。」話雖如此，Yudkowsky 在其他地方表達過對可解釋性研究的支持，所以他的總體觀點在這裡可能更細緻。

^([38]) 而且當然，技術工作也可以幫助論證能力限制的必要性。

^([39]) 「如果你問我們，我們會建議增強人類以使他們更聰明，聰明到足以讓我們擺脫困境。我們相信 ASI 對齊在原則上是可以解決的，由那種聰明到不近人情、以至於永遠不會在某個計劃行不通時還樂觀地相信它會奏效的人來解決。」

^([40]) AI 安全社群傳統上對 WBE 研究的能力外部性存在一些擔憂——例如，你會更早地學會如何製造一般的 AI。我預期會存在某種這樣的動態——但同時，特別是在更廣泛且據推測某種程度上有效的能力限制機制背景下，這不應成為不追求它的主要理由。

^([41]) 感謝 David Krueger 的討論。話雖如此，我警惕「慢下來多思考、多準備、變得更明智」在理論上總是聽起來很合理，卻忽視了實踐中減速努力可能付出的代價。

討論

https://lesswrong.com/posts/K8jyKcDQbfBjmiAoM/on-restraining-ai-development-for-the-sake-of-safety