防止協議國家的隱蔽性超人工智能發展

Lesswrong·5 個月前

本文概述了一項國際協議如何透過對晶片供應鏈和人工智慧研究的嚴格核查，並輔以強大的執行措施，來防止各國秘密開發超級人工智慧。

我們機器智能研究院（MIRI）的技術治理團隊提出了一份具說明性的國際協議草案（部落格文章），旨在暫停超智能（ASI）的開發，直到能確保其安全性為止。對於尚未閱讀過的讀者，我們建議在閱讀本文前先熟悉該協議內容。

摘要

本文回應了針對我們提議暫停 ASI 開發之國際協議的一個常見反對意見：即各國會透過開展秘密 ASI 項目來進行欺詐。

該協議透過監測晶片供應鏈和數據中心（經由供應商審計、衛星/電力分析、實地檢查、舉報人等）以及驗證晶片用途，使大型秘密 ASI 項目難以隱藏。協議同時禁止具風險的 AI 研究，並透過各種潛在方法（例如在私下高風險組織中派駐審計員）來驗證此類研究並未進行。雖然預期這兩方面都會存在某些漏洞，但我們樂觀地認為，這些漏洞不足以運行或擴大一個嚴肅的 ASI 研發工作；且一旦偵測到欺詐行為，即可採取執法行動（制裁措施最高可達摧毀 AI 基礎設施）。

前言

有些人反對說，該協議不足以降低簽署協議國家秘密開發 ASI 的風險。「中國總是違反國際協議！他們會口頭答應，轉頭就啟動秘密項目追求 ASI，而你根本抓不到！」

從一開始，我們對國際協議的思考就受到這個問題的影響並據此做出回應。我們的回應將此問題拆分為驗證（Verification）——如何建立高度信心，確信某方正遵守其承諾的規則；以及執法（Enforcement）——預防、懲罰並藉此威懾違規者。我將依序討論這兩點，並將重點放在驗證上。

聚焦於 AI 進步驅動因素的驗證

提議的協議包含了眾多驗證與監測機制，以確保簽署國境內不再繼續進行危險的 AI 開發。廣義上，這些機制可分為兩類：聚焦於電腦晶片或聚焦於研究。

我們認為將問題分解為晶片與研究是合理的，因為所謂的「AI 三要素」（AI 開發的關鍵投入）是由更好的/更多的晶片、更好的演算法以及更好的數據組成。為了簡化，我們在某種程度上將數據與研究限制歸為一類，因為數據策劃和生成方法可以被視為演算法創新的一種形式。

理解我們驗證思路的一個關鍵框架如下：我們認為，如果各國政府在風險問題上與我們達成共識，他們很可能會同意即使是相當具侵入性的驗證措施。因此，問題更多在於「如果實施，驗證措施是否有效？」，而非「是否有實施驗證措施的政治意願？」。我們知道目前還不存在這種政治意願，但我們認為，如果世界領導人開始產生哪怕只有我們一小部分那樣的擔憂——即「如果有人造出它，所有人都會死」——這種情況就會改變。只要有了政治意願，我們認為驗證將會是有效的。

聚焦於 AI 晶片的監測與驗證

如附錄 A 第五條和附錄 D 所述，該協議旨在收集大部分現有的 AI 晶片，並將其納入監測與驗證計畫中。在高層次上，以晶片為中心的驗證計畫是嘗試監測盡可能多的 AI 晶片，以確保它們不會被用於違反協議的用途。很難預先知道這個過程會有多有效，但我們認為各國可以動用許多方法來解決這個問題。例如：

訪談數據中心供應商，以了解 AI 數據中心的位置
利用衛星影像偵測潛在的 AI 數據中心
監測電力基礎設施，以識別電力消耗異常的場地
對疑似 AI 數據中心進行檢查，並確定其是否存放 AI 晶片（協議允許為此目的進行廣泛的質詢式檢查）
鼓勵舉報人揭發未公開的數據中心
運用美國和中國所掌握的各種情報蒐集工具。

這些方法與現有晶片相關。協議第六條則制定了監測新 AI 晶片生產的平行計畫。協議包括監測以確保新生產的晶片進入申報的數據中心，且不會發生秘密晶片生產。例如，檢查員可以安裝攝影機並進行手動抽查，計算生產不同階段的晶片組件數量，確保它們與應有的數量相符（且缺陷零件已妥善處理）。

幸運的是，AI 晶片擁有高度專業化的供應鏈，且存在多個狹窄的瓶頸。引用第六條註釋：「絕大多數 AI 晶片由 NVIDIA 設計。用於 AI 晶片的最先進邏輯晶片（主處理器）幾乎全部由台積電（TSMC）製造——佔據約 90% 的市場份額。大多數 AI 晶片是在台積電五奈米製程節點的版本上製造的，該節點可能僅由兩到三家製造廠支持。EUV 光刻機是先進邏輯晶片製造的關鍵組件，專門由 ASML 製造。高頻寬記憶體（HBM）是 AI 晶片的另一個關鍵組件，由兩到三家公司主導。這種狹窄且技術性強的供應鏈相對容易監測，且難以秘密複製。」我們不想過度誇大——例如，中國擁有新興的國內供應鏈，生產一些值得注意的 AI 晶片——但即使有這些變數，監測現有的晶片生產似乎是非常可行的。

除了 AI 數據中心的存在或 AI 晶片的位置之外，還有必要驗證已知的晶片是否被用於非法活動；我們稱之為「晶片用途驗證」（第七條）。雖然這方面的研究尚處於起步階段，但也有廣泛的選擇。這些選擇通常在技術可行性與政治可行性之間進行權衡。例如，「關閉晶片並驗證它們沒有通電」在技術上很簡單，但成本很高，因為晶片不能用於任何事情！在光譜的另一端，先進的硬體賦能治理機制（HEMs）可以（例如）在晶片本身執行工作負載分類；這些機制尚未開發出來，可能需要數年時間來開發並確保其安全性，但它們將允許晶片繼續運行，同時可驗證地不從事禁止的活動。在這個光譜上存在許多潛在方法，並且有可能構建出能達到高度信心、確保已知晶片不被用於違反協議的解決方案。

總體而言，我們樂觀地認為，一旦監測到位，驗證工作可以定位絕大多數現有晶片以及幾乎所有新生產的晶片。會有一些晶片成為漏網之魚。有多少？沒人知道；我猜測在 10,000 到 500,000 顆 H100 等效晶片（AI 相關晶片）之間。例如，這可能是由於在協議達成前隱藏了晶片，或將非 AI 晶片匯集在一起（例如購買大量遊戲 GPU 並對其進行改裝以使其更適合 AI，儘管這種特定方法非常容易被偵測到）。幸運的是，就我們的目的而言，隨著時間和使用，晶片會燒毀和損壞（儘管我們目前沒有關於這需要多長時間的精確估計）。這種損耗以及持續的監測與驗證，意味著我們應該預期未受監測的晶片數量會隨時間減少！

從宏觀角度看，該協議利用以晶片為中心的驗證來降低簽署國境內發生秘密 AI 開發的可能性。晶片是 AI 開發的主要投入之一。因此，透過定位晶片、追蹤其生產並將其提交至晶片用途驗證，該協議顯著降低了秘密項目在危險 AI 開發上取得成功的可能性。可能仍會有一些晶片被藏起來且未受監測，但透過信息蒐集和驗證，我們認為有可能使未受監測的晶片數量保持在相對較低的水平（且可能低到不足以成為主要擔憂，但這很難預先預測）。

透過聚焦於研究人員來驗證研究限制

除了晶片，AI 演算法和數據策劃方法也是 AI 開發的關鍵投入。因此，協議也討論了限制這些投入並驗證這些限制。協議創立了「受限研究」（Restricted Research）的概念，這是一類研究活動，要麼朝向 ASI 進展（例如使 AI 系統能力更強或 FLOP 效率更高），要麼危及驗證計畫。

坦白說，我們在這方面的想法仍在發展中，儘管我們希望很快能有更多進展。我們目前還沒有一個良好、具體且可操作的「受限研究」定義。我們也尚未確定驗證的高層次方法。目前，我們將討論為什麼我們對能夠驗證研究限制是否被遵守持謹慎樂觀態度。

我們樂觀的一個高層次原因是，這個領域尚未被充分探索，且存在許多看似有希望的想法。我們在協議中列出的想法包括：

「訪談曾從事受限研究課題或目前在相鄰領域工作的研究人員……」
「監測曾從事受限研究課題或目前在相鄰領域工作的研究人員的就業狀態。」
「在選定的高風險組織中維持由美國和中國提供的派駐審計員……」

以第三點為例：在先前從事 AI 研究的組織中安置派駐審計員。例如，協議達成後，OpenAI 轉型為一家僅限產品的公司（例如將現有 AI 整合到專業工作流程中，而非創建新的、更聰明的 AI），美國和中國在該組織中安置幾名審計員，確保他們擁有足夠的權限，以便確信該公司實際上是在追求其應有的產品方向，而非進行朝向 ASI 的研究。其他行業已有政府持續監測的先例。例如，美國的每座核電廠都被要求有兩名來自政府核能管理委員會的駐廠檢查員，專注於確保電廠的安全。

目前，AI 研究主要由人類研究人員進行。據我所知，AI 尚未強大到足以驅動進步。但這種情況可能會改變！AI 可能很快就會在 AI 研發任務上展現出足夠的能力，以至於我們需要像關注人類研究人員一樣關注它們。在這種情況下，驗證似乎會變得更加困難。這就是為什麼協議越早達成越好的主要原因之一。我們只是不知道在 AI 能力通過 AI 研發的「不歸路」之前還剩下多少時間。

讓我們討論人類仍主導局面的情況。驗證可以利用具備相關技能的人數很少這一事實。引用論文：「頂尖 AI 公司的技術人員數量約為 5,000 名研究人員，而普遍認為對於前沿 AI 開發至關重要的核心群體要小得多，可能只有數百人。頂尖 AI 會議的參與人數估計約為 70,000 人。作為更高層次的估計，相關硬體公司的員工數量可能約為一百萬，而至少具備基礎 AI 技術知識的人數可能在數百萬到數千萬之間。」這些估計旨在根據如何定義相關研究類別以及想要多保守而提供一個範圍。我的猜測是，關鍵研究人員的數量相對較低，因此如果前 500 名研究人員不從事前沿 AI 研究，前沿 AI 演算法的進步速度可能會降至目前速度的 33% 左右（這些是不確定的直覺估計）。如果關鍵研究人員的數量確實相當低，且人類對 AI 研究仍然至關重要，那麼驗證就可以聚焦於這相對少數的人類專家，並旨在確保他們沒有在從事非法的 ASI 項目。如果只是「確保這 500 個特定的人沒有在做受限研究」，問題看起來並不難（儘管當然你可能需要進一步放慢進度）。

限制研究的一種方法是限制對晶片的訪問。論點是，AI 研究通常需要運行實驗來驗證或證偽對 AI 演算法的假設性改進。研究人員可能有幾十個他們看好的想法，但只有實際運行實驗——例如透過訓練許多小型 AI 模型（一個晶片密集型的過程）——才能提供確認。因此，人們可能認為需要大量晶片才能進行 AI 研究。

這是一個懸而未決的問題，但早期研究指向了悲觀的結論：過去幾年中，許多 AI 研究或工程創新使用的晶片非常少。在連結的論文中（圖 3），約三分之二的創新在開發和測試時使用的 FLOP/s 少於 16 顆 H100，且約三分之二的實驗使用的 FLOP 少於 1e22。也就是說，提議的晶片管制即使徹底實施，也只能阻擋約三分之一的演算法創新。這項早期研究有許多限制，但它表明單靠晶片管制不足以停止研究進展。

另一方面，該論文未考慮的一個因素是，許多創新需要被「擴大規模」（scale up）並使用大量 FLOP 進行驗證。作為晶片用途驗證的一部分，協議提議對超過「監測閾值」的訓練使用「AI 技術白名單」。也就是說，超過 1e22 FLOP 的訓練將向檢查員報告，包括所使用的所有代碼，然後檢查員可以檢查（可能是以自動化方式）代碼是否僅使用經批准的方法。作為預設，白名單將涵蓋所有主要的、已知的 AI 演算法和方法。那麼，未經批准技術的存在就是受限研究正在進行的證據。這將使秘密項目更難擴大其模型訓練規模，也更難在大規模情況下驗證他們所做的任何演算法研究。現在將存在一個 1e22 FLOP 的天花板，超過這個天花板，他們就無法在受監測的晶片上測試新演算法，因為這會被偵測到。雖然秘密項目仍可能擁有自己的未受監測 AI 晶片，但防止他們在受監測晶片上大規模測試任何新 AI 演算法似乎是一個有用的進展。原則上，AI 技術白名單可以擴展到涵蓋所有晶片使用，而不僅僅是中等規模的訓練；這將使進行受限研究變得更加困難。

重申一次，關於限制研究仍有許多未解答的重要問題，例如如何準確定義這類研究（包括非深度學習 AI 範式中的研究），以及使用什麼方法來驗證合規性。而且，能夠自主進行 AI 研發的廣泛擴散 AI 的可能性會損害許多計畫。儘管如此，驗證研究限制看起來仍是可行的。

執法、威懾與槍口下的驗證

在這一節中，我將嘗試傳達一種對世界的取向，我認為這是我理解該協議的關鍵。基本上，相信「如果近期開發出 ASI，很可能會殺死所有人」的世界領導人應該願意，而且我認為將會願意，採取極端手段來阻止任何人建造它。他們會積極執法，創造強大的威懾力來防止違規。

這種情況確實是關乎生存的，而歷史給了我們無數例子，說明人們在面對他們同樣認為是生存威脅時，能完成不可思議的壯舉。書中（如果有人造出它，所有人都會死）討論了第二次世界大戰，以及美國人的生活如何為了打一場主要在海外進行的戰爭而轉型，以阻止軸心國的擴張。如果你還沒讀過，我建議閱讀該書的第 13 章。我認為寫得很好。

如果世界領導人哪怕只相信我對 ASI 滅絕威脅所持信念的一小部分，我認為他們會願意在執法上採取強硬立場。他們可能會對其他國家發出如下最後通牒：「你們的 AI 基礎設施讓我們感到恐懼。它必須按照本協議接受監測。如果你們不願意同意這種監測或更廣泛的協議，那麼我們——組成該協議的國家聯盟——將盡我們所能採取任何行動來阻止你們開發 ASI，包括摧毀那些基礎設施，即使你們會將此視為升級行動並引發軍事報復」。

轉向協議簽署國，如果現有的驗證措施不足，他們會花費數十億美元來改進驗證措施。如果非侵入性的驗證措施無法讓其他方充分相信受限研究已經停止，各國政府會想辦法實施更具侵入性的措施（理想情況下會嘗試減輕相關的副作用）。我想我們可以稱這種情況為「槍口下的驗證」。並非因為檢查期間真的有任何槍枝在場，而是因為這件事整體的嚴肅性，以及實施充分驗證的重要性。

世界領導人會推理說：「如果你不能向我證明到我認為充分的程度，證明你沒有在進行危險的 AI 開發，那麼我將別無選擇，只能摧毀你創造 ASI 的手段」。像這樣的聲明及其涉及的執法行動不會被輕易做出。但對於將防止 ASI 創建視為生存自衛事務的世界領導人來說，我們認為此類行動將被視為可信的選項。該協議正在將這種情緒編纂成典，並建立結構來實際執行它，僅在絕對必要時才允許使用武力。

讓我們簡單談談威懾，這建立在 Michael Mazarr 的理解威懾和我同事 David 的完善 MAIM 之上。引用後者，「威懾是對某些行動施加成本，使其變得不那麼具吸引力」。威懾可分為兩類：拒止性威懾（deterrence by denial）旨在直接阻止行動成功，而懲罰性威懾（deterrence by punishment）則威脅如果採取令人擔憂的行動將面臨嚴厲懲罰。

這兩種類型的威懾都可以在防止 ASI 的國際協議中發揮作用。引用我們的論文：「如果防擴散失敗，或發現有流氓行為者正在朝向 ASI 努力，聯盟成員可以採用他們商定的執法機制。這些機制從外交和經濟制裁等國際壓力的標準工具開始。根據事態發展的性質，各國可以升級到他們所掌握的其他手段，以破壞、減緩或阻礙 ASI 的開發。這與各國介入以制止違反軍備控制和防擴散協議的其他情境有相似之處。」

是否應該模擬秘密 ASI 項目？

我們收到的對協議的一個回應是，如果我們停止前沿 AI 開發，我們對於一個假設性的秘密 ASI 項目可能取得什麼成就將會一無所知。為了應對這一點，國際當局可能會運行一個受到嚴密監督的「影子」項目，旨在模擬秘密工作可能取得的進展（例如，僅使用他們預期秘密項目能獲得的晶片數量）。我對這個反對意見的想法很矛盾。有時我覺得這是在提議「好人應該追著幽靈跳下懸崖」。有時它看起來又類似於良好安全實踐中常見的紅隊演練和滲透測試。

總體而言，我不想對這個問題採取強硬立場，因為我不知道答案。但我有一些看法。如果由國際當局對 ASI 開發提供監督是生存安全的（例如，能防止災難性的對齊失敗），那麼我們一開始可能就不需要這份協議；我們需要的會是像「全球強制執行的 RSPs」之類的東西。不幸的是，我認為該策略存在巨大的失控可能性（當然比現狀低，但仍高到無法接受）。另一方面，對潛在秘密項目的 AI 能力進度完全一無所知聽起來也很糟糕，特別是當協議持續數年或數十年，而你的不確定性不斷擴大時。

這裡似乎沒有顯而易見的解決方案，但這也像是協議談判代表稍後可以解決的那類細節。如果你足夠擔心秘密 ASI 項目，有很多方法可以嘗試更好地了解這種威脅，包括可能運行一個經批准的項目，試圖了解秘密項目可能取得的進展。

結論

我認為有很多工具可以用於驗證，以降低秘密 ASI 項目不被偵測到的可能性。驗證不會是一個簡單的問題，還有很多工作要做。但至少在目前，它更多是受阻於政治意願，而非物理上的不可能。總體而言，我樂觀地認為，擔憂 ASI 的世界領導人可以建立一個有效的驗證機制，利用我們協議中的方法，以及可能還有許多尚未被構思出來的方法。

如果你對這項工作感興趣並想加入我們的團隊，我們通常都在招聘研究人員。

— Lesswrong