新報告：防止人工超級智能過早誕生的國際協議

Lesswrong·5 個月前

我們發布了一份報告，提議由美中兩國領導簽署一項國際協議，透過限制 AI 訓練規模與研究來暫停人工超智慧的開發，以防止災難性風險。該框架利用晶片監控與運算上限來確保安全，直到 AI 對齊挑戰得到充分解決為止。

TLDR：我們 MIRI 技術治理團隊發布了一份報告，描述了一項旨在阻止人工超智慧（ASI）進展的國際協議範例。該協議的核心在於限制 AI 訓練的規模，並限制某些 AI 研究。

專家們認為，過早開發人工超智慧（ASI）會帶來災難性風險，包括被惡意行為者誤用、引發地緣政治動盪與戰爭，以及因 AI 對齊失誤（misalignment）導致的人類滅絕。關於對齊問題，Yudkowsky 與 Soares 在《紐約時報》暢銷書《如果有人造出它，所有人都會死》（If Anyone Builds It, Everyone Dies）中指出，世界需要一項強有力的國際協議來禁止開發超智慧。本報告即是我們嘗試詳細規劃這類協議的成果。

源於 AI 對齊失誤的風險尤其令人擔憂，這在該領域甚至在 AI 公司的領導者中都已得到廣泛認可。不幸的是，支撐現代 AI 開發的深度學習範式，似乎極易產生與人類利益不一致的代理人（agents）。AI 發展中可能存在一個「不歸路點」——在該點之後，由於人類已被剝奪權力，對齊失敗將變得不可挽回。

一旦 AI 研究與開發能由 AI 自行直接進行，回饋迴路（feedback loop）的可能性將使預測這一門檻變得更加複雜。顯而易見的是，在 AI 對齊的核心挑戰得到充分解決之前，我們很可能就會跨越失控 AI 能力的門檻。我們必須在還能採取行動時及時行動。

但該如何做？

在我們的新報告中，我們提議簽署一項國際協議，在保留現有、有益的 AI 應用的同時，停止向超智慧邁進。我們不知道何時會跨越開發超智慧的不歸路點，因此這項協議實際上停止了所有推動通用 AI 能力前沿的工作。這種停滯狀態需要維持到 AI 開發可以安全進行為止；鑑於該領域尚不成熟，且當前範式所偏好的大型神經網絡相對缺乏透明度，這可能意味著需要數十年的時間。

我們提議的協議核心是由美國和中國領導的聯盟，旨在限制 AI 訓練規模和危險的 AI 研究。該框架為參與者提供了必要的保證，確保各管轄區內都在遵守限制；其預期並非讓參與者盲目信任彼此。參與者將採用核查機制來追蹤 AI 晶片的庫存及其使用方式。監測與執行將利用現有的國家資產和法律框架，遵循國際武器條約和防擴散協定的先例。

根據該協議，新 AI 的訓練運行將受到所使用的計算操作總數的限制。（我們建議將 10^(22) FLOP 作為監測門檻，將 10^(24) FLOP 作為嚴格上限。）有助於核查的事實是，AI 晶片價格昂貴、高度專業化，且前沿開發需要成千上萬顆晶片。AI 晶片的供應鏈也存在若干關鍵瓶頸，這簡化了控制和追蹤新產量的計畫。

聯盟成員將各自把 AI 晶片整合到少數已申報的數據中心，在那裡可以申報並監測其用途，以確保它們僅用於被允許的活動。任何單一未受監測設施中允許的晶片數量將受到嚴格限制。（我們建議限制為相當於 16 顆 H100 晶片，這在 2025 年的價值約為 50 萬美元）。

由於 AI 的進展可能迅速且不可預測，該框架還包括對可能推動人工超智慧或危及協議可核查性的研究限制。擁有相關技能的人數可能僅在數千到數萬之間，我們希望這些研究限制能足夠精確，從而對 AI 以外的領域產生微不足道的影響。

一個負責任的聯盟需要將其警惕性擴展到簽署國國境之外。任何人在任何地方進行危險的 AI 開發，都會威脅到世界各地的每個人。因此，聯盟必須視需要採取行動，確保非簽署國的合作，同時激勵他們加入聯盟。一種自然的激勵方式是允許其在監測機制下使用 AI 基礎設施和應用。更強大的激勵措施可能來自國際外交的標準工具包，包括經濟制裁和簽證禁令。

雖然目前形成此類聯盟存在政治障礙，但我們預見人們會越來越意識到，接受哪怕是 10% 的滅絕機率（引用研究人員中流行的一個數字），與我們管理其他風險的方式完全不符。在附錄中，我們討論了隨著政治意願隨時間增長，這類協議如何分階段達成。

聯盟的任務越早開始可能就越容易。隨著時間推移，快速回饋迴路、硬體擴散以及供應鏈瓶頸的緩解都變得更有可能發生。

在完整報告中，我們回應了關於我們建議的若干常見問題，包括為什麼我們認為成本較低的方案可能行不通，以及為什麼我們認為如果需要那麼長時間，應該將停止期限設計為持續數十年。我們認為這項工作是持續進行的，並期待大家參與細節討論並幫助我們改進。

對於那些比起閱讀更喜歡聆聽的人，該協議的早期版本曾在 FAR 研討會演講中討論過，可在 YouTube 上觀看。

在後續文章中，我們計劃探討關於簽署國及其管轄範圍外團體可能規避協議的其他疑慮。我們還將解釋提議的算力門檻背後的一些思考，考慮協議可能引發的威權主義威脅，將我們的提議與其他國際安排進行比較，並提供額外的政策建議。

如果您對這項工作感興趣並想加入我們的團隊，我們通常都在招聘研究人員。

— Lesswrong

你的個人知識庫

新報告：防止人工超級智能過早誕生的國際協議