在範例國際 AI 協議中設定 FLOP 閾值的考量因素

Lesswrong·5 個月前

這篇文章解釋了我們在擬議的國際人工智慧協議中設定保守 FLOP 門檻的理由，即禁止超過 10^24 FLOP 的訓練並監控超過 10^22 FLOP 的訓練，以防止危險超級智慧的出現。我們主張採用這些特定限制，是因為算力是衡量與驗證模型能力的可行指標，但我們也對隨演算法進步和技術理解演變而調整門檻保持開放態度。

我們機器智能研究所（MIRI）的技術治理團隊提議了一份具說明性的國際協議（部落格文章），旨在暫停超智能（superintelligence）的開發，直到能確保其安全性為止。對於尚未閱讀過的讀者，我們建議在閱讀本文前先熟悉該協議內容。

內容摘要：本文解釋了我們在提議的國際 AI 協議中設定 FLOP 門檻的理由：我們禁止超過 10^(24) FLOP 的訓練運行，並要求對 10^(22) 至 10^(24) FLOP 之間的運行進行監測。鑑於達成危險 AI 能力所需的 FLOP 數量存在根本性的不確定性，我們主張採取保守的門檻。其他考量因素包括從現在到協議實施期間的演算法進步，以及當前 AI 模型的強大能力。

這篇文章旨在解釋我們選擇這些訓練算力門檻的背後邏輯。我們將其稱為「FLOP 門檻」（FLOP = 浮點運算次數），以避免與有時也被稱為「算力」的晶片本身產生混淆。這些考量對於其他思考 FLOP 門檻的人士也具有參考價值，包括未來若協議實施時，可能對協議門檻進行修改的假設性談判代表或監管機構。

讀者可參閱協議第四條（Article IV）查看全文，其簡要版本如下：

禁止超過 10^(24) FLOP（即 1e24）的訓練運行。我們稱之為「嚴格門檻」（Strict Threshold）。禁止超過 10^(23) FLOP 的後訓練（Post-training）（嚴格後訓練門檻）。
介於 10^(22) FLOP 與 10^(24) FLOP 之間的訓練運行必須向治理機構申報、預先獲得批准，並接受治理機構的監測與暫停。我們稱 10^(22) FLOP 為「監測門檻」（Monitored Threshold）。
這些門檻可根據需要進行修改。
協議鼓勵為安全評估、自動駕駛車輛和醫療技術等活動建立特定的豁免條款。
人們被允許繼續使用協議生效前創建的模型，包括使用超過 10^(24) FLOP 訓練的模型。這包括對這些模型進行後訓練，最高可達嚴格後訓練門檻。

我們提議的門檻設定遠低於當前的尖端模型（我們認為這些模型在相關意義上尚未具備危險性）。作為參考，嚴格門檻略低於某些近尖端模型的訓練算力，例如 DeepSeek-R1（約 4 x 10^(24) FLOP）和 gpt-oss-120B（約 5 x 10^(24) FLOP），其成本約為一百萬美元。

總體而言，我們並不執著於這些特定的數值，協議也明確表示這些門檻可以更新以適應情況。儘管如此，這些門檻是我們目前對於初始設定的最佳推測。

為什麼要設定 FLOP 門檻？

理想情況下，我們會直接針對 AI 的「能力」設定門檻。不幸的是，我們只能在 AI 訓練完成後才知道它的能力，而到那時可能已經太晚了。如果一個危險的 AI 已經被創造出來，可能就無法對其進行遏制。相反地，FLOP 門檻提供了一個可以在危險 AI 誕生之前就預先定義並執行的衡量標準。

FLOP 門檻被提議作為 AI 治理關鍵手段的原因有很多，以下改編自 Erben 等人 (2025)：

大致追蹤能力：訓練算力與模型能力有相當強的相關性，特別是在演算法進步受到限制時（正如我們協議中的研究控制所要求的那樣；在某種程度上，數據質量的提升在我們的協議下也會受到限制）。
部署前可測量：訓練算力在模型部署前即可測量，甚至在訓練開始前就能準確估計。這使得人們較難像在能力門檻下那樣意外跨越界限。
可由外部驗證：AI 晶片可以被監測，從而允許外部驗證 AI 的總訓練 FLOP（參見 Baker 等人 2025 附錄 A.6）。
追蹤成本：訓練 FLOP 與訓練模型所需的資源直接相關。

FLOP 門檻也有各種局限性：

僅為「大致」追蹤能力：FLOP 與 AI 風險之間的關係存在不確定性，「能力追蹤」方面遠非完美。例如，與使用劣質數據和落後演算法訓練的高 FLOP 模型相比，更好的數據和演算法往往能使模型在較低 FLOP 下具備更強能力。參見例如 Hooker (2024)、Ho 等人 (2024)、Heim & Koessler (2024)。
非預訓練的能力增益：雖然預訓練中 FLOP 與 AI 能力的關係已有一定研究，但在後訓練或推理階段使用的 FLOP 如何影響模型性能，仍存在許多不確定性。參見 Hooker (2024)、Davidson 等人 (2023)。
方法論挑戰：FLOP 計算在技術上仍存在一些模糊之處；需要更多工作來精確定義 FLOP 門檻並使 FLOP 計數具備可操作性。參見 Hooker (2024)、Casper 等人 (2025)、Pistillo & Villalobos (2025)。

設定門檻的主要考量因素

在決定此類協議中的 FLOP 限制應設在何處時，有幾個指導性考量。

首先，門檻的主要目標是讓世界在不大幅增加災難性風險的前提下，擁有最先進的 AI。門檻設得太低會浪費巨大的價值；但設得太高則會非常危險。多高算太高？不幸的是，沒人知道。

第二個指導性考量是，沒人知道訓練一個人工超智能（ASI）、自動化 AI 研究員或任何其他顯著的危險能力需要多少 FLOP。

需要明確的是，問題不僅在於 FLOP——AI 預測確實非常困難！主要的 AI 預測方法之一，即 Kaplan 等人 (2020) 記錄的「縮放定律」（scaling laws），展示了預訓練 FLOP 與驗證集上交叉熵損失（cross-entropy loss）之間的關係。傳統上，公司使用此方法僅根據較小的訓練實驗來預測大模型的潛力。將此方法應用於我們的案例很困難。「交叉熵損失」本身沒有意義，你需要將其與現實世界的能力掛鉤。例如，人們可以使用 Barnett & Besiroglu (2023) 中的「不可區分性」概念。或者，可以證明交叉熵損失與某些基準測試性能相關（或如 Pimpale 等人 (2025) 所述，FLOP 與基準性能密切相關）。在後一種情況下，必須確保基準測試符合現實世界的用例和能力（這是一項公認的艱巨任務）。因此，在確保「你擁有的指標」與「你關心的能力」正確關聯方面，存在重大挑戰。

還有另一個大問題，即這些縮放定律假設演算法和數據質量是固定的。如果暫停是持續的，且我們看到演算法和數據質量的進步已被有效阻斷，那麼或許我們可以做出一些可靠的預測。但目前情況並非如此。從今天的視角來看，演算法和數據正在迅速改進，使用經驗縮放定律根本無法精確預測整個領域將會發生什麼。你可以做出一般的陳述，如「隨著訓練使用的 FLOP 增加，AI 模型的能力會增強，且我們觀察到的數據中心投資與未來幾年大規模增加訓練 FLOP 的趨勢一致」。但這與你在此處所需的關於 AI 能力的具體預測是完全不同的主張。

如果世界採納了我們範例協議中的門檻，我們就是在賭：在協議前的演算法和數據質量下，10^(24) FLOP（嚴格門檻）不足以讓某人訓練出 ASI。這顯然是一個在條約談判期間應進行更多審議的主題！

該協議包括對超過 10^(22) FLOP（監測門檻）的訓練運行進行監測。這種監測可能包括採用「白名單」方法，以確保訓練中沒有使用新產生的演算法創新。也就是說，受監測的訓練運行可以使用協議生效前已存在的 AI 演算法，但隨後開發的任何演算法都將違反研究限制，並因此被監測人員標記。所以我們也在賭：在研究限制實施後發生的任何非法演算法或數據研究，也不足以讓人在 10^(22) FLOP（監測門檻）下開發出 ASI。請注意，不受監測的晶片仍將是一個問題，特別是那些不遵守 FLOP 門檻的大型秘密集群。

第三個考量是，當前的尖端模型似乎已經接近我們所關心的某些危險能力。評估現有模型存在許多困難，例如評估的外部有效性差、誘導（elicitation）不足、未能評估與 AI 的廣泛互動等等——參見 Barnett & Thiergart (2024) 和 Mukobi (2024)。因此，很難知道模型在深層意義上有多「強大」。但 AI 公司最近開始表示，他們不能排除模型在生物和化學武器開發方面為新手提供實質性助力，且有軼事證據表明 AI 正開始顯著加速 AI 公司內部的 AI 開發。我們確實無法確定，但 AI 在短短幾年內就能自主進行尖端 AI 研究似乎是可能的；OpenAI 最近表示他們計劃在 2028 年 3 月前開發出「真正的自動化 AI 研究員」。AI 研究是一項特別值得注意的能力，因為如果這項能力高度普及，驗證研究限制將變得更加困難。

第四個考量是，我們認為鑑於巨大的不確定性，世界在管理這種風險時應保持保守。沒人知道訓練 ASI 需要多少 FLOP，這一事實不應意味著「勇往直前」。如果你在霧中駕駛，知道前方有懸崖但幾乎不知道有多遠，正確的決定是踩死煞車。因此，我們建議一個相對保守的門檻——遠低於今天的尖端模型（再次強調，這些模型在相關意義上尚未具備危險性）。

設定門檻的次要考量因素

該協議不會在明天就實施。到它實施時，「達到特定能力水平所需的算力」將比今天低得多。根據 Ho 等人 (2024)，達到特定能力水平所需的算力每年下降約 3 倍。而觀察最近的數據，這一趨勢似乎更快（即將發布）。因此，未來的 10^(24) FLOP 模型將比今天的 10^(24) FLOP 模型更強大，甚至強大得多。協議的通過必然需要時間，我們大致設想它在 1 到 2 年後生效。

另一個考量是，最好選擇監測起來切實可行的門檻。這一考量通常傾向於設定較高的門檻——10 萬片晶片和 10^(26) FLOP 的訓練運行比 1,000 片晶片和 10^(24) FLOP 的訓練運行要明顯得多。我們建議的門檻在監測 16 片 H100 的集群規模方面具有一定的可監測性（遺憾的是，這可能無法可靠監測），但總體而言，我們並未將此考量放在首位。使用 16 片 H100 GPU 達到 10^(24) FLOP 的嚴格門檻需要 730 天——這將是前所未有的漫長，且可能會被偵測到。

我們不希望門檻低到干擾非 AI 的計算活動，也不希望低到讓人們因失誤而違反。10^(22) FLOP 的監測門檻設定得足夠高，使愛好者和普通用戶不會在正常的計算活動中意外違反。

另一個考量是，門檻的終極目標應該是旨在防止 ASI，還是旨在防止 AI 能力超越當前的尖端水平。對 FLOP 門檻的一種潛在取向是將其設得極低，以至於沒人能訓練出比協議前更強大的模型。例如，擔心失業問題的人可能會持有這種觀點，因為即使對當前 AI 能力進行邊際改進也可能產生巨大影響。我們的主要焦點是確保沒人訓練出 ASI 或其他不可接受的危險 AI。這個不可接受的能力門檻（希望）會高於之前存在的最優 AI，但遺憾的是我們不確定高出多少。由於這種不確定性，我們建議將 AI 能力保持在當前尖端水平以下，作為一種預防措施。

如果您對這項工作感興趣並想加入我們的團隊，我們通常都在招聘研究人員。

— Lesswrong

你的個人知識庫

在範例國際 AI 協議中設定 FLOP 閾值的考量因素

為什麼要設定 FLOP 門檻？

設定門檻的主要考量因素

設定門檻的次要考量因素