在人工智慧暫停期間捕捉非法分散式訓練行動

Lesswrong·大約 5 小時前

文章提議透過在受監管晶片集群的定義中加入高頻寬記憶體限制，來堵住人工智慧治理中的漏洞，以防止規避者利用秘密的分散式訓練網絡。這項調整旨在讓非法開發超人類人工智慧的成本顯著增加，並透過國際監測與檢查使其更容易被發現。

去年，我在 MIRI 技術治理團隊的同事提出了一項國際協議，旨在暫停具有風險的超人類人工智慧開發，直到其能以安全的方式進行。該協議將要求所有運算能力超過 16 張 H100 GPU 的 AI 晶片集群，都必須向一個由美國和中國領導的國家聯盟進行註冊，該聯盟將監控其運作，以確保它們不會被用於不安全的人工智慧開發。在我看來，這項提案的考量非常周全且詳盡——作者識別了各種應急情況，並堵住了計劃中的許多漏洞。

然而，有一個威脅模型未能得到充分解決。以下是該協議中關於須履行註冊義務之集群的定義：

「受控晶片集群（CCC）係指總計有效運算能力大於 16 個 H100 等效值的任何 AI 晶片組或網路化集群。網路化集群是指符合以下條件之晶片：實體位於同一地點、節點間總頻寬（定義為不同主機/機箱之間的頻寬總和）大於 25 Gbit/s，或透過網路連接共同執行運算工作負載。16 張 H100 晶片的總計有效運算能力為 15,840 TFLOP/s，或總處理能力為 253,440 TFLOP-bit/s。」

不幸的是，這個定義存在一種漏洞：它讓透過「分散式訓練」來違反協議的方法變得可行。規避者無需在具有專用互連設備的單一大型集群上訓練模型，而可以在由小型節點組成的去中心化網路上進行訓練工作，每個節點分別對訓練數據的不同子集計算梯度。

請注意，該定義確實明確包含了任何透過網路連接以共同執行運算工作負載的硬體組合，因此分散式訓練本就已被禁止。但被禁止的事情並不一定能強制執行。規避者可以秘密收集數千個 GPU，將其分散到各個低於申報門檻的小型節點中，如果其中一個被發現，他們可以否認自己正在從事任何受禁活動。

MIRI 早就考慮到了這種可能性。在撰寫協議時，作者希望限制措施足夠寬鬆，使普通個人不會因意外而違反規定，但又要足夠嚴格，使未受監控的集群無法透過網路連接來訓練危險模型。他們選擇了每秒 25 Gbps，這比 AI 硬體互連速度慢，但比幾乎所有家庭或除數據中心以外的設施的網路連接都要快。模型開發者通常依賴更快的連接來傳輸大量數據，而消費級網路連接被認為對於模型訓練來說慢得不切實際。

最近，我決定更深入地研究這種可能性。我對分散式訓練進行了文獻回顧，並建立了一個模擬器，用以模擬在網際網路上具有多節點、分層配置和流水線並行（pipeline parallelism）的訓練網路效率。該模擬器採用已發表的機器學習實驗中觀察到的縮放行為（scaling behavior），並進行推演，以預測在尚未嘗試過的大規模情況下，使用分散式訓練所訓練出的模型品質。

根據這項研究結果，我們對受控晶片集群的定義進行了一個簡單的修改，以堵住分散式訓練的漏洞：任何高頻寬記憶體超過 1,280 GB 的集群現在也納入受控範圍，因此須遵守註冊和監控要求。新定義（修改部分以粗體顯示）如下：

「受控晶片集群（CCC）係指總計有效運算能力或加速器記憶體大於 16 個 H100 等效值的任何 AI 晶片組或網路化集群。網路化集群是指符合以下條件之晶片：實體位於同一地點、節點間總頻寬（定義為不同主機/機箱之間的頻寬總和）大於 25 Gbit/s，或透過網路連接共同執行運算工作負載。16 張 H100 晶片的總計有效運算能力為 15,840 TFLOP/s，或總處理能力為 253,440 TFLOP-bit/s。16 張 H100 晶片的總加速器記憶體為 1,280 GB。」

這一簡單的改變使規避者利用未註冊硬體的分散式運算集群秘密訓練前沿規模模型的成本幾乎翻倍，並迫使他們使用五倍之多的節點，因為在記憶體限制下，每個節點允許的晶片數量更少。這極大地增加了規避者進行此類訓練任務所需的資金操縱和行動保密難度，並使其更容易被協議成員國偵測到。

其他發現秘密分散式訓練網路的機制包括：

初始晶片整合：在協議生效日，各方將定位並開始追蹤極高比例的現有 AI 晶片，這讓規避者幾乎沒有空間藏匿未經核算的晶片。
舉報者：條約為舉報非法秘密行動的研究人員提供激勵和避風港。分散式訓練的設置需要數萬個節點，並需要技術人員訪問每個節點進行安裝和維護。要保證他們中沒有人會舉報該網路，並讓每個站點都避開外國情報機構的監視，是不可能的。
質詢式檢查：執行委員會成員（即美國和中國）可以進行隨機檢查，或根據成員國對此類分散式訓練行動的懷疑對特定站點進行檢查。雖然規避者可以透過 VPN、頻寬結構化和額外的誤導性流量來增加難度，但檢查可能會發現將一個節點與網路其餘部分聯繫起來的證據，從而揭露整個行動。

上述方法結合在一起，使得規避者極難保持此類行動的秘密性。

人工智慧正在迅速發展，我們需要全球合作來解決其風險。MIRI 的國際協議促進了穩定、可靠的算力治理，防止背叛者作弊並引發危險的安全性逐底競爭。一個沒有漏洞、且各方都信任能確保世界安全的協議，更有可能被採納，也是人類應對先進人工智慧危險的最佳選擇之一。

本部落格文章摘要了即將發布的研究報告。如果您想在發布前討論研究結果，請聯繫我們。

非常感謝 Jaime Sevilla 關於在網際網路上縮放去中心化訓練的文章，以及 Aaron Scher 的多次批判性評論，這些評論完善了本專案，並將其重點導向對算力治理最重要的問題。

參與討論

https://lesswrong.com/posts/35yyWJnXvC2ae6NKH/catching-illicit-distributed-training-operations-during-an