OpenAI 對人工智慧自我改進所設定的紅線存在根本性缺陷

Lesswrong·大約 18 小時前

這篇文章批評 OpenAI 的備災框架 v2，認為其針對人工智慧自我改進所設定的門檻過於寬鬆、缺乏可衡量的指標，且在沒有外部監督的情況下依賴自我認證。

摘要： OpenAI 在《備災框架 v2》（Preparedness Framework v2）中針對 AI 自我提升所設定的「關鍵」（Critical）閾值存在三個結構性問題：

觸發太晚。 滯後指標（持續數月維持 5 倍的世代加速）會讓約 3 年的有效進展在觸發前就已累積。相比之下，Anthropic 使用的是 2 倍閾值而非 5 倍。
自我認證。 在 GPT-5.5 系統卡（system card）中，自我提升是唯一一個外部評估者參與度為零的追蹤類別。
無法測量。 對於「世代改進」缺乏操作性定義，發布版本之間沒有等效性指標，也沒有對「數個月」的具體說明。

一個具體的修正方案：當 METR 的 p50 時間跨度縮短至 2 個月以下時停止開發，並由獨立機構進行評估。

顯然，擁有閾值本身是件好事，但這些閾值過於寬鬆，指標無法測量，且內建了逃生條款。

1. 過於寬鬆

《備災框架 v2》將 AI 自我提升的「關鍵」閾值定義為：

「或是：（領先指標）超人類研究科學家智能體；或是：（滯後指標）在 2024 年同等進展所需時間的 1/5 內（例如縮短至僅 4 週），持續數月實現世代模型改進（例如從 OpenAI o1 到 OpenAI o3）。[...] 在我們制定出符合『關鍵』標準的特定防護措施和安全控制之前，停止進一步開發。（預計我們不會在 5 倍時停止，如果達到這一點，會迅速衝向 10 倍、20 倍……）」

兩者觸發都太晚了。

領先指標只有在模型已經能比頂尖人類更好地進行 AI 研究時才會觸發。這對於採取行動來說不夠及時，我們基本上可以忽略它。

真正的核心在於滯後指標，它要求持續數月維持 5 倍的世代加速。如果我們寬容地將「數個」解讀為 6 個月，並做出（強大的）假設：我們從 1 倍加速到 5 倍，然後在達到 5 倍時不再進一步加速，這在觸發器啟動前仍相當於累積了 3 年的進展。

（預計我們不會在 5 倍時停止，如果達到這一點，會迅速衝向 10 倍、20 倍……）

作為參考，Anthropic 使用的是 2 倍閾值，而非 5 倍。

2. 逃生條款

《備災框架》第 4.3 節允許 OpenAI 在競爭對手發布具有同等能力但缺乏同等防護措施的模型時，降低其自身的防護標準（其措辭相當晦澀）。^([1])

3. 滯後指標無法測量

對於「世代改進」沒有操作性定義，不同版本之間沒有等效性指標，也沒有對「數個月」的具體說明。

Epoch 對預訓練演算法效率的估計顯示，95% 置信區間為 [4.5, 14.3] 個月，在我們測量最準確的趨勢中大約是 3 倍。Epoch 的研究人員最近寫道，相關證據「相當粗糙」。近期的能力飛躍來自於訓練後處理（強化學習、推理、工具使用），而我們對這些方面的測量精確度更低。

如果 OpenAI 指的是 METR 的 p50 時間跨度翻倍率加速 5 倍，他們應該對此做出承諾。所謂「持續數月的 5 倍加速」可能早已隱藏在我們的測量不確定性之中。

就目前的寫法而言，該閾值幾乎無法被證偽。

4. 領先指標同樣無法測量

「超人類研究科學家智能體」

這就是框架對領先指標的全部描述。沒有給出基準測試或方法論，文件中其他地方也沒有進一步闡述。如果「超人類研究科學家」旨在與當前局部的超人類表現有質的區別，該框架欠我們一個評判標準。

如何修正

核心修正在於獨立評估。 在 GPT-5.5 系統卡中，AI 自我提升是唯一一個外部評估者數量為零的追蹤類別。 生物風險有 SecureBio + 美國 CAISI，網絡風險有 Irregular + 美國 CAISI + 英國 AISI，隱藏意圖（sandbagging）有 Apollo。而自我提升類別空空如也。

OpenAI 不應是自我認證這些閾值的唯一方。獨立評估機構必須做出閾值判定，而不是由那些商業利益巨大、不惜一切代價也要繼續開發的實驗室來決定。

閾值也應該更加具體且預先承諾。 框架從未定義什麼是「符合關鍵標準的緩解措施」，而這是一項槓桿極高的工作。

附錄：一個初步的操作化方案

如果一位優秀的人類研究員在不使用 AI 的情況下，撰寫一篇被 NeurIPS 接收的論文大約需要 2 個月，我們就把紅線設在那裡，並規定當 METR 的 p50 時間跨度縮短至 2 個月時停止開發（或許這仍然太寬鬆了）。顯然，2 個月在某種程度上是隨機設定的，但「擁有具體的預先承諾」這一原則並非隨機。

按照目前約 3.5 個月的翻倍率，我們大約（希望）還有兩年的準備時間。情況會是這樣：

^(^) 第 4.3 節的執行語言很晦澀，但結構是：如果「另一個前沿 AI 模型開發者」發布了同等系統且「未建立同等的防護措施」，OpenAI 可以「相應調整我們要求的防護水平」。——該條款附帶了一些條件（公開承認、保持比另一家開發者「更具保護性」、OpenAI 內部評估該變更「不會顯著增加整體風險」）。

參與討論

— Lesswrong