
OpenAI 對人工智慧自我改進所設定的紅線存在根本性缺陷
這篇文章批評 OpenAI 的備災框架 v2,認為其針對人工智慧自我改進所設定的門檻過於寬鬆、缺乏可衡量的指標,且在沒有外部監督的情況下依賴自我認證。
摘要: OpenAI 在《備災框架 v2》(Preparedness Framework v2)中針對 AI 自我提升所設定的「關鍵」(Critical)閾值存在三個結構性問題:
- 觸發太晚。 滯後指標(持續數月維持 5 倍的世代加速)會讓約 3 年的有效進展在觸發前就已累積。相比之下,Anthropic 使用的是 2 倍閾值而非 5 倍。
- 自我認證。 在 GPT-5.5 系統卡(system card)中,自我提升是唯一一個外部評估者參與度為零的追蹤類別。
- 無法測量。 對於「世代改進」缺乏操作性定義,發布版本之間沒有等效性指標,也沒有對「數個月」的具體說明。
一個具體的修正方案:當 METR 的 p50 時間跨度縮短至 2 個月以下時停止開發,並由獨立機構進行評估。
顯然,擁有閾值本身是件好事,但這些閾值過於寬鬆,指標無法測量,且內建了逃生條款。
1. 過於寬鬆
《備災框架 v2》 將 AI 自我提升的「關鍵」閾值定義為:
「或是:(領先指標)超人類研究科學家智能體;或是:(滯後指標)在 2024 年同等進展所需時間的 1/5 內(例如縮短至僅 4 週),持續數月實現世代模型改進(例如從 OpenAI o1 到 OpenAI o3)。[...] 在我們制定出符合『關鍵』標準的特定防護措施和安全控制之前,停止進一步開發。(預計我們不會在 5 倍時停止,如果達到這一點,會迅速衝向 10 倍、20 倍……)」
兩者觸發都太晚了。
領先指標只有在模型已經能比頂尖人類更好地進行 AI 研究時才會觸發。這對於採取行動來說不夠及時,我們基本上可以忽略它。
真正的核心在於滯後指標,它要求持續數月維持 5 倍的世代加速。如果我們寬容地將「數個」解讀為 6 個月,並做出(強大的)假設:我們從 1 倍加速到 5 倍,然後在達到 5 倍時不再進一步加速,這在觸發器啟動前仍相當於累積了 3 年的進展。
(預計我們不會在 5 倍時停止,如果達到這一點,會迅速衝向 10 倍、20 倍……)
作為參考,Anthropic 使用的是 2 倍閾值,而非 5 倍。
2. 逃生條款
《備災框架》第 4.3 節允許 OpenAI 在競爭對手發布具有同等能力但缺乏同等防護措施的模型時,降低其自身的防護標準(其措辭相當晦澀)。^([1])
3. 滯後指標無法測量
對於「世代改進」沒有操作性定義,不同版本之間沒有等效性指標,也沒有對「數個月」的具體說明。
Epoch 對預訓練演算法效率的估計 顯示,95% 置信區間為 [4.5, 14.3] 個月,在我們測量最準確的趨勢中大約是 3 倍。Epoch 的研究人員最近寫道,相關證據「相當粗糙」。近期的能力飛躍來自於訓練後處理(強化學習、推理、工具使用),而我們對這些方面的測量精確度更低。
如果 OpenAI 指的是 METR 的 p50 時間跨度 翻倍率加速 5 倍,他們應該對此做出承諾。所謂「持續數月的 5 倍加速」可能早已隱藏在我們的測量不確定性之中。
就目前的寫法而言,該閾值幾乎無法被證偽。
4. 領先指標同樣無法測量
「超人類研究科學家智能體」
這就是框架對領先指標的全部描述。沒有給出基準測試或方法論,文件中其他地方也沒有進一步闡述。如果「超人類研究科學家」旨在與當前局部的超人類表現有質的區別,該框架欠我們一個評判標準。
如何修正
核心修正在於獨立評估。 在 GPT-5.5 系統卡 中,AI 自我提升是唯一一個外部評估者數量為零的追蹤類別。 生物風險有 SecureBio + 美國 CAISI,網絡風險有 Irregular + 美國 CAISI + 英國 AISI,隱藏意圖(sandbagging)有 Apollo。而自我提升類別空空如也。
OpenAI 不應是自我認證這些閾值的唯一方。獨立評估機構必須做出閾值判定,而不是由那些商業利益巨大、不惜一切代價也要繼續開發的實驗室來決定。
閾值也應該更加具體且預先承諾。 框架從未定義什麼是「符合關鍵標準的緩解措施」,而這是一項槓桿極高的工作。
附錄:一個初步的操作化方案
如果一位優秀的人類研究員在不使用 AI 的情況下,撰寫一篇被 NeurIPS 接收的論文大約需要 2 個月,我們就把紅線設在那裡,並規定當 METR 的 p50 時間跨度縮短至 2 個月時停止開發(或許這仍然太寬鬆了)。顯然,2 個月在某種程度上是隨機設定的,但「擁有具體的預先承諾」這一原則並非隨機。
按照目前約 3.5 個月的翻倍率,我們大約(希望)還有兩年的準備時間。情況會是這樣:
- ^(^) 第 4.3 節的執行語言很晦澀,但結構是:如果「另一個前沿 AI 模型開發者」發布了同等系統且「未建立同等的防護措施」,OpenAI 可以「相應調整我們要求的防護水平」。——該條款附帶了一些條件(公開承認、保持比另一家開發者「更具保護性」、OpenAI 內部評估該變更「不會顯著增加整體風險」)。
相關文章