OpenAI 對人工智慧自我改進所設定的紅線存在根本性缺陷

OpenAI 對人工智慧自我改進所設定的紅線存在根本性缺陷

Lesswrong·

這篇文章批評 OpenAI 的備災框架 v2,認為其針對人工智慧自我改進所設定的門檻過於寬鬆、缺乏可衡量的指標,且在沒有外部監督的情況下依賴自我認證。

摘要: OpenAI 在《備災框架 v2》(Preparedness Framework v2)中針對 AI 自我提升所設定的「關鍵」(Critical)閾值存在三個結構性問題:

  • 觸發太晚。 滯後指標(持續數月維持 5 倍的世代加速)會讓約 3 年的有效進展在觸發前就已累積。相比之下,Anthropic 使用的是 2 倍閾值而非 5 倍。
  • 自我認證。 在 GPT-5.5 系統卡(system card)中,自我提升是唯一一個外部評估者參與度為零的追蹤類別。
  • 無法測量。 對於「世代改進」缺乏操作性定義,發布版本之間沒有等效性指標,也沒有對「數個月」的具體說明。

一個具體的修正方案:當 METR 的 p50 時間跨度縮短至 2 個月以下時停止開發,並由獨立機構進行評估。


顯然,擁有閾值本身是件好事,但這些閾值過於寬鬆,指標無法測量,且內建了逃生條款。

1. 過於寬鬆

《備災框架 v2》 將 AI 自我提升的「關鍵」閾值定義為:

「或是:(領先指標)超人類研究科學家智能體;或是:(滯後指標)在 2024 年同等進展所需時間的 1/5 內(例如縮短至僅 4 週),持續數月實現世代模型改進(例如從 OpenAI o1 到 OpenAI o3)。[...] 在我們制定出符合『關鍵』標準的特定防護措施和安全控制之前,停止進一步開發。(預計我們不會在 5 倍時停止,如果達到這一點,會迅速衝向 10 倍、20 倍……)」

兩者觸發都太晚了。

領先指標只有在模型已經能比頂尖人類更好地進行 AI 研究時才會觸發。這對於採取行動來說不夠及時,我們基本上可以忽略它。

真正的核心在於滯後指標,它要求持續數月維持 5 倍的世代加速。如果我們寬容地將「數個」解讀為 6 個月,並做出(強大的)假設:我們從 1 倍加速到 5 倍,然後在達到 5 倍時不再進一步加速,這在觸發器啟動前仍相當於累積了 3 年的進展

(預計我們不會在 5 倍時停止,如果達到這一點,會迅速衝向 10 倍、20 倍……)

作為參考,Anthropic 使用的是 2 倍閾值,而非 5 倍。

2. 逃生條款

《備災框架》第 4.3 節允許 OpenAI 在競爭對手發布具有同等能力但缺乏同等防護措施的模型時,降低其自身的防護標準(其措辭相當晦澀)。^([1])

3. 滯後指標無法測量

對於「世代改進」沒有操作性定義,不同版本之間沒有等效性指標,也沒有對「數個月」的具體說明。

Epoch 對預訓練演算法效率的估計 顯示,95% 置信區間為 [4.5, 14.3] 個月,在我們測量最準確的趨勢中大約是 3 倍。Epoch 的研究人員最近寫道,相關證據「相當粗糙」。近期的能力飛躍來自於訓練後處理(強化學習、推理、工具使用),而我們對這些方面的測量精確度更低。

如果 OpenAI 指的是 METR 的 p50 時間跨度 翻倍率加速 5 倍,他們應該對此做出承諾。所謂「持續數月的 5 倍加速」可能早已隱藏在我們的測量不確定性之中。

就目前的寫法而言,該閾值幾乎無法被證偽。

4. 領先指標同樣無法測量

「超人類研究科學家智能體」

這就是框架對領先指標的全部描述。沒有給出基準測試或方法論,文件中其他地方也沒有進一步闡述。如果「超人類研究科學家」旨在與當前局部的超人類表現有質的區別,該框架欠我們一個評判標準。

如何修正

核心修正在於獨立評估。 GPT-5.5 系統卡 中,AI 自我提升是唯一一個外部評估者數量為零的追蹤類別。 生物風險有 SecureBio + 美國 CAISI,網絡風險有 Irregular + 美國 CAISI + 英國 AISI,隱藏意圖(sandbagging)有 Apollo。而自我提升類別空空如也。

OpenAI 不應是自我認證這些閾值的唯一方。獨立評估機構必須做出閾值判定,而不是由那些商業利益巨大、不惜一切代價也要繼續開發的實驗室來決定。

閾值也應該更加具體且預先承諾。 框架從未定義什麼是「符合關鍵標準的緩解措施」,而這是一項槓桿極高的工作。

附錄:一個初步的操作化方案

如果一位優秀的人類研究員在不使用 AI 的情況下,撰寫一篇被 NeurIPS 接收的論文大約需要 2 個月,我們就把紅線設在那裡,並規定當 METR 的 p50 時間跨度縮短至 2 個月時停止開發(或許這仍然太寬鬆了)。顯然,2 個月在某種程度上是隨機設定的,但「擁有具體的預先承諾」這一原則並非隨機。

按照目前約 3.5 個月的翻倍率,我們大約(希望)還有兩年的準備時間。情況會是這樣:

  • ^(^) 第 4.3 節的執行語言很晦澀,但結構是:如果「另一個前沿 AI 模型開發者」發布了同等系統且「未建立同等的防護措施」,OpenAI 可以「相應調整我們要求的防護水平」。——該條款附帶了一些條件(公開承認、保持比另一家開發者「更具保護性」、OpenAI 內部評估該變更「不會顯著增加整體風險」)。

參與討論

Lesswrong

相關文章

  1. 短期內出現危險AI的可能性有多大?

    6 個月前

  2. 在範例國際 AI 協議中設定 FLOP 閾值的考量因素

    6 個月前

  3. 自動化對齊研究能否在AI起飛前實現?

    3 個月前

  4. 我對當前人工智慧現況的描繪

    26 天前

  5. 我們實際上正處於缺乏基準測試來界定人工智慧能力上限的困境

    26 天前