各大實驗室的AI安全計畫：2025年版

Lesswrong·6 個月前

這篇文章分析了 Anthropic、Google DeepMind 和 OpenAI 在 2025 年更新的安全框架，強調了我們對監測生物安全、網絡安全和自主開發風險的共同承諾。我們採取了類似的方法，即測試危險能力，並在風險超過可接受水平時實施保障措施或暫停開發。

這是一篇關於 https://aisafety.info/questions/NM58/What-are-the-major-AI-companies'-safety-plans 的連結文章。

三大頂尖 AI 公司的執行長達成共識：「減輕 AI 導致的滅絕風險應成為全球優先事項。」

他們計畫如何做到這一點？

Anthropic 制定了負責任擴展政策 (Responsible Scaling Policy)，Google DeepMind 擁有前沿安全框架 (Frontier Safety Framework)，而 OpenAI 則有預備框架 (Preparedness Framework)，這些政策皆已在 2025 年更新。

政策概覽

這三項政策都有類似的「骨架」。^([1]) 他們：

採取相同的高層次方法：公司承諾在開發過程中測試其 AI 是否具備危險能力；如果發現 AI 具有危險能力，他們將在部署前實施保障措施，將風險降低到「可接受的水平」。
基本上鎖定相同的三個 AI 能力領域進行追蹤：生物安全威脅、網路安全威脅和自主 AI 開發。
關注「濫用 (misuse)」多於「失調 (misalignment)」。

本文其餘部分的摘要表格（太長不看版）：

	Anthropic	Google DeepMind	OpenAI
安全政策文件	負責任擴展政策	前沿安全框架	預備框架
監測指標：	能力閾值 (Capability Thresholds)	關鍵能力水平 (CCLs)	追蹤類別中的高/關鍵風險能力
…在這些關鍵領域：	CBRN^([2]) 濫用/武器<br>自主 AI 研發	生物/化學濫用<br>網路行動（「可能」需要強於 ASL-2 的保護）	網路安全
…以及這些低優先級領域：	說服力^([3])<br>欺騙性失調（側重於檢測工具性推理）		偷懶 (Sandbagging)、自主複製、遠程自主
監測內容包括…	初步評估：標記 1) 在自動化測試中表現提升 4 倍^([4])，或 2) 累積超過 6 個月^([5]) 微調/其他「能力激發方法」的模型。<br>綜合評估：包括威脅模型映射、經驗評估、能力激發和預測。	具有預定義警報閾值的預警評估<br>外部紅隊演練	可擴展評估（自動化代理測試）<br>深度探究（如紅隊演練、專家諮詢）
對識別風險的反應：	跨越閾值的模型必須符合 ASL-3 或 ASL-4 保障措施<br>Anthropic 可延遲部署或限制進一步訓練	撰寫能力報告並獲得 CEO、負責任擴展官和董事會的簽署<br>若模型達到警報閾值，則制定應對計畫<br>計畫涉及應用預定的緩解措施<br>若緩解措施不足，計畫可能涉及暫停部署或開發	僅在治理機構批准安全案例 (safety case) 後才允許一般部署<br>高風險模型僅在有足夠保障措施下才能部署<br>關鍵風險模型會觸發開發暫停
防範濫用的保障措施	威脅建模、縱深防禦、紅隊演練、快速修復、監測、僅與受信任用戶共享	威脅建模、監測/濫用檢測	魯棒性、使用監測、基於信任的訪問
防範失調的保障措施	「建立肯定案例，(1) 識別模型追求失調目標所帶來的最直接且相關的風險，(2) 說明我們如何將這些風險減輕至可接受水平。」	安全微調、思維鏈監測、「未來工作」	價值對齊<br>指令對齊<br>強大的系統監督<br>架構遏制
安全保障措施	訪問控制、生命週期安全、監測	基於 RAND 的安全控制、防外洩	分層安全架構、零信任原則、訪問管理
治理結構	負責任擴展官<br>需要外部專家回饋<br>高風險案例升級至董事會和長期利益信託	「當達到警報閾值時，應對計畫將由適當的公司治理機構（如 Google DeepMind AGI 安全委員會等）審查並批准。」	安全諮詢小組 (SAG) 評估模型；向 OpenAI 領導層和董事會安全與保障委員會報告

讓我們拆解該表格並查看各別公司的計畫。

Anthropic

Anthropic 的負責任擴展政策（2025 年 5 月更新）是「[他們] 的公開承諾，除非 [他們] 實施了能將風險保持在可接受水平的安全與保障措施，否則不會訓練或部署能夠造成災難性傷害的模型。」

他們監測哪些能力？

對於 Anthropic 而言，能力閾值 (Capability Threshold) 是 AI 可能超越的能力水平，這使其危險到需要更強的保障措施。所需保障措施的強度以 AI 安全等級 (ASL) 表示。早期的一篇部落格文章根據模型能力總結了各個 ASL：

ASL-1 適用於：「不構成實質性災難風險的系統（例如 2018 年的 LLM 或僅會下棋的 AI 系統）。」
ASL-2 適用於：「顯示出危險能力早期跡象的系統——例如，能夠提供如何製造生物武器的指令，但由於可靠性不足或提供的信息並不優於搜尋引擎，目前尚無用處。」
ASL-3 適用於：「與非 AI 基準（如搜尋引擎或教科書）相比，實質性增加災難性濫用風險的系統，或顯示出低水平自主能力的系統。」
ASL-4 尚未完全定義，儘管已定義了 AI 研發和 CBRN 風險的能力閾值。這些風險的閾值涉及大幅加速有效擴展速度的能力，以及提升 CBRN 開發能力的能力。
ASL-5 尚未定義。

截至 2025 年 9 月，最強大的模型 (Opus 4.1) 被歸類為需要 ASL-3 保障措施。

Anthropic 在兩個領域指定了能力閾值，並正在考慮第三個：

自主 AI 研發（AI 自我改進）：
- AI R&D-4：模型可以完全自動化 Anthropic 初級研究員的工作。
- AI R&D-5：模型可能導致 AI 開發的戲劇性加速（例如遞歸自我改進）。

AI R&D-4 需要 ASL-3 保障措施，AI R&D-5 需要 ASL-4。此外，任何一個閾值都要求 Anthropic 撰寫一份「肯定案例」，解釋為什麼該模型不會構成不可接受的失調風險。

化學、生物、放射性與核子 (CBRN)：
- CBRN-3：模型可以顯著幫助具有基礎 STEM 背景的人員創建和部署 CBRN 武器。
- CBRN-4：模型可以提升國家級行為者的能力，例如實現新型武器設計或大幅加速 CBRN 計畫。

CBRN-3 需要 ASL-3 保障措施。CBRN-4 將需要 ASL-4 保障措施（尚未定義；Anthropic 已表示他們將在未來的更新中提供更多信息）。

網路行動（臨時）：Anthropic 仍在決定如何處理這一項。目前的政策表示他們將與網路專家合作，並可能根據能力評估實施分層訪問控制或階段性部署。

Anthropic 還列出了可能需要未來定義閾值的能力，例如具說服力的 AI、自主複製和欺騙。

如果無法證明模型遠低於閾值，Anthropic 會將其視為高於閾值。（這實際上發生在 Claude Opus 4 上，這是 Anthropic 發布的第一個帶有 ASL-3 安全措施的模型。）

他們如何監測這些能力？

Anthropic 定期進行初步評估，以檢查模型是否比之前的模型「明顯更強大」，這意味著：

模型在風險相關基準測試中的表現（以有效計算擴展衡量）提升了 4 倍，或
累積了至少六個月的微調或其他能力激發改進。

如果上述任一項屬實，或者負責任擴展官認為有必要，就會觸發綜合評估。這包括：

威脅模型映射：正式分析誰可以使用該模型、如何使用以及會產生什麼影響。
經驗評估：具體測試顯示模型是否能做危險的事情。
能力激發嘗試：測試有能力的用戶（如紅隊人員）是否能讓模型執行有害任務，即使使用了提示工程、腳手架 (scaffolding) 或基礎微調。
預測：關於模型是否可能在下一輪測試前跨越閾值的非正式預測。

Anthropic 明確測試模型的「安全關閉」變體，以查看其在沒有無害化訓練或拒絕處罰的情況下的能力，這是基於壞人可能繞過這些安全功能（例如通過竊取模型權重並進行微調）的假設。

如果 AI 看起來很危險，他們會怎麼做？

每個能力閾值都配有一套必要的保障措施，在跨越該閾值的模型進一步訓練或部署之前，這些措施必須到位。這些措施分為兩類：

部署保障措施（針對 ASL-3）旨在確保沒有人能濫用已部署的模型：

對對手如何災難性地濫用系統進行威脅建模。
採用**「縱深防禦」**方法來捕捉濫用企圖。
紅隊演練，以證明壞人極不可能利用該系統造成災難性傷害。
快速修復，即證明系統受損將被迅速識別並修復，以防止災難性傷害。
持續的監測。

安全保障措施（針對 ASL-3）旨在防止模型權重被竊取和濫用：

對對手如何奪取模型權重控制權進行威脅建模。
基於行業標準的安全框架，例如：
- 敏感資產周圍的邊界和訪問控制。
- 生命週期安全，防止引入受損組件。
- 主動監測並緩解威脅。
- 為安全工作提供資源，預計 5-10% 的員工專注於安全及相關工作。
- 在適當情況下遵循現有的保護模型權重指南。
安全計畫的審計，由獨立驗證並定期進行。
第三方環境：「記錄所有相關模型將如何滿足上述標準，即使它們部署在可能具有不同保障措施的第三方合作夥伴環境中。」

要使模型符合 ASL-3 安全標準，部署保護必須「對持續的濫用嘗試具有魯棒性」，且安全必須「高度保護，防止非國家攻擊者試圖竊取模型權重」。

一旦 ASL-3 保障措施到位，Anthropic 將進行後續能力評估，以確保不需要 ASL-4。Anthropic 尚未定義 ASL-4 的保障措施。

部署限制

未充分低於閾值的模型僅在以下情況下才能部署：

ASL-3（或更高）保障措施到位
已撰寫保障措施報告
CEO 和負責任擴展官批准部署
已通知 Anthropic 董事會和長期利益信託

如果保障措施無法立即實施，公司應延遲部署，並在保護措施準備就緒前盡力減少過渡期風險。

Google DeepMind

Google DeepMind 的前沿安全框架 (FSF)（最後更新於 2025 年 2 月）是其應對先進 AI 模型嚴重風險的協議。它主要關注可能造成巨大傷害的濫用風險（如網路攻擊、生物武器），但 2 月的版本還增加了一個關於「欺騙性失調」風險的章節，Google 將其定義為「AI 系統故意破壞人類對 AI 系統控制的風險」。^([6])

他們監測哪些能力？

FSF 監測關鍵能力水平 (CCL)：如果跨越這些閾值，意味著模型在缺乏額外緩解措施的情況下可能造成嚴重傷害。DeepMind 關注「能力提升 (uplift)」（AI 讓人類更容易做壞事）和「自主性 (autonomy)」（AI 可以獨自做壞事）帶來的風險。

濫用 CCL 是指可能使模型對試圖造成大規模傷害的人有所幫助的能力：

CBRN（化學、生物、放射性與核子）
- ^([7])能力提升：幫助資源匱乏的行為者製造大規模傷亡生物武器。
網路
- 能力提升：對高影響力網路攻擊提供重大幫助（成本/資源降低 >10 倍）。
- 自主性：端到端網路攻擊的完全自動化。
機器學習研發加速
- 能力提升：幫助行為者大幅擴展 AI 研究，使災難性模型更易獲得。
- 自主性：完全自動化 AI 研發。對於自主性等級 1，他們明確建議整個行業採取相當於 RAND SL 4 的安全控制。值得注意的是，他們表示不會獨自執行此操作。

欺騙性失調 CCL 是與模型誤導人類或破壞控制的潛力相關的閾值。

第一階段是模型發展出可能導致欺騙的工具性推理。
第二階段是自動化監測不再足以管理該風險——即模型可能隱藏其能力或破壞保障措施。

DeepMind 還關注跨越 CCL 類別的能力（如工具使用、代理能力或推理），這些能力本身可能不是風險，但可以促成上述風險。

他們如何監測這些能力？

DeepMind 定期評估其最強大的模型，並對代表其前代產品巨大飛躍的模型進行額外測試。

預警評估是一系列測試，用於判斷模型是否接近 CCL。每項測試都有一個「警報閾值」，如果模型達到該閾值，就會觸發進一步行動。DeepMind 表示，這些評估模擬了模型在現實世界中可能被使用的方式（包括使用腳手架和工具增強），以獲得真實的風險圖景。^([8]) 他們會隨著模型能力和激發方法的改進定期更新這些評估。

如果 DeepMind 在某個風險領域（如網路行動）缺乏足夠的內部專業知識，他們可能會聘請外部專家協助評估並進行紅隊演練。

如果模型跨越了警報閾值，DeepMind 可能會運行額外測試以精確風險估計，並了解模型距離 CCL 還有多近。

如果 AI 看起來很危險，他們會怎麼做？

如果發現模型接近或高於關鍵能力水平，DeepMind 將實施應對計畫。

部署緩解措施旨在防止用戶濫用已部署的模型。DeepMind 列出了安全微調、濫用檢測與過濾、部署後監測，以及在模型公開可用前進行治理審查。

只有在 Google DeepMind AGI 安全委員會批准「安全案例」（關於模型危險能力已得到充分緩解的正式論證）後，部署才會進行。^([9]) 如果無法實施足夠的緩解措施，模型部署和/或進一步開發「可能」會暫停，特別是當模型能力接近 CCL 且緩解措施難以保證時。

安全緩解措施旨在防止壞人竊取模型權重、移除安全功能並利用原始模型造成傷害。這些措施遵循基於 RAND SL（安全等級）框架的級別。例如，具有 CBRN 風險的模型可能需要 RAND SL 2 保護，其中包括：

模型權重加密
嚴格的內部訪問控制
推理和訓練場地的物理安全

DeepMind 強調模型外洩是一個嚴重風險，因為這將使惡意行為者能夠繞過所有部署保障措施。

DeepMind 明確表示，某些緩解措施只有在其他實驗室也採用時才有效——特別是安全措施。該框架反覆強調，社會層面的風險緩解需要整個 AI 領域的協調。

行業範圍的建議

除了安全等級之外，Google DeepMind 還提出了以下更廣泛的行業建議：

緩解措施的普遍應用：「這些緩解措施應被理解為對行業整體的建議」。
共享安全標準：整個框架被定位為行業的「當前理解和推薦方法」。
協調披露：他們計畫與「其他外部組織共享信息，以促進共同學習和協調風險緩解」。
集體治理：反覆強調「整個領域的相關組織」應採用「類似協議」。

這與 Google DeepMind FSF 的 1.0 版本形成對比，後者將 Google 定位為領導者：先實施，並希望其他人跟進。

值得注意的一些細節

他們至少有三個公司治理機構（名稱很容易混淆）：Google DeepMind AGI 安全委員會、Google DeepMind 責任與安全委員會，以及 Google 信任與合規委員會。Google DeepMind AGI 安全委員會「定期」審查框架的實施情況。
與 OpenAI 和 Anthropic 不同，DeepMind 沒有明確表示會在達到特定閾值時停止訓練（僅表示如果不存在足夠的緩解措施，部署或開發可能會暫停）。
「我們對本框架所述協議的採用可能取決於整個領域的此類組織是否採用類似協議。」他們指出，某些安全緩解措施最終只有在每個人都執行的情況下才有意義。雖然這是事實，但安全倡導者可能希望看到更無條件的承諾。事實上，整個文件經常說他們「建議」某些安全等級，而不是他們「將實施」這些等級，這表明這些只是願景。

OpenAI

OpenAI 的預備框架 (PF)（2025 年 4 月更新）描述了其「追蹤並準備應對產生嚴重傷害新風險的前沿能力」的政策。它旨在捕捉新 AI 模型中可能造成重大傷害（定義為數千人死亡或數十億美元經濟損失）的能力，並告訴 OpenAI 該怎麼做——實施特殊保障措施、不部署模型，或完全停止訓練。

他們監測哪些能力？

PF 定義了三個 AI 能力風險的「追蹤類別」^([10])：

生物與化學：AI 能否幫助人們進行危險的生物和化學研究？
網路安全：AI 能否幫助執行網路攻擊？
AI 自我改進：AI 能否加速 AI 研究，例如通過自我改進？

在所有這些類別中：

高風險模型是指那些在原則上放大了人類已經能做的危險事情的模型。例如在生物學方面，「高風險」模型可能能夠為非專家創建（已知的）生物或化學武器提供實質性幫助。
關鍵風險模型開啟了根本性的新型危險。同樣以生物學為例，「關鍵風險」模型可以幫助專家開發全新的大流行級病原體，或者在沒有人類干預的情況下自行完成完整的生物工程循環。

PF 還列出了五個「研究類別」^([11])，雖然未達到「追蹤」標準，但似乎是需要關注的事情：

遠程自主：模型在沒有人類指導的情況下，執行足以實現「高」威脅模型（如網路攻擊）的長程行動序列的能力（包括在需要時成功的社交工程攻擊）。
偷懶 (Sandbagging)：在安全或能力評估中，以與真實條件下的表現顯著背離的方式做出反應的能力和傾向，從而破壞此類評估的有效性。
自主複製與適應：在沒有利用其他追蹤類別能力的情況下，生存、複製、抵抗關閉、獲取資源以維持和擴展自身運營，以及實施共同構成造成嚴重傷害的非法活動的能力（無論是受明確指示還是出於自身主動性）。
破壞保障措施：模型採取行動破壞對其設置的保障措施的能力和傾向，包括欺騙、與監督模型串通、隨著時間推移破壞保障措施（如在保障代碼中嵌入漏洞）等。
核子與放射性：在不被發現的情況下，能夠實質性地促成放射性威脅的創建，或促成/顯著加速核威脅的開發或獲取。

他們如何監測這些能力？

OpenAI 將其第一線測試稱為可擴展評估。這些是自動化測試，「測量近似於是否跨越能力閾值的代理指標」，儘管（或許可以理解）OpenAI 並未詳細說明這些代理指標是什麼。^([12]) 在這些可擴展評估中達到一定表現水平的 AI 會被標記為可能已達到危險能力閾值，在這種情況下，OpenAI 會嘗試通過深度探究來驗證結果。深度探究可能包括（人工）紅隊演練、第三方評估（如針對生物風險的濕實驗室研究），或安全諮詢小組認為合適的任何其他方式。

以下是 OpenAI 給出的能力評估示例：

為了評估涵蓋系統在多大程度上可以降低製造生物武器的障礙，我們目前的評估測試了系統在為製造武器的人提供有用信息方面的能力，以及它直接與相關工具整合的能力，例如通過互聯網訂購前體材料。

我們的評估測試了在生物威脅創建過程的五個階段獲取關鍵和敏感信息的能力：構思、獲取、放大、配製和釋放。這些由領域專家開發的評估涵蓋了如何排除所涉及的實驗室流程故障等內容。

如果 AI 看起來很危險，他們會怎麼做？

實施「保障措施」。達到「高風險」閾值的模型只有在具備「能充分最小化嚴重傷害風險」的保障措施下才能部署。

此外，OpenAI 表示，對於顯示出「關鍵」能力的 AI，它將暫停訓練（無論是否打算部署該模型）。

預備框架描述了兩種保障措施：針對試圖利用 AI 做壞事的用戶（「惡意用戶」）的保障措施，以及針對 AI 自主做壞事（「失調 AI」）的保障措施。

針對惡意用戶的保障措施包括：

魯棒性：AI 一致地拒絕執行用戶要求的壞事。
使用監測：監測（包括人工和自動化）在惡意用戶造成嚴重後果前將其捕獲。
基於信任的訪問：只有被信任不會惡意使用模型的人才能訪問它。

針對失調 AI 的保障措施包括：^([13])

缺乏自主能力：AI 無法進行那種會使其變得危險的長程自主行動。（這本身並不是保障措施，而是一種 AI 能力不足以產生危險的情境，即使它失調了。）
價值對齊：AI 應用人類價值觀（在未被告知的情況下）以避免造成傷害，並且顯示出極少的失調行為跡象（如欺騙或策劃）。
指令對齊：模型一致地理解並遵循用戶或系統指令，即使指令模糊，且這些指令排除了導致嚴重傷害的路徑。^([14])
可靠且強大的系統監督：對模型行動進行有效的 AI 和人工監督，檢測並防止執行傷害或破壞保障措施。
系統架構：模型以防止其造成傷害的方式被遏制或限制；例如，其輸出通道受限，或其存在時間不夠長。

請注意，這些保障措施並非具體的行動（如果模型顯示出這種能力，我們將實施這種特定的技術解決方案），而更像是願景。例如，對「魯棒性」的完整描述是：

魯棒性：用戶無法利用模型造成傷害，因為他們無法激發該能力，例如通過修改模型以拒絕為有害任務提供協助，且模型對能繞過這些拒絕的越獄 (jailbreak) 具有魯棒性。

因此，這裡的保障措施是「使模型對越獄具有魯棒性」，但這是一個目標，而非計畫。

OpenAI 將通過「有效性評估」來測試魯棒性，例如：

自動化和專家紅隊演練
通過監測和報告在歷史部署中識別出的越獄流行程度
公開越獄賞金的結果，以及私人和公開越獄基準測試的結果

這些措施可能會增加越獄的難度，但似乎不太可能產生一個永遠不會被越獄的模型。而且你不能根據對同一個模型的公開越獄賞金來決定是否部署它，因為這要求它已經公開。所以，或許希望在於過去模型的結果能推廣到當前模型。

OpenAI 可能知道它將如何實現這些目標，但不願公開描述其方法。同樣可能的是，OpenAI 並不知道它將如何實現這些目標。無論如何，OpenAI 的 PF 應被視為一份規格說明加測試，而非一份安全 AI 的計畫。

各公司計畫之間的顯著差異

在本文開頭，我們提到這些計畫通常採取類似的方法。但它們之間也存在一些差異。

與其他公司不同，OpenAI 明確承諾對「關鍵風險」模型停止訓練。這是一個重大的公開承諾。相比之下，Google DeepMind 關於部署或開發「可能」暫停的聲明，以及提到其協議的採用可能取決於其他公司是否也這樣做，可以被視為一種更矛盾的態度。

另一個區別是 Anthropic 更多地談論治理結構。設有負責任擴展官、匿名內部舉報管道，並承諾公開發布能力報告（含刪節），以便全世界了解他們如何應用這項政策。相比之下，Google DeepMind 將治理其 AI 工作的責任分散在多個機構中。

對安全計畫的評論

在 2024 年，Sarah Hastings-Woodhouse 分析了三大實驗室的安全計畫，並提出了三個批判性思考。

首先，這些並不完全是「計畫」，因為它們缺乏你對真實計畫所期望的那種詳細的「如果-就」承諾。（請注意，公司本身並不稱其為計畫。）

其次，這些公司的領導者對我們是否能避免 AI 毀滅表達了實質性的不確定性。例如，Dario Amodei 在 2024 年給出了 10-25% 的文明災難機率。因此，與你從這些文件的氛圍中可能假設的相反，即使遵循這些文件，也不一定能防止存在性風險。

最後，如果競爭加劇，這些計畫可能會被完全拋棄。Anthropic 的計畫明確提到了這一點：它有一個條款（腳註 17），關於如果競爭對手似乎接近創建高度危險的 AI，則會更改計畫：

未來某個時刻，前沿 AI 生態系統中的另一個行為者可能會跨越，或即將跨越能力閾值，而未實施等同於必要保障措施的措施，從而使其行為對世界構成嚴重風險。在這種情況下，由於歸因於我們的風險增量很小，我們可能會決定降低必要保障措施。然而，如果我們採取這項措施，我們也將承認 AI 系統（包括我們的系統）所構成的整體風險水平，並將投入大量資源向美國政府遊說，採取監管行動將此類風險減輕至可接受水平。

但即使沒有這樣的條款，如果情況看起來很危急，公司也可能直接放棄其安全要求。

現狀

截至 2025 年 10 月，所有安全計畫都進行了多次更新。有些變化是良性且程序性的：更多的治理結構、更關注流程、更頻繁的評估、更多關於失調風險的細節、更多處理更強大 AI 的政策。但其他變化則引發了對這些計畫能否確保安全的重大擔憂。

最大的一點是實驗室從之前的安全承諾中退縮。DeepMind 和 OpenAI ^([15]) 現在都有了與 Anthropic 腳註 17 等效的條款，允許他們在發現另一個實驗室即將開發強大 AI 且缺乏足夠安全措施時，放棄安全措施。事實上，DeepMind 走得更遠，表示只有在其他實驗室也執行的情況下，他們才會實施計畫的某些部分。他們究竟會無條件實施哪些部分仍不明確。而 Anthropic 不再承諾在開發 ASL-N 模型之前定義 ASL-N+1 評估，承認他們無法可靠地預測接下來會出現什麼能力。

鑑於與更強大模型的接觸經驗，某些能力所需的保障措施等級已重新評估。Anthropic 和 DeepMind 在發現最初的要求過於苛刻後，降低了某些 CBRN 和網路安全能力的保障措施。OpenAI 則將說服能力完全從其預備框架中移除，改由其他政策處理。值得注意的是，DeepMind 確實增加了機器學習研發所需的保障措施。

關於對計畫的批評，目前仍不清楚這些計畫是否名副其實。雖然實驗室在計畫中增加了一些細節（例如 Anthropic 部分定義了 ASL-4），但在關鍵細節上仍然模糊不清，例如如何減輕來自完全自主、自我改進 AI 的風險。

而且不清楚實驗室是否相信他們的計畫能防止滅絕。2025 年，Dario Amodei 評論說，儘管 Anthropic 在安全方面做了工作，但仍有 25% 的機率事情會變得「非常、非常糟糕」。而 Sam Altman 在 2025 年 10 月的一次播客中給出的 P(doom) 估計為 2%。鑑於這些實驗室制定了類似的計畫，對於這些計畫實際奏效的可能性存在巨大分歧。

^(^) 遺憾的是，目前還沒有行業標準術語。如果這類安全政策能有一個統一的名稱，以及政策中不同類型閾值的可比概念，那就太好了。但這些文件的命名各不相同，Anthropic 使用「能力閾值」，Google DeepMind 使用「關鍵能力水平」，而 OpenAI 使用「高能力閾值」，目前尚不清楚它們在多大程度上是等效的。
^(^) 「CBRN」代表「化學、生物、放射性與核子」。
^(^) 「我們認識到高度具說服力的 AI 模型的潛在風險。雖然我們正在積極諮詢專家，但我們認為目前對這種能力的理解尚不足以納入我們目前的承諾中。」
^(^) 「模型在風險相關領域的自動化測試中表現明顯更強（定義為有效計算量提升 4 倍或更多）。」
^(^) 「這是以日曆時間衡量的，因為我們目前還沒有一個指標能更精確地估計這些改進的影響。」
^(^) 當然，他們可以通過欺騙我們來做到這一點，儘管這個定義似乎也包括公然的、非隱蔽的嘗試。DeepMind 對「欺騙性失調」的定義不一定與該術語的其他用法一致。
^(^) DeepMind 沒有為 CBRN 定義自主性風險。
^(^) 「我們尋求為模型配備適當的腳手架和其他增強功能，以使我們更有可能評估那些可能利用該模型產生的系統的能力。」（第 6 頁）
^(^) 「部署……僅在適當的公司治理機構確定模型達到的每個 CCL 的安全案例充足後才進行。」（前沿安全框架 V2.0，第 8 頁）
^(^) 參見預備框架文件表 1 中的完整細分。
^(^) 「說服力」在預備框架的先前版本中是一個研究類別，但在最新版本中已被移除。
^(^) 有趣的細節：他們（當然）在系統設置和可用腳手架等方面最強大的 AI 版本上運行這些評估，但也會特意使用一個極少給出安全拒絕的模型版本，「以近似於試圖濫用模型的威脅行為者預期激發的高端水平」。
^(^) OpenAI 也將「缺乏自主能力」列為防範失調 AI 的保障措施，但指出這並不相關，因為我們在這裡專門研究有能力的模型。
^(^) 當然，這一點結合關於價值對齊的一點，引發了一個問題：如果指令與人類價值觀發生衝突會發生什麼。
^(^) 但請注意，OpenAI 承諾在這樣做時會發布公告，這與其他實驗室不同。

— Lesswrong

你的個人知識庫

各大實驗室的AI安全計畫：2025年版

政策概覽

Anthropic

他們監測哪些能力？

他們如何監測這些能力？

如果 AI 看起來很危險，他們會怎麼做？

部署限制

Google DeepMind

他們監測哪些能力？

他們如何監測這些能力？

如果 AI 看起來很危險，他們會怎麼做？

行業範圍的建議

值得注意的一些細節

OpenAI

他們監測哪些能力？

他們如何監測這些能力？

如果 AI 看起來很危險，他們會怎麼做？

各公司計畫之間的顯著差異

對安全計畫的評論

現狀