Anthropic關於模型潛在破壞風險的報告

Lesswrong·6 個月前

我們發布了一份試點風險報告，評估目前 AI 模型可能導致的破壞風險，結論是儘管模型自主採取失調行動並導致災難性後果的風險極低，但並非完全可以忽略。這項練習是為履行未來「負責任擴展政策」義務的預演，並指出了改進安全防護與對齊實踐的方向。

作為對未來潛在《負責任擴張政策》（Responsible Scaling Policy）義務的練習，我們發佈了一份關於截至 2025 年夏季，我們已部署模型所構成的對齊失當風險報告。我們的結論是，對齊失當的自主行為進而對後續災難性後果產生實質影響的風險極低，但並非完全可以忽略。我們同時發佈了對該報告的兩份審查：一份來自內部審查，另一份是由 METR 進行的獨立審查。

我們的《負責任擴張政策》到目前為止主要用於應對與高風險人類濫用相關的風險。然而，它也包含了針對未來源自模型自身行為的對齊失當相關風險的承諾。對於未來通過了我們尚未達到的能力門檻的模型，該政策承諾我們將制定：

一項肯定性論證（affirmative case），旨在 (1) 識別模型追求失當目標所帶來的最直接且相關的風險，以及 (2) 解釋我們如何將這些風險減輕至可接受的水平。該肯定性論證將根據具體情況描述關於模型能力的證據、AI 對齊的證據、緩解措施（如監測和其他防護措施）以及我們的整體推理過程。

這類肯定性論證對該領域來說是未知的領域：雖然我們已經發佈了可能使用的論證草案，但我們從未準備過一份完整的此類肯定性論證，也未曾聽說其他前沿 AI 開發商提供過此類文件的範例。

今天，本著展示我們工作過程的精神，我們發佈了一份報告，旨在代表這類肯定性論證的雛形，針對當前 AI 系統和部署中的對齊失當風險進行試點練習。這次練習旨在讓我們儘早了解在根據政策需要準備此類論證時可能出現的問題，找出我們目前在模型自主性安全策略中的漏洞，並試行一套內部和外部審查流程，以便將來用於驗證這類承諾性的論證。

我們用來描述這份報告的語言與現行《負責任擴張政策》中的語言略有不同：我們將重點放在破壞（sabotage）上，將其作為對齊失當行為的大類（不同於例如「幻覺」），這類行為在高能力水平下會構成獨特的、新興的風險，若無充分準備將難以應對。我們將該文件命名為風險報告，以強調我們目前並非在爭論我們已達到某種預設的安全水平（如「安全肯定性論證」或「安全案例」所暗示的那樣），而是陳述我們所看到的現有風險水平。

在這次試點練習中，我們的目標是達成一份完整且清晰（即便不夠精雕細琢）的評估，為了實現這一目標，我們不惜犧牲了速度。因此，該報告記錄的是今年夏季存在的風險，主要關注涉及 Claude Opus 4 行為的風險，那是我們開始起草報告時最強大的模型。對於後續模型，我們僅提供了較有限的討論。

我們的主要結論是：

在審視 Claude Opus 4 的能力、其行為特徵以及旨在限制其行為的正式與非正式防護措施後，我們得出結論：對齊失當的自主行為對後續災難性後果產生重大影響的風險（簡稱為破壞風險）極低，但並非完全可以忽略。我們看到了幾種與破壞相關的威脅模型，其絕對風險水平相似且較低。我們有中等程度的信心認為 Opus 4 不具備持續、連貫的危險目標，也不具備在避免被發現的情況下可靠執行複雜破壞策略所需的能力。這些總體觀點為大多數顯著的破壞路徑提供了重要的保證，儘管我們認為僅憑這些還不夠，因此我們對最顯著的路徑提供了更具針對性的分析。

這次練習包括了與我們內部的「對齊壓力測試團隊」以及獨立的 AI 安全與評估非營利組織 METR 合作進行的多輪修訂。雙方都能接觸到報告所呈現內容之外的額外證據，並各自準備了書面審查，反映了他們對報告結論的信心程度。兩份審查最終都認可了我們對風險水平的評估，儘管在某些地方對論證和證據提出了質疑，並為未來的此類報告提出了改進建議。

我們從起草過程以及與兩個審查團隊的合作中學到了很多。這促使我們大幅修訂了威脅模型，並支持了對齊相關實踐的變革，包括針對提高模型推理的忠實度和可監測性而進行的模型訓練調整。儘管如此，這項工作在很大程度上仍是一個試點，我們預計未來這類安全評估將包含更多具體的安全措施和進一步完善的論證。

核心報告團隊並不認可兩份審查中提出的每一項擔憂，我們相信與審查團隊之間存在一些分歧，若有更多時間和討論，是可以得到有效解決的。不過，我們在很大程度上同意審查意見，並看到了許多可以改進報告和防護措施的方法。我們在附錄中記錄了其中一些內容。鑑於此問題的時效性，我們認為現在發佈現有成果是明智的，而不是為了在可能棘手的經驗和概念問題上達成共識而推遲發佈。

您可以在此閱讀報告：Anthropic 2025 年夏季試點破壞風險報告

您可以在此閱讀我們對齊壓力測試團隊的內部審查：對齊壓力測試審查

您可以在此閱讀來自 METR 的獨立審查：METR 的審查

— Lesswrong

你的個人知識庫

Anthropic關於模型潛在破壞風險的報告