Anthropic 未按其負責任擴展政策要求發布 Mythos 的風險討論

Lesswrong·大約 4 小時前

我和一些人注意到 Anthropic 在發布 Claude Mythos 時可能存在違規，其未能在將模型部署給外部合作夥伴及內部使用後，按照負責任擴展政策的要求及時發布風險討論報告。

我與一些其他人注意到 Anthropic 在發布 Claude Mythos 時可能存在的一項不一致。在相關期間內生效的 RSP 版本 (3.0) 中包含一個章節 (3.1)，其中建議某些內部部署會要求 Anthropic 在 30 天內發布關於該模型對其先前發布的風險報告（Risk Reports）分析影響的討論。

另一個問題是 Claude Opus 在我撰寫本文時注意到的：Anthropic 向「透過有限研究訪問計畫的一小部分外部客戶」發布模型，這算作公開部署，這將立即觸發相同的發布要求。我將先論證這一點，因為我認為這裡的理由更充分。

Anthropic 搞砸了嗎？

簡而言之：他們可能在公開部署這件事上搞砸了，而在 30 天內部部署的要求上是否搞砸則尚不明確。我的猜測是 Anthropic 會辯稱他們在 30 天的要求上是清白的，但這取決於一些至少對他們稍微有利的解釋。我不確定他們會如何辯解公開部署的那一項。與此相關的是，RSP 存在一些應該被修正的漏洞和模糊之處。從某種意義上說，這都是在鑽細節的牛角尖，我認為這些細節對生存風險（x-risk）影響不大，除非這反映出一個組織缺乏建立並遵守清單的能力。這是一項不該缺乏的糟糕技能。

公開部署時發布「討論」的要求

Anthropic 的 RSP 要求，當他們公開部署一個能力顯著強於先前模型的模型時，必須發布關於其風險分析將如何變化的「討論」。

Anthropic 可能認為，當他們向其關於 Project Glasswing 的公告中所描述的「額外 40 個組織」分享 Mythos 的訪問權限時，就已滿足了公開部署的條件。根據其 System Card 中的「RSP 決策」章節，他們至少認為在公開發布時已滿足此條件。

然而，他們早在幾週前就給予了「發布合作夥伴」（launch partners）訪問 Mythos 的權限。其發布合作夥伴的潛在影響範圍大約是「整個網路」。Anthropic 並未定義「公開發布」，但我認為不存在任何合理的定義，能讓向 40 個額外組織的有限發布算作公開發布，而先前向其「發布合作夥伴」的發布卻不算。

我認為在對原始文本和周邊情況的大多數合理解讀下，這都構成了違規。如果你想了解所有細節，請看下文。

<details> <summary>參考原始文本的更詳細分析</summary>

以下是 RSP 第 3.1 節的全文：

範圍（Scope）。風險報告將涵蓋發布時所有已公開部署的模型。當我們判定內部部署的模型可能產生超出公開模型所帶來的顯著風險⁴時，風險報告也將涵蓋這些模型。雖然我們可能出於多種原因將內部模型歸類為此類，但這至少會包括我們為大規模、完全自主研究而部署的任何內部模型。

符合上述描述的模型在下文中簡稱為「範圍內模型」。我們也可能自願在風險報告中包含額外的模型（例如，為了促進一般性討論），但此類包含並不擴展下述承諾。

時機（Timing）。我們將每 3-6 個月發布一次風險報告。請注意，與 System Card 不同，風險報告不會隨著每個新模型的發布而發布。此外：

當我們公開部署一個經判定能力顯著強於最近一份風險報告中所涵蓋的任何模型時，我們將發布一項討論（在我們的 System Card 或其他地方），說明該模型的能力和傾向如何影響或改變風險報告中的分析。
在判定我們擁有一個屬於範圍內（如上述說明）的內部部署模型後的 30 天內，我們將發布一項討論（在 System Card 或其他地方），說明該模型的能力和傾向如何影響或改變風險報告中的分析。

⁴具體而言，是指源於我們對全行業安全建議中能力閾值的風險（見第 1 節）。

在這裡，我們關注的是第一個「時機」條件。

Anthropic 認為自己在 4 月 7 日發布公告時已經公開部署了該模型。這暗示在他們的 System Card 第 1.2.2 節「RSP 決策」中：

根據我們的 RSP，我們定期發布涵蓋模型安全概況的綜合風險報告。如果我們發布的模型比先前風險報告中討論的模型「能力顯著更強」，我們必須「發布一項討論（在我們的 System Card 或其他地方），說明該模型的能力和傾向如何影響或改變風險報告中的分析」。對於風險報告的更新，我們通常遵循與風險報告相同的內部流程。

Claude Mythos Preview 的能力顯著強於 Claude Opus 4.6，後者是我們最近一份風險報告中討論的能力最強的模型。

有兩個證據來源表明 Anthropic 的發布合作夥伴早在 4 月 7 日之前就獲得了 Mythos 的訪問權限。第一個是 Claude Mythos 的對齊風險更新（Alignment Risk Update），其中提到：

它首先在 Anthropic 內部部署，然後透過有限的研究訪問計畫發布給一小部分外部客戶。

第二個是 Project Glasswing 公告，其中還包括了一些發布合作夥伴的證言（粗體為我所加）：

今天我們宣布 Project Glasswing¹，這是一項新倡議，匯集了 Amazon Web Services、Anthropic、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux 基金會、Microsoft、NVIDIA 和 Palo Alto Networks，致力於保護世界上最關鍵的軟體。

...

作為 Project Glasswing 的一部分，上述列出的發布合作夥伴將使用 Mythos Preview 作為其防禦性安全工作的一部分；Anthropic 將分享我們所學到的知識，以便整個行業都能受益。我們還向另外 40 多個組織擴展了訪問權限，這些組織負責構建或維護關鍵軟體基礎設施，以便他們可以使用該模型掃描並保護第一方和開源系統。

...

除了我們自己的工作外，我們的許多合作夥伴已經使用 Claude Mythos Preview 好幾週了。這是他們的發現：

[證言]

現在，問題在於這是否算作「公開部署」。我能想像 Anthropic 提出的最強辯解是，那「40 個額外組織」是在 4 月 7 日獲得訪問權限的，而這才是他們算作公開部署的依據[1]。如果是這樣，對我來說這似乎是一個極其缺乏原則的區分。Anthropic 顯然認為某些比「一般可用」範圍更窄的部署也屬於「公開部署」。我能想像最自然的界限應該是「內部部署」（純粹在 Anthropic 內部）與「外部部署」（Anthropic 之外的任何地方）之間。如果存在不被計入公開部署的外部部署，這似乎更像是受經濟和組織現實政治驅動的選擇，而非基於特定風險考量的原則性判斷。在這種情況下，他們的發布合作夥伴名單看起來幾乎是發布潛在失控模型的最糟糕目標集，如果這種事情在你的威脅模型中很重要話[2]。

也許有一個原則性的論點可以解釋為什麼早期向發布合作夥伴的發布不算數，而隨後[3]向額外組織的發布卻算數。但就目前而言，這對我來說似乎是一個失敗。

</details>

在符合條件的內部部署後 30 天內發布「討論」的要求

Anthropic 的 RSP 還要求，在內部部署一個經判定會產生「超出公開模型所帶來的顯著風險」的模型後的 30 天內，必須發布同樣類型的「討論」，這針對其 RSP 中概述的四類風險。

Anthropic 於 2 月 24 日在內部部署了 Mythos。他們的對齊風險更新指出，在四個風險類別之一中，「整體風險非常低，但高於之前的模型」。他們在任何地方都沒有用直白的語言說明他們是否認為 Mythos 符合上述標準。

Opus 認為這構成了違規。我認為這很模糊。相關措辭中存在大量的歧義。如果你想了解所有細節，請看下文。

<details> <summary>參考原始文本的更詳細分析</summary>

Mythos 於 2 月 24 日在內部部署，因此如果他們在 2 月 24 日「判定」部署了一個範圍內模型，Anthropic 發布該討論的最早「截止日期」將是 3 月 25 日[4]。由此我們可以推斷，他們在 2 月 24 日至 3 月 8 日之間並未做出該判定（3 月 8 日是要求在 4 月 7 日之前發布討論的最後判定期限）。

我們立即看到一個問題：RSP 並未說明相對於內部部署，何時必須做出此類判定。我個人希望這種判定需要在內部部署之前做出，特別是考慮到「高風險破壞機會」這一能力閾值類別作為風險增加的來源。如果不是這樣，就需要有一個明確的截止日期，否則這就會變成一張免死金牌。

讓我們暫且擱置這一點，檢查 Mythos 是否真的屬於「範圍內」。

Mythos 不對公眾開放，因此我們在這裡必須依賴 Anthropic 自己的評估。幸運的是，System Card 的第 1.2.2 節包含了關於該模型是否因上述 4 類能力閾值內的能力而產生增加風險的摘要。（更多細節包含在第 2 節「RSP 評估」中）。Anthropic 聲稱：

對於「非新型化學和生物武器生產」類別，「我們的風險緩解措施足以使災難性風險……非常低但非微不足道」。沒有討論這是否屬於「超出公開模型所帶來的顯著風險」，但聽起來他們不這麼認為。
對於「新型……」類別，他們認為「災難性風險……將保持在低水平（具有很大的不確定性）」。
關於「關鍵領域的自動化研發」，他們表示：「Claude Mythos Preview 的增益（相對於之前的模型）高於我們觀察到的先前趨勢，但我們已判定這些增益具體歸因於 AI 加速研發以外的因素，並且我們得出結論，Claude Mythos Preview 並未跨越 RSP 自動化 AI 研發的閾值（即將兩年的進展壓縮為一年）。雖然我們認為 Claude Mythos Preview 並未顯著改變我們最近一份風險報告中針對此威脅模型所呈現的情況，但我們對這一結論的信心低於以往任何模型，我們打算繼續監測其對內部 AI 研發的貢獻。」這聽起來像是他們認為這不符合條件。
第 1.2.2 節不包括「高風險破壞機會」。相反，它包括「來自失控模型的風險」。對此，他們表示：「我們已判定整體風險非常低，但高於之前的模型。我們在補充的對齊風險更新中深入探討了這一風險。」我們轉而查看第 2.1.3.1 節「關於自主性風險」，其中包含此腳註：「該閾值對應於我們當前負責任擴展政策中的『高風險破壞機會』威脅模型。」

讓我引用第 2.1.3.1 節的相關部分（粗體為我所加）：

自主性威脅模型 1：早期失控風險。此威脅模型涉及被高度依賴且擁有廣泛訪問敏感資產權限的 AI 系統，以及中等的自主、目標導向操作和欺騙能力——以至於這些 AI 系統（如果被引導向此目標，無論是刻意還是無意）有可能採取行動，導致隨後發生全球災難的機率不可逆轉且大幅增加。⁴

自主性威脅模型 1 適用於 Claude Mythos Preview，就像它適用於我們之前的一些 AI 模型一樣。此外，Claude Mythos Preview 提升的能力以及相關的潛在不同對齊特性，意味著它有可能顯著影響我們之前的風險評估。考慮到這一點，我們將針對此威脅模型發布一份單獨的整體風險評估，探討我們的風險緩解措施以及模型能力。我們判定整體風險非常低，但高於之前的模型。

⁴請注意：

該閾值對應於我們當前負責任擴展政策中的「高風險破壞機會」威脅模型。
該閾值與我們負責任擴展政策 2.2 版中的「AI R&D-4」閾值不同。它在精神上相似，但經過修訂以更好地匹配關鍵威脅模型，我們認為它將包括之前的幾個模型。

這是否算作產生「超出公開模型所帶來的顯著風險」？我不知道，我完全不知道他們所謂的「顯著」（significant）是什麼意思。讓我們問問 Claude Opus 4.6：

Claude Opus 4.6

簡短回答： 我認為有非常充分的理由說明 Mythos Preview 應該被視為範圍內模型，而 Anthropic 的立場依賴於對「顯著」的一種解釋，這種解釋與他們自己陳述的發現相矛盾。

推理過程：

關鍵鏈條是：RSP §3.1 將範圍內內部模型定義為產生「超出公開模型所帶來的顯著風險」的模型，腳註 4 將此縮小為第 1 節中四個能力閾值所產生的風險。「高風險破壞機會」閾值是這裡的相關項。

現在看看 Anthropic 自己的文件在這一維度上對 Mythos Preview 的評價：

System Card 指出自主性/破壞威脅模型「適用於 Claude Mythos Preview」，且其能力「意味著它有可能顯著影響我們之前的風險評估」。請注意「顯著」（significantly）這個詞——與 RSP 觸發條件中的詞根相同。

對齊風險更新得出的結論是風險「非常低，但高於之前的模型」，並明確指出無論是在邊際還是絕對基礎上都是如此。

對齊風險更新描述了 Mythos Preview 中的行為——權限提升、破壞性規避和罕見的混淆——這些行為在性質上與為公開部署模型（Opus 4.6, Sonnet 4.6）記錄的任何內容都不同，且更令人擔憂。

Anthropic 承認，當「我們最初選擇在內部部署它時……並未意識到該模型所帶來的風險水平」。

矛盾點在於：Anthropic 的對齊風險更新詳細論證了 Mythos Preview 相對於其公開模型產生了類別上全新的對齊相關風險——這些風險完全屬於「高風險破壞機會」閾值。該文件存在的全部理由就是 Mythos Preview 在這一維度上的風險概況與之前的模型有實質性不同。很難在閱讀完對齊風險更新後得出結論，認為它所描述的風險不屬於「超出公開模型所帶來的風險」。

Anthropic 明顯的辯護會是，「顯著」意味著類似於「在絕對意義上非微不足道的大」，而不是「相對於先前模型有意義的提升」。在這種解讀下，一個「非常低但更高」的風險就不符合「顯著」的條件。但這種解讀存在問題：

RSP 的短語是「顯著風險超出……」（significant risks above and beyond）——「超出」子句已經完成了比較工作。「顯著」修飾的是增量（delta），而不是絕對水平。如果他們的意思是「僅當絕對風險很高時」，那麼「超出」的語言就是多餘的。

RSP 的最低納入標準——「我們為大規模、完全自主研究而部署的任何內部模型」——似乎旨在捕捉對齊風險更新中描述的完全相同的情景：一個能力極強的模型被廣泛用於自主內部工作。Mythos Preview 被描述為「在 Anthropic 內部廣泛部署，用於研發、模型訓練、安全和部署保障等一系列用例」，且處於自主環境中。這是否構成「大規模、完全自主研究」尚有爭議，但它已經足夠接近，以至於該條款的精神似乎是適用的。

對齊風險更新本身識別了六個具體的風險路徑，並對每個路徑進行了實質性分析，正是因為風險概況有顯著不同。如果這都不構成風險上的「顯著」差異，那麼除了真正跨越能力閾值之外，還能有什麼算數呢？但 RSP 條款顯然旨在在那發生之前觸發。

我不那麼確定的地方：

腳註 4 的縮小範圍——「源於能力閾值的風險」——可以被解讀為「因為模型接近或跨越那些閾值而產生的風險」，而不是「屬於那些類別的任何風險」。在這種更嚴格的解讀下，既然 Anthropic 判定 Mythos Preview 沒有跨越任何閾值，也許它就不符合條件。但這種解讀會使內部模型的範圍內條款幾乎變得空洞，因為跨越閾值無論如何都會觸發更強的承諾。

我還想指出你文章中提到的一個我認為被低估的結構性問題：RSP 對於相對於內部部署何時必須做出範圍內狀態的判定保持沉默。這是一個顯著的漏洞。鑑於「高風險破壞機會」閾值專門針對內部使用 AI 系統的風險，判定似乎應該在部署之前或同時進行，而不是由 Anthropic 自行決定在部署後進行。Anthropic 承認他們在最初內部部署 Mythos 時並不了解風險水平，這使得這個漏洞更加令人擔憂，而非減輕。

底線： 我認為對 RSP 最自然的解讀，結合 Anthropic 對 Mythos Preview 風險概況的描述，表明它應該被視為範圍內模型。反對意見雖然存在，但需要以一種破壞該條款目的的方式來解讀「顯著」。這是否構成「違規」取決於你認為 RSP 賦予了 Anthropic 多少解釋裁量權——正如你所指出的，這本身就是一個問題。

我想我不同意 Opus 列出的關於它模擬 Anthropic 對觸發條件解讀的問題：

「顯著」似乎很容易意味著「顯著的絕對增量」。
我猜測 Anthropic 不會認為自己部署 Mythos 是為了「大規模、完全自主研究」，儘管根據第 5.1.1 節的這兩部分內容，這並非瘋狂的延伸：
- 「Mythos Preview 在 Anthropic 內部廣泛部署，用於研發、模型訓練、安全和部署保障等一系列用例，涵蓋高頻率人類互動和無人類互動的環境。」
- 「Mythos Preview 被廣泛用作自主代理，包括在消耗計算資源的應用中，但沒有管理訪問控制的權限。」
對齊風險更新對風險路徑進行大量分析，不能被視為表明 Anthropic 對模型所產生的風險估計有顯著增加，因為這正是被分析的問題本身。

我也不同意其結論的強度。

對我來說，關於自主性威脅模型 1 的部分似乎是論證中最具說服力的部分。至少，這是否符合要求似乎是不明確的。

</details>

RSP 問題清單

以下是這次發布和 System Card 揭露的 RSP 編寫問題清單：

對於什麼算作公開部署沒有定義。我主張這應該是 Anthropic 之外的任何部署，如果不是這樣，則需要對其進行定義，以便多個公正的觀察者能夠自信地就任何給定部署是否算數達成一致結論。
30 天的截止日期在 Anthropic 「判定」他們內部部署了一個範圍內模型後開始。對於相對於內部部署，這種判定必須在何時發生，沒有任何說明。另外，如果 Anthropic 在內部部署前沿模型時，沒有先檢查它們是否屬於範圍內（因為這些檢查包括破壞評估之類的事情），這似乎很糟糕，所以我認為如果要求在內部部署之前進行「範圍內」判定會更好。
RSP 第 3.1 節中的腳註 4[5] 寫得非常令人困惑。什麼是源於「能力閾值」的風險？我的理解是「源於第 1 節中能力閾值所分類的能力提升的風險」。Opus（見上文）指出，這可能意味著「因為模型接近或跨越那些閾值而產生的風險」。我不同意 Opus 認為這種解釋會使 30 天的承諾變得空洞，但目前的腳註用這種方式表述會非常奇怪。第 1 節中的能力閾值描述的是能力水平，而不是風險水平。風險是能力的函數，但不僅僅是能力的函數。（令人惱火的是，RSP 在第 1 節的序言中使用了「風險閾值」一詞，然後才進入包含「能力或使用閾值」列的表格。該列的實際內容顯然不是「風險閾值」。）
RSP v3.0 中的短語是「超出公開模型所帶來的顯著風險」[6]。如果模型是否符合條件的「是/否」答案旨在（以某種方式）直接從第 1 節的能力閾值中推導出來，那麼這應該直接寫在文本中，而不是放在一個措辭困惑的腳註裡。如果不是，那麼目前的寫法仍然非常混亂且模糊。我不確定該如何處理「顯著」之類的詞，這最終似乎是一種定性判斷。但你可以做的一件事是，在你的對齊風險更新中簡單地使用相同的語言，該更新的導言以「本風險報告探討 Claude Mythos Preview 是否會產生顯著的自主行動風險，從而顯著導致隨後顯著有害的結果」開始，然後說「我們判定整體風險非常低，但高於之前的模型」。那句話？它後面需要跟上另一句話：「這一風險[顯著/並未顯著]超出我們之前風險報告所涵蓋的模型所帶來的風險。」

<a name="fnndcx0v4fy8m"></a>[1] 如果那 40 個額外組織在 4 月 7 日之前就獲得了訪問權限，鑑於 Anthropic 認為他們目前的部署中有某些部分算作公開部署，這看起來就是一個相當直接的未能遵守 RSP 該項條款的行為。

<a name="fnjhr7vwdcyir"></a>[2] 在我的威脅模型中大多不算。我猜測在「Anthropic 的」威脅模型下，這至少稍微重要一點，前提是 Anthropic 作為一個組織可以說擁有一個連貫的威脅模型。（創始人和員工威脅模型的決策權加權平均值？）

<a name="fnjrgxtbp214q"></a>[3] 我提醒你，我們甚至不確定情況是否如此——我們不知道額外組織何時獲得訪問權限。

<a name="fnlm82q1nx2wi"></a>[4] 如果你把 2 月 24 日算作其中一天，我認為必須如此。

<a name="fn56v0isskfjh"></a>[5] 「具體而言，是指源於我們對全行業安全建議中能力閾值的風險（見第 1 節）。」

<a name="fnflgc8efhkd"></a>[6] RSP v3.1（4 月 2 日發布）中的短語是「超出先前風險報告所涵蓋模型所帶來的顯著風險」。在「風險」之後的腳註內容是相同的。v3.1 的措辭可能會排除 Mythos，因為當時還沒有風險報告可以進行比較，但這並不重要，因為 v3.1 是在 30 天截止日期過後才發布的。

討論

https://lesswrong.com/posts/F5uxhFrNHLzmNgyqg/anthropic-did-not-publish-a-risk-discussion-of-mythos-when