除非其治理模式改變，否則Anthropic不可信

Lesswrong·5 個月前

Anthropic 因其領導層的誤導行為、遊說反對安全監管以及違反優先考慮安全而非 AI 算力的創立承諾而被批評為不可信。本文敦促員工與大眾針對該公司不斷變動的治理架構及其減輕生存風險的真實承諾要求問責。

Anthropic 是不可信的。

這篇文章提供了論據、提出了疑問，並記錄了一些關於 Anthropic 領導層誤導與欺騙行為的案例。這些行為包括：持有不斷向 OpenAI 方向傾斜的矛盾立場；遊說以扼殺或削弱那些極具幫助、甚至連各大 AI 公司員工都公開支持的監管法案；以及違反了公司創立時的核心承諾。本文還分享了一些先前未曾報導過的關於 Anthropic 領導層承諾與行動的細節。^([1])

Anthropic 內部擁有一種廣泛認同有效利他主義（EA）觀點與價值觀的強大文化，且公司面臨著必須表現出遵循這些價值觀的巨大壓力，因為它希望留住人才並獲得員工的忠誠。然而，目前非常不清楚他們在最關鍵的時刻會如何抉擇。他們的員工應該要求得到答案。

以下是建議 Anthropic 員工在閱讀本文後，向自己、Dario（執行長）、政策團隊及董事會提出的問題，也建議 Dario 和董事會公開回答：

關於監管： 為什麼 Anthropic 始終反對那些能減緩競爭速度並讓所有人更安全、更有保障的監管措施？

Jack Clark（政策主管）在多大程度上是作為一名「孤狼」行動，又在多大程度上是與 Anthropic 領導層的其他成員協調一致？

關於承諾與誠信： 你認為如果 Anthropic 領導層必須在「違背對你的承諾」與「在競賽中落後」之間做選擇，他們會不違反承諾嗎？

你認為當領導層真的需要編造一個強有力的理由時，他們會無法為放棄承諾辯護嗎？

你認為領導層會主動引導你關注那些被他們放棄的承諾嗎？

你認為 Anthropic 的代表未來不會對公眾和政策制定者撒謊嗎？

你認為 Anthropic 的決策會基於正式機制和承諾，還是會基於領導層真正在意的事物，進而繞過承諾？

在一個「領導層更在乎與中國競爭並贏得比賽，而非生存風險（x-risk），但因為員工在乎而不得不誤導員工」的世界裡，你看到上述所有情況發生的可能性有多大？

在一個「Anthropic 對其本質和可信度保持誠實」的世界裡，你看到上述所有情況發生的可能性又是多少？如果你思考所有相關證據，它們始終指向哪個方向？

你能否預先設定，什麼樣的證據會讓你決定離職？

關於悲觀情境下的決策： 在一個對齊（alignment）極其困難的世界裡，你認為 Anthropic 是否有能力傳播關於對齊難度的證據？

如果 Anthropic 發現更多證據表明我們生活在一個「對齊很難」的世界，你認為它會試圖讓所有人暫停研發嗎？

關於你的角色： 在什麼樣的世界裡，你會後悔為 Anthropic 研發 AI 能力（capabilities）？我們的世界是其中之一的可能性有多大？你將如何學習、更新認知，並決定不再為 Anthropic 工作？

我要感謝所有對草案提供反饋、願意分享信息以及提高對本文討論事實關注的人。

如果你想分享信息，請通過 Signal 聯繫：@misha.09。

Anthropic 據稱存在的理由是什麼？
私下裡，Dario 經常說他不會推動 AI 能力的前沿；後來，Anthropic 推動了前沿。
Anthropic 表示將在「我們可能處於悲觀情境」的假設下行動，但它似乎並未這樣做。
Anthropic 缺乏強大的、獨立且符合價值觀的治理。
Anthropic 曾簽署秘密的互不毀謗協議。
Anthropic 領導層的遊說行為與其形象相矛盾。
5.1. 歐洲
5.2. SB-1047
5.3. Jack Clark 就紐約 RAISE 法案公開撒謊。
5.4. Jack Clark 試圖推動聯邦優先權。
Anthropic 領導層悄悄撤回了 RSP 承諾。
Anthropic 究竟為什麼存在？
結論

0. Anthropic 據稱存在的理由是什麼？

很高興宣布我們今年一直在做的事情——@AnthropicAI，一家 AI 安全與研究公司。如果你想幫助我們將安全研究與擴展機器學習模型相結合，同時思考社會影響，請查看我們的招聘頁面。—— Daniela Amodei，推文，2021 年 5 月

「Anthropic 作為一個組織存在的主要原因，是我們認為有必要對『前沿』AI 系統進行安全研究。這需要一個既能處理大型模型，又能優先考慮安全的機構。」

「我們許多最嚴重的安全擔憂可能只會在接近人類水平的系統中出現，如果不接觸這些 AI，就很難或無法在這些問題上取得進展。」

「許多安全方法（如憲法 AI 或辯論）只能在大型模型上運行——在較小的模型上工作，無法探索和證明這些方法。」

「遺憾的是，如果實證安全研究需要大型模型，這迫使我們面臨艱難的權衡。我們必須盡一切努力避免安全導向的研究加速危險技術部署的情況。但我們也不能讓過度的謹慎導致最注重安全的研究工作只接觸遠落後於前沿的系統，從而大幅減慢我們認為至關重要的研究。」

「我們的目標是對前沿能力的展示（即使不發表）保持深思熟慮。我們在 2022 年春季訓練了旗艦模型 Claude 的第一個版本，並決定優先將其用於安全研究，而非公開部署。隨後，在它與公開技術前沿的差距縮小後，我們才開始部署 Claude。」—— Anthropic，關於 AI 安全的核心觀點：何時、為何、什麼以及如何，2023 年 3 月

我認為我們不應該競相領先，或試圖建造比其他組織大得多的模型。而且我認為，我們不應該試圖煽動對巨型模型或最新進展的興奮或炒作。^([2])* 但我們應該建造進行安全工作所需的東西，並嘗試在相當接近技術前沿的模型之上盡可能做好安全工作。*—— Dario Amodei，在 FLI 播客中，2023 年 3 月

Anthropic 本應是為了在前沿模型上進行安全研究而存在的（開發這些模型僅是為了獲得研究權限，而非參與競賽）。

然而，正如本文其餘部分所述，多年來 Anthropic 領導層的行動和治理已偏向於積極參與競賽，且目前尚不清楚 Anthropic 的全體領導層最初是否真的持有那種願景。

許多人加入 Anthropic 是認為該公司會成為一股向善的力量。目前看來，事實並非如此。

1. 私下裡，Dario 經常說他不會推動 AI 能力的前沿；後來，Anthropic 推動了前沿

如下所述，Anthropic 領導層給許多人（包括兩位早期投資者）留下了「承諾不推動 AI 能力前沿」的印象，即僅在競爭對手發布同等能力水平的模型後才公開發布模型，以減少他人推動前沿的動機。

2024 年 3 月，Anthropic 發布了 Claude 3 Opus，根據 Anthropic 自身的說法，該模型推動了前沿；現在，Anthropic 的新發布已成為常態。^([3])

來自 @Raemon：

大約一年前在一次聚會上與幾位 Anthropic 員工聊天時，我提到了「Dustin Moskovitz 誠摯地相信 Anthropic 有一項明確的不推進 AI 前沿的政策」。一些員工說：「那從來不是一項明確的承諾。這可能是我們幾年前普遍嘗試做的事情，但那更像是『我們當時的事實戰略優先事項』，而不是『明確的政策或承諾』。」

當我提出這點時，討論圈裡的氛圍是「對，那確實有點奇怪，我不知道發生了什麼」，然後話題就轉移了。

我對此感到遺憾。這是一件極其重大的事情。我對其他 Anthropic 員工聳聳肩就跳過話題感到失望，也對自己讓這種情況發生感到失望。

首先，回顧一下 Dustin Moskovitz 的話（順便說一下，我在它被刪除前親眼看過）：

此外，gwern 也聲稱他與 Dario 交談後留下了這種印象：^([4])

既然 Dustin 覺得談論這件事沒問題，而且這已成為主要的政策關注點，我想我應該透露，我在 2022 年 10 月底（即 2023 年 9 月 RSP 之前）與 Dario 談了很久，我們詳細討論了 Anthropic 的擴展政策，我也留下了和其他人一樣的印象：Anthropic 的 AI 軍備競賽政策是大力投資擴展，創造處於或推動前沿的模型以進行安全研究，但他們只會發布次優模型的訪問權限，不會拉高能力水平，並會等待其他人先做，然後再追趕。這樣它就不會助長競賽，但也不會落後並變得無關緊要或失去競爭力。^([4])

Anthropic 發布 Claude-1 和 Claude-2 似乎一直符合這項政策——即使 Claude-2 在很長一段時間內的上下文窗口比任何其他可用的優秀模型都大，但 Claude-2 仍實質上弱於 ChatGPT-4。（回想一下，Sam Altman 試圖解僱 OpenAI 董事會成員 Helen Toner 的導火線，就是她在合著論文中順帶提到 Anthropic 不像 OpenAI 那樣推動前沿。）^([4])

[...] 你需要考慮的主要假設光譜包括：

Dustin Moskovitz 和 Gwern 都將 Dario 的說法解讀得比 Dario 本意更像承諾，而理性的旁觀者會認為這是 Dustin/Gwern 過度解讀。

Dario 溝通不力，方式或許可以理解，但可以預見會讓許多人感到困惑。

Dario 實際上明確改變了主意（這使得這更像是一個破碎的承諾，而隨後聲稱它不是破碎承諾的說法更像是謊言）。

Dario 刻意使用開放式/令人困惑的措辭，優化為既能安撫主要利益相關者，又不必做出真正能支撐這種安撫的承諾。

Dario 直接對他們兩個人撒了謊。

Dario 在對自己撒謊/讓自己困惑。

這很重要，因為：

a) 考慮到利害關係，即使是選項 2 看起來也很糟糕。我可以原諒許多人因意外而溝通不力，但當某人正在籌集巨額資金、開發默認情況下可能非常危險的技術時，意外誤導關鍵利益相關者並不是可以隨便聳聳肩就過去的事。

b) 如果我們處於選項 3、4、5 或 6 的世界（事實上，甚至是選項 2），你應該對 Dario 說過的其他令人安心的話持更懷疑的態度。區分這兩者並不是那麼重要，因為問題不在於「Dario 是個多好的人？」，而在於「你應該如何解讀和信任 Dario 說的話」。

在我上次與 Anthropic 員工聊天時，人們談到了會議和 Slack 頻道，在那裡人們提出了尖銳、重要的問題，而 Dario 並沒有迴避，而是以一種令人信服的方式回答了。但是，如果 Dario 擅長對那些對他有重大影響力的聰明人說一些聽起來令人安心、卻給他們留下錯誤印象的話，你需要對「自己感到安心」這件事保持更多的懷疑。Dustin Moskovitz 與 Dario 交談後，認為這是一項承諾，而不僅僅是「他們正在嘗試做的事情」。

Nishad Singh（FTX 的前高管，另一位早期投資者）也留下了與 Dustin 相同的印象。（據我所知，這此前未被公開報導過。^([1])）

Anthropic 領導層向許多人做出了這項承諾，包括潛在員工和慈善投資者。

其中一些人現在認為 Dario 背信棄義。

如果 Anthropic 的政策因戰略格局的變化而改變，他們至少需要明確說明。如果沒有改變，他們需要解釋最近的行動和目前的計劃如何與「不推動前沿」相容。

2. Anthropic 表示將在「我們可能處於悲觀情境」的假設下行動，但它似乎並未這樣做

當 Anthropic 獲得「對齊很難」的證據時會發生什麼？

Anthropic 曾以此理由為研發危險能力辯護：

如果對齊最終成為一個嚴重的問題，我們將需要向 AI 實驗室提出一些重大要求。我們可能會要求實驗室或國家行為者暫停擴展。—— Anthropic，誤對齊的模型生物：對齊研究新支柱的案例，2023 年 8 月（強調為後加）

如果我們處於悲觀情境……Anthropic 的角色將是提供盡可能多的證據，證明 AI 安全技術無法防止先進 AI 帶來的嚴重或災難性安全風險，並發出警報，以便全球機構能夠集中集體力量防止危險 AI 的開發。如果我們處於「近乎悲觀」的情境，這可能涉及將我們的集體力量轉向 AI 安全研究，並在此期間停止 AI 的進展。我們處於悲觀或近乎悲觀情境的跡象可能是突然且難以察覺的。因此，除非我們有足夠的證據證明我們並非處於這種情境，否則我們應始終在「我們仍可能處於這種情境」的假設下行動。—— Anthropic，關於 AI 安全的核心觀點：何時、為何、什麼以及如何，2023 年 3 月（強調為後加）

2023 年 3 月，Anthropic 表示，除非有足夠證據證明並非如此，否則應假設我們可能處於悲觀或近乎悲觀的情境。

2024 年 12 月，隨著「對齊造假」論文的發表，@evhub（Anthropic 對齊壓力測試主管）表達了一種觀點，即這是我們並非生活在「對齊很容易」的世界的證據；對齊並非易事。

Anthropic 對於這項「我們不太可能處於樂觀情境」的證據有何反應？

如果他們目前不認為我們處於「對齊很難」的世界，他們應該解釋原因以及什麼樣的證據會讓他們改變看法；如果他們接受這一觀點，他們應該明確說明他們如何嘗試像承諾的那樣「發出警報」或「停止 AI 進展」，或者他們決定這樣做的具體標準是什麼。

或者，如果他們認為由於其他實驗室的誤對齊、地緣政治觀點或其他原因，他們的戰略應該改變，他們需要誠實地面對自己改變了主意。

如果 Anthropic 愈發確信我們處於悲觀或近乎悲觀的世界，那麼它在促使州政府和聯邦政府更容易聽到警報方面做了多少努力？

Anthropic 如何建立具體的護欄來維持其承諾？它如何確保負責關鍵決策的人員充分知情，並擁有正確的動機和激勵機制？

從 2023 年初到 2025 年底，Anthropic 的聯合創始人和員工一直支持這種描述：

然而，在 2025 年 7 月，Dario Amodei 表示他看到「絕對沒有證據」支持「他們將無法控制這項技術」的命題。

Anthropic 如何確保在悲觀世界中實際獲得的證據能說服決策者，並促使 Anthropic 要求實驗室或國家行為者暫停擴展？

Anthropic 是否有任何制度化的機制來學習我們是否生活在悲觀情境中，以及相應的應對措施？

我們還沒有看到答案，這似乎意味著他們要麼沒有思考過這個問題，要麼思考過但選擇不公開結論。無論哪種情況都非常令人擔憂。^([5])

在後面的章節中，我們還將討論與「我們可能處於悲觀情境」假設相矛盾的遊說行為。

3. Anthropic 缺乏強大的、獨立且符合價值觀的治理

Anthropic 尋求來自阿聯酋和卡塔爾的投資

來自 WIRED：

Amodei 承認，尋求威權政權投資的決定會引發偽善的指責。在一篇題為《充滿慈悲恩典的機器》的文章中，Amodei 寫道：「民主國家需要能夠設定強大 AI 進入世界的條款，既是為了避免被威權主義者壓倒，也是為了防止威權國家內的人權侵犯。」

有些人可能過度關注 Anthropic 的正式文件和結構，而現實中，考慮到其實際的制度結構以及「長期利益信託」（即使其使命一致）與其運營決策的分離，Anthropic 繞過正式文件行事是相當直接的，包括為了留在前沿而屈服於各種壓力和激勵。

如果是一家未來需要融資的前沿 AI 公司，你可能會發現自己在優化投資者的利益，因為如果你不這樣做，現在和未來的融資都會變得更加困難。^([6]) 由於運營和戰略需求會影響 Anthropic 關於在哪裡建立數據中心、遊說什麼（包括對出口管制的的支持程度）、允許哪些政府訪問其模型等決策，因此存在結構性原因促使他們規避任何旨在防止治理被架空的護欄（如果真的存在任何具體且有效的護欄的話）。

Dario 在某種程度上承認了這一點（強調為後加）：

投資未來輪次的隱含承諾可能會創造一種情況，使他們擁有一些軟實力，使得未來抵制這些事情變得更難。事實上，我確實擔心，如果不答應其中一些條件，可能很難獲得最大*規模的投資，」Amodei 寫道。「但我認為對此正確的反應是，看看我們在不答應這些條件的情況下能獲得多少（我認為仍有數十億美元），然後在他們提出要求時堅持立場。

Anthropic 會在投資者壓力面前堅持立場的想法，與 Anthropic 的投資者兼合作夥伴亞馬遜（Amazon）顯著影響了 Anthropic 對 SB-1047 的遊說工作這一事實直接矛盾。在我看來，這表明 Dario 要麼沒有意識到這一點，不像他表現得那麼深思熟慮，要麼就是在故意誤導接受投資會帶來什麼樣的激勵。

此外，有些推測性地（我無法從多個獨立來源證實這一點），Anthropic 推動擴散規則是因為他們不希望 OpenAI 獲得沙烏地阿拉伯的投資；Anthropic 以安全擔憂為由進行辯論，而實際上，他們是出於競爭力的考慮。

長期利益信託（LTBT）可能很軟弱

根據尚未公開的《投資者權利協議》內容，LTBT 任命的董事可能無法解僱執行長。（值得注意的是，這在正式權利上甚至少於 OpenAI 非營利董事會對 OpenAI 執行長的權力。）

LTBT 任命的 Anthropic 董事會成員之一是 Reed Hastings。我找不到任何證據表明他在很大程度上關心 AI 生存風險或安全。

更普遍的問題

即使對於 Anthropic 內部的一些人來說，也不清楚 LTBT 和董事會究竟擁有多少真實或正式的權力、認知和專業知識。

一些熟悉 Anthropic 領導層想法的人告訴我，違反 RSP 承諾（下文討論）並不重要，也沒有理由討論它們，因為這些承諾和政策條文與領導層的實際決策無關。

擁有董事會監督的全部理由，就是為了確保公司遵守它聲稱遵守的規則。

如果規則在方便時被忽視，公司及其董事會就需要實施更強大的治理機制，並設有明確的護欄；否則，在實踐中，董事會就被架空了。

遺憾的是，我沒能看到多少 Anthropic 領導層主動修復問題並改善治理狀態的例子，他們更多是在回應他人提出的問題並試圖挽回面子（例如在互不毀謗協議的情況下，下文討論），或者是關於長期利益信託成員的細節在被點名後才公開。

4. Anthropic 曾簽署秘密的互不毀謗協議

Anthropic 曾提供（1, 2）包含互不毀謗條款和涵蓋該條款的保密條款的離職補償協議：離職後你不能說 Anthropic 的壞話，且不能透露「你不能說它壞話」這一事實。

2024 年 5 月，OpenAI 類似的協議^([7])被曝光，隨後 OpenAI 撤回了這些協議。

儘管如此，Anthropic 直到 2024 年 7 月 Oliver Habryka 公開分享他知道 Anthropic 也存在類似協議後，才處理此問題。

只有當他們的類似做法被公之於眾時，Anthropic 才修正了航向。

即便如此，Anthropic 領導層在此問題上仍具誤導性。

Anthropic 聯合創始人 @Sam McCandlish 回覆稱，Anthropic「意識到這種常規使用的互不毀謗協議，即使是在這些狹窄的案例中，也與其使命相衝突」，並且最近「一直在審查標準協議並刪除這些條款」。此外：「任何與 Anthropic 簽署過互不毀謗協議的人都可以自由陳述這一事實（我們對之前一些協議在這一點上不夠清晰表示遺憾）。如果有人過去簽署了互不毀謗協議並想對 Anthropic 的安全問題提出擔憂，我們歡迎這種反饋，且不會執行互不毀謗協議。」

Oliver Habryka 指出，這個回覆的一部分是「徹頭徹尾的謊言」：

任何與 Anthropic 簽署過互不毀謗協議的人都可以自由陳述這一事實（我們對之前一些協議在這一點上不夠清晰表示遺憾）[強調為後加] 這在我看來是一個徹頭徹尾的謊言？

我非常確信，你們要求至少一名員工簽署的互不毀謗協議並非含糊不清，而是非常明確地規定不能提及互不毀謗條款。

重申我所知道的事實：Anthropic 的員工被要求簽署互不毀謗協議，並承諾絕不告訴任何人存在這些協議。在我看過的協議中，沒有任何含糊之處。

Neel Nanda 證實了這些事實：

我可以證實，我那份隱藏的互不毀謗協議非常明確地規定我不能討論協議的存在或條款，我不認為我有任何誤解的可能。（但我現在已經被解除了！）

此外，至少在一個案例中，一名員工試圖拒絕簽署互不毀謗協議，但其請求被拒絕了。（這此前未被報導過。^([1])）

5. Anthropic 領導層的遊說行為與其形象相矛盾

在 2023 年 7 月的參議院證詞中，Dario Amodei 主張立法強制在訓練期間的定期檢查點進行測試和審計，包括「可以測量自主系統逃避控制能力」的測試，並要求所有模型在部署前必須通過某些標準。

在 Time 的一篇報導中，Dario 似乎傳達了類似的情緒：

為此，公司自願進行了約束：承諾在開發出足夠強大的安全措施之前，不會發布超過特定能力水平的 AI。Amodei 希望這種被稱為「負責任擴展政策」（RSP）的方法能向競爭對手施壓，讓他們做出類似承諾，並最終激發具有約束力的政府監管。（Anthropic 的主要競爭對手 OpenAI 和 Google DeepMind 隨後也發布了類似政策。）「我們並不是想說我們是好人，而其他人是壞人，」Amodei 說。「我們是想把整個生態系統拉向一個每個人都能成為好人的方向。」

然而，與此矛盾的是，Anthropic 竭力遊說反對任何強制性的測試、審計和 RSP（案例見下文）。如果他們覺得具體法律有令人困擾的條款，他們當然可以提出具體的新規則或不同的規則——但總體而言，他們並沒有這樣做。

來自 Time：

來自開發出最先進 AI 模型的新興公司的創始人，如 OpenAI 執行長 Sam Altman 和 Anthropic 執行長 Dario Amodei，在聽證會作證和參加洞察論壇時都呼籲進行監管。[...]

但據多位出席或熟悉此類對話的消息人士透露，在與國會辦公室的閉門會議中，這些公司通常不太支持某些監管方法。特別是，這些公司往往主張非常寬鬆或自願的監管。

歐洲

歐洲政策制定者和非營利組織代表報告稱，Anthropic 代表在私下會議中反對政府要求的 RSP，其論點與 OpenAI 的代表如出一轍。^([1])

2025 年 5 月，有人向 Anthropic 董事會和長期利益信託成員分享了一項擔憂，即 Anthropic 計劃「與其他主要的 AGI 公司協調，試圖削弱或扼殺針對先進 AI 模型的[實踐準則]」。該準則由 Yoshua Bengio 撰寫，狹義地關注失控、網絡和 CBRN（化生放核）風險。^([1])

SB-1047

Anthropic 竭力遊說以削弱該法案，試圖扼殺它，且僅僅是因為內部壓力才表現得比其他 AI 公司好一點。^([1])

起初，Anthropic 領導層在內部試圖說服員工，州級監管的「拼湊」將是可怕的：他們不應推動州級監管，而應僅推動聯邦立法。這隱含著 SB-1047 是不可支持的。
最終，員工進行了反擊。之後，Anthropic 似乎有所讓步，減少了對法案的公開反對（並提交了「若修訂則支持」信函），但其對內和對外的呈現方式仍與其實際行動相矛盾。
特別是，Anthropic 仍試圖扼殺該法案。
作為一個公開案例，Anthropic 試圖對法案提出修正案，這些修正案將涉及立法機關每個委員會的權限，從而給每個委員會另一次扼殺法案的機會。Max Tegmark 稱之為「直接出自大科技公司劇本的陰險程序手段」。

（Anthropic 發言人對此回應稱，該法案的當前版本「可能會削弱美國在 AI 開發方面的競爭優勢」，並且公司希望「將法案重新聚焦於前沿 AI 安全，遠離那些對快速發展的技術不夠靈活的方法」。）

Anthropic 還試圖削弱該法案。
它遊說反對那些根據 Anthropic 自身呈現的世界模型顯然是正確的條款：
普通法律的標準做法是防止可能導致災難的魯莽行為，即使尚未發生實際損害。魯莽駕駛、魯莽危害和許多安全違規行為無論是否有人受傷都會受到懲罰；在民法中，禁制令可以在損害發生前停止危險行為。

Anthropic 主張反對任何形式的「損害前執法」，甚至包括僅僅審計公司是否遵守其自身的 SSP^([9])，建議僅在公司造成實際災難後才承擔責任。

「與其決定公司應採取哪些措施來防止災難（這些災難仍是假設性的，且生態系統仍在迭代以確定最佳實踐），不如將法案聚焦於讓公司對造成實際災難負責。」

在一個我們可能生活在悲觀或近乎悲觀情境的世界裡，允許公司在發生可怕錯誤之前任意不負責任是荒謬的，但這正是 Anthropic 所推動的。

它遊說反對針對魯莽行為的責任。它要求一項修正案，使加州總檢察長只有在重大損害迫在眉睫或已經發生時才能起訴公司，而不是針對疏忽的損害前安全實踐。

Anthropic 主張反對強制制定 SSP 的要求：

「目前的法案要求 AI 公司設計並實施符合某些標準的 SSP——例如，它們必須包括足以提供『合理保證』AI 系統不會導致災難的測試，並且必須『考慮』尚未編寫的州政府機構指南。為了執行這些標準，州政府可以起訴 AI 公司並處以巨額罰款，即使沒有發生實際損害。」

「雖然這種方法在最佳實踐已知的成熟行業中可能是有意義的，但 AI 安全是一個新生領域，最佳實踐仍是原始科學研究的主題。例如，儘管我們公司的領導層（包括執行長）花了幾個月時間起草和完善 Anthropic 的 RSP，但在將其應用於我們的首個產品發布時仍發現了許多含糊之處。我們的 RSP 也是行業內首個此類政策，且發布還不到一年。」

要求制定政策並採取合理措施確保 AI 系統不會導致災難，這實際上是一件好事。

事實上，在最後的信函中，Anthropic 承認強制制定 SSP 並對公眾保持誠實是該法案的好處之一。

Anthropic 反對建立一個有權定義、審計和執行安全要求的獨立州政府機構。理由是該領域缺乏「公認的最佳實踐」。因此，一個缺乏「開發前沿模型第一手經驗」的獨立機構無法被依賴來防止開發者造成重大損害。相反，這樣一個機構「最終可能不僅損害前沿模型開發者，還會損害初創生態系統或獨立開發者，或阻礙總體創新」。

這種機構最終會損害初創生態系統或獨立開發者的想法是荒謬的，因為這些要求僅適用於前沿 AI 公司。

認為獨立政府機構無法由具有開發前沿模型第一手經驗的稱職人員組成的想法，已被英國 AISI 的存在所證偽。

而且，政府審計公司是否遵守其自身的 RSP 為什麼會是壞事？

Anthropic 主張刪除法案中的舉報人保護條款。
它竭力遊說反對「了解你的客戶」（KYC）條款，該條款對 Anthropic 幾乎無關緊要，但它影響了亞馬遜（Anthropic 的主要投資者和合作夥伴）。
Anthropic 關於法案本身的公開溝通在許多方面都具有誤導性。
Anthropic 呼籲「非常靈活的監管」而非 SB-1047。正如 Zvi Mowshowitz 所說，「考慮到對事物適應方式的偏執程度，這種要求本質上是不相容的。SB-1047 已經是我能想像到的最靈活的法律了，同時又很難以破壞性的方式實施」。
Anthropic 聲稱 SB-1047 引發如此多反對是因為它「不夠乾淨」，而實際上，大多數反對意見是由 a16z 等機構發起的運動結果，其中大多數人會反對任何法案。
Anthropic 聲稱法案的最終版本處於 Anthropic 建議版本與原始法案的「中間」。然而，他們實際上在「若修訂則支持」信函中獲得了大部分修正要求：五項完全滿足，三項部分滿足，只有一項（關於事故報告時間）未獲滿足。儘管獲得了幾乎所有要求的更改，他們仍未正式支持該法案。
在最後關頭，Anthropic 在內部營造了一種總體上謹慎支持 SB-1047 的假象，而實際上，儘管獲得了大部分要求，他們並未正式支持。
他們的信函確實比毫無作為產生了更積極的影響，包括作為兩家（另一家是 xAI）對法案表示認可的前沿 AI 公司之一，在一定程度上削弱了許多反對者「天要塌了」的態度；但這封信與最終在淨效應上支持法案的表現相去甚遠。

在薩克拉門托（加州首府），支持立法的信函應在主題行中包含支持聲明。如果你沒有明確的主題行，那麼即使你是 Anthropic，加州州長的幕僚也不會將其歸類為支持信函，即使信中包含對法案的溫和正面評價。

查閱任何關於加州立法倡導的指南，都會非常明確地指出：在主題行中，你應該清楚地註明「支持」/「請求簽署」等；例如見 1, 2, 3, 3.5, 4。

Anthropic 並未這樣做。沒有任何支持信。

值得注意的是，Anthropic 之前的「若修訂則支持」信函正確地在主題行中包含了其立場，這表明他們在符合自身利益時完全了解正確的倡導格式。

Anthropic 努力削弱法案並試圖扼殺它。甚至 Anthropic 的參與對州長簽署機率的總體影響也不明朗（特別是，它的強烈反對使得一些其他與 EA 結盟的組織不太願意花費資源支持該法案）。Anthropic 最終總體上謹慎支持該法案的內部印象是誤導性的。
不正式支持法案也讓 Anthropic 實現了「聲學分離」：他們可以告訴亞馬遜等合作夥伴他們不支持該法案，同時告訴員工和 AI 安全社群他們支持。
Anthropic 的政策團隊有時會以「存在你不知道的政治因素」為藉口，並訴諸於所謂的幕後工作，而實際上，他們的幕後工作一直集中在扼殺和削弱法案上。^([10])

必須指出的是，競賽中的其他 AI 公司表現得比 Anthropic 差得多，也更不誠實；但 Anthropic 稍微沒那麼嚴重的行為完全可以用「必須維持內部良好形象」來解釋，這並不能改變他們明顯未能遵守先前支持此類努力的初衷，以及他們努力削弱並扼殺法案的事實。Anthropic 的表現遠遜於一個真正關心 AI 安全和合理立法的理想化版本。

Dario 反對除透明度要求外的任何監管

在一篇反對為期 10 年的州級 AI 監管暫緩令的評論文章中，Dario 表示，州法律與聯邦監管一樣，應「狹義地聚焦於透明度，且不過度規定或造成負擔」。這排除了他在參議院證詞中明確表示應實施的審計要求，排除了強制要求公司遵守其 RSP，甚至排除了 Anthropic 聲稱會支持的那個包含其所有修正案的 SB-1047 版本。

Jack Clark 就紐約 RAISE 法案公開撒謊

紐約州的 RAISE 法案僅適用於訓練計算量超過 1 億美元的模型。這是一個排除幾乎所有公司、僅剩少數幾家前沿實驗室的門檻。

Anthropic 的政策主管 Jack Clark 針對紐約 RAISE 法案表示，在其他誤導性言論中：

它似乎還可能對輕微的技術性違規處以數百萬美元的罰款——這對較小的公司構成了真正的風險。

這是一個虛假陳述。 該法案 1 億美元的計算門檻意味著它僅適用於前沿實驗室。沒有「較小的公司」會受到影響。Jack Clark 不可能不知道這一點。

該法案的作者、紐約州議會議員 Alex Bores 直接回應了 Jack Clark：

Jack，Anthropic 一再強調其正在應對的公共安全威脅的緊迫性和重要性，但這些問題在這裡似乎意外地缺席了。

遺憾的是，這個推文串中有很多內容是誤導性和/或煽動性的，特別是「可能對輕微的技術性違規處以數百萬美元的罰款——這對較小的公司構成了真正的風險」。

遊說大軍正將 RAISE 描繪成初創公司的負擔，而這種語言延續了那個謊言。RAISE 僅適用於在最終訓練前沿模型時花費超過 1 億美元計算費用的公司，這是一個非常小、資源高度集中的群體。

此外，最高罰款通常僅由法院針對嚴重違規行為處以，暗示最大處罰將適用於輕微違規是危言聳聽。

72 小時的事故報告時間表與金融服務業的網絡事故報告時間表相同，且僅需簡短的初步報告。

Jack Clark 試圖推動聯邦優先權

Jack Clark 致力於呼籲聯邦優先於州級 AI 監管；特別是，在 2024 年 12 月，Jack Clark 試圖遊說國會議員 Jay Obernolte (CA-23) 實施聯邦對州級 AI 法律的優先權。（這此前未被報導過。^([1])）

6. Anthropic 領導層悄悄撤回了 RSP 承諾

「我們將編寫 RSP 承諾，確保我們不會助長災難性風險，然後僅在 RSP 的範圍內進行擴展和部署」—— Evan Hubinger，在 2024 年 3 月的評論中描述取代「深思熟慮何時發布並為了安全目的嘗試提升能力」的 Anthropic 戰略。

Anthropic 的負責任擴展政策（RSP）被呈現為在每個能力水平上對安全標準的約束性承諾。

但 Anthropic 已悄悄削弱了這些承諾，有時甚至沒有任何公告。

我相信他們將 RSP 更多地視為一種溝通工具，而非即使在不方便時也會遵守的承諾。

未經公告刪除「規劃暫停擴展」的承諾

Anthropic 2023 年 10 月的負責任擴展政策曾有一項承諾：

主動規劃暫停擴展。 如果證明有必要，我們將管理我們的計劃和財務以支持暫停模型訓練，或者如果證明有必要，支持在訓練和部署更先進模型之間延長延遲。在這種暫停期間，我們將努力實施支持安全訓練和部署所需的安全性或其他措施，同時確保我們的合作夥伴可以繼續訪問其當前級別的模型（這些模型此前已通過安全評估）。

這項承諾在隨後的 RSP 版本中被刪除，且沒有任何公告或在變更日誌中提及。

（感謝 現有的安全框架暗示了不合理的信心 一文注意到這一點。）

2024 年 10 月未經公告更改「在達到 ASL-N 時定義 ASL-N+1」

Anthropic 2023 年 10 月的負責任擴展政策曾表示：

我們承諾在首次訓練 ASL-3 模型之前（即在觸發 ASL-3 評估後繼續訓練之前）定義 ASL-4 評估。同樣地，我們承諾在訓練 ASL-4 模型之前定義 ASL-5 評估，依此類推。

2024 年 10 月，這項承諾從 RSP 2.0 版本中被刪除。

Anthropic 並未公開宣布這一刪除。 部落格文章和變更日誌均未提及。

唯一公開指出這一變化的案例是 LessWrong 上一位非 Anthropic 成員的評論。

直到 RSP 2.1 版本，Anthropic 才承認了這一變化，而且僅是在 RSP PDF 文件的變更日誌中，並將刪除承諾歸因於 2.0 到 2.1 的變更：

我們已決定不再維持在開發 ASL-N 模型時定義 ASL-N+1 評估的承諾。

這在官網上的公開變更日誌或部落格文章中仍未提及。

在未宣布或承認這一變化的情況下，Anthropic 當時正準備部署一個它在 ASL-3 標準下開發的模型^([11])；截至目前，Anthropic 的最新模型 Claude Sonnet 4.5 是在 ASL-3 標準下部署的。

2025 年 5 月關於內部威脅的最後一刻更改

在 Opus 4 發布的前一週（該發布首次觸發了 ASL-3 保護），Anthropic 更改了 RSP，使得 ASL-3 不再要求對「試圖竊取模型權重的員工」具有魯棒性，如果該員工有權訪問「處理模型權重的系統」。

根據 Ryan Greenblatt（曾與 Anthropic 合作研究）的說法，這可能顯著降低了所需的安全性水平；對於 Anthropic 在不防範內部威脅的情況下能否「高度防範」有組織的網絡犯罪集團，也存在懷疑。

7. Anthropic 究竟為什麼存在？

Anthropic 是一家由離開 OpenAI 的人創立的公司。他們在那裡做了什麼？為什麼離開？Anthropic 本應有何不同？實際上有何不同？

Anthropic 為我們的使命而存在：確保變革性的 AI 幫助人類和社會繁榮。—— Anthropic，公司，2023 年 3 月

本公司將促進的具體公共利益是負責任地開發和維護先進 AI，以造福人類的長期利益。此外，本公司可從事任何合法的行為或活動 [...] —— Anthropic, PBC，公司註冊證書（修訂版），2025 年 1 月

在創立 Anthropic 之前，其創始人在 OpenAI 時期曾是點燃競賽的人。來自 Karen Hao：

Amodei 開始將擴展語言模型視為——雖然可能不是達到 AGI 的唯一必要條件——但或許是通往 AGI 的最快路徑。機器人團隊不斷遇到硬體問題，進展緩慢且成本高昂，這對情況毫無幫助。

但有一個問題：如果 OpenAI 繼續擴展語言模型，可能會加劇它在 GPT-2 中警告過的潛在危險。Amodei 向公司其他人辯論——Altman 也同意——這並不意味著應該迴避這項任務。結論恰恰相反：Amodei 說，OpenAI 應該盡快擴展其語言模型，但不要立即發布。

[...]

在 2019 年 4 月的蓋茲演示中，OpenAI 已經將 GPT-2 擴展到了稍大一點的規模。但 Amodei 對適度的擴張不感興趣。如果目標是增加 OpenAI 的領先優勢，GPT-3 需要盡可能大。微軟即將向 OpenAI 交付一台新的超級電腦，配備一萬塊 Nvidia V100（當時世界上最強大的訓練深度學習模型的 GPU）。Amodei 想同時使用所有這些晶片來創建新的大型語言模型。

這個想法在許多人看來簡直荒謬。在此之前，使用幾十塊晶片訓練的模型就已經被認為是大規模了。在麻省理工學院和史丹佛大學的頂尖實驗室，博士生能擁有十塊晶片就被視為奢侈。在美國以外的印度等大學，學生們能與多個同儕共用一塊晶片、用一小部分 GPU 進行研究就很幸運了。

許多 OpenAI 研究人員懷疑 Amodei 的想法是否可行。一些人還認為，更漸進的擴展方法會更慎重、更科學、更可預測。但 Amodei 堅持他的提議，並得到了其他領導層的支持。Sutskever 渴望驗證他的 Transformer 擴展假設；Brockman 想繼續提升公司的知名度；Altman 則推動進行最大的嘗試。不久後，Amodei 被提升為研究副總裁。

[...]

他和其他 Anthropic 創始人會建立一套關於「為什麼 Anthropic 而非 OpenAI 才是這項最具影響力技術的更好管理者」的神話。在 Anthropic 的會議中，Amodei 經常在公司更新中加上「不像 Sam」或「不像 OpenAI」這樣的短語。但隨著時間推移，Anthropic 表現出與 OpenAI 的做法幾乎沒有分歧，僅在風格上有所不同，實質上並無二致。像 OpenAI 一樣，它會無情地追求規模。根據 AI Lab Watch 的說法，「當 Anthropic 創始人離開 OpenAI 時，他們似乎與 OpenAI 簽署了互不毀謗協議，以換取 OpenAI 也這樣做。細節尚未公布。」

目前尚不清楚分裂在多大程度上僅與 AI 安全和商業化與研究的分歧有關；然而，AI 安全的品牌形象和不參與競賽的承諾顯然讓 Anthropic 吸引了大量資金和人才。

儘管最初的分歧據稱是針對 OpenAI「日益增長的商業關注」，但 Anthropic 現在基本上同樣專注於其產品的商業化。

Anthropic 的定位和對文化的關注吸引了其他 AGI 和科技公司的人才加入並留在 Anthropic。Anthropic 的人才儲備是其對投資者的核心說辭：他們聲稱能以比 OpenAI 便宜 10 倍的成本完成同樣的工作。

Anthropic 早期採取的政策立場似乎與這些激勵因素有關，就像 Sam Altman 在國會作證請求立法者監管他們一樣，這可能是由與一個關心安全的敵對董事會相關的激勵因素引起的（而現在 OpenAI 董事會的權力已消失，他持有的是完全不同的人格立場）。

雖然早期的溝通集中在與 OpenAI 類似的使命——確保 AI 造福全人類，且向早期員工和慈善投資者傳達的目的是留在前沿以獲取前沿模型進行安全研究，但 Anthropic 公司註冊證書中規定的實際使命一直是開發先進 AI（以造福人類）：不是確保變革性 AI 是有益的，而是開發先進 AI 本身。Anthropic 的公司註冊證書也不包含像 OpenAI 章程那樣的「合併與協助」條款。Anthropic 的使命與「暫停」的想法並不真正相容，即使證據表明暫停是個好主意。

8. 結論

我寫這篇文章是因為我相信 Anthropic 作為一家公司是不可信的，如果員工了解它有多麼「誤對齊」，可能會給它施加更多壓力。

Sam McCandlish 曾說過：

Anthropic 存在的全部理由是增加 AI 發展順利的機會，並激發 AI 安全領域的「向頂端競爭」。[...] 請繼續對我們和其他 AI 開發者施壓：當利害關係如此之高時，標準的企業最佳實踐是行不通的。我們的目標是為 AI 開發治理設定新標準。這包括促進開放對話、優先考慮長期安全、使我們的安全實踐透明化，並不斷完善我們的實踐以符合我們的使命。

雖然其他前沿 AI 實驗室甚至更糟，但 Anthropic 仍然更像是一家試圖贏得競賽的普通前沿 AI 公司，而不是一家「存在的全部理由是增加 AI 發展順利機會」的公司。

由於激勵因素，已經出現了明顯的裂痕，例如為了亞馬遜而遊說反對 KYC 條款。

Anthropic 的治理在最關鍵時刻不太可能對強大壓力具有魯棒性。

存在明確的惡劣行為，例如遊說反對 SB-1047 或歐盟實踐準則，或推動聯邦優先權，或就 AI 安全立法撒謊。

Anthropic 的領導層用聽起來正確的理由為自己改變主意和行動辯護，但始終朝著事實上不那麼負責任的方向改變主意和行動；在一個「他們真正了解各種問題且觀點變化是隨機漫步」的世界裡，這不太可能發生，而在一個「他們出於務實原因改變主意，且與他們對內對外呈現的形象大相徑庭」的世界裡，這更有可能。

有很多案例顯示 Anthropic 領導層對不同的人說完全不同的話。對某些人，他們表現出想贏得競賽；對另一些人，他們說「這是一個離譜的謊言」，即他們想控制行業是因為他們認為只有他們能安全地實現超智能。

我認為從本文可以明顯看出，Anthropic 在許多方面並非其初衷所想的那樣。

Anthropic 領導層對滅絕威脅的擔憂似乎也遠低於我，也低於我認為證據所證明的程度。在更接近我的風險模型的世界裡，他們通過加速 AI 能力進展產生了巨大的淨負面影響。

在各種與 AI 安全相關的活動中^([12])，Anthropic 的領導層和員工表示，任何人都不應該開發日益聰明的模型；如果可能的話，全球大暫停/放緩將是好事。然而，在現實中，Anthropic 並沒有大聲說出這點，也沒有倡導全球暫停或放緩。Anthropic 不僅沒有呼籲國際監管，反而發表關於擊敗中國的言論，並遊說反對那些會讓全球暫停更有可能的立法。Anthropic 的行為並不表現出它認為整個行業需要放緩或停止，儘管它試圖向 AI 安全社群表現出這種姿態；它的遊說行為正在積極對抗那些在悲觀情境下需要發生的事情。

來自 Anthropic 的 RSP：

自創立以來，我們就意識到在推動 AI 能力邊界的同時主動應對潛在風險，並清晰溝通這些風險的本質和程度的重要性。

然而，Anthropic 實際上並未清晰溝通這些風險的本質和程度。

如果你真的是一個相信自己比別人做得更好、即使更願意大家都不做但也必須做下去的 AI 實驗室（或執行長，或政策團隊），你應該大聲、清晰且誠實地說：「把我們全部關掉」。事實上你沒有這樣說，甚至不再真正說「你應該監管我們所有人」，就像 OpenAI 自從董事會輸給 Sam Altman 後就不再這樣說一樣，這很能說明問題。

很難不認同 @yams、@Joe Rogero 和 @Joe Collman 的觀點：

Anthropic 尚未提出一個有原則的論點來證明他們的努力在淨效應上是降低風險的。支持此類主張的分析應包括對他們目前給社會造成的風險的量化估計，並與他們估計的活動帶來的風險降低進行權衡。據我們所知，Anthropic 尚未發表此類分析。我們懷疑，誠實的核算會表明其絕對產生的風險水平是不可接受的。

或者認同 Dario Amodei 的話：

我認為一個公司的領導者必須是值得信賴的人。[如果你為不值得信賴的人工作]，你就是在助紂為虐。

如果你正考慮加入 Anthropic 擔任非安全職位，我請求你除了考慮一般性問題外，仔細考慮證據及其指向的方向，以及 Anthropic 及其領導層目前的形態是否如其所言，是否值得你信任。

如果你在 Anthropic 工作，我請求你試著更好地了解公司的決策過程，並認真考慮停止研發通用 AI 能力，或向公司施壓要求更強大的治理。

正如 @So8res 所言：

這是一個偶爾的提醒：我認為在當前範式下推動 AI 能力前沿是高度反社會的，且在預期上顯著助長了對我所知和所愛的一切的破壞。對所有正在這樣做的人（直接且有目的地為了其自身，而非作為對齊研究的悲哀負外部性）：我請求你們停止。

^(^) 對於本文分享的大多數先前未報導的信息，為了保護消息來源，我沒有直接引用或披露來源。在某些情況下，我審閱了支持文件。我對消息來源對信息的熟悉程度充滿信心。對於某些非公開信息，我無法將其加入本文，因為這可能會識別出有權訪問該信息的來源，或者因為我無法通過多個獨立來源進行驗證。
^(^) 與 Anthropic 的廣告看板形成鮮明對比。
^(^) Anthropic 聲稱 Claude 3 Opus 的性能優於 GPT-4。

Opus 是我們最智能的模型，在大多數 AI 系統常用的評估基準上優於同行，包括本科水平的專家知識 (MMLU)、研究生水平的專家推理 (GPQA)、基礎數學 (GSM8K) 等。它在複雜任務上表現出接近人類水平的理解力和流暢度，引領著通用智能的前沿。
它還明確表示，隨著發布，他們「推動了 AI 能力的邊界」。見相關討論。
根據 Anthropic 的說法，推動前沿的新發布包括：Claude 3.5 Sonnet, Claude 3.7 Sonnet and Claude Code, Claude 4, Claude Sonnet 4.5, Claude Opus 4.5。其他發布，如 MCP，似乎也可能令人擔憂並助長能力的提升。

^(^) 據我所知，Dustin 和 Nishad 將 Dario 的話視為承諾，但目前我不清楚 Gwern 是否也將其視為承諾。我鼓勵你查閱原始討論串（或與 Gwern 交談）以形成觀點。
^(^) 可能有理由保持計劃不公開，但那樣他們至少應該明確說：「我們已經詳細思考過這點並有一個計劃，但出於某些原因我們必須保密」。如果 Anthropic 在公開場合回答了這些問題，請指出，我會更新本文。
^(^) 可以說，投資者在正式協議之外的權力（以及內部激勵）促使 OpenAI 董事會在試圖解僱 Sam Altman 時失敗了。
^(^) 儘管在 OpenAI 的案例中，還存在取消已歸屬股權的威脅。
^(^) 《通用 AI 實踐準則》的安全與保障章節。
^(^) 安全與保障協議（SSPs）。SB-1047 本會要求前沿 AI 公司創建、實施、年度審查並遵守這些協議：這是 Anthropic 應該已經通過其 RSP 在做的事情。
^(^) 一位消息人士分享說，他們仍然採用「在幕後做一些你不知道的事情」和「以神秘方式運作」的溝通策略，而實際上在現任政府中並沒有朋友。
^(^) 雖然當時並未正式觸發 ASL-3 標準，但 Anthropic 並未排除它是 ASL-3 模型的可能性。承諾是在開發 ASL-N 模型時定義 ASL-N+1；未進行評估以確定是否正在開發 ASL-N 模型，並不是未能履行先前承諾的免死金牌。
^(^) 作為具體案例，在 LessOnline 與 Zac Hatfield-Dodds 的公開討論。
^(^) 背景是激勵第三方發現並報告問題和漏洞：「做出此項承諾的公司認識到，即使在強大的紅隊測試之後，AI 系統仍可能存在弱點和漏洞。」

— Lesswrong

你的個人知識庫