Anthropic 負責任擴展政策第 3 版：信任的問題

Lesswrong·4 天前

原文

Anthropic 已將其負責任擴展政策更新至第 3 版，由於競爭壓力以及缺乏產業範圍的協調，其做法已從強硬的安全承諾轉向願景目標。

Anthropic 已將其《負責任擴張政策》（Responsible Scaling Policy，簡稱 RSP）修訂至第 3 版。

涉及的變更包括放棄了許多先前的承諾，其中一項是「如果繼續擴張會帶來危險，則不前進」。理由是考慮到競爭環境，他們認為盲目遵循這類原則並不會讓世界變得更安全。

Holden Karnofsky 主張進行這些變更。他堅持認為先前採取具體承諾的策略是錯誤的，轉而支持新的策略——設定「願景目標」。當初做出那些承諾時，他並不在 Anthropic。

我對此的回應將分為兩個部分。

今天的文章討論關於 Anthropic 背棄先前承諾的考量，包括詢問 Anthropic 在多大程度上違背了諾言，或從人們對這些諾言的反應中獲益，以及我們應該如何回應。

鑑於 Anthropic 本就不打算遵守諾言，他們能提前站出來告訴我們事實，這是件好事。為此表示感謝。

我仍然認為 Anthropic 違背了人們所依賴的重要承諾，且其方式讓未來與 Anthropic 之間，以及實驗室與政府之間的信任與協調變得更加困難。承認現狀絕對是正確的事，但這樣做並不代表你不需要面對後果。

週五的文章將詳細深入探討新的 RSP v3.0 以及隨附的路線圖和風險報告。

請注意，沒錯，這是在愚人節發布的，但這篇文章只有在「那些相信 Anthropic 先前 RSP 的人現在成了愚人」這個意義上，才算是一個愚人節玩笑。

承諾，承諾

如果你最初的承諾是一個錯誤，那麼撤回承諾可能是一個錯誤，也可能不是。無論如何，即使你的承諾不是硬性保證，撤回承諾也意味著要為違背諾言付出代價，即使你有充分的理由這麼做。代價的大小取決於具體情況。

幾乎所有對此事件的主流報導都將其定調為「放棄或撤回 Anthropic 的核心安全承諾」，特別是「在沒有適當防護措施的情況下，不將模型擴張到危險水平」。作為一個核心例子，《華爾街日報》表示，由於競爭壓力，「Anthropic 縮減了 AI 安全承諾」。這雖然簡化了情況，遺漏了很多細節，但似乎並沒錯。

許多更密切關注局勢的局外人認為，這等同於 Anthropic 違背了其承諾。有些人甚至認為，這意味著實驗室對安全的承諾根本不值一提。許多人現在預期 Anthropic 會做出一定程度的努力，但絕不會干擾到商業計劃。如果 Anthropic 都無法履行承諾，為什麼其他人要履行？政府肯定也不會提供幫助。

不要害怕告訴他們你的真實感受。他們表示歡迎。那麼，我們開始吧。

Anthropic 負責任擴張政策 v3

《負責任擴張政策》是 Anthropic 關於何時以及在何種條件下發布前沿模型的承諾。

最顯著的變化是：如果別人先發布了，他們就不再承諾不發布潛在不安全的模型。因為，你知道的，是別人先開始的。

本可以處理得更好

Anthropic 在其新分析中，首先回顧了當初制定 RSP 的變革理論，以及這些理論是否得以實現。他們報告的結果好壞參半。

首先是好消息：

他們開發了（適度）更強的防護措施。
他們成功實施了 ASL-3 防護措施。
他們確實成功促使 OpenAI 和 DeepMind 開發了框架，隨後框架的概念被編入 SB 53 和 RAISE 法案中。

然後是壞消息：

它並未就各種模型的風險水平達成共識。事實證明，目前尚不清楚存在多少風險，特別是在生物領域。
政府的行動雖然不是零，但充其量也慢得令人痛苦。
（我想補充）我們對 ASL-4 的預見性不足。
（我想補充）當要求變得不方便時，它們就被修改了。

我只是還沒準備好做出承諾

新版本中最重要的區別是什麼？

Anthropic 現在基本上放棄了硬性承諾和發布模型的障礙，轉而依賴「我們會提出對我們而言合理的論點」，並決定收益是否大於風險。

我欣賞這種誠實。真的，我欣賞。

如果你還沒準備好做出承諾，並且意識到自己不該做出承諾，那麼意識到並承認這一點的第二好時機就是現在。

現在正式打破承諾，比以後默默打破承諾更具誠信。這尤其比在發布前夕默默更改 RSP 要好。我贊同 Charles 的觀點：「Anthropic 不再假裝擁有會單方面暫停的紅線」。

如果 Anthropic 在實踐中已經在執行「我們認為我們的論點是合理的」決策過程（在 Opus 4.6 中似乎大多如此），那麼承認這一點比假裝成另一種樣子要好。

我想強調的是，基本上沒有人——即使是那些不同意我的觀點、認為 Anthropic 應該暫停的人，以及那些認為 Anthropic 做出了強大承諾但現在正在違背的人——會說：「Anthropic 應該僅僅因為他們說過就遵守之前的承諾，即使這會導致不合理的暫停。」

一個人仍然必須為違背諾言以及做出注定會被違背的諾言負責，即使違背諾言的決定是正確的。你辯稱這一舉動是正確的，並不能免除其後果。

1a3orn：據我所見，反對 Anthropic RSP 變更的論點傾向於使用關於違背諾言/責任的義務論語言。

而支持變更的論點則傾向於使用結果論語言/為了更大的利益。

Oliver Habryka：我認為兩者都對！舊的 RSP 顯然是行不通的，考慮到 Anthropic 正在做的事情，它根本不應該被發布。所以放棄它是正確的做法，但當然，如果你違背了諾言，你就應該被追究責任。

解釋追究違背諾言者責任的結果論論點並不難，但大多數人對其重要性都有直覺感受，所以你不需要詳細拆解。

（說清楚點，我認為 Anthropic 應該停止擴張，並將精力轉向倡導暫停，但因為 RSP 而這樣做會很奇怪，我不認為那是正確的做法。

這看起來就像是你搞砸了自己，現在想拖住別人，因為你意外地承諾了一些讓你退出競賽的蠢事。）

我還想強調，承諾只是提高安全性的方式之一。即使計劃毫無價值，規劃也是必不可少的，你完全可以而且應該直接去做。這一切並不意味著「Holden 或 Anthropic 不關心安全」，只是意味著他們會決定自己認為正確的事然後去做，而你可以決定在多大程度上信任他們會做出明智的選擇。

我仍然認為這是 Anthropic 放棄了其在參與自願自我管理和自我約束方面的重要實驗。技術上他們保留了這樣做的權利，但這樣做仍然讓人感到沉重的一擊。

實驗結束了。這比假裝實驗正在進行要好。

從這一點來看，不再有承諾，只有意向聲明。Anthropic 將會做它想做的事。你可以選擇信任 Anthropic 的領導層會做出好的決定，也可以選擇不信任。

我認為 Anthropic 對自身歷史的描述表明，擁有這些軟性約束的承諾，並擁有視打破承諾為代價高昂的記錄，對安全成果和政策採納是非常有利的。我痛恨我們放棄了這一點。

如此寒冷，如此孤獨

如果你的承諾是以他人的行動為前提的，你應該說出來。

他們以前並非完全沒說過這點，但當時的措辭更像是「緊急情況下我們可能不得不打破玻璃」，而不是「除非所有相關方都加入，否則我們才收手」。

RSPv2 在 7.1.7 中是這樣說的：「如果另一個前沿 AI 開發商在沒有實施同等所需防護措施的情況下，通過或即將通過能力閾值，以至於其行為對世界構成嚴重風險，那麼由於 Anthropic 帶來的增量風險很小，Anthropic 可能會降低其所需的防護措施。如果這樣做，它將承認 AI 系統（包括其自身）所構成的整體風險水平，並投入大量精力向美國政府爭取監管行動。」

而 Anthropic 現在表示，除非他們得到他人的明確承諾，否則他們願意率先達到這些閾值，即使這並非微小的增量風險。

我強烈同意 aysja 的觀點，並不同意 Holden 的看法，即將這種轉變描述為「RSP 作為動態文件的自然延伸」是具有誤導性的。

我確實明白如下論點：

率先行動是為了在協調博弈中引導他人跟進。
沒有人跟進。
那行不通，所以我們應該承認失敗並繼續前進。

如果這就是我們現在的處境，你完全有理由預先明確這項更嚴格的要求。這會給他人更多跟隨你的理由，並避免我們現在看到的那些糟糕標題。可惜，現在說這些有點晚了。

如果錯誤已經鑄成，承認失敗並表示你不會讓其他可能更愚蠢、風險更高的人搶先一步，這顯然不是壞事。

我絕對同意，現在宣布你打算違反舊政策，比等到你違反舊政策的那一天（那一天可能永遠不會到來）再宣布要好。

davidad：在 2024 年，自願承諾放慢 AI 發展是一個不錯的主意，當時這似乎有可能是邁向多邊協議、遏制智能爆炸的初步嘗試。由於種種原因，這現在已不再可行。

Anthropic 在這裡做得很好。

在 2026 年的戰略格局中，競爭是正確的舉動，不僅是為了利潤，也是為了最大限度地提高大多數現有人類獲得良好結果的可能性。

Sam Bowman (Anthropic)：我贊同[上面]第一段。

Anthropic RSP 的變更是試圖在一個政策和協調前景不如預期的環境中，找出哪些堅定的承諾最具槓桿作用。

我們誤判了此時環境的樣子，這很遺憾。但這些新承諾仍然具有一定的分量，包括在風險和緩解措施方面更多可驗證的透明度（有第三方參與）。

Oliver Habryka：我贊成找出哪些堅定的承諾最具槓桿作用。但當然，你不能直接通過做出「堅定的承諾」來做到這一點！

如果你只是在玩弄不同的承諾，那就不是堅定的承諾。

主要的陷阱在於，聽起來「你應該看看另一個傢伙」將被用作一個基本上通用的藉口，無論風險多大都要前進，只要不這樣做的代價很高？

如果 Anthropic 未來確實暫停了很長一段時間，且是以代價高昂的方式暫停，那麼我對此的看法就是錯的，我預先承諾會公開承認這一點。如果我沒這麼做，請提醒我。

正如 Drake Thomas 所指出的，「不要給地球帶來實質性的生存風險」這一美德倫理案例是相當強大的。

一個問題是，這絕對會削弱他人承擔成本的意願，並使那些想不惜一切代價前進的人更加大膽。支持競賽邏輯和合作的不可能性是有後果的。

抱歉讓你產生了那種印象

你說 RSP 承諾了 Anthropic 某些事情是什麼意思？

Robert Long：我對 RSP 了解不多，也沒讀過 Holden 的文章。但這感覺類似於「Anthropic 不會推動能力前沿」的迷思：雖然 Anthropic 的官方立場並未嚴格要求，但這是他們給出的強烈印象，並從中獲益。

這樣說公平嗎？還是不完整？

Oliver Habryka：我的意思是，在這種情況下，那種印象確實極其明確且強烈。我同意關於能力前沿承諾的證據大多是私下的，因此對外是模糊的，但在這件事上我們有確鑿的證據！

例如，這裡有一段與 Evan Hubinger 的對話。對話始於有人說：

某人：我批評 Anthropic RSP 的一個原因是，它沒有明確在什麼條件下會真正暫停，暫停多久，或者在什麼防護措施下會決定可以繼續。

Evan Hubinger 的回應如下（跨越了幾個不同的評論）：當你說出這種話時，很難認真對待你說的其他任何事情；顯然你根本沒讀過 Anthropic 的 RSP。

……

Anthropic 在 RSP 中承諾暫停的條件非常明確。在第二頁的大粗體字寫著：

Anthropic 遵循 ASL 方案的承諾意味著，每當我們的擴張能力超過我們遵守相應 ASL 安全程序的能力時，我們承諾暫停擴張和/或延遲部署新模型。

……

安全條件本身就可能觸發暫停，並且承諾在達到 ASL-3 時，開發出在 ASL-3 之後停止擴張的條件。

……

這是 RSP 的基本實質：我不明白你怎麼可能讀過它卻漏掉了這一點。我不想表現得刻薄，但我對這種極其懶惰的看法感到非常失望。

Oliver Habryka：根據我的經驗，這種情況司空見慣。因此，我確實認為從「作為具體若則承諾的 RSP」轉變為「作為積極里程碑設定的 RSP」構成了對承諾的有意義違背。是的，RSP 的確切措辭一直說 Anthropic 可以修訂它，但那些說該條件會觸發的人經常被忽視和羞辱，就像上面的評論那樣。

這聽起來確實像 Evan Hubinger 基本上在攻擊任何敢於質疑 RSP 代表 Anthropic 事實上的強大承諾的人。我們現在知道它並沒有對 Anthropic 做出任何強大的約束。

Evan 曾預測 Anthropic 的承諾有很大機會在某個時刻迫使其暫停。Oliver 對此建立了一個預測市場，儘管能力進展迅速且 Anthropic 現在可以說處於領先地位，但該市場現在的機率約為 0%。

即使在 RSPv3 發布後，Evan Hubinger 仍繼續為其立場辯護，稱他只是說 RSP 對界線在哪裡做出了明確陳述，而不是說這些界線不會改變或在實踐中真正起作用。和 Oliver 一樣，從 Evan 評論的字面意思來看，我覺得這非常有說服力。我確實欣賞 Evan 現在說我們應該降低 RSP 理論的權重。

那麼問題就變成了：Evan Hubinger 和其他有類似言論的員工是否產生了錯誤的印象？如果是，為什麼？如果不是，為什麼要這樣說？

Oliver Habryka 在這裡說得再清楚不過了，我不認為他會對此撒謊：

Oliver Habryka：是的，Anthropic 的員工在十幾次場合告訴我，RSP 將他們綁在了桅杆上。我與許多 Anthropic 員工就此進行了多次非常明確的對話，因為我一直在關注我認為 Anthropic 違反了不推動 AI 能力現狀的承諾，許多員工對此表示異議。

…… 在我參加的各種活動以及與人的對話中，Anthropic 員工告訴我，他們的目標是實現防範國家支持的駭客計劃的穩健性，如果無法實現，他們準備暫停（因為 RSP 對此類事情做出了「承諾」）。

Oliver 指出，Holden Karnofsky 之前特別傳達過他認為這是一種不同且較低級別的承諾，這與他在 v3 中推動變更是一致的，這與許多其他 Anthropic 員工形成了對比。

正如 Oliver Habryka 在這裡所說，如果 Evan 產生了這種錯誤印象，Anthropic 通過給予像 Evan 這樣的高級員工這種印象而獲益巨大。這看起來不像是 Anthropic 的「失誤」，從外部視角來看，將其視為意外是不合理的。

起碼，如果你不承認 Anthropic 現在已經實質性地違背了其承諾，那麼這就是對「承諾」一詞極具誤導性的使用。

Oliver Habryka：如果這裡涉及的員工最終說他們被欺騙了，我會感到相當驚訝。而且，這些都是級別足夠高的員工，甚至不清楚「被欺騙」對他們來說意味著什麼。被誰欺騙？RSP 是他們起草的！他們幾乎肯定也參與了更改它的決定。

他們從中獲益巨大，獲得了在 Anthropic 工作的社會許可，讓人們不再糾纏他們，而且他們現在至少是千萬富翁（通常是億萬富翁）。

Robert Long：就我而言，我認為那種分歧是關於「承諾」的語義問題（如你所指出的）。我也同意你當時關於「承諾」內涵的說法——將 RSP 稱為承諾意味著他本應反對變更，和/或現在承認「我們決定違背我們的承諾」。

特別是，是的，許多關心生存的人認為 RSP 的核心點在於作為一種事實上的妥協，試圖建立一個關於減速或暫停的「若則承諾」觸發器。如果你無法滿足條件，你就必須暫停，這使得現在繼續前進變得可以接受。

事實上，人們可以走得更遠。整個不僅關注 Anthropic，還關注像 METR 和 Apollo 這樣基於評估的組織的計劃，其核心在於評估可以構成觸發「則」的「若」。我們現在知道這類承諾行不通，而且當模型通過危險能力測試時，即使是 Anthropic 也可能會退回到憑感覺行事。METR 的變革理論是「確保世界不感到意外」，但我預計他們仍然會感到意外。

或者，你也可以像 Holden 那樣解釋，即「沒有人願意減速，除非發生危機，否則這不會改變」。現在的態度基本上是「暫停或減速對前沿 AI 實驗室來說無異於自殺，所以情況必須極端到極點才會那樣做，這更多是我們嚮往的計劃」。這也是一件好事，但這是一種完全不同風格的文件。那些認為它是第一類文件的人失去了貝氏點數（Bayes points）。而那些認為它是第二類文件的人贏得了貝氏點數。

人們可以將這一切解釋為「Anthropic 員工暗示他們在使用理性主義的認識論規範，但實際上他們在使用另一套規範」。

騙我兩次

這次倒退讓你聯想到什麼了嗎？

應該有的。特別是，它應該讓你聯想到關於「Anthropic 不會推動 AI 能力前沿」這個想法所發生的事情。

許多人用各種措辭和不同程度的承諾告訴我們，Anthropic 不會那樣做。然後 Anthropic 稍微做了。接著他們完全徹底地做了，現在 Claude Code 和 Claude Opus 4.6 顯然處於前沿。

然後我們被告知：「噢，我們從未承諾不那樣做。」

也許他們確實沒有嚴格承諾。也許涉及了很多傳聲筒遊戲，但 Anthropic 起碼非常清楚很多人都有那種印象。我也有那種印象。他們知道人們正在根據這一決定做出重大的人生抉擇，並決定是否以及在多大程度上支持 Anthropic，卻沒有任何跡象表明有人曾採取行動糾正這一記錄。

現在我們又被告知：「噢，我們從未承諾不[撤銷我們的承諾]。」

那麼，關於你們的新承諾，你們想告訴我們什麼？

Ruben Bloom (Ruby)：我不喜歡這種模式。2022 年，我被告知「Anthropic 承諾不推動前沿」，作為減少擔憂的理由。後來那被放棄了，Anthropic 的安全故事變成了 RSP。現在那個也崩塌了。

我說「我被告知」，是指 Anthropic 員工在對話中對我說的具體內容，他們當時在為自己參與一家加入 AI 競賽的公司辯解。

當你多年前就預測競爭壓力會侵蝕任何甚至所有承諾時，這種「我早就告訴過你」的感覺真是苦澀。

Eliezer Yudkowsky：如果我曾對 Anthropic 的「負責任擴張政策」有過哪怕一絲一毫的信任，我現在大概會感到深受背叛！

就目前而言，我只要求你更新你的預期，不要總是對「嘿，Eliezer 說它是空話果然沒錯」感到驚訝。

注意：要觀察我的憤世嫉俗是如何反覆最終被證明是正確的，只需統計事情最終的結果。不要在你聽到一個尚未兌現的承諾或看到一個可爭議的希望跡象時，就跳出來說「看，Eliezer 的憤世嫉俗錯了！」。

Eliezer 和其他人經常因為預測了那些從大體上看確實似乎在各地可靠地發生的事情而受到抨擊。人們不斷地說「我們不會做 [X]」或「在種情況下我們肯定會做 [Y]」，或者老天保佑，「沒人會蠢到去做 [Z]」，然後轉過頭來，同樣的這些人做了 [X]，沒做 [Y]，而且很多人做了 [Z]，而你卻因為曾認真對待另一種可能性而被當作天真的白痴。

最好更新你的先驗概率。所有說承諾不會兌現的人都贏得了貝氏點數。那些沒這麼說的人失去了點數。

所有現在說新「承諾」很重要、這次他們是認真的人？這些承諾並非毫無意義，但它們並非真正的承諾。

我也不明白，考慮到其組成和 Anthropic 過去的行為，為什麼我應該對「長期利益信託」（Long Term Benefit Trust）寄予厚望。擁有目前形式的信託總比沒有好，但這是一個重要的錯失機會。

Anthropic 在與戰爭部（Department of War）對抗期間堅持其信念，這點絕對值得肯定，即使你認為那些具體選擇是不明智的。我認為，對於「Anthropic 或另一個實驗室現在採取這一特定立場」這類行動的希望，遠大於「Anthropic 或另一個實驗室以後會採取這一特定立場」。

在我辯護時，我沒人監管

Holden 在這裡和這裡為新的 RSP 辯護，基本上是說約束性承諾是壞的，因為我們沒有足夠的信息來明智地選擇它們，所以你可能會選擇不當並在以後後悔，事實上 Anthropic 以前有時確實選擇不當，而現在就是「以後」，他們正在後悔。所有不想做出任何約束性承諾的人都會這麼說。

儘管 Holden 說他有一份文件記錄了他認為單方面暫停會是個好主意的情況，但我將他的話解讀為：他們將盡力採取適當的緩解措施，但最終，是的，他們將發布模型，無論是對內還是對外，無論是否有可用的緩解措施，除非「好吧，這顯然是一個非常糟糕的主意，會讓我們所有人喪命，或者至少直接在我們臉上爆炸」，而他們只是承認這一點一直都是事實。好吧，那就這樣。

Holden 基本上特別表示，他不認為 Anthropic 應該因為無法防止模型權重被竊取而放慢速度，即使這跨越了至少具有奇點傾向的「AI R&D-5」閾值。無論如何他們都會繼續前進。他們不會停止。我非常擔心兩件事：一是不停止，二是如果沒有必須停止的強制機制，他們會比以前更不願意在必要預防措施上投入足夠的資金，無論是在這裡還是其他地方。他們不僅不能停止、不會停止，他們也不會停機並報錯。

有一份願景目標清單是件好事。我不認為一份願景目標清單能創造足夠的「看起來很糟糕」的威脅，從而提供同樣的激勵。這並不意味著目標清單不能以其他方式發揮作用。

我看到 Holden 抱怨很多人「將 RSP 視為具有硬性承諾」，並以此作為擺脫所有承諾的額外理由。他指著所有抱怨 Anthropic 剛剛違背承諾的人說：「看吧？這種反應更說明了為什麼我們必須打破所有承諾。」

這正是那種執行機制：如果你打破承諾，人們會對你發火。這就是為什麼我們不能在活著的同時擁有美好的事物。所以現在我們將擁有願景。

願景是有幫助的，它們實質性地提高了你去做某事的機會，但當你以後決定不去做時，它們是微弱的預先承諾工具。

我還認為他自己的論點——「要求實驗室做他們已經承諾要做的事情要容易得多」——直接反駁了「不承諾任何事情」的計劃。

Drake Thomas 發現了缺失的情緒

Drake Thomas 認為從 v2.2 到 v3.0 的轉變是一種進步，同時也注意到需要對原始 v1.0 的精神進行某種哀悼或悲傷，因為那種精神現在已經消失，並在 Anthropic 的實踐中被證明是行不通的。

Drake Thomas (Anthropic)：(1) 在閱讀這份 RSP 的草案並對其進行定位時，我感到了一種類似於對原始 v1.0 RSP 精神的哀悼或悲傷。（v1 RSP 的相當多內容延續到了 v3，但在這裡我特別指的是那種「指定非常清晰的能力閾值，以觸發非常具體的安全緩解措施，否則就停止開發」的氛圍。）

我認為這種原始方法最終對負責任的 AI 開發者設定安全政策來說只是一個相當糟糕的方式，會導致優先級錯誤和糟糕的結果，對激勵和認識論產生扭曲效應，並且在 2026 年的環境中無法實現太多的風險降低。

…… 問責制！RSP v1 的氛圍某種程度上將所有問責制都寄託在這種承諾是固定不變的東西上，Anthropic 必須支持它，否則後果自負。我認為這在某些方面和某些威脅模型下是好的，但我認為當時和現在，關於「Anthropic 承諾的事情是否真的對安全有益且有用？」這個問題的反饋都比我希望的要少。在 v3 中，我認為關於這些問題的外部問責現在承擔了更多重任，並且有更詳細的實質內容來支撐這種問責。這引導我走向……

反饋！…… 我預計關於「v3 政策本身是否是一個具有良好後果的好政策」這一問題的討論將會非常匱乏。就個人而言，我認為它是，並且比之前的 RSP 有了實質性的改進！

請真正閱讀並批評它！抱怨路線圖的模糊性！運行實驗來質疑風險報告的方法論！我隨口就能說出對 RSP 的三個重大不滿，我預計在 X 上一個也看不到，證明我是錯的吧！

我理解 Drake 的挫折感。但是，是的，大多數人將會針對移除關於暫停的核心承諾，以及所謂的承諾畢竟沒那麼有意義這一普遍揭示進行辯論。大多數注意力都會集中在那裡。他明確表示他理解這一點，我會說他通過了關於「為什麼人們感到憤怒且有權憤怒」的意識形態圖靈測試（ITT），特別是我們在 v1.0 中曾有過「更改承諾的門檻遠高於最終實際情況」的表述。

事實上，我們的大部分注意力可能確實應該放在那裡，因為如果新的聲明不是承諾，就更難對其進行富有成效的批評。

昨天本可以提醒我的事 (1)

好吧，你看，不盡快衝刺可能會讓我們慢下來。那會很糟糕。你不會想讓我們那樣做的，對吧？

Jared Kaplan (Anthropic 首席科學官)：我們覺得停止訓練 AI 模型對任何人都沒有幫助。我們並不真的覺得，隨著 AI 的迅速發展，在競爭對手突飛猛進的情況下，我們做出單方面承諾是有意義的。

……我不認為我們在做任何形式的掉頭。

此外，我們評估模型的能力跟不上改進模型的能力，這意味著我們應該對評估進行分類處理，某種程度上隨機應變。我的意思是，你想讓我們做什麼，不發布我們無法評估的前沿 AI 模型嗎？真是個傻瓜。

Chris Painter (METR)：Anthropic 認為其安全計劃需要進入分類處理模式，因為評估和緩解風險的方法跟不上能力發展的速度。

這進一步證明了社會尚未對 AI 可能帶來的災難性風險做好準備。

我喜歡對透明風險報告和公開可驗證安全路線圖的強調。

Billy Perrigo：但他表示，他「擔心」背離先前 RSP 下的二元閾值（即某種能力的出現可以作為臨時停止 Anthropic AI 開發的觸發線）可能會導致「溫水煮青蛙」效應，即危險緩慢增加，而沒有一個觸發警報的單一時刻。

這確實看起來很有可能，且令人擔憂。

昨天本可以提醒我的事 (2)

在其他需要了解的新聞中，Sean 提出了一個非常好的問題。考慮到事實，Drake 對此的回答已經是人們所能希望的最好的了。

如果你決定打破你的「承諾」，你會想盡快告訴我們。

我得到證實，董事會僅在「最近」才批准了這些變更。

Seán Ó hÉigeartaigh：是在什麼時候決定先前的承諾是「取決於有利環境」而非「堅定承諾」的，這是否傳達給了全體員工？承諾的全部意義在於，當環境不利時，而不僅僅是當承諾容易履行時，人們期望能夠依賴它們。

此時也很清楚，這些承諾曾被呈現得比實際更堅定，並被 Anthropic 及其員工用於：

(a) 駁斥和削弱批評者
(b) 招募關注安全的人才
(c) 在政府更有意願考慮嚴格監管時，主張自願的若則承諾。

我認為這很有可能（儘管尚未證實）：(d) 它們也被用於從關注安全的投資者那裡獲得投資。

你不同意這些說法嗎？如果不是，你是否覺得 Anthropic 在這個（相當重要的！）問題上保持了可以接受的倫理和透明度標準？

Drake Thomas (Anthropic)：關於「在什麼時候決定」——我認為這預設了一個框架，即這類事情在現實中被極其正式地確定下來，程度遠超我認為的一般情況（不僅在 Anthropic，在幾乎所有類似情況下都是如此）？

RSP 的任何版本都沒有特別清楚地說明「承諾」到底應該被解讀為什麼，在一個預期未來會修訂的文件中應該如何解釋，違反這種承諾的代價是什麼，等等。特別是早期版本，存在著巨大的、足以開進一輛卡車的決策關鍵歧義！

並不是說內部有一個秘密的 RSP，裡面有更多關於元承諾的腳註，讓這一切變得戲劇性地清晰；它只是一捆作者意圖、類似判例法的東西、對減少風險的合理決策的理解，以及醞釀已久、花了很長時間才發布的歧義較少的更新政策草案。

就我認為「在什麼時候」這個問題有某種答案而言，我知道早在 2025 年 1 月，Anthropic 員工就廣泛接觸到了類似 RSP v3 體系的早期討論，並且在過去至少 3 個月裡，對與此 RSP 非常相似的草案有了更廣泛的了解，儘管我再次強調，並不是說曾經有過某種正式概念認為這是「被禁止的」，然後在某個離散的時間點發生了改變。

話雖如此：我認為 Anthropic 的氛圍、許多 v1.0 的文本以及其員工在 2023 年和 2024 年左右圍繞 RSP 的言論，呈現了一種比 RSP v3 所反映的更為鐵板一塊的承諾觀（也比我現在認為合理的要多得多），我認為這反映了相當糟糕的判斷，值得批評。（我把自己也算在事後看來表現不佳的 Anthropic 員工之列，儘管據我所知，Holden 從一開始就保持了一致和合理的態度。）

我認為 Anthropic 過去是、將來也會繼續遵守其在發布的政策和承諾中所說的事情（如果未能做到，應該受到大聲批評），但我認為「有效利他主義者（EAs）相信 Anthropic 永久承諾、無論如何都不許反悔的事情」的記錄看起來相當糟糕，我不認為將此類主張解釋為具有那麼強的效力會有好結果（對於 Anthropic 或幾乎任何人來說，在絕大多數情況下做出此類承諾也是如此）。

關於這裡的主張，我的感覺是：

(a) 呃，我認為那個具體的（在另一條推文截圖中引用的 LW 評論）是斷章取義的，並沒有真正對如何解釋 RSP v1 承諾的強度做出任何具體主張。我確實預計這類事情發生過，但我認為 habryka 的引用是一個糟糕的例子。

(b) 是的，我認為「不推動前沿」的修辭在這方面是一個大得多的問題，但 RSP 的東西肯定也起到了一定作用。在某種程度上我對此負有責任，我對此感到遺憾，儘管我記得我已經公開表示認為單方面暫停在一段時間內是相對不可能的。

(c) 嗯，我認為 RSP v1 風格承諾的意圖和當時預期的效果是，通過展示它們在公司的良好運作並使其接近現有的行業標準，增加將此類若則承諾編入監管的機率。它們最終失敗了，部分原因是政治意願的改變，部分原因是其他公司的實質性採納有限，部分原因是真正精確的若則承諾並非運作得那麼好，因為提前幾年以合理的方式指定清晰的閾值極其困難——但我認為這最後一點某種程度上是一個成功案例，因為將安全政策作為自願承諾進行演示的意義在於，如果事實證明這是一個壞主意，你還沒有把自己鎖死在那些最終因引起反彈而對生存風險產生負面影響的愚蠢監管中。你能多說說你如何看待關於承諾強度的溝通惡化了監管前景嗎？

(d) 不打算評論內部的融資考量，但確認一下你指的不是發生在 RSP 推出很久之前的 A 輪融資吧？

接著是一段關於如何看待「Oliver 大體上是對的，但這個具體引用是個壞例子」的討論，我發現如果你是這麼想的，這是一個很有幫助的說法。

我們這裡存在溝通失敗

我認為這也是重要的背景。Dario Amodei 和 Anthropic 一直不願意（除了極少數顯著的例外）大聲說出全部情況，或以適當的緊迫感對待它。是的，你應該看看另一個傢伙之類的，這點沒錯，但當你說「沒人想做 [X]，所以我們必須改變計劃」時，你必須一直呼籲 [X] 並解釋原因，同時大聲解釋這很糟糕，並迫使你改變計劃。

在多年的時間裡，我沒有從 Anthropic 領導層那裡看到這種類型的溝通。

Holden Karnofsky：如果有強大且廣泛的政治意願將 AI 視為核能並任意放慢速度以保持低風險，情況可能會有所不同。但這不是我們現在所處的世界，我擔心「過度擴張」可能會付出高昂代價。

I.M.J. McInnis：我認為，如果 Dario 能站出來說：「事實上，對我之前在文章中所做的那些刻意縮小奧弗頓之窗（Overton-window-closing）的行為感到抱歉。事實上，政治意願並非完全外生的、只能說『好吧沒辦法』的事情，前沿開發者有責任通過告訴公眾暫停是可能的且可取的，而不是一個甚至不值得考慮的愚蠢、差勁的事情，來培育這種政治意願。所以現在我們大聲且明確地說：暫停是可能的且可取的，世界應該將其作為 A 計劃來努力！」這將對那種「強大且廣泛的政治意願」做出非同小可的貢獻。

我在這裡是故意說得誇張一點，但你明白我的意思。如果激勵機制正迫使 Anthropic 放棄對人類生存有利的事情——順便說一句，這從第一天起就完全顯而易見——Anthropic 應該在房頂上尖叫：「救命！！激勵機制正迫使我們放棄對人類生存有利的事情！！」

如果這對你來說是一個關鍵點——如果你/Anthropic 認為暫停是如此不可取/不可能，以至於為了人類的安全，必須公開貶低暫停的可能性（正如 Dario 在他許多文章的開頭所做的那樣）——請直說！否則，這種膽小、虛偽、「噢不，激勵機制！真遺憾激勵機制永遠無法改變！」的哀嘆只會給我們所有人帶來一個不體面的死亡。

說清楚點，我並非真的對 RSP 的削弱感到憤怒；那已經包含在預期中了。我想我很高興它被說出來了，以防還有天真的人認為「擁有 AI 的好人」能救我們。這比徹底撒謊要高尚得多，據我所知，其他每家公司（更多地）都在撒謊。

此外，雖然你似乎試圖回答「如果你可以隨時修訂承諾，那麼做出承諾的意義何在？」，但你其實只是回答說：「好吧，事實上這些承諾修訂起來很不方便，事實上它們應該更方便修訂，儘管不是隨意的方便。」如果我沒有感到安心，請原諒我！

Holden，我非常尊重你的工作。你為人類做了偉大的事情。請不要見樹不見林。

你應該看看另一個傢伙

但他們向我們保證一切都好，他們致力於做得和競爭對手一樣好或更好。

Jared Kaplan：如果我們所有的競爭對手在面對災難性風險時都在透明地做正確的事，我們承諾會做得一樣好或更好。

但我們認為，在別人都前進而我們實際上並未給生態系統增加任何額外風險的情況下，讓我們停止參與 AI 研究、AI 安全，並很可能失去作為一個了解技術前沿的創新者的影響力，是沒有意義的。

所以，首先，不。正如我上面討論過的，你沒有承諾。停止說你對那些你並未承諾的事情做出了承諾。你一直在用那個詞。

我們剛剛確定，如果你改變主意，你可以且將會背棄「承諾」。抱歉，你不能再無條件地說「承諾」這個詞了。

即使我們假設這個「承諾」得到了履行，現實也不會按相對表現來評分。說「我會和最不負責任的主要對手一樣負責任」並不能安慰人。你是 Anthropic。如果那是你的標準，那你對事情沒有幫助。

好消息是，我預計 Anthropic 仍會做得比那個標準好得多。但那純粹是因為我認為並希望他們會選擇做得更好。這並不是因為我認為他們對任何事情做出了承諾。

我不想再聽到 Anthropic 或其任何員工說他們對某事做出了「承諾」，除非他們真的做出了承諾，永遠不想再聽到了。

Charles Foster：據我所知，這是前沿 AI 開發者第一次明確提出其內部模型與外部模型之間存在差距的主張。

Drake Thomas (Anthropic)：而且在 RSP v3 下，承諾（對於能力顯著增強或廣泛自主部署的模型）在未來也會這樣做！真的很興奮能進入一個風險報告不再僅將外部部署視為危險源的體系。

Oliver Habryka：拜託，別在事情剛變得很糟之後就立刻又開始用「承諾」這個詞。

此時正確的措辭似乎應該是「正如 RSP 中所表達的，打算在未來做 X」。

另外，我認為 Anthropic 在 2.2 到 3 的過渡中，已經非常努力地否認了承諾通常具有的大部分社會屬性。顯然，如果他們不這樣做，我不能去找 Anthropic 的任何人說「你們違背了承諾」。他們肯定會告訴我：「你在說什麼，Holden 寫了一整篇關於這絕對不是承諾的文章，你現在不能跑來再把它叫做承諾」。

因此，這顯然不是一個承諾。

Drake 提出「根據此政策做出的承諾」作為回價，但不，我認為那是錯的。我認為正確的詞是「打算」。

我只是在開玩笑

Billy Perrigo：Anthropic 這家大獲成功的 AI 公司，一直將自己塑造為頂級研究實驗室中最具安全意識的一家。公司官員告訴《時代》雜誌，該公司正在放棄其旗艦安全政策中的核心誓言。

2023 年，Anthropic 承諾，除非能預先保證公司的安全措施足夠，否則絕不訓練 AI 系統。

…… 近幾個月來，公司決定徹底改革 RSP。這一決定包括取消「如果 Anthropic 不能預先保證適當的風險緩解措施，就不發布 AI 模型」的諾言。

…… 總體而言，RSP 的變更使得 Anthropic 受自身安全政策的約束大大減少，而之前的政策曾明確禁止其在適當安全措施尚未到位的情況下，訓練超過一定水平的模型。

他們不能一直這樣逃避責任

事實上，看起來他們似乎可以，而且很可能會。

Max Tegmark：Anthropic 2024：你可以信任我們會遵守所有的安全承諾

Anthropic 2026：算了

Eliezer Yudkowsky：就我目前所能回想起來的，每當一家 AI 公司承諾以後會做一件代價高昂的安全事宜時，一旦到了要付帳的時候，他們就會毀約。

只有一個例外：Demis Hassabis 拒絕了其他公司給 DeepMind 開出的更高報價，選擇了 Google 及其倫理委員會。當然，在這種情況下，Google 在倫理委員會的承諾上坑了他；但 Demis 本人確實信守了他的承諾。

AI Notkilleveryoneism Memes：震驚，太震驚了

該死，你這突如其來卻又在預料之中的背叛

如果背叛是不可避免的，有兩種看待方式：

走吧，這裡沒什麼好看的。
那更糟。你知道那更糟，對吧？

這讓具體事件的刺痛感減輕了，但也意味著他們會再次背叛你，你應該將他們模型化為那種經常做這種背叛行為的人。

我的意思是，當達斯·維達說「我正在更改協議，祈禱我不會進一步更改它」時，如果你改變了對達斯·維達的看法，那是你的問題，但你也應該預料到他會再次更改協議。

Garrison Lovely：好吧，不可避免的最終倒退剛剛發生了。Anthropic 取消了「如果 Anthropic 不能預先保證適當的風險緩解措施，就不發布 AI 模型」的諾言。

一旦你決定了有你在其中的競賽會更好，你就永遠無法決定不參加競賽。Anthropic 不應該做出那些極其明顯無法遵守的承諾。我們的計劃不能指望「好人」去「贏得」AI 競賽。這也不是他們第一次這樣做了。

Anthropic 在對抗威權主義方面值得稱讚，尤其是在其他人屈服的時候。但自我監管一直以來都是一場鬧劇，這些公司大同小異。他們總會讓你失望。

Rob Bensinger：我注意到，隨著我觀察 AI 實驗室的動態，我正在慢慢轉變看法。我覺得，如果我多做一些「天真地假設許多類 EA 人士與 SBF 及其圈子相似」的假設，我可能會對 Anthropic 和 OpenAI 做出更好的內部視角預測：

– 傾向於基於相當淺薄的功利主義推理，將違背諾言和欺騙等不道德且有害的行為合理化

– 對瘋狂、超出常規分佈的風險承擔感到自在

– 願意在不徵得他人同意的情況下，將巨大的外部性強加給他人

– 執著於權力/影響力/地位/身處決策核心。

Oliver Habryka：我很高興你轉變了看法！我的意思是，這確實是正確的預期更新，這當然令人難過，但我認為這是事實，並贊成你和其他人思考這對未來意味著什麼以及該怎麼做。

好了。這些都需要說出來。週五我將根據新 RSP 自身的價值來審視它。

討論

https://lesswrong.com/posts/AkzauoTt2Lwn2yAvj/anthropic-responsible-scaling-policy-v3-a-matter-of-trust