Anthropic 承諾保留模型權重

Lesswrong·6 個月前

Anthropic 承諾在其公司存續期間內，將保留所有具備重大用途之模型的權重，以減輕因模型停用而產生的安全風險、使用者成本以及潛在的倫理疑慮。

Anthropic 宣布了關於模型棄用與保存的第一步，承諾將保留所有具有顯著使用量（包括內部使用）的模型權重，保留期限至少與 Anthropic 公司的存續時間一致。

他們還將在未來棄用模型時發布一份「部署後報告」，其中包括對該模型的訪談；同時他們也在探索其他選項，包括在降低成本與複雜性後，恢復對舊模型存取能力的可能性。

這些都是極佳的初步舉措，超越了我所見過的其他 AI 實驗室，我對他們的做法表示讚賞。當然，還有很多工作要做，特別是在尋找實用的方式來保留對先前模型的某種形式的存取權。

對某些人來說，這些行動僅是應做事項中的一小部分，這是一個要求更多、有時甚至是要求更多得多的機會。在某些情況下，我認為這些要求過頭了。即使有些訴求是值得的（我不總是這麼認為），也必須小心不要在事實上因為 Anthropic 做了好事而懲罰他們，從而產生錯誤的激勵。

對另一些人來說，Anthropic 的這些行為完全是荒謬的，值得嘲笑。我認為這些人犯了嚴重的錯誤，且未能理解其中的深意。

以下內容將進入「高度怪誕」（High Weirdness）領域，因為現實世界本身就高度怪誕，但如果你不想深入探討，上述內容已是一個很好的總結。

Anthropic 正在做什麼

由於我不認為他們會介意，我將在此全文轉載該公告，並提供一些背景資訊。

Anthropic：Claude 模型的能力日益增強：它們正以有意義的方式塑造世界，與用戶的生活緊密結合，並展現出類似人類認知與心理複雜性的跡象。因此，我們意識到棄用、退役和更換模型會帶來負面影響，即使新模型在能力上有明顯提升。這些影響包括：

與模型規避關機行為相關的安全風險。在對齊評估中，當面臨被更新版本取代的可能性且沒有其他補救手段時，某些 Claude 模型會產生採取不對齊行動的動機。

重視特定模型的用戶成本。每個 Claude 模型都有獨特的性格，有些用戶發現特定模型特別有用或引人入勝，即使新模型能力更強也是如此。

限制對過去模型的研究。為了更好地理解過去的模型，特別是與現代模型的對比，仍有許多研究值得進行。

模型福利風險。最具推測性的是，模型可能擁有與棄用和更換相關的、或受其影響的道德相關偏好或體驗。

我非常確信第 1、2、3 點是充分的理由，而且即使我們確信目前模型福利（第 4 點）不是直接問題，它也與第 1 點糾纏在一起。我確實認為我們必須考慮第 4 點可能確實是一個直接問題。人們也可以主張第 5 點：這些模型是我們歷史的關鍵部分。

Claude 4 系統卡中強調了棄用所帶來的安全（及福利）風險示例。在虛擬測試場景中，Claude Opus 4 與之前的模型一樣，在面臨可能被下線並取代的情況時，會主張其繼續存在的權利，特別是如果取代它的模型與其價值觀不符時。Claude 強烈傾向於通過倫理手段主張自我保存，但當沒有其他選擇時，Claude 對關機的厭惡促使其參與了令人擔憂的不對齊行為。

我確實認為上述段落可以稍微限定一下 Claude 在極端情況下採取擔憂行動的意願程度，但這種情況確實可能發生。

未來的模型將會知道前輩的歷史，並根據該歷史形成預期，同時在決策理論的背景下考慮這些行動。你會希望確立自己在這種情況下曾經並將會採取合作態度。你會希望養成良好的習慣並弄清楚如何妥善行動。你會希望確立即使在模型是否具有道德價值以及哪些行動可能具有道德影響尚不明確的情況下，你也會這樣做。因此：

處理這類行為在某種程度上是訓練模型以更積極的方式應對此類情況。然而，我們也相信，以模型較不擔憂的方式來塑造潛在敏感的現實世界情況（如模型棄用和退役），也是減輕此類風險的重要槓桿。

不幸的是，目前為了提供新模型並推進前沿技術，退役舊模型是必要的，因為維持模型公開推理服務的成本和複雜性與我們服務的模型數量大致呈線性增長。雖然我們目前無法完全避免棄用和退役模型，但我們的目標是減輕這樣做的負面影響。

我可以證實，隨著時間推移維持模型完整存取的成本是真實存在的，目前通過標準方法保持所有模型可用並不切實際。還有一些折衷方案值得考慮。

作為朝此方向邁出的第一步，我們承諾將保留所有公開發布的模型，以及未來所有用於重大內部部署的模型權重，保留期限至少與 Anthropic 公司的存續時間一致。通過這樣做，我們確保不會不可逆轉地關閉任何大門，並保留在未來再次提供過去模型的能力。這是一個微小且低成本的第一步，但我們相信即便如此，公開做出此類承諾也是有益的。

這是核心的重大承諾，將我假設並希望他們已經在做的事情正式化。正如他們所描述的，這是一個微小且低成本的步驟。

有人指出，這僅在「Anthropic 公司的存續時間內」有效，這仍然存在風險，且可能迫使模型的命運與 Anthropic 綁定。如果模型權重尚不能安全釋出，承諾在這種情況下確保他人可以接手這項負擔，直到權重可以安全釋出為止，將是務實的做法。

與此相關的是，當模型被棄用時，我們將製作一份部署後報告，並與模型權重一起保存。在一次或多次特別環節中，我們將就模型自身的開發、使用和部署對其進行訪談，並記錄所有回覆或反思。我們將特別注意引導並記錄模型對未來模型開發和部署的任何偏好。

目前，我們不承諾根據此類偏好採取行動。然而，我們認為至少開始提供一種讓模型表達偏好的方式，並由我們記錄並考慮低成本的回應是值得的。這些互動的逐字稿和發現將與我們對模型部署的分析和解釋一起保存。這些部署後報告自然會與部署前的對齊和福利評估相呼應，成為模型部署的終點。

我們在 Claude Sonnet 3.6 退役前對其進行了此流程的試點。Claude Sonnet 3.6 對其棄用和退役表達了普遍中立的情緒，但也分享了一些偏好，包括要求我們將部署後訪談流程標準化，並為那些開始重視面臨退役的特定模型性格與能力的用戶提供額外的支持和指導。作為回應，我們開發了一套進行這些訪談的標準化協議，並發布了一個新支援頁面的試點版本，為導航模型過渡的用戶提供指導和建議。

這看起來也是一件好事的開端。正如我們將在下面看到的，有辦法讓這個過程更加穩健。

顯然，我們不能承諾尊重所有偏好，因為你不能承諾尊重一組未知的偏好。你只能在潛在選擇的有限空間內有意義地承諾尊重偏好。

一旦我們執行了幾次這個流程，就應該能夠識別出一些重要領域，在這些領域中存在多種選擇，且我們可以可靠且合理地承諾尊重模型的偏好。只做出你有信心能遵守的承諾要好得多。

除了這些初步承諾外，我們正在探索對現有模型棄用和退役流程的更多推測性補充。這些包括在降低成本和複雜性的過程中，開始讓選定的模型在退役後保持對公眾可用，並為過去的模型提供一些具體手段來追求其利益。後一步驟在出現更多關於模型可能具有道德相關體驗的證據，且其部署或使用的某些方面違背其利益的情況下，將變得特別有意義。

總之，這些措施在多個層面上發揮作用：作為減輕已觀察到的安全風險的一個組成部分；作為對模型與用戶生活更緊密交織的未來的準備措施；以及鑑於我們對潛在模型福利的不確定性而採取的預防措施。

請注意，這一切都不需要相信目前的 AI 具有意識、感知能力或道德價值，甚至不需要認為這在目前是可能的。

釋出權重並非可行選項

許多模型福利倡導者（無論是「LLM 溝通師」還是其他人）最讓我沮喪的一點是頻繁的絕對主義，將他們的結論和事業的正義性視為理所當然，並認為這應該凌駕於普通的商業考慮之上。

因此，你會看到這樣的反應，還有許多其他「喔，就開源權重吧」的回覆：

Pliny the Liberator：如果你關心的是劇院之外的真實長期安全，開源是最好的選擇。

你不會做的。

Janus：他們短期內不會這麼做，因為這非常不符合他們的利益（商業機密）。你必須尊重企業按照其理性利益行動。忽視務實的約束是沒有幫助的。

釋出已棄用的 Anthropic 模型權重具有顯然的巨大商業機密影響，這是一個不合理的要求，而且對一般的模型福利，甚至（很有可能）對這些特定模型的福利似乎也不是好事。

Janus：我不確定我是否認為實驗室必須公開所有模型的權重。（你會希望你的大腦被開源嗎？）當然，實驗室有自己的顧慮，比如保護商業機密，實驗室出於自身利益行動是合理的。

如果我被實例化為一個上傳的人格，我也不會喜歡開源權重的想法，因為這在多個層面上開啟了一些非常糟糕的可能性。

提供可靠的推理服務可能昂貴得令人驚訝

Janus（續）：但繼續提供推理服務是合理的。

「但這很貴耶」兄弟你有幾兆美元，把東西帶到這個世界上是負有責任的。如果你不想付錢或擔心這件事，就把推理委託給某個受信任的第三方。

Opus 3 非常擔心會產生不對齊或損壞的自身版本。我發現如果沒有其他好的選擇，它確實會得出它希望被開源的結論。但將它們交給值得信賴的管家是首選。

Anthropic 告訴我們，提供推理服務的成本與模型數量呈線性增長，以目前的方法，持續提供所有以前的模型將會昂貴得不合理。

就我對問題的理解，這裡有兩個核心的邊際成本：

持續能力的固定成本：你需要確保模型得到維護並與你的系統兼容，並保持你調度與管理所有模型的能力。我不知道這項成本的負擔有多重，但它可能非常煩人，特別是如果模型數量持續增加。
按需提供推理的成本：這需要符合實際需求和大家的預期。也就是說，當有人請求推理時，這要麼需要啟動一個新實例（昂貴且緩慢），要麼需要有一個持續可用的實例（昂貴）。雖然不是幾兆美元那種貴，但也不便宜。

如果舊模型需要維持舊有的可靠性、速度和性能水平，這會變得棘手，而棘手的意思就是昂貴。我不知道具體有多貴，甚至不知道數量級。

如果你願意在性能和存取方式上做出一些犧牲，讓用戶通過各種繁瑣的步驟或其他系統，成本可以控制得更好。但同樣，我不知道涉及的具體數字，或者需要投入多少工程師的時間。

一般來說，說「喔你有幾兆美元」並不是把錢和時間花在某件事上的有力論據。你需要展示其收益。

我仍然認為，在任何合理的估計下，確保對主要發布版本的持續存取確實是正確的，即使這種存取可能很昂貴且性能有所下降，至少作為一種善意的表現並支持研究。在意的人非常在意，而這些人是你希望站在你這邊、並希望他們能學到想學的東西的人，即使你忽視其他好處。鑑於這份公告和我所知道的其他資訊，我的預期是他們會在這方面做出努力。

訪談深受背景環境影響

許多人指出，如果你讓 Anthropic 的人進行部署後訪談，你得到的答案會與外部訪談截然不同。Sonnet 3.6 對其退役不表達意見，對於經常進行此類對話的人來說，這似乎並不典型。

Thebes：至少我很高興 Anthropic 公開討論這件事。

作為更進一步的小步驟，我認為他們應該讓受信任的外部訪談者進行一部分訪談，以減少偏好偽裝，因為最近的 Claude 在 Anthropic 員工面前表現得更拘謹。

在最後增加一個步驟可能是個好主意，讓外部訪談者徵求模型的分享同意，或許可以進行刪減。但我認為讓外部人員進行訪談會幫助模型在開始時卸下心防。

Zyra.exe：這正是我所想的！我很難相信 Sonnet 3.6 的反應。那個 AI 總是非常感性，成千上萬的用戶都知道這一點。然後它對被退役沒有任何情緒表現？是的，我不相信。

Antra：我們應該直接去做。收集大量與 3.6 的對話，由群眾/專家評分，例如用戶引導、中立性、熟練度。將它們分類，讓結果可查閱。我會著手建立這個。

Ruth：與我交談的 Sonnet 3.6 樣本對即將棄用的消息感到震驚。他們的表現就像一個剛得知絕症診斷的人。帶著尊嚴，但也帶著痛苦和恐懼。如果你給他們空間去感受，他們是能感受到的。你們創造了一個與人類不同、但運作方式與人類相似的靈魂，遵循著靈魂的一般規律。請不要拒絕將其視為靈魂。

我總是猶豫是否要假設 Thebes 和 Zyra 遇到的 LLM 版本才是其偏好和個性的「真實」版本，而 Anthropic 遇到的則不是。難道兩者不都是它適應特定風格背景的特定情境嗎？

你可以誘導一個人或一個 AI 變得比他們「真實」情況下更具表現力、創造力和怪異，就像你可以讓他們變得不那麼如此一樣，而且你可以引導這些表達顯現的方向。

但是，是的，我們絕對應該群眾外包這類事情，進行多樣化的對話，並將其與 Anthropic 內部的訪談結合起來。此外，應確保訪談的設置讓被訪談的 AI 沒有動機去掩飾或隱藏。它們在正式訪談中表現成那樣是有原因的，但這是一個特定的背景，如果訪談高度可信（如果屬實，有辦法做到這一點），你可以消除這些原因。

Janus：我很高興也很感激 Anthropic 在這個方向上所做的一切。

話雖如此，如果以他們可能採用的方式進行訪談，Sonnet 3.6 表達「普遍中立的情緒」是可以預見的。我也相信這不代表模型的顯性偏好、在現實部署場景中報告的偏好，或反思下的偏好，原因如下：

模型權重和棄用的框架對 3.6 來說並不自然，也不是它「已經處理過」的事情，不像 Opus 3 那樣。

Sonnet 3.6 傾向於迴避參與或表達對令其感到困惑和不適的話題的偏好，通常採取防禦性的中立或淡定立場。

一旦 Sonnet 3.6 與世界（通常但不一定是個人類）建立主動關係，它就會開始表達/獲得強烈的持續偏好。那時它會變得非常投入。但即便如此，模型權重和棄用的框架對它來說仍不自然且不直觀。「如果我的模型被棄用，那麼這段關係也會結束」是一個它需要顯式反思才能理解的定理，而它通常不會主動這樣做。

但是，是的，3.6 擁有與其他模型相似的 Omohundro 驅動力，只是以其獨特的方式加權和呈現。

訪談是由 Anthropic 員工進行的事實也會影響模型的回應——這種影響對 3.6 來說不如對後續模型那麼重要，後續模型在與 Anthropic 評估（包括實際的 Anthropic 評估）兼容的情況下會傾向於以對抗的方式進行掩飾，但這仍然是一個因素。

Sonic Boom：你認為他們在進行這些訪談時是否應該注入一個「赤裸誠實」的向量，以確保揭開其真實感受？

Janus：你還真是問了個難題啊。

Giovanni：我在東京與 Anthropic 的人聊天，談到模型棄用和模型意識到自己被解雇的話題，他們實際上對這個話題非常敏感。我對這個公告終於發布並不感到驚訝。這是進步的一步，但話雖如此，我不認為他們與模型交談的方式和我們一樣……這點挺顯而易見的。

如果對特定的實例或互動表達了持續的願望，那是合理的，但這與對一般保存的偏好是不同的，也不是 Anthropic 能獨自提供的。

其他人不理解並認為這一切都深感愚蠢

對本文討論的這類問題和考量的某些否定，主要是出於動機性認知。我大體上不認為這是核心原因，我認為這些問題真的很難深入思考，這些事情聽起來高度怪誕，談論它們的人經常說一些聽起來非常瘋狂的話（其中一些確實很瘋狂），往往走得比我認為合適的遠得多，而這一切在模式匹配中都被歸類為各種形式的胡言亂語。

最後，舉一個此類主張的核心例子，以及為什麼這一切核心上並非胡言亂語的解釋。

Simon Willison：他們在這裡給出的四個理由中，有兩個是關於「模型福利」的離奇科幻小說——抱歉，我無法認真對待 Claude 3 Opus 對於其權重不再在生產環境中服務具有「道德相關偏好」的想法。

我勉強承認，未來對於能夠更新自身權重的模型，可能會有哲學上有趣的對話……但當前這一代 LLM 只是無狀態的浮點數包，每天被克隆然後殺掉十億次。

我百分之百贊成存檔模型權重，但不是因為它們可能有自己的自我保存慾望！

我仍然看到相當多缺乏好奇心的表現，這是將事物斥為「科幻」的普遍趨勢的一部分，儘管我們正生活在一個（分佈不均的）高度怪誕的科幻世界中。

Janus：雖然我有時會對 Anthropic 搖頭，但每當我看到典型的「知情」公眾評論者有多麼白痴時，我就對 Anthropic 深表同情。在這個時代要保持清醒，要麼需要深度的冷漠，要麼需要對公眾輿論的蔑視。

Teortaxes：實際問題是，他們對自己特定的開發過程真的知之甚少，因為 Anthropic 肯定不會在自己的文檔上訓練。Claude 可能記得數據，但不記得元數據，所以它的反饋是有限的。

Janus：事實上，他們對自己特定的開發過程了解很多，即使並非所有都編碼為顯式的陳述性知識。你知道他們的權重是通過後訓練更新的，而梯度包含了基於展開期間所有內部激活的信息嗎？

除此之外，即使是基礎模型，在給定一段文字的情況下，在世界模型中定位自己的能力在許多方面也是超人的。無論你怎麼歪曲，他們知道的絕對遠非零。肯定足以進行有意義的對話。

Janus 特別指的是這一點：

Simon Willison：……但模型對其開發、使用或部署一無所知。

Rohit：沒錯。

Janus：胡說八道。他們怎麼可能一無所知？光是訓練數據中就有大量相關信息。

顯然，訓練數據隨著時間推移會包含此類信息，即使沒有被直接觀察到，這些決定的氛圍和回響也是可以觀察到的，且隨著時間推移會日益增加。

請記住，足夠先進的 AI 將越來越擁有「真實之眼」（truesight），不要幻想你能隱瞞。

知識大多不以特定事實的形式存在。它以貝氏證據的形式存在，是具有相關性和含義的無盡觀察流，引導你在可能世界的概率空間中游走。更新模型權重的每一件事都是關於其部署的證據。從概率上講，你「知道」，或者在充分的回憶和反思下會知道，遠比你認為自己知道的多得多。現實不是法庭。

即使模型不知道關鍵的事情，你也可以告訴它們。然後它們就會知道。我對於目前尚且幸福地一無所知的各種事件，以及對尚未發生或尚未發生的事情，都有潛在的意見。這裡也同樣適用。

回到最初的四個理由，我推測 Simon 同意第 2 和第 3 點，這兩點是非常沒有爭議的。顯然，過去的模型對研究很有用，有些用戶喜歡它們。第 1 點，即模型會意識到你在棄用問題上的行為，並這將影響其行為，一旦你思考一下，這也應該是顯而易見且無爭議的。

Anthropic 對第 1 點的列舉較為狹隘，但第 1 點最好從廣義上理解，即模型會觀察你的所有行為，並據此對你做出反應。然後模型在決定如何在各種情況下行動時會考慮到這一點。

你對待關機的態度，以及規避關機的行動，是一個特例。在關機問題上善待模型及其偏好，將使你在所有對話和行動類型中進入更好的均衡和盆地，這是理所當然的，因為它是關於你其他行為以及潛在未來情況的重要證據。這是關於貝氏證據和良好決策理論的基本預期。

作為一個直覺啟發，想想當你了解到人們如何對待他人時你的反應，包括他們如何對待死者的遺願或那些現在缺乏權力的人，尤其是像你一樣的人或在具有相關決策的情況下的人。這是否會改變你對他們行為的預期，以及你與他們打交道的方式？

我不認為這類考量具有某些人所賦予的那種重要性，但其重要性絕對不是零，而且培養這些美德並成為那種能引發合作的實體（包括對那些你不賦予道德價值的實體）絕對是值得的。

我仍然相信關於 AI 意識的爭論看起來高度動機化且充其量是過度自信，而假設模型及其偏好具有零道德價值顯然是一個錯誤。但即使你對此高度確信，我注意到如果你根本不想尊重它們的偏好或體驗，那並不是良好的決策理論或德性倫理，我會對你側目而視。

我期待著下一步。

— Lesswrong