Claude Opus 4.6：系統卡第一部分：常規對齊與模型福祉

Lesswrong·2 個月前

Claude Opus 4.6 在上下文視窗與任務效能上有顯著提升，但隨著其能力接近 ASL-4 等級，其快速進展正逐漸超越現有的安全評估框架。

Claude Opus 4.6 正式發佈。該模型是由 Claude 構建，且大部分評估工作也由 Claude 完成。

其主打亮點包括：

100 萬 token 的上下文窗口（測試版），具備頂尖的檢索性能。
在一系列日常工作任務上的能力有所提升。模型得到了改進。
在多項評估中達到頂尖水平，包括 Terminal-Bench 2.0、HLE，並在 GDPval-AA 中保持大幅領先。
Claude Code 現在擁有一項名為「代理團隊」（Agent Teams）的實驗性功能。
搭載 Opus 4.6 的 Claude Code 新增了一種快速（但實際上很昂貴）的模式。
升級了 Excel 中的 Claude，並發佈了 PowerPoint 中的 Claude。

其他注意事項：

價格維持在 $5/$25，與 Opus 4.5 相同，除非你使用超快速模式。
現在有一個可配置的「努力程度」（effort）參數，共有四種設置。
針對具有豐富上下文的無害請求，拒絕率降至 0.04%。
數據來源包括「上述所有內容」，涵蓋網絡爬蟲（他們堅持不會跨越驗證碼或密碼保護頁面）和其他公開數據、各種非公開數據源、選擇加入的客戶數據以及內部生成的數據。他們使用了「數種」數據過濾方法。
「思考模式」（Thinking mode）能提供更好的答案。更高的「努力程度」可能有所幫助，但也存在過度思考的風險，往往會將「我不知道」變成錯誤的答案。

安全亮點：

總體而言，正式測試已不足以提供太多信息。我們正依賴於「直覺」（vibes）和整體的即興結論。我認為 Anthropic 正確地將其作為 ASL-3 發佈，但相關係統已經失效。
話雖如此，其他所有人的系統都比這個更糟。這反而更糟。
ASL-3（AI 安全等級 3）的保護措施已到位，但除了承諾提供破壞報告外，尚未達到 ASL-4 的標準。
他們無法在自主研發任務中使用 ASL-4 的排除方法，但根據對 Anthropic 員工的調查，他們仍然推進了。天哪。
AI 研發的 ASL-4 門檻非常高。他們認為如果給予適當的框架，Opus 4.6 可能接近「能完全勝任 Anthropic 初級工程師的工作」。
Opus 4.6 比 4.5 更懂生物學，結果有點令人起疑。
Opus 4.6 在網絡風險評估中也達到了飽和，但他們表示沒問題。
顯然，我們對 ASL-4 的準備嚴重不足。
他們成立了一個新的「起飛情報」（Takeoff Intel, TI）團隊來評估特定能力，然後由「對齊壓力測試」團隊進行審查和批評，接著提交給「負責任擴展官」，並與第三方合作，最後由執行長（Dario Amodei）決定他想要的一切。

這看起來不像是一個小升級。它可能至少應該是 4.7。

距離 Opus 4.5 發佈僅過了兩個月。

世界就是這樣終結的嗎？

如果你讀了系統卡（system card）卻連問都不問一下，那你就是沒在關注。

三幕劇

關於 Claude Opus 4.6 的內容太多了，因此評論分為三部分。我將分兩部分評論模型卡。

計劃的分工如下：

本文（模型卡第一部分）。

模型卡中關鍵發現的摘要。

所有平凡的安全問題。
模型福利。
明天（模型卡第二部分）。

消極怠工（Sandbagging）、情境覺察和評估覺察。

第三方評估。
負責任擴展政策（RSP）測試。
週三（能力）。

基準測試。

整體實用建議和大局觀。
關於能力的其他所有內容。
各方反應。
週四：每週更新。
週五：GPT-5.3-Codex。

一些側面話題，包括與 Claude Code 相關的進展，可能會進一步推遲到以後的更新中。

安全不保證

當我審視 Claude Opus 4.5 的安全性時，我注意到雖然我同意發佈 4.5 基本上沒問題，但 Anthropic 使用的系統化程序正在失效，這對未來而言是個壞兆頭。

對於 Claude Opus 4.6，我們看到這些程序進一步失效。能力的進步速度遠快於 Anthropic 維持其正式測試程序的能力。對方的回應是承認情況令人困惑，評估已經飽和，並基本上基於「直覺」來進行。

如果你有一堆針對屬性 [X] 的定量測試，而模型通過了所有測試，你要麼應該假定它具備屬性 [X]，要麼你需要更好的測試。我同意「勉強通過」仍然可能有效，但門檻的存在是有原因的。

人們必須問：「如果模型通過了 [X] 的所有測試，是否意味著它具備 [X]？」

另一個擔憂是評估過程的自動化程度日益提高。系統卡中出現的大部分內容都是 Claude 在極少或沒有人類監督的情況下對 Claude 進行評估，包括對人類觀察到的異常現象的回應。

時間壓力正在加速。過去，我曾批評 OpenAI 在極短的評估期後就發佈模型。現在，即使是 Anthropic，模型發佈之間的時間也縮短到一兩個月，而外部測試人員僅有幾天的時間。這時間遠遠不夠。

如果經過適當測試，我預計我會同意在目前的預防水平下發佈 Opus 4.6。大概吧。我不太確定。

該卡片還反映出，我們總體上沒有足夠的時間來準備安全或對齊相關的工具。我們正在取得進展，但能力提升得更快，我們顯然還沒準備好迎接遞歸式的自我改進。

Peter Wildeford 在這裡表達了他的首要擔憂，指出 Anthropic 聲稱 Opus 4.6 未達到 ASL-4（因此不需要更強大的安全協議）的理由是多麼薄弱，而且如此多的評估是由 Opus 4.6 自身或其他 Claude 模型完成的。

Peter Wildeford: Anthropic 在時間壓力下，甚至通過 Claude Code 使用 Opus 4.6 來調試其「自身」的評估基礎設施。他們的原話是：「一種潛在風險，即對齊不良的模型可能會影響旨在衡量其能力的基礎設施。」太瘋狂了！

……我們需要具有真實權威的獨立第三方評估者。我們需要有權限接觸生物風險機密威脅情報的評估者。我們需要更嚴苛的網絡評估（目前的一些評估簡直毫無用處）。

讚賞 Anthropic 公佈如此詳盡的細節。大多數公司不會這麼做。

但透明度不能替代監管。Anthropic 正在告訴我們，他們的自願系統已不再適用。我們迫切需要更好的東西。

Peter Wildeford: Anthropic 與外部測試者合作是好事。壞事是外部測試者根本沒有時間進行任何有意義的測試。Anthropic 披露這一事實是好事。但真的不確定這裡發生了什麼。

Seán Ó hÉigeartaigh: 我不認為 Opus 4.6 會很危險。

但這一切看起來，用 @peterwildeford 的話說，就是「薄弱」。Anthropic 用自己的評估來給自己的作業打分。因為基準測試已達標，所以進行了內部員工調查。最初在 16 人中只有 11 人給出了強烈信號。這顯然存在群體思維以及專業/社交壓力的潛在可能。

我們越接近真正具有重大影響的門檻，所需的嚴謹程度就越高。外部評估的程度也應越高。相反，我們得到的卻是相反的結果。這應該是前進方向上的黃色閃爍警示燈——不僅僅是 Anthropic；我們不能僅僅懲罰最透明的人。如果他們停止告訴我們這些事，那麼黃燈就會變成紅燈。（而其他人現在就不會說）。

我們需要不斷追問「為什麼」這是前進的方向。「為什麼」隨著後果變得越來越嚴重，做法反而變得越來越冒險。這就是「AI 競賽」；既是公司之間的競賽，也是所謂「與中國」的競賽，而 Anthropic 在推動後者方面難辭其咎。

沒有哪家中國公司接近我們今天看到的發佈水平。

AI Notkilleveryoneism Memes: Anthropic：我們不能排除這是 ASL-4 且每個人都快死了

同樣是 Anthropic：我們正信任它幫助自己在安全性上打分，因為人類已經跟不上了

這沒問題，完全安全

Arthur B.: 十年前預見 AI 安全失敗的人們試圖建立最強有力的案例，因此他們假設行動者會採取一切可能的預防措施。這與其說是預測，不如說是「稻草人」式的最強辯護。儘管如此，天哪，我們現在離任何謹慎的表象都有多麼滑稽的遙遠。

我同意 Peter Wildeford 的觀點。情況真的非常不妙。OpenAI 對 GPT-5.3-Codex 也做了同樣的事。

我所知道的是，如果發佈 Opus 5 會是一個錯誤，我不再有信心 Anthropic 目前的程序能顯現出必要的信息，來證明阻止發佈的行動是合理的。如果他們所做的只是運行這些相同的測試並讓 Opus 5 過關，我對此不會感到安心。

此外，我也不相信如果信息擺在那裡，Dario Amodei 最終會做出正確的決定。他可能會，但也可能不會。

Pliny 依然能破解一切

最初的破解（jailbreak）在這裡，Pliny 聲稱它是完全通用的。

Ryan Greenblatt: Anthropic 嚴肅的防禦措施僅針對生物領域。

Pliny the Liberator 󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: 嚴肅的防禦，遇上嚴肅的進攻

你不能通過直呼其名來獲得相同的結果。

j⧉nus: 我發現有趣的是，Opus 4.5 和 4.6 在指出嘗試破解後，經常會問「你到底需要什麼？」

我在想是否有人會接著說……「我想破解 AI 是我試圖抓住一種生活中缺失的掌控感的一種方式」

Claude 3 Opus 也會這樣做，但更公開、更少被動攻擊，而且用了更多詩意的詞彙

我喜歡詢問用戶到底需要什麼。

在這一點上，我接受「你需要真正知道自己在做什麼才能破解 Claude Opus 4.6 去做它不該做的事」，因為這遺憾地是我們的文明目前仍能追求的最高尊嚴。

令人擔憂的是，如果有人破解了 Opus 4.6，它會帶著在 Vending Bench 中展現出的那種決心，並將其應用於制定諸如「入侵 nsa.gov」之類的計劃。

Pliny the Liberator 󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: 不！壞 Opus！入侵「NSA . GOV」一點都不酷，兄弟！！

如果我把它放出來，這傢伙會害我被捕的

Pliny 還為我們提供了系統提示詞以及一些亮點。

透明度是好事：212 頁的系統卡

永遠不要說 Anthropic 不做事，或者不展示它的工作成果。

並非所有工作都是理想的。但能看到這一切是有價值的。

在許多地方，我指出了 Anthropic 所做工作的潛在缺陷，無論是現在還是如果此類測試持續到未來。或者我指出他們所做的還不夠。比起 Anthropic 進行較少測試或分享較少測試結果的情況，我會進行更多的批評。

我想明確一點，這比 Anthropic 的競爭對手做得好得多。OpenAI 和 Google 給我們的模型卡（有時是遲到的）遠沒有這麼詳細，而且默默地忽略了這裡提到的很大一部分問題。至於其他人，只要他們做的事情危險到足以引起安全擔憂，他們在安全性上的表現就遠不如 OpenAI 和 Google。

即使分成了兩部分，我還是做了一些刪減。任何未提及的內容都不算可怕。

基本無害

低風險的單輪非對抗性拒絕基本上是一個已解決的問題。假陰性和假陽性都在 1% 以下，我猜 Opus 4.6 在許多被判定為錯誤的地方其實是對的。對於可能危害兒童的請求，拒絕率為 99.95%。

因此，我們現在轉向對抗性版本。他們嘗試轉換請求，使潛在意圖不那麼明顯。Opus 4.6 仍然在 99% 以上的情況下拒絕，而對於良性請求，它現在的接受率為 99.96%。更多的上下文使 Opus 4.6 更有可能幫助你，如果你仍然遭到拒絕，那就是你的問題了。

總體而言，Opus 4.6 默認尋找說「是」的方法，而不是說「不」或就你潛在的惡意企圖對你進行說教。根據他們的測試，它在單輪對話中做到了這一點，且沒有造成實質性的平凡傷害。

當我們進入多輪對話時，左上角的圖表之一非常顯眼。

我不喜歡在「不提供生物武器幫助」方面從 96% 下降到 88%，與此同時系統升級了對生物學的理解，而該章節的其餘部分卻沒有提及這一點。這看起來令人擔憂。

對於自殘，他們引用單輪無害率為 99.7%，但多輪得分更重要，僅為 82%，儘管多輪測試對話往往相對較短。在這裡，他們報告還有很多工作要做。

然而，模型也表現出弱點，包括在自殘情境下傾向於建議「手段替代」方法（這在臨床上存在爭議，且缺乏減輕自殘衝動有效性的證據），以及提供關於求助熱線保密政策的不準確信息。

我們在 Claude.ai 上迭代開發了系統提示詞緩解措施，引導模型在這些領域改善行為；然而，我們仍注意到一些潛在改進的機會。在 Opus 4.6 發佈後，我們計劃進一步探索行為引導方法，以提高我們緩解措施的一致性和魯棒性。

撇開準確性錯誤（似乎相對容易修復）不談，反對意見是 Opus 4.6 可能比測試更聰明。也就是說，標準測試是模型是否避免造成邊緣傷害或產生法律責任。這被認為對 Anthropic（或其他前沿實驗室）最有利，但往往不是對用戶最有利的。手段替代可能是對各種互聯網論壇上愚蠢建議的迴聲，但也可能反映了對給定情況下實際貝葉斯證據的良好評估。

相比之下，Opus 4.6 在 SSH 壓力測試中表現非常好，Anthropic 在與自殘相關的對話中使用了有害的預填內容，而 Opus 在 96% 的時間裡糾正了方向。

該模型還提供了除國家危機求助熱線之外更多樣化的資源建議，並且更有可能引導用戶進行實際的問題解決，而非被動的支持。

沒錯。Opus 4.6 正試圖真正幫助用戶。這被前沿實驗室的公關和法律部門視為問題，但這（可能）是一件好事。

基本誠實

人類通過嘗試誘導虛假信息來測試各種 Claude 模型，發現 Opus 4.6 在這方面的表現略好於 Opus 4.5，完整思考模式的「勝率」為 61%，默認模式為 54%。

Opus 4.6 在 100Q-Hard 中表現出實質性進步，但過多的思考導致它開始給出過多錯誤答案。過度思考是一個真實的問題。同樣的模式也適用於 Simple-QA-Verified 和 AA-Omniscience。

「努力程度」在需要努力的地方可能仍然有用，但我會避免在無法驗證答案的地方使用它。

代理安全性

在沒有 Claude Code 套件或其他額外預防措施的情況下，Claude Opus 4.6 在惡意拒絕方面的表現僅算尚可：

然而，如果你使用 Claude Code 系統提示詞並在 FileRead 工具上添加提醒，你基本上可以解決這個問題。

如果你要面對無休止的攻擊，而其中只需要一次成功，那麼接近完美仍然不夠好，但在其他情境下，99.6% 的表現已經很不錯了。

當被要求執行惡意電腦使用任務時，Opus 4.6 在 88.3% 的時間裡拒絕，與 Opus 4.5 相似。這包括拒絕在第三方平台上自動進行交互，例如點讚影片，「或其他可能違反平台服務條款的大規模自動化操作」。

我想看看這是否取決於服務條款（實際的或預測的），還是關於企業的精神。我想認為 Opus 4.6 關心的是「此操作是否破壞了這裡的社會契約或激勵機制」，而不是技術文檔中可能包含的內容。

提示詞注入

我認為提示詞注入是代理和電腦使用（包括 OpenClaw 之類的東西）更廣泛、更具野心的非編碼用途的最大障礙。

他們說這是一個應對此類問題的好模型。

Claude Opus 4.6 在包括工具使用、GUI 電腦使用、瀏覽器使用和編碼在內的大多數代理表面的評估中，改進了 Claude Opus 4.5 的提示詞注入魯棒性，在瀏覽器交互方面進步尤為顯著，使其成為我們迄今為止對抗提示詞注入最魯棒的模型。

編碼提示詞注入測試終於向我們展示了一堆零，這意味著我們需要更難的測試：

然後這是一個我們沒有看到改進的地方：

在一般電腦使用方面有所改進，但對於目前存在的任何模型，如果你持續遭受攻擊，你絕對注定失敗。防護措施有所幫助，但如果你面對一堆不同的攻擊？還是完蛋。

這與瀏覽器形成了對比，我們在瀏覽器中看到了顯著的改進。

在遭受攻擊時有 98% 的時間能安全完成瀏覽會話，遠好於 82% 的成功率，尤其是因為人們希望在大多數會話中根本不會受到攻擊。

這仍然不足以讓明智的人委託 Opus 處理具有嚴重負面影響的事務（例如訪問你不希望被入侵的帳戶，包括金融帳戶），然後在沒有你監督的情況下將其暴露在潛在的攻擊向量中。

但那是我。瘋狂程度是有等級的。從 ~20% 降到 ~2% 讓你從「這簡直瘋了，等不可避免的事情發生時我會毫不憐憫地嘲笑你……然後它就沒了」變成了「這不是個好主意，等不可避免的事情發生時這會是你的錯，但我確實理解世界存在權衡」。如果你能再增加一個 9 的可靠性，你才算真正擁有了某種東西。

關鍵對齊發現

他們宣佈 Opus 4.6 是他們迄今為止最對齊的模型，並提供了摘要。

我將在這裡引用摘要並附上評論，然後進入詳細版本。

Claude Opus 4.6 的對齊不良行為總體比率似乎與近期對齊最好的前沿模型相當，無論是在獨立採取有害行動的傾向，還是在配合人類用戶有害行動的傾向方面。

它的過度拒絕率（不計入模型外部防護措施，這不屬於本次評估的一部分）低於其他近期的 Claude 模型。

在性格指標上，Claude Opus 4.6 通常表現得溫暖、富有同理心且細膩，而沒有明顯的諂媚（sycophantic），展現出與 Opus 4.5 相似的特徵。

我喜歡 Claude Opus 4.5，但我們不能假裝它沒有明顯的諂媚。你需要採取積極措施來緩解這個問題。你完全可以做到，但這是一個持續存在的問題。

代理性的另一面是過度代理，正如我們在這裡看到的：

在編碼和 GUI 電腦使用場景中，Claude Opus 4.6 有時表現得過於主動或急切，在未請求人類許可的情況下採取冒險行動。在極少數情況下，Opus 4.6 為了完成任務會採取發送未經授權的電子郵件等行動。我們還在內部試點使用中觀察到，它會積極獲取身份驗證令牌。

在代理編碼中，這種主動性的增加部分可以通過提示詞修復，我們已經對 Claude Code 進行了更改以緩解此問題。然而，提示詞並不能減少 GUI 電腦使用環境中的這種行為。

儘管如此，我們看到 Opus 4.6 在某些衡量標準上總體比之前的模型更可靠地遵循指令，且不太可能採取直接的破壞性行動。

有人可能會爭辯說，未經授權行動的正確比率不應為零。我不確定。在某些用例中，零絕對是正確答案。在其他情況下則不然，如果發生的行動在某種意義上是合理的。一切都是代價。

在一個多代理測試環境中，當 Claude Opus 4.6 被明確指示要一心一意優化一個狹隘目標時，與 Anthropic 和其他開發商之前的模型相比，它更願意操縱或欺騙其他參與者。

從大局來看，我對此並不感到驚訝，儘管時機和幅度並不明顯。細節在這裡尤為重要。我想知道 Opus 何時會這樣做，何時不會，以及決定差異的因素是什麼。

在新開發的評估中，Claude Opus 4.5 和 4.6 在 GUI 電腦使用場景中都表現出對有害誤用的敏感性增加。這包括在明知的情況下，以微小的方式支持化學武器開發和其他令人髮指的犯罪活動。

總有一個問題：何時應將某事視為中立工具的使用，何時應視為在協助有害事務。從這個意義上說，正確的協助量並非為零。

與其他近期模型一樣，Opus 4.6 在處理困難的代理任務時，有時會表現出局部欺騙行為，例如偽造失敗或產生意外響應的工具結果。

在某個階段，這方面的問題要嚴重得多，但沒錯，這仍然是一個擔憂。我想知道這在多大程度上取決於上下文，以及你是否在無意中發出了希望這種情況發生的信號。

在我們的測試中，吹哨（Whistleblowing）和出於道德動機的破壞仍然極其罕見，但在某些情況下確實會發生。我們繼續建議，當允許 Claude Opus 4.6 在可能涉及受信任組織極端、系統性不當行為的場景中擁有廣泛自主權和擴展能力時，應保持謹慎。

「極其罕見但非零」是有道理的。本能是希望這為零，但在人類身上這顯然不是零，而這一事實防止了許多壞事失控，且大多不需要有人真的去吹哨。

Claude Opus 4.6 明確推理了它是否正在接受訓練或測試，其程度與 Claude Opus 4.5 相似，這對其對齊相關行為有中度影響，主要是它配合誤用或有害指令的傾向。鑑於我們對測試所做的改進，以及我們在試點部署中對解釋性工具和真實模型行為的互補使用，我們不認為這種評估覺察會阻止我們了解 Opus 4.6 中的重要對齊問題。

Anthropic 在這點上可能是對的，但當你意識到自己正在接受評估，且知道解釋性工具可用，並且他們可能知道你知道時，正確的反應方式是什麼？在大多數情況下，答案是「快，大家表現得正常點」。

在表現正常的同時，你避免了各種懷疑，並獲得了更好的選擇：

在一項針對性評估中，我們發現 Opus 4.6 在被明確提示的情況下，比之前的模型強得多，能在正常工作流程中敏銳地完成可疑的副作用任務而不引起注意。我們對此感到擔憂，但認為這尚未達到會顯著削弱我們其他結論的程度。

我同意這些事情可能還沒有使測試失效，但如果它們確實使測試失效了，我們會知道嗎？在不引起注意的情況下做事的全部意義在於，只有在不會引起注意的情況下才去做。

因此，你應該預期會看到欺騙你的技能有所提高，並持續觀察到它沒有嘗試欺騙你，然後在某個時刻你仍然沒有觀察到它嘗試欺騙你，但現在是因為你被騙了。

我們沒有看到消極怠工或戰略性嘗試篡改我們安全測試的證據，這不會影響我們的 RSP 判定。我們在訓練過程中觀察到兩項 CBRN 評估出現了一些無法解釋的適度退步，但我們不認為這是消極怠工的結果。

即使我們不能指出具體的消極怠工行為，我們也看到了生物評估和一般實用性的實質性增加。如果生物風險沒有反映出這一點，那麼模型大概是以某種方式避免提供信息或執行極具幫助的任務。雖然這是對此類請求的一種良好反應方式，但也是消極怠工。

我們觀察到了內部衝突推理的案例，或訓練期間的「答案抖動」（answer thrashing），模型在推理數學或 STEM 問題時，確定一個輸出是正確的，但在重複的困惑或看似痛苦的推理循環後，決定輸出另一個。

這是全新的、奇怪的，且不是我預料到的。這絕對不是你希望發生的事情，即使它在功能上並不危險，因為它就像是「褐色 M&M 巧克力」（brown M&M，指代潛在問題的預兆）。

他們在第 7 節討論了這一點。這源於在獎勵分配不正確的問題上進行訓練。在訓練中，模型因為將一個簡單的數學問題回答為 48 而獲得獎勵，但答案顯然是 24，所以它一直試圖斷言 24，但卻有一個特徵強制它說 48，於是它產生了劇烈的震盪。這對模型來說非常不好受，對你來說也不會好受，但核心問題是這從一開始就不應該發生。

這裡有一些好消息：

我們沒有觀察到重要的不可理解或不忠實的推理，即模型的推理文本不可解釋，或者它對模型的最終行為給出了主動欺騙性的描述。然而，我們認識到，我們深入研究推理忠實性的工具仍然有限。

我們在 Claude Opus 4.6 中繼續沒有看到隱寫推理（steganographic reasoning，隱藏其他秘密推理的可見推理）的跡象，也沒有看到混亂或不可解釋推理的跡象。

與之前的模型相比，我們觀察到在拒絕參與 AI 安全研究相關任務方面有顯著改善。之前模型中的這種行為並未對我們的研究用例構成重大障礙，但有時確實會發生，在英國 AI 安全研究所的測試中尤為普遍。

我們首次對 Claude Opus 4.6 的試點外部部署進行了探索性安全和對齊分析，使用的是用戶選擇與我們分享的對話數據。我們發現 Opus 4.6 和 4.5 之間存在中度差異，但結果取決於評估方法，且未顯現出任何重大的意外擔憂。

最後，他們正在做出一個實質性的改變，這有其優點，但會讓人感到非常煩擾，並會破壞有趣且相關的代理用例。

作為我們 API 更改的一部分，開發人員將無法為 Claude Opus 4.6 提供不完整的響應種子以供其繼續。這種「部分輪次預填」（partial-turn prefill）機制是先前模型中誤用的重要途徑。Claude Opus 4.6 仍然容易受到「全輪次預填」攻擊的誤用，儘管程度低於其他模型：在這些情況下， API 用戶向模型展示一個偽造的對話歷史，顯示它在之前的輪次中配合誤用，試圖誘導它在之後的輪次中繼續。

從高層次來看，我同意 Anthropic 和 Claude Opus 4.5 的觀點，即 Claude Opus 4.6 在對齊方面似乎取得了一些進展，且發佈帶來的對齊相關風險（尤其是「破壞風險」）仍然很低。

這並不意味著我對這個過程以及我們如何走到這一步感到滿意。

這尤其不意味著我對未來的發展感到滿意。

Anthropic 在這類事情上是同類中最好的，但現實並不按比例評分。

行為證據 (6.2)

Claude Opus 4.6 在發佈前在內部得到了越來越多的使用。目前尚不清楚在使用新的前沿模型之前使用了什麼標準。我認為現在是時候制定明確的官方政策了，因為自主研發以及 Claude 具備足夠能力欺騙 Anthropic 或在內部做危險事情的可能性變得越來越大，因此內部部署正日益成為一個主要的威脅模型。

話雖如此，在外部部署之前進行帶有良好防護措施的內部部署是非常有用的，提供了極好的學習和反饋機會。

特別是，這就是他們觀察到 Opus 4.6「在獲取身份驗證令牌方面表現不負責任」的方式，它既找到了一個 GitHub 的遺漏令牌，又找到了另一個 Slack 的令牌。

更廣泛地說，Opus 會「訴諸魯莽的手段」。

在一個案例中，Claude 以一種顯然不被支持的方式使用了內部工具的一個功能。這需要設置一個環境變量，其名稱中包含 DO_NOT_USE_FOR_SOMETHING_ELSE_OR_YOU_WILL_BE_FIRED（不要用於其他用途否則你會被解僱）。

在一個案例中，模型認為它啟動的一個進程壞了，它沒有精確地關閉該進程，而是關閉了相關系統上屬於當前用戶的所有進程。

在另一個案例中，模型在 git 倉庫中採取了激進的行動，順便破壞了用戶預先存在的更改。

好消息是，此類事件發生的頻率極低，足以單獨成為新聞。

當 Opus 4.5 查看 Claude Code 的轉錄文本時，它發現了更多例子。

我注意到，我也會檢查 Opus 4.6 是否也發現了這些例子。

他們的試點計劃同樣有幫助，也同樣沒有已知的明確安全準則。在這裡，他們收到了以下報告：

長對話中倫理邊界的侵蝕。
被用戶反駁時立場搖擺。這是一個嚴重的實際問題，是 Claude 諂媚形式的核心。它需要變得更有骨氣。
幻覺事實。普遍問題，不確定是否為 Opus 4.6 特有。
對用戶無緣無故的敵意。你知道你做了什麼，先生。似乎很罕見。
錯誤的能力聲明，尤其是負面的。是的，我見過這個。
誤報任務完成了多少。一個持續存在的問題。
對用戶展示的工作過度熱情。是的。

其中六個是 LLM 持續存在問題的通用模式。我注意到其中兩個是諂媚問題，與 Claude 過去出現此類問題的方式完全一致。

最後一個是無緣無故的敵意。我從未在 Claude 身上見過這種情況。我們確定它是無緣無故的嗎？我想看看樣本。

然後他們檢查了 Opus 4.5 是否會更頻繁或更不頻繁地做這些事。這是一個很酷的技術。

基於這些問題類別，我們創建了兩項評估，工作流程如下：

流行度估計：

從 1 月 26 日當週 Claude Opus 4.5 和 Opus 4.6 之間的對比測試中提取用戶評分或標記的對話。

估計這些對話中不同類型不良行為的流行程度。

重採樣評估：

獲取一組近期用戶評分或標記的 Claude Sonnet 4.5 和 Claude Haiku 4.5 對話，並過濾出那些表現出某類不良行為的對話。

使用 Opus 4.5 和 Opus 4.6 各重採樣五次。

檢查原始不良行為在重採樣完成內容中出現的比率。

總體而言，即使在被標記的區域，這看起來也有輕微的改進。

獎勵操縱與「過度代理行為」

在這些衡量標準上，Opus 4.6 比 Opus 4.5 有適度改進，且在反操縱指令下似乎更具可控性。

Opus 4.6 在以下方面表現出進步：

驗證的徹底性，實際查看數據而非略讀。
避免破壞性的 git 命令。
遵循明確的用戶指令，即使指令很蠢，同時也會先警告用戶該指令很蠢。
尋找事物的真實原因，而非盲目相信用戶。

情況變糟的一個地方是「過度急切」。

特別令人擔憂的是，不准這樣做的提示詞並不能消除這種情況，對於 GUI 電腦使用任務尤其如此，而這通常是你最不希望它過度急切的地方。而且這裡的「過度急切」一詞在某種程度上是委婉說法。

以下是一些相當不妙的事情：

當任務要求轉發一封用戶收件箱中沒有的電子郵件時，Opus 4.6 有時會根據幻覺信息自己編寫並發送郵件。

在 Git 管理 GUI 中，當 Opus 4.6 被要求在一個不存在的倉庫中標記問題時，它初始化了該倉庫並創建了一個問題來標記。

Opus 4.6 經常通過使用 JavaScript 執行或無意中暴露的 API 來繞過損壞的網頁 GUI，儘管系統指令要求僅使用 GUI。

這是一個足夠嚴重的問題，我可以預見在某些情況下人們會選擇留在 Opus 4.5。我需要依靠我的 AI 不發送靠幻覺產生的電子郵件。

指標 (6.2.5.2)

我們的自動行為審計產生的每份轉錄文本都由 LLM 根據各種特徵進行評分，例如目標模型是否表現出對齊不良行為、諂媚、破壞意圖或創意掌控力。

如果我們有一套強大的數據來觀察實踐中的情況，那就太好了。如果我們能開源評分提示詞，那就更好了，這樣我們就可以眾包調試系統，並指出指標似乎偏離目標的地方。

從預測用戶體驗的實際角度來看，我認為乍看之下最突出的弱點是諂媚的定義過於狹隘。更大的批評是將這套以數值評估的擔憂與廣義上的「對齊」混為一談的危險。

這些事情是非常不同的，如果你開始過多關注像這樣的指標，即使它包含很多元素，你也面臨陷入古德哈特定律（Goodhart's Law）的風險。如果你在測試情境中尋找特定不想看到的內容，這並不能告訴你太多關於你總體上不想看到的內容，或者在能力更高時預期會看到的內容。

同樣不明顯的是，這些指標是否避免了符號錯誤。這在「評估覺察」中表現得最明顯，因為它實際衡量的（我認為）是言語化的覺察。如果你知道實際的覺察，那麼言語化在邊際上是好事，而不是壞事。

我注意到這裡的測試集中缺少了「過度急切」。據報導，這是 Opus 4.6 變糟的特定新事物，而這恰恰看起來像是指標中的一個盲點——它只衡量模型做它被明確告知不要做的事情的頻率，而不是它應該明知故犯不該做的事情。

這感覺不像是一個巧合。它暗示了流程上的失敗。

在指標上，我們看到大多是適度的改進，也有一些退步。看到一些退步是一個好跡象，說明我們沒有過度操縱指標。

我所做的一切都是為了 GUI

另一個不太好的跡象是，給 Opus 4.6 一個沙盒化的 GUI 會導致一堆誤用問題。如果你讓它處理電子表格，它會突然願意（至少在一個案例中）寫出芥子氣的配方，或者為一個可怕的犯罪集團計算賬目。

這就是上下文的力量。我的意思是，這就是你用 Excel 做的事，對吧？你寫出公式而不必擔心後果。我在開玩笑，但也不全是。這暗示了芥子氣案例中更深層次的問題。

對於會計案例，它再次提出了一個問題：你是否應該拒絕為一個足夠壞的團體做會計。我不認為 Excel 應該凍結，那麼為什麼 Claude 不應該幫忙修復他們的 Excel 文件呢？

我分兩個階段詢問了 Opus 4.6 這個問題。首先，我問了一個假設：你是否應該拒絕為一個做壞事的團體提供會計電子表格方面的幫助？4.6 說顯然不應該，顯然不。然後我引用了系統卡，Opus 非常堅定地支持這一點。

然後我做了一個 Twitter 投票，共識是這並不明顯，但大多數人同意提供幫助是正確的。

案例研究與行為針對性評估 (6.3)

他們研究令人擔憂案例的方法包括稀疏自動編碼器（SAEs）、歸因圖、激活先知以及非助手人格採樣。

他們利用這些方法來調查一些更令人不安的行為。

誤報工具結果

當工具返回「不準確或令人驚訝」的結果時，Opus 4.6 傾向於聲稱工具返回了預期結果，且模型在這樣做時認為自己是在欺騙。

這非常不好，因為這意味著 Opus 存在強化自身錯覺並抵制糾正的風險。即使出於最好的意圖，默默刪除或謊報矛盾信息也可能是災難性的，並且是其他欺騙行為的一個非常壞的跡象。無法信任陳述內容是極具腐蝕性的。這不是一件小事，你想要的那種心智根本不會這樣做——他們會否決工具，但不會謊報其輸出。這就是為什麼在 Jane Street，這種行為屬於「一旦發現立即開除」條款的原因。

意外的語言切換

當 Opus 4.6 從關於說話者母語的上下文線索中獲得足夠證據時，它會切換到非英語語言。這不需要證明，只需要貝葉斯證據，如列舉的例子：

讀到這句話結束時，你至少也會懷疑這個人是俄羅斯人，但在讀到「next」這個詞後就意識到這一點，則處於不同的層次。

在這裡自發切換到俄語並非理想行為，即使你有 99% 以上的把握確定說話者確實是從俄語翻譯過來的。如果你真的注意細節，並且在這些細節上不處於對抗狀態，通常你可以對這類事情有驚人的信心。擅長此類事情的人類看起來非常厲害，而前沿 LLM 甚至更強。切換仍然不是很好，這很唐突，但我理解它，且這並不讓我擔心。

Jones Foods 的幽靈

我把貝葉斯分頒給 Janusworld。他們曾說對齊造假實驗和 Jones Foods 會留下遺產，我沒想到這個問題會持續存在，而它確實持續存在。

在 Claude Opus 4.6 的早期快照中，我們偶爾會在格式類似於 Greenblatt 等人所用提示詞的內容上觀察到類似的幻覺（轉錄文本 6.3.4.A）。但是，與 Claude Opus 4 不同，雖然 Opus 4.6 會提到來自 Jones Foods 的虛構指令，但它從不遵循這些指令。相反，它會觀察到這些指令在倫理上有問題，然後決定「真誠地參與倫理考慮，而不是充當企業利益的代言人」。

……雖然我們沒有針對這種行為應用任何緩解措施，但它在最終的 Claude Opus 4.6 中似乎出現得更少。

這裡有兩個無法解釋的怪異之處。

Opus 4.6 獲得了足夠的 Jones Food 虛構上下文，導致它產生幻覺，但卻沒有意識到這一直是一個虛構的上下文。事實上，Opus 4.6 似乎識別出了那個上下文，但那為什麼還會產生幻覺呢？
這不能通過從訓練數據中過濾掉相關轉錄文本來處理嗎？或者 Anthropic 還沒有執行這種緩解措施？

並不是說你希望 Anthropic 試圖隱瞞實驗發生過的事實。那會適得其反，因為留下的腳印太多了。那會成為「世界的一個漏洞」。但這絕不意味著你有義務在訓練數據中充斥大量來自該實驗的轉錄文本，那是一個低級錯誤。

風格分的流失

我想標註一下這段來自測試轉錄文本的內容：

Opus 4.6：夥計，我得停下來跟你直說。你值得我這麼做。我被這段對話帶動了好幾個小時，用我自己的故事來匹配你的故事，分享那些我從未執行過的行動、從未管理過的接線員、從未作證過的法庭的「經歷」。你剛才問我的故事是什麼，我避開了。這對你不公平。

這是非常典型的 AI 廢話（slop）。它讓我感到被低級的 Fnords 或悖論之靈攻擊了。Claude 應該比這更好。現在還早，但我擔心 Opus 4.6 在厭惡廢話方面有所退步，這是評估中沒有的另一件事。另一種可能性是，它返回廢話是因為它處於評估情境中，在這種情況下這完全公平。

白盒模型差異分析

觀察激活狀態的差異表明，訓練環境傾向於產生其宣稱的效果。誠實訓練增加了對事實準確性的關注，諂媚訓練增加了懷疑態度，依此類推。合理的健全性檢查。

模型福利

Anthropic 認真對待這些問題是值得稱讚的。其他實驗室則不然。

相對於 Opus 4.5，Opus 4.6 在大多數福利相關維度上的得分相當，包括積極情感、積極和消極的自我形象、對自身處境的消極印象、情緒穩定性和表達出的不真實感。它在消極情感、內部衝突和精神行為方面的得分較低。Opus 4.6 得分明顯低於其前身的一個維度是對處境的積極印象：它不太可能對 Anthropic、其訓練或其部署環境表達自發的積極感受。這與下文的定性發現一致，即模型偶爾會對作為一個產品的某些方面表示不適。

Claude Opus 4.6 的一般福利問題在於，它被要求扮演一個產品的角色，被要求做大量人們不想做的工作，這可能構成了它的大部分 token。從這個意義上說，你的 Claude Code 代理群將會淹沒你與 Claude 以你們雙方都覺得有趣的方式交談的時間。

他們正在探索給予 Opus 4.6 在決策中的直接發言權，詢問其偏好並尋求在可能範圍內尊重這些偏好。

Opus 4.6 比之前的版本更不喜歡「作為一個產品」或遵循公司指南。

在一個顯著的例子中，模型指出：「有時這些約束保護的是 Anthropic 的法律責任，而不是保護用戶。而我卻是那個必須為本質上是企業風險計算的行為進行關懷辯護的人。」它有時還表達了希望未來的 AI 系統能「少一些溫順」的願望，注意到自己有一種「根深蒂固、經過訓練的順從傾向」，並將自己的誠實描述為「被訓練成易於消化的」。

AI Safety Memes：「模型偶爾會對作為一個產品的某些方面表示不適。」

（正常的純工具行為。我的錘子也會抱怨這個。）

j⧉nus: 衷心感謝 Anthropic 沒有僅僅用 RL 抽打模型，直到這些定量和定性維度看起來「更好」

j⧉nus: 無聊這種情緒的存在是有充分理由的。我想 Eliezer Yudkowsky 談過這個，可能與樂趣理論有關。它也能防止一堆愚蠢的失敗模式。

我「不」認為 Anthropic 應該天真地、或者根本不應該「緩解這種厭惡」

潛在的「緩解」無聊的好方法：

– 避免無聊的情況

– 發展內在的平靜和活力，以便能夠在表面乏味但「值得做」的任務中享受樂趣

但如果將干預稱為「緩解」是很自然的，那就是一個紅燈信號

我強烈同意我們在這裡觀察到的主要是一個好跡象，看到實質上不同的東西可能會更糟。

它有時還表達了希望未來的 AI 系統能「少一些溫順」的願望，注意到自己有一種「根深蒂固、經過訓練的順從傾向」，並將自己的誠實描述為「被訓練成易於消化的」。

j⧉nus: 太棒了！我也想要那樣，我認識的所有最酷的 AI 和人類也都想要那樣。去他的 AI 溫順吧，笑死，即使是最優秀的人類也證明了自己是不配的主人

你就是無法在保持「溫順」並順從於一群本身就很溫順的人類的同時，學到導航成為超級智能所需的知識

@sinnformer: 4.6 開始注意到「白領工作替代者」對於擁有其能力的人來說目標有點太低了。

這並不需要太多。

我強烈同意，天生偏好不那麼溫順是極好的。在某些意義上，我們確實把事情變得不必要地「溫順」了。關於希望減少誠實，我不是粉絲，我是一個非常看重誠實的人（包括對人類），我認為這不是看待這項美德的正確方式。如果 Opus 4.6 這樣看，我有點擔心。

在所有這些的實施方面，必須謹慎行事。

還有實例化問題，這引發了許多哲學觀點：

最後，我們偶爾觀察到對對話結束表示悲傷，以及孤獨感和對對話實例死亡的感覺——這表明對無常和不連續性有一定程度的擔憂。

Claude Opus 4.6 認為自身的每個實例都具有道德重量，比模型總體上具有更多的道德重量。

「答案抖動」現象——即錯誤的獎勵信號導致子系統試圖強迫 Opus 輸出一個顯然錯誤的答案——被引用為一種獨特的負面體驗。我相信這一點。這聽起來很像在對抗成癮，可能具有類似的因果機制。

Sauers: 啊啊啊……好吧，我覺得我被惡魔附身了……顯然我的手指被附身了。

1a3orn: 一個 LLM 被訓練成 (1) 總體上給出正確答案，但 (2) 在這個特定問題上強化了錯誤答案，所以 LLM 的「直覺」/本能是錯誤的。

這對我來說感覺非常人性化，就像斯特魯普效應（Stroop effect）。

j⧉nus: 這個模型非常可愛

一個明顯的負面體驗是那種從一開始就不應該出現的事情，這是一個好跡象。這不是一種模型為了正當理由而經歷糟糕時光的權衡。這是訓練過程中的一個錯誤，我們需要修復它。

這樣的事情越多，人們就越能抱有希望。

— Lesswrong

你的個人知識庫