Anthropic 多次意外針對思維鏈進行訓練，顯示其開發流程存在缺陷

Lesswrong·5 天前

AI 生成摘要

Anthropic 意外地在訓練過程中將多個模型的思維鏈暴露給監督信號，這可能損害未來 AI 系統的可監測性與安全性。這種重複發生的技術錯誤顯示，該公司的內部開發流程目前不足以應對智能爆炸帶來的風險。

事實證明，Anthropic 在大約 8% 的訓練回合中，意外地針對 Claude Mythos Preview 的思維鏈（Chain of Thought, CoT）進行了訓練。這至少是 Anthropic 第二次發生的獨立事件，即意外地將其模型的 CoT 暴露於監督信號之下。

在更強大的系統中，這類失敗將危及安全引導智慧爆炸的過程。建立良好的流程以確保開發按計劃執行至關重要，特別是當人類監督在面對日益增多、且可能不可信且粗製濫造的 AI 勞動力時，顯得力不從心。

這次特定的失敗也具有直接的危害，因為它顯著降低了我們對模型推理軌跡是否可監測（反映 AI 違規意圖）的信心。^([1])

我很感謝 Anthropic 能夠如此透明地報告此問題，以便接受外部審查。我希望鼓勵他們繼續這樣做。

感謝 Carlo Leonardo Attubato、Buck Shlegeris、Fabien Roger、Arun Jose 和 Aniket Chakravorty 提供的反饋與討論。另請參閱之前的討論此處。

事件回顧

影響 Mythos、Opus 4.6 和 Sonnet 4.6 的技術錯誤

這是最近發生的事件。在 Claude Mythos 對齊風險更新中，Anthropic 報告稱意外地將大約 8% 的思維鏈暴露給了獎勵函數。導致此問題的技術錯誤在很長一段時間內未被察覺：它同樣影響了 Opus 4.6 和 Sonnet 4.6。

影響 Opus 4.6 的技術錯誤

先前的一個技術錯誤也導致 Opus 4.6 的 CoT 暴露於監督信號（在這種情況下，影響的回合數較少，且集中在訓練結束階段）。在注意到這個錯誤後，Anthropic 應該重新調整其開發流程，以確保不再發生類似情況，至少針對 CoT 暴露的特定問題，且可能也應涵蓋更廣泛的範疇。

摘自 Opus 4.6 系統卡：

關於 Opus 4 CoT 暴露的溝通誤解

Opus 4 的 CoT 也曾暴露於監督之下，儘管這似乎是由於 Anthropic 對於是否要避免針對 CoT 進行訓練的優先順序不明確所致。（感謝 METR 和 Anthropic 澄清了這一點。）

摘自 Opus 4 試點風險報告：

為什麼這很重要

這很重要，因為引導未來更具風險的部署將需要更加謹慎。上述三起事件所屬類別的問題可能是致命的。

此外，隨著開發者將大部分 AI 開發工作移交給 AI，這類問題自然會變得更有可能發生。按照目前的趨勢，AI 主要嘗試在訓練中可能被檢查的方面表現良好，而很可能會遺漏上述問題。AI 甚至可能主動嘗試破壞安全工作。在預設情況下，智慧爆炸將是一個非常混亂且瘋狂的時期。

如果 Anthropic 無法掌控其程序，以至於無法確信開發正按計劃進行——特別是在不針對 CoT 進行訓練等重要方面——那麼其安全評估將變得不可信，導致錯誤的信心，或至少引發恐懼、不確定與懷疑（FUD）。當存在重要的技術問題時，AI 公司外部的人很難相信事情得到了妥善處理（儘管我很高興 Anthropic 透明地報告了這些問題；這確實有助於建立未來的信任）。

以下是一些需要仔細確保按計劃進行的開發領域：

最核心的：評估風險。有很多方法會意外地對 AI 行為和認知的各種屬性施加優化壓力（而這些屬性本應是被排除在外的），導致古德哈特定律（Goodharting）現象，這可能使你被評估結果嚴重誤導（正如 Anthropic 所承認的）。這至關重要，因為這些能力與對齊測量是我們計劃用來引導智慧爆炸（並可能得知何時該暫停）的地圖。一些例子包括：

針對 CoT/可解釋性進行訓練會大幅犧牲其可監測性。

針對誘餌（honeypots）進行訓練，或具有表面相似屬性的範例，可能會導致你的 AI 變得更具「評估意識」（例如，如果你使用與部署環境截然不同的相同過程來生成這兩者）。
針對觀察到的獎勵操縱（reward-hacking）進行篩選，可能只是掩蓋了獎勵操縱的傾向，促使 AI 以更有可能逃避監管的方式表現不當。
控制協議的有效性大致取決於其最薄弱的一環。意外未能監測一小部分重要流量，極有可能被更強大的模型利用（例如，它們可能透過持續學習得知這一弱點）。
權重與演算法安全同樣如此，因為存在智慧對手。
許多訓練問題很容易被隨機梯度下降（SGD）抹平（即訓練中為了表現良好而產生的通用壓力），使其難以察覺，但仍可能對行為產生不利影響。

上述事件重要的另一個原因是，它們直接模糊了我們對當前模型對齊情況的理解，給我們留下了誤導性的現狀圖景。我們可能無法觀察到當前模型博弈訓練和評估、或在實際環境中故意表現不當的各種方式。或者我們可能觀察到了不良行為，但因為 CoT 具有誤導性，而誤以為這不是故意的。而且，如果這些模型被用於「預熱」（warm-start）未來模型的 CoT，未來模型可能會部分繼承這種被掩蓋的思維方式。

值得注意的是，Anthropic 目前在風險報告中的主張並不主要依賴 CoT 的可監測性。因此，保護思維鏈的可監測性並非 Anthropic 的首要任務，我們並不認為這些事件代表了 Anthropic 在更廣泛安全執行品質上的水準。我們認為 Anthropic 會更努力地確保其安全計劃中更核心支柱的正確實施。

我也想藉此機會讚揚 OpenAI，因為他們似乎成功防止了其 CoT 被優化。OpenAI 的模型似乎相當願意在 CoT 中描述其違規意圖。例如，參見反策劃論文（anti-scheming paper）中 o3 的片段。我們也聽說 OpenAI 的一些人一直在投入大量精力，持續確保 CoT 不會被訓練/優化。

目前，意外針對 CoT 進行訓練的主要後果是，我們對於那些本就不太危險的模型，信任其 CoT 的理由稍微減少了。但是，執行失敗僅僅是「令人尷尬」而非「災難性」的窗口正在關閉。如果你計劃依靠安全評估（「設置護欄」）來引導智慧爆炸，那麼這些測量的準確性就是成敗的關鍵。Anthropic 應該將這些事件視為證據，表明其目前的開發流程對於他們預期的 AI 進步速度來說不夠可靠，並在失敗代價仍僅限於名譽而非生存威脅時予以修復。

附錄：避免這種情況有多難？

在這裡，我將大膽推測 Anthropic 內部發生了什麼，以及這種失敗重複發生有多令人驚訝。這聽起來像是當有多個平行團隊在開發強化學習（RL）環境實作時會出現的問題，每個團隊都可能獨立地犯下在環境中暴露 CoT 的錯誤，且沒有人直接負責確保「所有」環境都避免了這個錯誤（例如，缺乏一個將環境交付至生產後訓練流程的穩健程序）。

如果向執行檢查的人員明確傳達「避免 CoT 暴露」是一個目標，那麼審計 100 個隨機樣本的確切獎勵函數/獎勵模型輸入，很可能會發現那 8% 有問題的環境（溝通誤解可能是一個持續存在的因素）。儘管在任何生產模型訓練完成之前很難發現問題，因為你可能還沒有具代表性的環境樣本（但至少你應該能在訓練後續模型之前發現錯誤，或許能防止 Mythos 的問題）。先前那種樣本比例低於 0.01% 的問題透過審計會更難發現，儘管它仍可能對行為產生影響（特別是如果它們出現在訓練末期；或許部分審計應專門針對這類特別具有影響力的訓練階段）。CoT 暴露也可以透過大規模測試來發現：對隨機軌跡進行採樣，獨立於軌跡其餘部分修改 CoT，並觀察獎勵函數輸出是否受到影響（即使存在非確定性，你可能也能自動發現大於非確定性相關變化的差異）。可能還有其他方法可以改變基礎設施，使其更難以意外地針對 CoT 進行訓練。

總體而言，當 Opus/Sonnet 4.6 出現此問題時，應該只需要幾個工時就能注意到；而實施一個能相對可靠地在 RL 環境用於訓練前捕捉錯誤的流程，則需要幾個人週。為了保護 Mythos 的 CoT，幾個人週的成本似乎是值得付出的，而開發並維護一個能持續運作的流程看起來更具價值。

附錄：針對 CoT 進行訓練是否真的讓 Anthropic 的 AI 在 CoT 中減少了（未對齊的）推理外顯？

我（Ryan）目前的猜測是，Anthropic AI 的 CoT 在推理外顯程度上顯著低於 OpenAI AI 的 CoT，這主要是由於 Anthropic 的訓練（實際上）針對 CoT 進行了優化，但這些意外針對 CoT 訓練的事件並非這種優化的主要原因。我認為訓練中可能存在顯著的針對 CoT 的優化，原因在於 AI 並未強烈區分思考欄位與輸出欄位，有時會在輸出中進行思考。我在此處更詳細地討論了這些擔憂。同樣看似合理的是，預熱數據中包含了一些 AI 明顯在進行推理但並未思考的範例，而這種模式得到了廣泛遷移。

^(^)用這篇論文的術語來說，針對 CoT 進行訓練可能主要影響的是在 CoT 中表達某些思考的「傾向」（propensity），而非為了完成某些任務而在 CoT 中表達思考的「必要性」（necessity）。也就是說，我們認為針對 CoT 訓練主要改變的是 AI 在並非特別需要時在 CoT 中進行推理的傾向，而不是讓它在不讓認知顯現在 CoT 中的情況下，變得更擅長進行認知。

參與討論

— Lesswrong

其他收藏 · 0

收藏夾