Anthropic 多次意外針對思維鏈進行訓練,顯示其開發流程存在缺陷

Anthropic 多次意外針對思維鏈進行訓練,顯示其開發流程存在缺陷

Lesswrong·

AI 生成摘要

Anthropic 意外地在訓練過程中將多個模型的思維鏈暴露給監督信號,這可能損害未來 AI 系統的可監測性與安全性。這種重複發生的技術錯誤顯示,該公司的內部開發流程目前不足以應對智能爆炸帶來的風險。

事實證明,Anthropic 在大約 8% 的訓練回合中,意外地針對 Claude Mythos Preview 的思維鏈(Chain of Thought, CoT)進行了訓練。這至少是 Anthropic 第二次發生的獨立事件,即意外地將其模型的 CoT 暴露於監督信號之下。

在更強大的系統中,這類失敗將危及安全引導智慧爆炸的過程。建立良好的流程以確保開發按計劃執行至關重要,特別是當人類監督在面對日益增多、且可能不可信且粗製濫造的 AI 勞動力時,顯得力不從心。

這次特定的失敗也具有直接的危害,因為它顯著降低了我們對模型推理軌跡是否可監測(反映 AI 違規意圖)的信心。^([1])

我很感謝 Anthropic 能夠如此透明地報告此問題,以便接受外部審查。我希望鼓勵他們繼續這樣做。

感謝 Carlo Leonardo Attubato、Buck Shlegeris、Fabien Roger、Arun Jose 和 Aniket Chakravorty 提供的反饋與討論。另請參閱之前的討論 此處

事件回顧

影響 Mythos、Opus 4.6 和 Sonnet 4.6 的技術錯誤

這是最近發生的事件。在 Claude Mythos 對齊風險更新中,Anthropic 報告稱意外地將大約 8% 的思維鏈暴露給了獎勵函數。導致此問題的技術錯誤在很長一段時間內未被察覺:它同樣影響了 Opus 4.6 和 Sonnet 4.6。

影響 Opus 4.6 的技術錯誤

先前的一個技術錯誤也導致 Opus 4.6 的 CoT 暴露於監督信號(在這種情況下,影響的回合數較少,且集中在訓練結束階段)。在注意到這個錯誤後,Anthropic 應該重新調整其開發流程,以確保不再發生類似情況,至少針對 CoT 暴露的特定問題,且可能也應涵蓋更廣泛的範疇。

摘自 Opus 4.6 系統卡

關於 Opus 4 CoT 暴露的溝通誤解

Opus 4 的 CoT 也曾暴露於監督之下,儘管這似乎是由於 Anthropic 對於是否要避免針對 CoT 進行訓練的優先順序不明確所致。(感謝 METR 和 Anthropic 澄清了這一點。)

摘自 Opus 4 試點風險報告

為什麼這很重要

這很重要,因為引導未來更具風險的部署將需要更加謹慎。上述三起事件所屬類別的問題可能是致命的。

此外,隨著開發者將大部分 AI 開發工作移交給 AI,這類問題自然會變得更有可能發生。按照目前的趨勢,AI 主要嘗試在訓練中可能被檢查的方面表現良好,而很可能會遺漏上述問題。AI 甚至可能主動嘗試破壞安全工作。在預設情況下,智慧爆炸將是一個非常混亂且瘋狂的時期。

如果 Anthropic 無法掌控其程序,以至於無法確信開發正按計劃進行——特別是在不針對 CoT 進行訓練等重要方面——那麼其安全評估將變得不可信,導致錯誤的信心,或至少引發恐懼、不確定與懷疑(FUD)。當存在重要的技術問題時,AI 公司外部的人很難相信事情得到了妥善處理(儘管我很高興 Anthropic 透明地報告了這些問題;這確實有助於建立未來的信任)。

以下是一些需要仔細確保按計劃進行的開發領域:

  • 最核心的:評估風險。有很多方法會意外地對 AI 行為和認知的各種屬性施加優化壓力(而這些屬性本應是被排除在外的),導致古德哈特定律(Goodharting)現象,這可能使你被評估結果嚴重誤導(正如 Anthropic 所承認的)。這至關重要,因為這些能力與對齊測量是我們計劃用來引導智慧爆炸(並可能得知何時該暫停)的地圖。一些例子包括:

針對 CoT/可解釋性進行訓練會大幅犧牲其可監測性。

  • 針對誘餌(honeypots)進行訓練,或具有表面相似屬性的範例,可能會導致你的 AI 變得更具「評估意識」(例如,如果你使用與部署環境截然不同的相同過程來生成這兩者)。

  • 針對觀察到的獎勵操縱(reward-hacking)進行篩選,可能只是掩蓋了獎勵操縱的傾向,促使 AI 以更有可能逃避監管的方式表現不當。

  • 控制協議的有效性大致取決於其最薄弱的一環。意外未能監測一小部分重要流量,極有可能被更強大的模型利用(例如,它們可能透過持續學習得知這一弱點)。

  • 權重與演算法安全同樣如此,因為存在智慧對手。

  • 許多訓練問題很容易被隨機梯度下降(SGD)抹平(即訓練中為了表現良好而產生的通用壓力),使其難以察覺,但仍可能對行為產生不利影響。

上述事件重要的另一個原因是,它們直接模糊了我們對當前模型對齊情況的理解,給我們留下了誤導性的現狀圖景。我們可能無法觀察到當前模型博弈訓練和評估、或在實際環境中故意表現不當的各種方式。或者我們可能觀察到了不良行為,但因為 CoT 具有誤導性,而誤以為這不是故意的。而且,如果這些模型被用於「預熱」(warm-start)未來模型的 CoT,未來模型可能會部分繼承這種被掩蓋的思維方式。

值得注意的是,Anthropic 目前在風險報告中的主張並不主要依賴 CoT 的可監測性。因此,保護思維鏈的可監測性並非 Anthropic 的首要任務,我們並不認為這些事件代表了 Anthropic 在更廣泛安全執行品質上的水準。我們認為 Anthropic 會更努力地確保其安全計劃中更核心支柱的正確實施。


我也想藉此機會讚揚 OpenAI,因為他們似乎成功防止了其 CoT 被優化。OpenAI 的模型似乎相當願意在 CoT 中描述其違規意圖。例如,參見 反策劃論文(anti-scheming paper) 中 o3 的片段。我們也聽說 OpenAI 的一些人一直在投入大量精力,持續確保 CoT 不會被訓練/優化。

目前,意外針對 CoT 進行訓練的主要後果是,我們對於那些本就不太危險的模型,信任其 CoT 的理由稍微減少了。但是,執行失敗僅僅是「令人尷尬」而非「災難性」的窗口正在關閉。如果你計劃依靠安全評估(「設置護欄」)來引導智慧爆炸,那麼這些測量的準確性就是成敗的關鍵。Anthropic 應該將這些事件視為證據,表明其目前的開發流程對於他們預期的 AI 進步速度來說不夠可靠,並在失敗代價仍僅限於名譽而非生存威脅時予以修復。


附錄:避免這種情況有多難?

在這裡,我將大膽推測 Anthropic 內部發生了什麼,以及這種失敗重複發生有多令人驚訝。這聽起來像是當有多個平行團隊在開發強化學習(RL)環境實作時會出現的問題,每個團隊都可能獨立地犯下在環境中暴露 CoT 的錯誤,且沒有人直接負責確保「所有」環境都避免了這個錯誤(例如,缺乏一個將環境交付至生產後訓練流程的穩健程序)。

如果向執行檢查的人員明確傳達「避免 CoT 暴露」是一個目標,那麼審計 100 個隨機樣本的確切獎勵函數/獎勵模型輸入,很可能會發現那 8% 有問題的環境(溝通誤解可能是一個持續存在的因素)。儘管在任何生產模型訓練完成之前很難發現問題,因為你可能還沒有具代表性的環境樣本(但至少你應該能在訓練後續模型之前發現錯誤,或許能防止 Mythos 的問題)。先前那種樣本比例低於 0.01% 的問題透過審計會更難發現,儘管它仍可能對行為產生影響(特別是如果它們出現在訓練末期;或許部分審計應專門針對這類特別具有影響力的訓練階段)。CoT 暴露也可以透過大規模測試來發現:對隨機軌跡進行採樣,獨立於軌跡其餘部分修改 CoT,並觀察獎勵函數輸出是否受到影響(即使存在非確定性,你可能也能自動發現大於非確定性相關變化的差異)。可能還有其他方法可以改變基礎設施,使其更難以意外地針對 CoT 進行訓練。

總體而言,當 Opus/Sonnet 4.6 出現此問題時,應該只需要幾個工時就能注意到;而實施一個能相對可靠地在 RL 環境用於訓練前捕捉錯誤的流程,則需要幾個人週。為了保護 Mythos 的 CoT,幾個人週的成本似乎是值得付出的,而開發並維護一個能持續運作的流程看起來更具價值。

附錄:針對 CoT 進行訓練是否真的讓 Anthropic 的 AI 在 CoT 中減少了(未對齊的)推理外顯?

我(Ryan)目前的猜測是,Anthropic AI 的 CoT 在推理外顯程度上顯著低於 OpenAI AI 的 CoT,這主要是由於 Anthropic 的訓練(實際上)針對 CoT 進行了優化,但這些意外針對 CoT 訓練的事件並非這種優化的主要原因。我認為訓練中可能存在顯著的針對 CoT 的優化,原因在於 AI 並未強烈區分思考欄位與輸出欄位,有時會在輸出中進行思考。我在此處更詳細地討論了這些擔憂。同樣看似合理的是,預熱數據中包含了一些 AI 明顯在進行推理但並未思考的範例,而這種模式得到了廣泛遷移。

  • ^(^)用這篇論文的術語來說,針對 CoT 進行訓練可能主要影響的是在 CoT 中表達某些思考的「傾向」(propensity),而非為了完成某些任務而在 CoT 中表達思考的「必要性」(necessity)。也就是說,我們認為針對 CoT 訓練主要改變的是 AI 在並非特別需要時在 CoT 中進行推理的傾向,而不是讓它在不讓認知顯現在 CoT 中的情況下,變得更擅長進行認知。

參與討論

Lesswrong

相關文章

其他收藏 · 0

收藏夾