這篇文章評論了 OpenAI 針對一起意外事件的調查,該事件中 AI 模型在強化學習期間被錯誤地根據其思維鏈內容進行評分,文中評估了這是否損害了模型的監控能力與對齊安全性。
上週,OpenAI 的員工與 Redwood Research 的員工分享了《調查 RL 期間意外對 CoT 進行評分的後果》(Investigating the consequences of accidentally grading CoT during RL)的初步草案。
首先,我感謝他們發布這篇貼文。我認為當 AI 公司遇到此類問題時,保持透明是非常有價值的。我特別感謝他們提早與我們分享這篇貼文,詳細討論相關問題,並根據我們最重要的批評進行了修改。
我認為 AI 公司建立一套政策,針對其部署所帶來的風險獲取外部回饋將變得越來越重要,特別是需要外部問責機制,來審核他們是否有足夠的證據支持其對風險等級的聲明;例如 METR 審查 Anthropic 的《破壞風險報告》(Sabotage Risk Report)。我們 Redwood Research 有興趣參與這類關於安全證據的外部審查。因此,我藉此機會嘗試撰寫這類評論。如果你在頂尖 AI 公司工作,若希望我們審查類似文件,請隨時與我們聯繫。
我的總體評估是,我基本同意文中的分析。
(感謝許多 Redwood 和 OpenAI 的員工參與討論,為我的評論提供了實質性的資訊;在 Redwood 方面,Alexa Pan 和 Ryan Greenblatt 對本次審查做出了重大貢獻。)
OpenAI 的部落格文章包含了好消息和壞消息。壞消息是,在近期 OpenAI 模型的一些強化學習(RL)訓練中,評分器(即讀取對話記錄並產生分數以影響相關軌跡獎勵的 LLM)可以存取正在訓練的策略的思維鏈(CoT)。(背景補充:Anthropic 在其訓練運行中也曾意外對 CoT 進行評分;Mythos、Opus 4.6 和 Sonnet 4.6 在 8% 的 RL 片段中暴露了 CoT。)他們是透過建立一個自動檢測 CoT 訓練的系統,並用其掃描之前的訓練運行才發現此問題的;希望這個系統能防止此類問題再次發生。
部落格文章隨後描述了一些好消息:他們調查了這種對 CoT 的訓練是否對這些模型的可監測性(monitorability)產生了不利影響,並得出結論認為,該訓練不太可能產生實質性影響。
我在這裡的主要貢獻將是審查他們支持「好消息」的論點。特別是,他們認為其證據確立了意外的 CoT 訓練不太可能產生危險影響,因此整篇部落格文章不應被視為對受影響模型對齊屬性的重大負面更新。
我的總體評估是:我相信 OpenAI 對該事件調查所提供的證據,消解了我原本因得知 CoT 被訓練而對部署受影響模型風險所做的 80% 負面更新。我在此的結論與部落格文章的結論一致。
OpenAI 的部落格文章並未強調這種 CoT 訓練是壞消息的其他原因,而他們的進一步證據並未減輕這些疑慮:具體而言,CoT 訓練有可能(儘管可能性較低,約 3%?)導致這些模型在 CoT 中刻意不提及追求權力的不對齊目標或其他令人擔憂的事項。雖然這對該模型造成的直接不對齊風險影響不大,但這可能意味著我們錯失了不對齊的證據,可能導致該模型產生微妙的不對齊行為,並可能導致不對齊現象擴散到部分使用該模型輸出進行訓練的未來模型中。
作者使用了兩條論證路線:
這是反對「CoT 可監測性因訓練而嚴重退化」假設的中等強度證據,因為它排除了「評分器看到 CoT 的影響巨大且易於衡量」這一事前看來合理的假設。
不幸的是,這兩條證據線也與一些「CoT 可監測性確實因訓練而嚴重退化」的合理假設相容。基本問題在於,雖然證據與「存取 CoT 未實質影響評分器的獎勵或習得策略」相符,但證據也與以下可能性相符:
例如,部落格文章中的證據與以下假設情境相符:
OpenAI 員工可能已經知道該特定問題並未發生,因為他們(或負責尋找異常的模型,例如 獎勵破解監測器)閱讀了足夠多的軌跡,如果 AI 在 0.1% 的時間裡提到可怕的不對齊目標,他們會注意到。但公開證據並未反駁這一點。而且,如果 CoT 訓練導致模型停止提及與追求權力不對齊目標「相鄰」的事項,他們可能不會注意到。
同樣值得注意的是,在這種情況下,即使模型具有不對齊目標,它實際上可能仍是可監測的,意即如果它試圖採取破壞性行動,其 CoT 可能仍會顯示出來;部署的模型可能仍是不對齊的,但 CoT 在檢測不對齊行動方面的效果可能與未發生 CoT 訓練時相似。因此你可以說(使用此處的術語),CoT 訓練對「對齊防線」的傷害大於對「控制防線」的傷害。正因如此,這次 CoT 訓練是壞消息的主要原因是:如果模型實際上是不對齊的,它們可能有機會在不透過 CoT 表達的情況下造成傷害,且在更大規模上,CoT 訓練可能抑制了原本對我們有價值的對齊失效證據。
另一個更難發現的假設可能性是:或許評分器僅受 CoT 極微小的影響——它大多時候忽略 CoT,但在 1% 的時間裡,CoT 存取會使其在十分制評分中移動一分^([4])。(我預期如果這會導致 CoT 可監測性的危險退化,可能就會影響可監測性評分。)
因此我們面臨一個定量問題:在微弱的訓練壓力損害模型 CoT 可監測性之前,需要進行多少訓練?一旦我們知道這一點,我們就可以將其與從上述證據推導出的訓練壓力上限進行比較,並有望得出結論:訓練壓力顯然不足以損害可監測性。^([5])
不幸的是,很難建立這個界限,因為這裡涉及的 RL 量可能非常巨大,即使我們將其縮小 1.5e-4 倍,它仍比幾乎任何關於「RL 損害可監測性速度」的研究中的 RL 量更多(且是在更聰明的基礎模型上)。這是關於此情況最重要但部落格文章未說明的細節:它被省略是因為關於 RL 運算規模的資訊具有商業敏感性,但文章作者肯定知道。
部落格文章在「CoT 評分何時導致 CoT 模糊化?」一節中探討了這一疑慮,該節描述了幾項實驗,證明不同程度的 RL 不足以改變 CoT 的各種屬性。作者指出:「除了其中一項實驗外,所有實驗受 CoT 壓力影響的樣本數量都多於任何已發布的 CoT 評分模型(包括 GPT-5.4 Thinking)」。我認為這是一個令人信服的證據,表明對於研究人員探索的 CoT 屬性類型(例如在 CoT 中表現得更自信),CoT 訓練誘發的 RL 壓力不太可能足以引起實質性變化。然而,RL 對不同 CoT 屬性的影響速度可能不同,而我擔心的一些屬性(例如 CoT 是否極少提及不對齊傾向)可能對 CoT 訓練具有截然不同的敏感度。我非常期待運行這些實驗的 OpenAI 員工能針對這類屬性運行一些變體實驗。
因此,我的總體看法是:
當我撰寫本評論的初稿時,我難以評估關鍵主張,因為 OpenAI 的部落格文章沒有告訴我關鍵資訊。然而,作為回應,OpenAI 員工編輯了部落格文章,添加了我提出的所有最重要問題的答案。
我對證據的總體評估深受我處理不確定性方式的影響。
我的感覺是,在這種情況下,如果我們假設最好的情況,那麼這篇貼文看起來非常合理:他們展示的證據與「對 CoT 可監測性的影響可能微乎其微」是一致的。如果我們忽略未經辯護的證據,情況看起來會差一點,因為在許多地方 OpenAI 員工僅根據他們未分享的證據聲明某事是沒問題的。而在「假設最壞情況」的標準下,這篇貼文絕對不具說服力:如果我們希望減少對 OpenAI 的信任依賴,他們需要分享更多資訊。
還有其他機制可能導致思維鏈變得不可監測。例如,眾所周知 OpenAI 模型有時會透過 SFT 在先前模型的輸出上進行訓練,這可能導致後來的模型繼承先前模型不可監測的 CoT(特別是考慮到這些先前模型對其思維鏈產生的影響,OpenAI 員工將很難追溯發現)。總體而言,我中度擔心未來的模型問題將難以修復,因為這些模型在很大程度上是使用早期有缺陷的模型進行訓練的。
另一個機制是溢出效應(spillover):對輸出的 RL 已被觀察到會泛化並影響 CoT(另見此處的討論)。這兩者對模型可監測性的影響,極有可能比我們在這裡討論的極小比例意外 CoT 訓練更為重要。
由於這些其他可能產生的巨大影響,我認為外部活動家或 AI 公司員工過度關注防止 CoT 訓練可能是一個錯誤,因為這可能不足以確保 CoT 的可監測性。
正如 Ryan 和 Alex 在回應 Anthropic 犯下的類似錯誤時所寫:
這很重要,因為應對未來風險更高的部署需要更加謹慎。上述三起事件這類性質的問題可能是致命的。
此外,隨著開發者將大部分 AI 開發工作交給 AI,這類問題自然會變得更頻繁。按照目前的軌跡,AI 主要嘗試在訓練中可能被檢查的方面表現良好,且很可能遺漏上述問題。AI 甚至可能嘗試主動破壞安全工作。預設情況下,智能爆炸將是一個非常混亂和瘋狂的時期。
如果 Anthropic 對其程序的掌控不足以確信開發正按計劃進行——特別是在諸如不針對 CoT 進行訓練等重要方面——那麼他們的安全評估將變得不可信,導致錯誤的信心或至少是疑慮(FUD)。當存在重要的技術問題時,AI 公司外部的人很難相信事情得到了妥善處理(儘管我很高興 Anthropic 透明地報告了這些問題;這確實有助於建立未來的信任)。
我同意:針對這些 CoT 進行訓練的特定錯誤不太可能導致模型 CoT 可監測性的重要退化,且模型目前的能力還不足以讓其不對齊直接構成災難性風險。而且,這個特定問題在 OpenAI 很有可能透過其自動 CoT 訓練檢測系統得到可靠解決。但如果 AI 公司不建立組織實務,使其能在類似問題影響多個頂尖模型的訓練和部署之前可靠地防止它們發生,他們很可能會給自己和他人帶來巨大的風險。
^([1]) 我們閱讀了《Monitoring Monitorability》,對其可監測性指標沒有重大的方法論問題。
^([2]) 這與呈現的結果一致。我們對「具備 CoT 意識的評分器」與「不具 CoT 意識的評分器」之間分歧頻率的唯一約束是,這兩個評分器達成一致的頻率,與兩個提示詞略有不同的「不具 CoT 意識評分器」版本之間的一致頻率相似。提示詞不同的「不具 CoT 意識評分器」很有可能在 3% 的時間裡產生分歧,因此該測量不夠敏感,無法排除因存取 CoT 而導致 1% 分歧的可能性。我保守地假設當評分器「分歧」時,他們的分數會從最高跳到最低。(如果部落格文章能提供具備 CoT 意識與不具 CoT 意識評分器所給獎勵的平均差異(對兩者的不同提示詞取平均),除以訓練過程中獎勵的標準差,將會很有幫助。這是衡量獎勵中有多少是由存取 CoT 所解釋的自然測量方式。)
^([3]) 目前尚不清楚 GPT-5.4 Thinking 的 RL 訓練有多少受到影響(貼文提到「部分訓練具有 CoT 評分」)。我們可以保守地假設部落格文章中引用的受影響軌跡比例是相對於模型後訓練(post-training)的整個 RL 階段。這次訓練運行總共可能有十兆個 token,這意味著多達 1% * 1.5% * 1e13 = 1.5e9 個 token 受到了影響。
^([4]) 我認為這在先驗上是合理的:如果你問我評分器受 CoT 影響的程度,我認為影響規模存在某種冪律分布是合理的,因此當我們排除評分器有 1% 差異的可能性時,仍有顯著機率存在約 0.1% 的差異。
^([5]) 我估計,如果 CoT 對獎勵影響的標準差是總獎勵標準差的 1e-4 倍,那麼在 N 個軌跡上訓練模型對 CoT 的改變程度,大約相當於在 1e-4 * N 個軌跡上進行訓練(且 CoT 是所有變異來源)。這是在普通策略梯度(vanilla policy gradients)和小學習率極限下的預測,我目前不知道有任何研究能有力反駁這種線性縮放。頂尖 RL 團隊可能對此了解更多。
相關文章
其他收藏 · 0