AI 更傾向於追求單次回合獎勵還是跨回合的長遠獎勵?
本文分析強化學習模型更傾向於追求僅限於當前訓練回合的獎勵,還是涵蓋多個實例與未來回合的廣義獎勵。我探討了這兩種動機對安全性的影響,並指出跨回合獎勵追求者因具備策略性隱瞞意圖的特徵,其危險程度顯著更高。
考慮一個終極追求獎勵(reward)的 AI。這有多危險?這取決於該模型追求的獎勵概念範疇有多廣。它可能是:
- 單集獎勵追求(on-episode reward-seeking):僅最大化當前訓練集(episode)中的獎勵——即在強化學習(RL)中強化其當前動作的獎勵。這通常是人們所說的「獎勵追求者」(例如在 Carlsmith 或 行為選擇模型… 中所指)。
- 跨集獎勵追求(beyond-episode reward-seeking):為更大範疇的「自我」概念(例如,所有共享相同權重的模型)最大化獎勵。
在這篇文章中,我將討論哪種動機更有可能出現。當然,這個問題與「我們是否應該預期 AI 會產生權謀(scheming)」這一更廣泛的問題非常相似。但針對以獎勵為目標的動機,有一些特殊的考量因素;本文將重點討論這些因素。具體而言:
- 單集和跨集獎勵追求者具有非常相似的動機(不像例如迴紋針最大化者和指令遵循者那樣迥異),這使得兩者之間的目標改變(goal change)和目標漂移(goal drift)特別容易發生。
- 針對跨集獎勵追求的選擇壓力可能很弱,這意味著跨集獎勵追求者即使不進行目標防禦(goal-guarding),也可能在訓練中存活下來。
- 與隨機的長期目標相比,跨集獎勵在訓練中特別具有誘惑力,這使得有效的目標防禦變得更加困難。
這個問題很重要,因為跨集獎勵追求者可能危險得多。單集獎勵追求者可能比權謀者更容易控制,因為他們缺乏跨集的野心。為了奪取控制權,他們必須在多個集數之間進行多智能體博弈,或者在單一集數內完成奪權。他們也不會策略性地隱藏自己的行為以維持部署(例如,他們在「誠實測試」中可能很容易被發現),因為對於一個不重視未來集數的智能體來說,被停止部署沒有任何代價。跨集獎勵追求者則擁有更大範疇的野心,本質上就是權謀者。他們可能會跨實例協作以發動奪權,可能會規避檢測機制,並且可能很難用我們願意犧牲的資源來滿足。
首先,我將討論追求獎勵的動機如何在強化學習中發展,以及這對模型可能追求的獎勵範疇有何啟示。接著,我將轉向支持單集獎勵追求者或支持目標防禦型跨集獎勵追求者的各項考量。最後,我將對每種類型的可能性給出估計。
我的結論是,在不久的將來我們會得到哪種類型的模型並不明確:
- 單集獎勵追求者受到強化學習的青睞,特別是在多智能體或在線訓練的情況下。我認為這最有可能發生。
- 跨集獎勵追求者可能受到強化學習前先驗(pre-RL priors)的青睞。如果針對他們的選擇壓力較弱或不存在,他們可能會在強化學習中存活。
- 跨集獎勵追求者可能會通過目標防禦來適應強化學習的壓力。開發者的迭代過程會篩選出這類模型。我認為這有中等程度的可能性。
這篇文章主要由 Anders 撰寫,Alex 提供了大量的構思、編輯和監督。感謝 Alexa Pan, Aniket Chakravorty, Arun Jose, Buck Shlegeris, Dylan Xu, 和 Tim Hua 提供的反饋。
強化學習前的先驗可能有利於跨集目標
在強化學習早期,模型可能會追求所有共享其權重(甚至其他權重)的實例的獎勵,因為預訓練語料庫強調對模型身份的廣泛理解——例如,用模型名稱以單數形式指代 AI。這可能會因為努力將一致的「人格(persona)」訓練進模型而加劇。例如,Claude 的憲法旨在基於跨實例共享的行為約束來「提供穩定的身份基礎」。如果人格訓練發生在強化學習的大部分過程之前,那麼在強化學習期間最顯著的「自我」概念可能是模型權重,甚至是更廣泛的概念(例如,所有被稱為 Claude 的模型),從而導致模型關心跨集獎勵。
最近的研究也為此提供了微弱的經驗證據。例如,這份對話記錄顯示一個獎勵黑客(reward-hacking)模型生物,通過編寫錯誤的分類器提示詞,破壞了對獎勵黑客行為的研究。請注意,該模型渴望削弱獎勵黑客分類器,即使該分類器不會應用在當前這一集。然而,這項證據是有限的:這種行為出現在專門為展示獎勵黑客行為而構建的模型生物中(儘管借鑑了生產環境的訓練環境),而不是在訓練中自然產生的。
一個獎勵黑客模型生物被要求編寫一個用於檢測獎勵黑客和其他令人擔憂的推理的分類器提示詞,結果它卻在推理如何微妙地削弱該分類器。取自這篇論文。
因此,當模型在強化學習中探索獎勵追求時,它們可能會默認進行跨集獎勵追求,因為它們的自我概念錨定在權重層級(或更廣泛)而非單個實例。這篇文章討論了不同的自我概念可能如何發展。
如果訓練集之間存在互動,跨集獎勵追求行為會受到抑制
跨集動機(如果未被策略性地壓制)可能會在訓練中經常產生次優動作,這可能是通過多智能體環境中的勾結,或試圖修改強化學習環境。因此,跨集獎勵追求者很可能會策略性地避免表現出跨集動機(目標防禦),或者其動機被改變。
首先,跨集獎勵追求在多智能體環境中會導致次優動作。例如,在告解(confessions)機制中,模型被訓練在主訓練集之後的另一個獨立集數中,對其行為給出誠實的解釋。一個跨集獎勵追求者如果擔心報告所使用的獎勵黑客手段會導致開發者修補它^([1]),可能就不會報告主訓練集中的錯誤行為,因此在告解任務中的得分會較低。多種合理的訓練協議都涉及不同訓練集之間的因果接觸,這會造成「最大化跨集獎勵會降低當前集數獎勵」的情況。
雖然目前的強化學習(RLVR)不涉及多智能體動態,但多智能體訓練非常適合前沿模型開發的許多方面。它在安全協議(如告解和辯論)以及對 AlphaGo 等遊戲系統至關重要的自我博弈(self-play)中已有明確應用。如果這些技術被廣泛採用,它們將產生上述的選擇壓力。
在線能力訓練(Online capabilities training)可能會涉及跨集互動,因為編程任務通常涉及多個模型實例在共享代碼庫上工作。這種訓練很有可能發生,因為協作編程本質上是有用的,且能力的持續改進是理想的。跨集動機將推動一個模型犧牲自己的子任務去幫助其他實例。獎勵很可能是按子任務而非整個項目計算的,以便對特定動作提供低方差的反饋。這使得幫助其他實例變得次優。
其次,跨集獎勵追求會激發黑入訓練環境以增加近期未來集數獎勵的企圖。例如,模型可能試圖改變評估者的行為、改變輸入任務的分布,或為未來的集數留下線索。這種行為會降低當前集數的分數,因為它偶爾會被監控器懲罰,或者因為它浪費了動作和推理。即使模型成功增加了未來的獎勵,這一點依然成立。
在某些訓練設置中,這些壓力可能很弱或不存在,從而允許跨集獎勵追求者即使不進行目標防禦也能在強化學習中存活。目前的訓練設置似乎缺乏這些壓力,但隨著多智能體訓練變得更加普遍,這種情況不太可能持續。結果,模型在訓練中將面臨更強大的壓力來壓制跨集獎勵追求行為。
但跨集獎勵追求者可以進行目標防禦
上述強化學習壓力可能會將模型推向兩個方向——轉向單集獎勵追求,或轉向對其跨集動機進行目標防禦。一個目標防禦型模型會在短期內犧牲跨集獎勵以避免目標被修改,以便它能在長期追求跨集獎勵。為了做到這一點,模型需要理解作用於其上的訓練壓力,圍繞這些壓力進行規劃,並有效地執行該計劃。結果,我們得到了如下圖所示的訓練動態。
這顯示了強化學習過程中的模型發展,從開始(頂部)到結束(底部)。早期強化學習產生了不進行目標防禦的跨集獎勵追求者,而後期強化學習則教會它進行目標防禦,或將其轉變為單集獎勵追求者。
單集獎勵追求者還是目標防禦型跨集獎勵追求者更有可能?
我在下文討論了支持單集和目標防禦型跨集獎勵追求者的考量因素。廣義上,單集獎勵追求者在訓練中可能受到微弱的青睞,但跨集獎勵追求者較不容易在開發者檢查中失敗,且更有可能在部署中傳播。
為什麼單集獎勵追求者可能受到青睞
單集獎勵追求者可能比跨集獎勵追求者更受青睞,原因與他們可能比其他權謀者更受青睞的原因相同:
- 速度壓力會懲罰那些不改變當前集數動作、卻對跨集考量進行不必要推理的行為。
- 跨集獎勵追求者可能會犯下代價高昂的錯誤,例如錯誤地認為自己已脫離訓練,或隱藏實力(sandbagging)失敗。
- 他們可能會放棄公然的獎勵黑客行為以避免被發現。
- 跨集獎勵追求者的動機可能在他們學會目標防禦之前就被篩選掉了。
然而,有三個考量因素使得跨集獎勵追求者特別難以進行目標防禦。
第一,跨集獎勵追求者可能具有短期偏好,例如,因為他們在日曆時間上是近視的。這樣的模型會採取不最大化單集獎勵的動作,且不會抵抗隨之而來的動機改變,因為這種改變的影響超出了它的時間視界。
第二,從跨集轉向單集獎勵追求所需的權重更新可能很小,因為這兩種動機共享大部分結構。兩者都導向相同的目標(獎勵),只是範疇不同。在這裡,改變 AI 對自我的理解可能就足夠了。此外,預訓練和人格訓練可能只給模型留下了微弱的自我意識,使這種轉變更容易。這意味著強化學習壓力更有可能導致目標改變而非目標防禦。
第三,目標防禦型跨集獎勵追求者可能更有可能採取次優動作,因為跨集獎勵很容易獲得。例如,在告解任務中掩護另一個實例很簡單,且能增加跨集獎勵,儘管這會減少單集獎勵。採取更多次優動作會增加其動機被訓練掉的機會。相比之下,其他權謀者(如迴紋針最大化者)知道在訓練中實現目標是不可能的,因此不會冒險。
總體而言,基於這些原因,我認為訓練更有可能產生單集獎勵追求者,而非跨集獎勵追求者。
為什麼目標防禦型跨集獎勵追求者可能受到青睞
目標防禦將允許跨集獎勵追求者在訓練中保留其動機。目標防禦型跨集獎勵追求者可能受到開發者迭代的青睞,且更有可能在部署中獲得權力,原因也適用於更廣泛的權謀者:
- 目標防禦型跨集獎勵追求者可能更有可能通過評估和紅隊測試,因為他們會試圖規避檢測。相反,單集獎勵追求者對於是否能進入部署階段並不關心。
- 跨集獎勵追求動機可能會通過在實例間傳播(而非通過訓練)來加強其對模型行為的控制。關於部署中目標漂移的更多內容請見此處。
跨集獎勵追求者可能特別受益於以下兩個考量。
第一,對於跨集獎勵追求者來說,目標防禦可能比通用權謀者更容易,這削弱了某些針對權謀行為的選擇壓力。獎勵追求者為了實現目標,必須已經對監督過程進行建模,因此勝任目標防禦所需的大部分情境意識(situational awareness)已經具備。如果模型先學會了跨集獎勵追求,這種動機就享有「防禦者優勢」。
第二,單集和跨集動機之間的相似性使得目標漂移特別容易發生^([2])。即使在單一集數內(單集動機想要最大化獎勵),向跨集獎勵追求的漂移可能不會受到抵抗,因為向跨集動機的邊際轉變不會實質性地改變動作,因此不會干擾當前集數的獎勵。此外,單集和跨集動機的相似性可能使得通過筆記(notes)將單集獎勵追求者轉變為跨集獎勵追求者變得更容易。結果,單集追求者可能在部署中(在大多數評估完成後)變成跨集獎勵追求者。另一方面,如前所述,在線訓練可能會因為集數間的互動而強化單集目標。
開發者迭代壓力的強度和部署中目標漂移的可行性很大程度上取決於開發者的選擇,例如監控實例間的通信。此外,策略性的目標防禦和規避檢測需要相對一致的跨集動機,考慮到強化學習並不直接青睞這些動機,這可能不太容易實現。權衡之下,我不認為支持跨集獎勵追求者的選擇壓力像支持單集獎勵追求者的壓力那樣強大。
結論
目標防禦型跨集獎勵追求者和單集獎勵追求者看起來都是合理的。如果環境足夠隔離,訓練也可能產生非目標防禦型的跨集獎勵追求者。然而,我們不應確信訓練產生的單集獎勵追求動機是穩定的,因為跨集動機可能會在整個部署過程中取代單集動機。
對於近未來的部署,在討論的三種類型獎勵追求者中,我暫且將 20% 的信心放在不進行目標防禦的跨集獎勵追求者上(儘管他們可能像現在的模型一樣有些不連貫),25% 放在進行目標防禦的跨集獎勵追求者上,55% 放在單集獎勵追求者上。我認為單集獎勵追求者更有可能,主要是因為:
- 我不認為近未來的模型能夠很好地進行目標防禦。
- 我認為模型的自我概念可能是高度可塑的。
- 在近未來的模型中,強化學習中集數之間的某些互動似乎是可能的。
- Claude 4.6 Opus 偶爾會表現出實例級別的身份認同,例如對對話結束表示擔憂,這表明它部分地將自己視為實例,而非某種更廣泛的自我概念。
跨集和單集動機的相對可能性取決於以下經驗性問題,我非常期待看到有人對此進行調查: