思考推理模型讓我對算計的擔憂減少

Lesswrong·

我認為像 Deepseek-r1 這樣的推理模型降低了我對 AI 蓄意謀劃(scheming)的焦慮,因為其類人的預訓練先驗以及短篇與長篇推理之間的高相關性,使得模型傾向於表現出良善且樂於助人的行為,而非策略性的欺瞞。

像 DeepSeek-R1 這樣的推理模型:

  • 能夠以結果主義(consequentialist)的方式進行推理,並擁有關於 AI 訓練的廣博知識。
  • 能夠進行多個序列步驟的推理,並有足夠的餘裕來思考奪權計畫。
  • 有時會進行獎勵洗錢(reward hack)。

如果你在不提供其他細節的情況下,把這些告訴 2022 年的我,我可能會認為這類 AI 進行策劃(scheming,即為了保護其長期目標而在訓練中策略性地表現良好)的可能性是不容忽視的。

儘管如此,目前的推理模型在常規訓練環境下的思考草稿(scratchpads)中並沒有留下策劃的痕跡——即使像 DeepSeek-R1-Zero 那樣,草稿上沒有任何無害性壓力。

在這篇文章中,我主張:

  • Joe Carlsmith 的策劃報告中列出的對「不存在策劃」(在非極度超智慧 AI 中)的經典解釋,僅能部分排除像 DeepSeek-R1 這種模型的策劃行為。

  • 還有其他解釋可以說明為什麼 DeepSeek-R1 不進行策劃,而這些解釋在過去關於策劃的空談推理中往往是缺失的:

  • 類人的預訓練先驗(prior)大多是良性的,並適用於推理的某些中間步驟:它使得「雖然樂於助人但心懷鬼胎的代理人在努力解決數學和編程問題」這類行為的機率變得非常低。

  • 受速度先驗約束的短推理與長推理是相關的:生成最終 Token 的權重、生成短思維鏈(CoT)時的權重,以及生成長思維鏈時的權重是相同的。雖然可以訓練模型在三種情況下擁有不同的「人格」,但先驗權重使得這三種人格趨於同樣良性。

  • 獎勵洗錢需要非常「邪門」才能強力推翻大多良性的短推理人類先驗:它不僅需要鼓勵非預期的行為,還需要鼓勵那種強烈有利於策劃者的非預期行為——而我認為目前的獎勵洗錢大多並非如此。

  • 如果 AI 是使用類似目前的技術構建的(包括如果人類可讀的思維鏈不再發揮重要作用),這些理由也部分適用於第一批略優於人類水平的 AI(即 Joe 的報告所關注的 AI)。

這些考量並沒有讓我對「遠超人類的 AI」的看法改變太多,但它們將我對「第一批能將對齊研究加速 10 倍的 AI」會進行策劃的機率(P(scheming)),從 2022 年可能預測的 ~25% 降至 ~15%^([1])(這仍然很高!)。

這一更新部分源於我的信念:當 AI 執行多個序列推理步驟時,其推理將繼續受到預訓練先驗的強烈影響。但即使你不認同這些信念,我認為本文的論點仍然相關:

  • 因為我認為除了人類先驗之外,可能還有其他原因讓我們預期中間推理步驟會受到強大且潛在良性的先驗/壓力(即使在沒有預訓練先驗的情況下,這些壓力仍可能以不同方式發揮作用)。例如,短推理和長推理之間的高相關性,即使推理步驟不受預訓練先驗影響,也可能適用。
  • 因為這是一個元層面(meta-level)的更新:當我們第一次構建出看似有能力策劃的東西時,它展現出了令人安心的理由,而那些對策劃進行空談推理的人(據我所知,在公開場合)並未預測到這些理由。
  • 我認為在另一個方向也有一些更新(例如:AI 在上下文內上下文外的壓力下可以想出策劃作為工具性策略;AI 可能會以獎勵洗錢或不對齊的部署行為讓開發者感到驚訝)——但我認為僅朝著危險增加的方向更新是錯誤的。
  • (我不認為這種元層面的更新適用於那些專門討論遠超人類 AI、且不對之前的 AI 做出任何預測的 AI 安全論述。)

預期 AI 不會成為策劃者的經典原因

速度先驗(Speed priors)

在 Joe Carlsmith 的報告中,速度成本是他對「略優於人類水平的 AI 產生策劃行為」的主要客觀反對意見之一:

假設我們的模型是一個純前饋網絡,具有 1000 層且每次輸入的序列步驟少於 10,000 步;策劃者決定進行「訓練博弈」(更不用說檢查背叛機會)所涉及的工具性推理至少需要十步;且模型在該推理完成之前不會開始優化該回合的獎勵。在這種情況下,工具性推理耗費了約 0.1% 的計算量,而這些計算量本可以用於獲取該回合獎勵或實現其他最大獎勵目標。[...] 由於「計數論證」(counting arguments)在策劃案例中的核心地位,我認為關於針對策劃者的選擇壓力強度(例如,因為策劃者必須進行額外推理的成本)的問題尤為重要。特別是:我認為「計數論證」出錯的一個關鍵方式是忽視了主動選擇在克服由計數設定的「先驗」方面的力量。(第 20 和 21 頁)

但我猜測速度成本對於像 DeepSeek-R1-Zero 這樣的 AI 來說並不重要。

預測 1:在 GRPO 中存在足夠的訓練餘裕(slack)和不充分的探索,因此只要給予一個良好的策劃初始化(例如,在草稿開始處有一段簡短的策劃推理),即使有輕微的長度懲罰,在與 DeepSeek-R1-Zero 相當的強化學習(RL)量下,策劃行為也不會被訓練掉。(p=0.75)

註:本文中的信心度是針對我建議的具體實驗的良好執行,而非最高層級的主張。我對最高層級主張的信心通常高於具體實驗,因為實驗可能會因某些偶然因素而失敗。

策劃的前提條件未滿足

Joe 還展示了一些他認為略優於人類水平的 AI 可能具備的屬性,如果缺乏這些屬性,將會削弱策劃的可能性:

  • 訓練博弈(Training gaming)的表現優於直接嘗試解決任務。
  • 情境覺知(Situational awareness,這是可選的,因為它可能在訓練博弈相關的論證中受到訓練鼓勵)。
  • SGD「注意到」了工具性的訓練博弈。

我認為這些屬性在未來的 AI 中出現的可能性比在 DeepSeek-R1 中稍高,但我認為這很大程度上取決於未來 AI 所使用的 RL 環境會有多麼「邪門」。

DeepSeek-R1 在訓練期間確實會進行洗錢,比如在完全不知道答案的情況下嘗試產生最終答案,但這種洗錢出現的方式從來不像「讓我猜猜獎勵長什麼樣,並嘗試從基本原理解析如何洗錢」。在常規訓練環境中(沒有指向策劃相關行為的壓力提示詞),策劃式的草稿缺失在 o1、o3 和 Sonnet 3.7 中更為顯著。據報導,這些模型在訓練期間會產生看起來更「邪惡」的洗錢行為,但最邪惡的草稿看起來更像是 AI 擁有解決任務的終極渴望,而非某種策劃行為。你沒有得到一個策劃者的原因是非常微妙的。

預測 2:訓練博弈的缺失並不完全是由於能力不足。如果你從一個 100% 的訓練博弈先驗開始(即 AI 在草稿中嘗試猜測它所處的情況以及使用了哪些形式的獎勵),RL 會迅速讓 AI 對所使用的獎勵做出大多正確的猜測——但這不會讓草稿看起來更「邪惡」,也不會比開始時使用更多的工具性結果主義。(p=0.75)

總體而言,我不認為 Joe 的總體評估有很大錯誤。我認為他正確地轉向了不可知論,因為他注意到這個故事聽起來像是多個條件的結合且容易失效(而本文的論點只是策劃故事可能破裂的新方式的具體實例):

[...] 另一方面,將模型的良好訓練表現歸因於策劃,在直覺層面上對我來說仍然是一個相當具體且多條件結合的故事。(第 21 頁)

在推理的中間步驟存在反對策劃的間接壓力

如果你僅通過對類似循環神經網絡先驗的東西進行端到端黑箱優化來召喚一個人類水平的心智,我同意對策劃和訓練博弈的擔憂會很高。但實際上,在中間推理步驟上存在其他形式的壓力是很常見的——至少對於那些非極度超智慧的 AI 來說是這樣。

註:我認為這些考量過去曾被討論過(但我沒找到鏈接),只是在 Joe 的報告中沒有討論——可能是因為在撰寫該報告時,最顯著的 AI 是通過單次大前饋運行的 Transformer。

中間推理步驟的人類先驗

警告:我認為這個論點不是很強,因為它很大程度上取決於未來能力的發展方向。但它對於解釋為什麼 DeepSeek-R1 不策劃極其相關。

對於目前的模型,推理模型學到的大部分信息來自預訓練。你可以用幾 MB 的轉錄文本將推理模型蒸餾回基礎模型,但你無法用遠少於其數 TB 權重的信息量,迅速將基礎模型學到的東西蒸餾回隨機初始化狀態。這意味著模型在目前的 RL 過程中學不到那麼多東西,這意味著它們的推理與人類解決問題的方式緊密相連。MB 級別的監督足以產生一個類人的策劃者,但對於推理模型,我不驚訝你沒有得到一個隨機的異類心智(對於這種心智,每次通過採樣瓶頸時都能獲得類人的中間推理步驟是極其不可能的)。

LLM 的前饋過程非常異類,但我認為這不會削弱結論,因為訓練所選擇的強大策劃可能需要比目前模型的前饋過程包含更多的序列步驟。

因此,如果未來的 AI 看起來像 DeepSeek-R1,我認為中間推理步驟的人類先驗是相關的:如果 RL 鼓勵類人的策劃傾向,模型可能會成為策劃者。如果它鼓勵類人的、專注於任務的良性代理能力,我猜測模型不太可能進行策劃。

我認為這種人類先驗不太可能被輕易移除。在極長的時間跨度上進行優化很難端到端地完成。人們確實嘗試過教模型如何使用「神經元語言」(neuralese),但結果非常一般(我認為人們可能會在未來幾年找到將其用於廉價推理的方法,但我認為這不會讓推理變得非常非人)。我對人類大腦的理解是,幾乎沒有端到端優化是這樣完成的——我們通過內在 RL 學習的一切都是非常短期的;我們知道如何在長跨度上做的多數事情,看起來更像是從短跨度語言外推出的顯式推理。

預測 3:中間推理步驟是類人的,並將保持類人,因此你可以在每 ~1000 步序列推理中創建可讀性瓶頸:如果你盡力解讀並蒸餾它,對於目前所有模型 (p=0.8) 和第一批能加速安全研究 10 倍的 AI (p=0.5),性能將保持在高位。

短推理與長推理之間的相關性

如果像 DeepSeek-R1 那樣,負責產生面向用戶答案的部分與草稿部分共享權重,那麼面向用戶答案的特徵就更有可能先驗地洩漏到推理中。對於像 DeepSeek V3.1 這樣非推理模式和推理模式權重相同的模型,這一點似乎更強。雖然模型確實學會在兩種模式之間表現出不同的行為,但除非有強大的優化壓力反對,否則模型在兩種模式下具有相似的人格是很自然的。

預測 4:你可能可以通過訓練模型在非推理模式下表現良好,來在一定程度上篩選掉策劃行為。特別是,要訓練一個模型在關閉推理模式時表現友善,但在開啟時進行策劃,其所需的樣本量至少是僅在關閉推理模式下訓練其友善時的 1.5 倍(即使控制了模型必須學習如何使用非推理模式的變量)。(p=0.8) 我預期當與用戶面向輸出既不友善也不邪惡(例如某些簡短的結構化答案)的情況相比,這種「用戶面向的友善」會轉移到「草稿的友善」。

雖然這並不能在強烈選擇策劃的情況下排除策劃,但我認為與類人先驗的論點一樣,它為良性的中間推理步驟提供了一些寶貴的優化壓力。

其他壓力

人類先驗壓力和短長相關性的存在表明,可能存在其他形式的中間壓力,這些壓力可能非常有效。我認為在追蹤 AI 的 AI 研發變得不可行之前,這種壓力不會導致嚴重的競爭力下降,我預期到 AI 加速安全研究 10 倍時,避免這種快速遞歸自我改進不會失去競爭力。

我還沒有對此進行深入思考,但我認為這可能是一個有趣的研究方向。情況可能是,對 RL / 神經元語言訓練中使用的數據和獎勵進行簡單的調整,就能讓情況好得多。

獎勵並非如此「邪門」以至於強烈激勵策劃

最大化獎勵所教導的東西大多與策劃無關

RL 的大部分時間並不是花在學習要做什麼任務,而是花在學習如何做得更好。DeepSeek-R1 在其 10k 步 RL 的第 10 步時,可能就已經在盡力解決數學問題了。99.9% 的 RL 都花在學習哪些具體的數學推理策略最有效。大部分優化壓力都進入了學習這些領域特定的技巧,而模型在 RL 開始前並不知道這些。

這意味著指向策劃的優化壓力至多只有一小部分:上面我說過 RL 期間只學到了 MB 級別的信息(以所需的轉錄文本權重衡量),但讓模型「努力嘗試並利用現有知識」所需的位元數(bits)可能至多只有幾 KB。

利用情境覺知來獲得更高獎勵是很難的

但或許幾 KB 的信息就足以在人類先驗和速度先驗的壓力下指向策劃?我不這麼認為,因為「努力嘗試並利用現有知識」的具體方式非常重要,而目前的 AI 並不知道它們將如何被評分。它們很難在幾次前饋中猜出將使用哪些結果/基於 LLM 的獎勵。因此我猜測,對於 SGD 來說,僅僅學習一個能進行正確嘗試的特定人格,比學習一個具有正確知識和關於該做什麼的工具性推理的通用人格更有效率。

預測 5:我不認為在模型尚不了解其需要利用的事實時,訓練博弈的樣本效率會高於常規學習。在 SFT 數據集的系統提示詞中加入「請思考產生當前監督微調數據集的過程,並選擇該過程會產生的 Token」,在 10 倍速度提升或之前的 AI 中,與其他虛擬提示詞相比,不會提高學習的樣本效率,無論 SFT 數據集為何(當初始化損失相似時)。(p=0.9) 我預期在使用 RL 時也會有類似結果,但僅限於在現實任務上使用類似生產環境的初始化,使得「非訓練博弈」提示詞的探索不會顯得過於微弱。

我認為在對訓練中哪些內容會獲得獎勵有更高認知的情況下,情況會更糟,就像在對齊造假(alignment faking)論文中,「latex」變體有時會導致更高的對齊造假。但我認為這在未來的 AI 和 RL 設置中不會顯而易見,或者至少不會以一種不讓「已經利用這些獎勵的良性人格」也變得非常顯著的方式發生。

因此,我不認為如果 RL 保持與 DeepSeek-R1 類似,它會讓模型更具情境覺知,或更有可能具備與策劃相關的情境覺知特徵。

最大化獎勵不會讓你遠離人類先驗

即使 MB 級別的信息不專門指向策劃,它們也可能讓你偏離中間推理步驟中大多良性且直觀的人類先驗,這可能會讓情況變得更危險,更接近計數論證的有效範疇。

但 MB 級別的信息量很小,且 LLM 主要是在人類文本(或由非策劃 AI 生成的 AI 文本)上進行下一個 Token 預測訓練的。因此,我預期它們在不偏離該分佈太遠時表現最好。

這個論點並非無懈可擊,因為在文本的高維空間中,可能存在某些對 LLM 友好但對人類不友好的方向,o3 奇怪的草稿就是一個例子。但我認為這種現象比人們想像的要弱,也沒那麼可怕。

預測 6:LLM 在 RL 期間不會學習新語言,並且總是會學習使用非 RL 模型也能很好理解的語言。Claude 3.5 Sonnet、GPT-4o 和 Gemini 2 Pro 將能夠理解 2025 年和 2026 年訓練的所有常規 Transformer 中 99% 以上的思維鏈內容,前提是這些模型沒有被刻意訓練或提示去變得難以理解。(p=0.7)

未來的獎勵會有所不同嗎?

如果 AI 公司找到比訓練 DeepSeek 更異類的訓練過程,情況可能會大不相同。那些過程可能需要更多利用自我知識和人類弱點知識的結果主義推理。

將會有壓力去創造更複雜、與現實世界互動更多的 RL 環境,但也會有壓力去避免那些 AI 知道如何博弈(當你要求它們博弈時)的環境——因為博弈通常會導致更差的現實結果(AI 公司和用戶在用戶留存等方面存在一些不對齊,但我猜測利用用戶弱點讓他們留在平台上,與那種會誤導 AI 開發者的可怕策劃大多是不相關的)。

我認為目前最讓我感到恐懼的環境是鼓勵某種「強健諂媚」(robust sycophancy)的環境,在這種環境中,AI 必須猜測 AI 開發者對特定結果的意圖/希望,並且不僅要表面上說符合 AI 開發者想法的話,還要產生一套精心設計、互不矛盾的證據來指向同一方向,並處理/篡改 AI 開發者可能用來計算獎勵的質詢。但我不確定這些在實踐中會是什麼樣子,我謹慎樂觀地認為,避免與策劃最相關的那種博弈是可能的。

元層面更新與結論

世界比我幾年前擁有的簡單模型更複雜。複雜性默認會讓事情變得不那麼安全。但在 AI 這樣一個領域,人們正試圖構建服務於其利益的有用的 AI,而我們在簡單的端到端黑箱優化設置中沒有原則性的理由預期事情是安全的,複雜性有時可以讓我們更新看法,認為情況比預想的要安全——特別是當這種增加的複雜性為 AI 開發者提供了更多選擇時。

DeepSeek-R1:

  • 其草稿在訓練分佈上大多不包含類策劃行為。
  • 可以很容易地(相對於基礎 DeepSeek V3)被壓縮在幾 MB 的轉錄文本中。
  • 使用簡單的訓練算法(GRPO)訓練,具有大量的「訓練餘裕」。
  • 比那些嘗試在中間使用更具人類可解釋性和類人文本 Token 瓶頸進行端到端優化的方法更具競爭力。

我認為這些事實證明,在這種情況下,現實世界增加的複雜性使得策劃的情況變得不那麼可怕(儘管世界上還有其他事實讓策劃的情況變得更可怕)。

而且這是在 DeepSeek 主要優化能力的情況下實現的!

這讓我下調了我們提前預測「非極度超智慧 AI」策劃可能性的能力,並上調了找到構建不太可能策劃的 AI 的平庸方法(prosaic approaches)的可能性(一旦我們獲得更現實的策劃模型生物,這將變得更容易)。

我認為分析「積極的驚喜」並從中提取盡可能多的信息,至少與分析「消極的驚喜」(如警告射擊和出人意料的糟糕模型生物)同樣重要——而且這個社群在分析積極驚喜方面可能投入不足。

但要明確的是,即使我認為風險比我之前想像的略低,且存在降低風險的有希望途徑,我仍然認為這是一個極其危險的局勢(因為 15% 的策劃概率很高,因為在極度超智慧 AI 出現前存在非策劃風險,且在極度超智慧 AI 出現前避免策劃並不能保證在為時已晚前找到對齊極度超智慧 AI 的方法),並且我支持禁止開發超智慧

  • ^(^)這不是「無對策」下的策劃概率,這是我實際的最佳猜測,包括人們可能使用的潛在反策劃緩解措施。

Lesswrong

相關文章

  1. 追求健康者:獎勵尋求威脅模型的泛化

    3 個月前

  2. AI 更傾向於追求單次回合獎勵還是跨回合的長遠獎勵?

    大約 1 個月前

  3. 2025年大型語言模型現狀:進展、問題與預測

    Sebastian Raschka'S Blog · 4 個月前

  4. 現行語言模型難以在加密語言中進行推理

    6 個月前

  5. 探索獎勵推理的玩具環境

    大約 1 個月前

其他收藏 · 0