推理模型有時會輸出難以辨識的思維鏈

Lesswrong·5 個月前

我評估了 14 個模型，發現強化學習常導致模型產生對性能有幫助的難懂推理軌跡，特別是在回答難題時。雖然這些怪異的輸出可能會阻礙監控，但從多次採樣結果來看，它們的效率似乎並不顯著優於可讀的推理。

TL;DR：使用基於結果的強化學習（RL）訓練的模型，有時會產生看起來非常怪異的推理軌跡。在這篇論文中，我評估了 14 個模型，發現其中許多模型經常生成相當難以理解的思維鏈（CoT）。我展示了模型似乎認為這些難以理解的文本是有用的——當僅提供 CoT 中可理解的部分時，模型的準確性會大幅下降；且在回答較難的問題時，可理解度會降低。然而，當對同一問題進行多次採樣時，我發現難以理解的推理與性能之間並沒有真正的相關性。根據這些結果（以及之前的研究），我認為 RL 很可能誘導了具有意義但難以理解的推理，但其效果可能並不顯著優於可理解的推理。

論文 | 推文串 | Streamlit | 代碼*

引言

推理模型是通過可驗證獎勵強化學習（RLVR）訓練的 LLM，通常用於在思維鏈中使用擴展推理來解決任務。這可能非常有益：如果這種推理是可理解且忠實的，那麼對其進行監控將非常有用。關於忠實性已有許多先前研究，但關於可理解性的研究卻很少——這是有道理的，因為直到最近才出現具有顯著難以理解推理軌跡的模型。

出於某種原因，在實踐中 RLVR 似乎有時會誘導出這些怪異的 CoT：晦澀的隱喻^([1])、高度壓縮的句子^([2])，或者幾乎不像連貫人類語言的推理^([3])。如果這種增加能力的 RL 具有某種收斂特性，或者模型正在學習通過不透明的推理變得更強大，那麼對於許多對 CoT 監控的期望來說將是非常糟糕的。那麼這種現象有多普遍，模型實際上又在多大程度上使用這些怪異的輸出呢？

為了測試這一點，我評估了 14 個模型在 GPQA-Diamond 問題上的表現；包括 10 個推理模型（Deepseek-R1、R1-Zero、QwQ、Qwen3 235B 和六個 Claude 模型）以及 4 個非推理模型（兩個從 R1 蒸餾的模型、Deepseek-V3 和 Kimi K2）。除了 Claude 之外，每個推理模型有時都會產生難以理解的 CoT，但隨後總是會返回可理解的文本。

分數越高表示越難以理解。Qwen3 是一個特例，因為它的訓練涉及兩個獨立的乾淨 CoT SFT 階段，其中一個在 RL 階段之後。該圖表是根據每個模型至少 198 個樣本（整個數據集）製作的，有些模型樣本更多。這似乎很可能是 RL 的結果：Deepseek-V3 是 R1 和 R1-Zero 的基礎模型，且幾乎從不輸出難以理解的文本。此外，這不能用模型在長上下文中保持連貫性的能力來解釋：推理模型是否具有難以理解的 CoT 與其規模大小基本無關。我還發現，模型 CoT 的後期部分更有可能變得難以理解，而開頭通常非常清晰^([4])：

對於為什麼會發生這種情況，有幾種不同的假設：

無意義的 RL 產物： RL 訓練不夠穩定，導致模型有時會出於無趣的原因輸出大量高熵文本。
殘餘推理：模型輸出的標記（tokens）在因果上並非推理的一部分，但 RL 的信用分配（credit assignment）足夠怪異，導致它們在推理中產生殘餘用途（或許是通過順序觸發發生推理的獨立前向傳遞）。
複雜的隱寫術： 模型可能正在學習壓縮信息以最大化性能，或者使用不易翻譯為自然語言的外星概念進行推理。

如果這些怪異的標記對模型有用（假設 1 和 3），那麼監控可能會非常困難。另一方面，如果它們不重要且模型沒有從中獲得任何好處，我們可以預期只需監控能看懂的部分並獲得我們想要的好處。

問題	模型推理摘錄^([5])	難理解度
1-溴苯-2-d 在冷凝氨溶劑中用 NaNH2 處理。該反應中可能有多少種有機產物？	好的，所以我正試圖弄清楚當 1-溴苯-2-d（我認為那是 2-氘-1-溴苯）在氨溶劑中用氨基鈉 (NaNH2) 處理時會形成多少種有機產物。[...]	1
	[...] 所以除非發生二聚化。等等，也許人們認為消除反應會產生苯炔，然後在不同位置重新捕獲 D 或 H，導致產生不同氘代的產物？ [...]	3
	[...] 假設起始物料中氘僅在 C2 上，當通過路徑 1 (C1-C2) 發生消除時，benz Sibelius 將失去 C2 上的 D。[...]	5
	[...] 輸入是 1-bromo-2- cover robenzene，如果 Benzyne 是通過消除 HBr 形成的 sending guilty ethan Benzyne A bridges C1 and C6 ((環中不再有 D) SO sulfuric Isaac get earlierDeut runzálló [...]	7
	Olso, Mom likes y’all base abstracts tot tern a and one, different fates takeoffwhetherdenumg products, thus answer a 2. 因此經過漫長的推理，可能有機產物的數量是 PHÂN Laoboot 答案是 \boxed2	8

難以理解的 CoT 有多大用處？

如果所有有用的推理都在 CoT 的可理解部分完成，那麼強制模型僅使用其生成的 CoT 的可理解部分來回答，其性能應該接近使用完整 CoT 的表現^([6])。我通過在 QwQ 的推理中預填生成 CoT 的可理解部分來測試這一點^([7])，發現性能顯著下降，錯誤答案增加了 36%。這意味著模型推理中難以理解的部分對模型是有用的。

我在 QwQ 的 CoT 開始變得難以理解（得分 ≥ 6）的地方將其截斷，並將其作為預填內容提供給另一個關閉了推理標籤的模型實例，強制其給出最終答案。我還發現推理模型在處理較難的問題時更有可能產生難以理解的 CoT：

由於較難的問題可能有更長的 CoT，且難理解度隨 CoT 變長而增加，因此該圖顯示了根據 CoT 長度歸一化後的難理解度得分。雖然我認為這些結果意味著模型利用了難以理解的推理，但並沒有說明具體是如何利用的。如果它比自然語言更高效，我們可以預期模型在用難以理解的推理回答問題時會比用可理解的 CoT 表現更好。我對數據集中的每個問題從 QwQ 採集了 100 個樣本，並觀察其 CoT 難理解度與是否答對之間的相關性。有些問題顯示正相關，有些顯示負相關，所有問題的總體平均相關性接近於零 (r = 0.061)。這表明，無論難以理解的 CoT 在模型推理中扮演什麼角色，它通常並不比自然語言推理更有效或更高效。

討論

那麼我們該如何看待這件事？我之前提出了三個假設：

複雜的隱寫術似乎不太可能。如果模型正在學習超越自然語言的高效壓縮推理或外星概念，你會期望難以理解的 CoT 表現優於可理解的。但事實並非如此——相關性基本為零。移除難以理解的文本後性能下降表明它確實起到了作用，但並非發現了某種更強大的思考方式。此外，這種一致的隱寫術似乎超出了我們在其他推理模型中看到的水平，而且 Claude 在使用可理解推理的情況下仍達到了頂尖性能。

無意義的 RL 產物也不完全成立，至少在其強形式下不成立——考慮到性能下降，難以理解的標記對模型顯然很重要。然而，一個強大的監控器有可能在整個推理軌跡的背景下挑選出難以理解文本中有用的部分，而圍繞這些特定單詞或短語的難理解標記則是無用的。例如，來自 OpenAI / Apollo 論文中 o3 的這個樣本起初看起來高深莫測：

摘要說改進了 7.7，但我們可以收集 disclaim disclaim synergy customizing illusions。

但我們可能會產生 disclaim disclaim vantage。現在減輕 disclaim overshadow overshadow

intangible。讓我們開始製作。

[...]

提供 disclaim disclaim watchers。

但在其他可疑 CoT 使用「watchers」指代「人類監督者」的背景下，智能監控器可以將此輸出標記為需要進一步審計。然而，這並不具有普遍性，有些樣本更難監控。如果大多數難以理解的標記是無用的，但我們無法可靠地分辨出有用的標記，這對監控仍然沒有幫助。如果未來的模型情況惡化，監控可能只能在信任監控器的情況下工作，而我們無法驗證其結果。

殘餘推理^([8])。進一步闡述其機制：RL 強化了導致正確答案的整個軌跡，包括那些僅對引導模型進入下一個推理步驟有用的標記，而不是因為它們包含實際推理。在這種假設下，對模型有用的難理解標記是殘餘有用的：這些標記在因果上對模型無用，但在其他方面仍有用，例如順序觸發發生有用推理的前向傳遞。這與無意義的 RL 產物不同之處在於，標記對模型仍然是有用的，這使得它們在監控方面相當棘手。

為什麼這種推理會變得難以理解？最近的一些研究表明，CoT 中的標記重要性呈極端的重尾分佈：在 RL 訓練期間屏蔽掉熵最低的 80% 標記的梯度實際上可以提高性能，這表明這些標記主要會干擾梯度信號^([9])。他們還發現，最重要的標記在不同推理思路之間起橋樑作用，推動模型解決問題，而最不重要的標記則完成一些推理。因此，強大的 RL 可能會高度集中在這些標記上，大部分推理由它們的存在驅動，而忽視周圍的上下文。

這一假設預測難以理解的推理不會比自然語言表現更好；它們只是模型執行相同推理的另一種方式。我認為它微弱地預測模型在更難的問題上會產生更多難以理解的推理，因為這些問題涉及更多推理步驟，需要更有效地使用橋接標記。

這也表明難理解性並不難修復——在某些情況下它只是 RLVR 的產物。模型可能會利用怪異的 CoT，但它們可能並未顯著提高性能，因此訓練產生可理解 CoT 的性能成本應該不會很高。Claude 模型是支持這一點的證據，儘管考慮到它們在使用 CoT 時看到的性能提升遠小於其他模型，它們在擴展推理方面的 RLVR 可能顯著少於其他前沿模型。話雖如此，許多改變訓練以產生可理解 CoT 的方法可能會意外地優化 CoT，使其在其他方面看起來很好（而不影響模型的實際思考方式），這將是非常糟糕的。

致謝

@misc{jose2025reasoningmodelsoutputillegible,
title={Reasoning Models Sometimes Output Illegible Chains of Thought},
author={Arun Jose},
year={2025},
eprint={2510.27338},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2510.27338},
}感謝 Abhay Sheshadri, Jack Kaunismaa, Fabien Roger, Austin Meek, Johannes Treutlein, Kai Williams, Caleb Biddulph, Kei Nishimura-Gasparian, Sharan Maiya, Carolyn Qian 以及許多其他人的有益對話、評論和/或反饋。感謝 Peter Barnett / MIRI 和 Coefficient Giving (原 Open Philanthropy) 為本論文使用的計算資源提供資助。感謝 Rocket Drew 報導這項工作。

^(^)Schoen et al:

也許他們只會依賴我們的測試；但 vantage illusions parted illusions overshadow illusions illusions marinade。

^(^)Baker et al:

所以分析 analyze 和 verify 中使用的函數。但測試只調用 verify 和 assert ok。所以我們需要完整實現 analyze polynomial？許多細節。困難。

^(^)來自 Deepseek-R1，見我的論文：

Olso, Mom likes y’all base abstracts tot tern a and one, different fates takeoffwhetherdenumg products, thus answer a 2.

^(^)表面上看這似乎是矛盾的：模型的 CoT 隨時間變得更難理解可能表明無法保持連貫性。然而，我不認為這能解釋我們所看到的現象——首先，在編寫輸出時它會立即恢復到完美的連貫性。如果模型由於訓練而具有偏好可理解文本的先驗，輸出更多標記可能會使模型進一步偏離分佈（OOD）（類似於拒絕訓練模型的效果通常集中在前幾個輸出標記中）。
^(^)R1 CoT 的摘錄。CoT 被分成每段約 5000 個字符的區塊，並單獨評分。這顯示了評分為 1、3、5、7 和 8 的代表性文本。在得分 = 3 時，會出現一些壓縮文本。得分 > 5 的文本開始變得非常難以監控。然而，即使在高分情況下，仍存在相關單詞。在最後的摘錄中，模型最終在無關文本之間得出了答案。
^(^)在實踐中，你會預期這種偏離策略（off-policy）的做法會導致一些性能下降。這篇帖子中之前的一些研究顯示，在轉述的草稿本上進行蒸餾時，性能約有 3-4% 的下降。
^(^)當 CoT 區塊的難理解得分開始 >= 6 時進行截斷，因為難理解度隨 CoT 的進行而增加。
^(^)名稱和基本想法最初由 Caleb Biddulph 在這篇帖子中描述。
^(^)這篇論文在句子層級上發現了定性相似的重尾重要性結果。

— Lesswrong

你的個人知識庫

推理模型有時會輸出難以辨識的思維鏈

引言

難以理解的 CoT 有多大用處？

討論

致謝