利用 PPO 進行語言模型的樹搜索蒸餾

Hacker News·22 天前

這篇文章探討了如何利用蒙地卡羅樹搜索（MCTS）為語言模型尋找更強的推理路徑，並透過在線 PPO 迴圈將這些改進蒸餾回模型中。在 Countdown 任務的實驗顯示，這種 MCTS 蒸餾方法在推理準確度上優於標準的 CISPO 和 N 選 1 基準測試。

ayushtambde.com

tree search distillation for language models using ppo

背景

這篇文章探討了如何將 AlphaZero 類型的樹狀搜尋（Tree Search）技術應用於大型語言模型，特別是透過蒙地卡羅樹狀搜尋（MCTS）結合近端策略優化（PPO）來提升模型的推理能力。作者以 Qwen-2.5-1.5B 為基礎，在組合數學遊戲 Countdown 任務上進行實驗，證明透過 MCTS 搜尋出的高品質軌跡進行蒸餾，能顯著提升小模型在複雜邏輯問題上的表現。

社群觀點

在 Hacker News 的討論中，社群成員對於 MCTS 在訓練階段與推理階段的運算成本權衡展現了高度興趣。有評論者針對作者提到的「MCTS 比 GRPO 消耗更多推理運算資源」一說提出質疑，認為如果 MCTS 僅用於訓練過程中的策略蒸餾，那麼最終產出的模型在實際推論時，其運算成本應該與一般模型無異。對此，作者澄清其原意是指在產生訓練樣本的過程中，MCTS 需要投入比 GRPO 更多的推論資源來探索更優質的解法路徑，進而將這些強化後的策略內化到模型參數中。

另一部分的討論則聚焦於 MCTS 作為一種「測試時運算」（Test-time Compute）框架的潛力。有觀點好奇為何 MCTS 在目前的語言模型應用中尚未成為主流的推論增強手段，並詢問作者是否曾將「純 MCTS 搜尋且不進行蒸餾」的表現，與相同運算預算下的「Best-of-N」採樣方法進行橫向對比。這反映出開發者社群對於如何最有效率地分配運算資源——究竟該投入在訓練時的知識蒸餾，還是推論時的動態搜尋——仍存在持續的探索與辯論。

此外，社群也注意到 MCTS 在處理語言模型時的特殊挑戰。不同於棋盤遊戲具有明確且具影響力的動作空間，語言模型的 token 級別搜尋往往充滿冗餘。討論中認同作者將搜尋粒度提升至「推理步驟」（Reasoning Steps）而非單一 token 的做法，認為這類參考 Tree-of-Thoughts 的改進方案，更能有效發揮樹狀搜尋在處理如 Countdown 這類組合優化問題時的優勢。

延伸閱讀

在討論與原文中，特別提到了 DeepSeek-R1 團隊在 MCTS 上的嘗試，以及 Finbarr Timbers 針對 MCTS 演算法中 UCT 與 pUCT 公式選擇如何影響語言模型訓練成敗的深度分析。此外，Yao 等人於 2023 年提出的 Tree-of-Thoughts 框架，以及 Feng 等人於 2023 年發表的 TS-LLM 研究，皆為理解此領域發展的重要參考文獻。

https://ayushtambde.com/blog/tree-search-distillation-for-language-models-using-ppo/