利用 PPO 進行語言模型的樹搜索蒸餾
這篇文章探討了如何利用蒙地卡羅樹搜索(MCTS)為語言模型尋找更強的推理路徑,並透過在線 PPO 迴圈將這些改進蒸餾回模型中。在 Countdown 任務的實驗顯示,這種 MCTS 蒸餾方法在推理準確度上優於標準的 CISPO 和 N 選 1 基準測試。
背景
這篇文章探討了如何將 AlphaZero 類型的樹狀搜尋(Tree Search)技術應用於大型語言模型,特別是透過蒙地卡羅樹狀搜尋(MCTS)結合近端策略優化(PPO)來提升模型的推理能力。作者以 Qwen-2.5-1.5B 為基礎,在組合數學遊戲 Countdown 任務上進行實驗,證明透過 MCTS 搜尋出的高品質軌跡進行蒸餾,能顯著提升小模型在複雜邏輯問題上的表現。
社群觀點
在 Hacker News 的討論中,社群成員對於 MCTS 在訓練階段與推理階段的運算成本權衡展現了高度興趣。有評論者針對作者提到的「MCTS 比 GRPO 消耗更多推理運算資源」一說提出質疑,認為如果 MCTS 僅用於訓練過程中的策略蒸餾,那麼最終產出的模型在實際推論時,其運算成本應該與一般模型無異。對此,作者澄清其原意是指在產生訓練樣本的過程中,MCTS 需要投入比 GRPO 更多的推論資源來探索更優質的解法路徑,進而將這些強化後的策略內化到模型參數中。
另一部分的討論則聚焦於 MCTS 作為一種「測試時運算」(Test-time Compute)框架的潛力。有觀點好奇為何 MCTS 在目前的語言模型應用中尚未成為主流的推論增強手段,並詢問作者是否曾將「純 MCTS 搜尋且不進行蒸餾」的表現,與相同運算預算下的「Best-of-N」採樣方法進行橫向對比。這反映出開發者社群對於如何最有效率地分配運算資源——究竟該投入在訓練時的知識蒸餾,還是推論時的動態搜尋——仍存在持續的探索與辯論。
此外,社群也注意到 MCTS 在處理語言模型時的特殊挑戰。不同於棋盤遊戲具有明確且具影響力的動作空間,語言模型的 token 級別搜尋往往充滿冗餘。討論中認同作者將搜尋粒度提升至「推理步驟」(Reasoning Steps)而非單一 token 的做法,認為這類參考 Tree-of-Thoughts 的改進方案,更能有效發揮樹狀搜尋在處理如 Countdown 這類組合優化問題時的優勢。
延伸閱讀
在討論與原文中,特別提到了 DeepSeek-R1 團隊在 MCTS 上的嘗試,以及 Finbarr Timbers 針對 MCTS 演算法中 UCT 與 pUCT 公式選擇如何影響語言模型訓練成敗的深度分析。此外,Yao 等人於 2023 年提出的 Tree-of-Thoughts 框架,以及 Feng 等人於 2023 年發表的 TS-LLM 研究,皆為理解此領域發展的重要參考文獻。