newsence
Show HN:在 24B LLM 中複製 3 個層級,邏輯推理能力從 0.22 提升至 0.76,無需訓練

Show HN:在 24B LLM 中複製 3 個層級,邏輯推理能力從 0.22 提升至 0.76,無需訓練

Hacker News·18 天前

我重現了 Ng 的 RYS 方法,發現透過複製 Qwen2.5 和 Devstral 模型中特定的 3 個層級區塊,能在不進行任何訓練或權重修改的情況下,顯著提升模型的推理與邏輯演繹能力。

背景

這篇討論源於開發者 alainnothere 在 GitHub 上發布的開源工具 llm-circuit-finder。該研究複製並擴展了 David Ng 的 RYS 方法,發現在不進行任何模型訓練或權重修改的情況下,僅透過重複 Transformer 模型中特定的連續層(例如 Devstral-24B 的第 12 至 14 層),就能顯著提升模型的邏輯推理能力,在 BBH 基準測試中將邏輯演繹得分從 0.22 提升至 0.76。

社群觀點

Hacker News 的社群對此發現展現了高度興趣,但也伴隨著謹慎的懷疑。支持者認為這揭示了 Transformer 模型內部存在離散的「推理電路」,這些特定的層塊如同獨立的認知單元,透過重複執行這些電路,模型彷彿獲得了額外的思考時間。有留言指出,這與過去模型剪枝(Pruning)研究的發現不謀而合,即模型的中間層通常承載了大部分的推理權重,而邊緣層則相對可以捨棄;如今看到反向操作——即堆疊中間層來增強性能——確實令人振奮,甚至有評論戲稱這可能是省下數百萬美元訓練費用的「神奇小技巧」。

然而,質疑聲浪主要集中在基準測試的全面性與泛化能力。部分資深開發者指出,雖然在特定邏輯任務上看到驚人增長,但在「公平」的混合任務測試中,這種架構修改往往會導致其他性能下降。留言中有人質疑作者僅列出了進步的指標,卻未詳盡披露退步的部分。作者對此回應,他確實觀察到不同的重複模式會產生不同的「認知模式」,例如某些配置會大幅提升數學能力,卻可能導致模型在其他綜合任務上變得較不可用。這意味著層重複並非無痛的萬靈丹,而更像是一種針對特定能力的權衡與調優。

此外,社群也探討了這種技術與現有方法的關聯。有人聯想到兩年前 Solar 10.7B 模型所使用的「深度放大縮放」(Depth Up-Scaling)技術,雖然該技術在重複層後仍需持續訓練,但核心邏輯相似。更有趣的討論轉向了遞迴的可能性:如果重複兩次有效,是否可以無限循環直到輸出穩定?這種將模型層視為遞迴函數的觀點,引發了關於模型內部是否存在分岔特性或分形結構的理論猜想。儘管目前這種方法會增加推理延遲與 VRAM 占用,但社群普遍認同這是一個值得深入挖掘的低成本優化方向。

延伸閱讀

  • David Ng 的 RYS 方法原文:詳細介紹了最初發現層重複效應的研究背景。
  • Solar 10.7B 論文 (arXiv:2312.15166):關於深度放大縮放(Depth Up-Scaling)技術的學術基礎,探討如何在不從頭訓練的情況下擴展模型深度。
  • llm-circuit-finder GitHub 倉庫:包含作者用於尋找推理電路的工具腳本以及在 Devstral 與 Qwen 模型上的詳細測試數據。
https://github.com/alainnothere/llm-circuit-finder