Show HN：在 24B LLM 中複製 3 個層級，邏輯推理能力從 0.22 提升至 0.76，無需訓練

Hacker News·18 天前

原文

我重現了 Ng 的 RYS 方法，發現透過複製 Qwen2.5 和 Devstral 模型中特定的 3 個層級區塊，能在不進行任何訓練或權重修改的情況下，顯著提升模型的推理與邏輯演繹能力。

github.com

llm circuit finder

dnhkng.github.io

背景

這篇討論源於開發者 alainnothere 在 GitHub 上發布的開源工具 llm-circuit-finder。該研究複製並擴展了 David Ng 的 RYS 方法，發現在不進行任何模型訓練或權重修改的情況下，僅透過重複 Transformer 模型中特定的連續層（例如 Devstral-24B 的第 12 至 14 層），就能顯著提升模型的邏輯推理能力，在 BBH 基準測試中將邏輯演繹得分從 0.22 提升至 0.76。

社群觀點

Hacker News 的社群對此發現展現了高度興趣，但也伴隨著謹慎的懷疑。支持者認為這揭示了 Transformer 模型內部存在離散的「推理電路」，這些特定的層塊如同獨立的認知單元，透過重複執行這些電路，模型彷彿獲得了額外的思考時間。有留言指出，這與過去模型剪枝（Pruning）研究的發現不謀而合，即模型的中間層通常承載了大部分的推理權重，而邊緣層則相對可以捨棄；如今看到反向操作——即堆疊中間層來增強性能——確實令人振奮，甚至有評論戲稱這可能是省下數百萬美元訓練費用的「神奇小技巧」。

然而，質疑聲浪主要集中在基準測試的全面性與泛化能力。部分資深開發者指出，雖然在特定邏輯任務上看到驚人增長，但在「公平」的混合任務測試中，這種架構修改往往會導致其他性能下降。留言中有人質疑作者僅列出了進步的指標，卻未詳盡披露退步的部分。作者對此回應，他確實觀察到不同的重複模式會產生不同的「認知模式」，例如某些配置會大幅提升數學能力，卻可能導致模型在其他綜合任務上變得較不可用。這意味著層重複並非無痛的萬靈丹，而更像是一種針對特定能力的權衡與調優。

此外，社群也探討了這種技術與現有方法的關聯。有人聯想到兩年前 Solar 10.7B 模型所使用的「深度放大縮放」（Depth Up-Scaling）技術，雖然該技術在重複層後仍需持續訓練，但核心邏輯相似。更有趣的討論轉向了遞迴的可能性：如果重複兩次有效，是否可以無限循環直到輸出穩定？這種將模型層視為遞迴函數的觀點，引發了關於模型內部是否存在分岔特性或分形結構的理論猜想。儘管目前這種方法會增加推理延遲與 VRAM 占用，但社群普遍認同這是一個值得深入挖掘的低成本優化方向。

Show HN：在 24B LLM 中複製 3 個層級，邏輯推理能力從 0.22 提升至 0.76，無需訓練

背景

社群觀點

延伸閱讀