大型語言模型的程式碼合併率是否已停止進步？

Hacker News·24 天前

原文

我分析了 METR 的數據並發現，雖然大型語言模型通過測試的比例有所增加，但其產出具備合併品質程式碼的能力在過去一年多來其實停滯不前，這與大眾認知中 AI 能力持續線性成長的印象完全相反。

entropicthoughts.com

no swe bench improvement

news.ycombinator.com

item

背景

這篇討論源於對 METR 研究報告的分析，該報告指出大型語言模型（LLM）在程式開發任務中，雖然通過測試的機率很高，但產出程式碼的「合併率」（Merge Rate，即達到維護者願意併入程式庫的品質）卻遠低於預期。文章作者進一步透過統計模型分析數據，質疑 LLM 的程式開發能力在 2025 年後可能已經進入高原期，甚至呈現停滯狀態，這與當前業界普遍的樂觀情緒形成鮮明對比。

社群觀點

Hacker News 的討論呈現出數據分析與使用者體感之間的巨大鴻溝。許多資深開發者對「能力停滯」的說法表示懷疑，他們認為模型在處理複雜邏輯、重構代碼以及減少冗餘方面的進步是顯而易見的。例如，有使用者提到 GPT 5.4 在搜尋既有工具函數與避免重複代碼上比前代優秀許多，這種「程式碼品味」的提升難以被單一的合併率指標捕捉。支持者認為，模型現在更懂得「適可而止」，不再像早期模型那樣盲目增添不必要的輔助函數，而是能寫出更符合慣例的代碼。

然而，另一派觀點則認同模型核心推理能力可能確實遇到了瓶頸。這部分討論者指出，過去一年的「進步感」很大程度來自於「外殼工程」或「代理化工具」的進化，而非模型本身的智力躍升。像是 Claude Code 或 Codex 等工具，透過自動化的代理循環、更精準的上下文檢索以及自我修正機制，大幅提升了開發體驗。這種進步被歸類為「腳手架」的完善，讓模型在實際應用中顯得更強大，但其本質上的邏輯推理與一年前相比，進步幅度可能微乎其微。

關於評測基準的有效性也引發了激烈爭論。有意見指出，合併率是一個極其主觀且受環境影響的指標，隨著 AI 工具普及，人類維護者的審核標準與提交任務的複雜度可能也隨之提高，這會導致數據上的平坦化。此外，部分開發者觀察到，雖然模型在處理主流語言時表現優異，但在 QML 或特定 C++ 框架等利基領域，直到最近的版本才真正達到可用的水準。這暗示了進步可能發生在「長尾知識」的覆蓋上，而非核心能力的突破。

最後，討論也觸及了 AI 開發的社會性問題，即「信任與責任」。即便模型生成的代碼品質與人類相當，缺乏責任歸屬仍是企業大規模採用的阻礙。有觀點認為，LLM 已經在 80% 的日常開發任務中達到飽和，未來的競爭將不在於模型規模的擴張，而是在於如何透過強化學習與推理鏈技術，解決那剩下 20% 最核心、最需要架構思維的難題。目前看來，業界正從單純追求參數規模轉向優化推理成本與代理工作流，這或許解釋了為何純粹的單次生成指標會出現停滯現象。

大型語言模型的程式碼合併率是否已停止進步？

背景

社群觀點

延伸閱讀