大型語言模型的程式碼合併率是否已停止進步?
我分析了 METR 的數據並發現,雖然大型語言模型通過測試的比例有所增加,但其產出具備合併品質程式碼的能力在過去一年多來其實停滯不前,這與大眾認知中 AI 能力持續線性成長的印象完全相反。
背景
這篇討論源於對 METR 研究報告的分析,該報告指出大型語言模型(LLM)在程式開發任務中,雖然通過測試的機率很高,但產出程式碼的「合併率」(Merge Rate,即達到維護者願意併入程式庫的品質)卻遠低於預期。文章作者進一步透過統計模型分析數據,質疑 LLM 的程式開發能力在 2025 年後可能已經進入高原期,甚至呈現停滯狀態,這與當前業界普遍的樂觀情緒形成鮮明對比。
社群觀點
Hacker News 的討論呈現出數據分析與使用者體感之間的巨大鴻溝。許多資深開發者對「能力停滯」的說法表示懷疑,他們認為模型在處理複雜邏輯、重構代碼以及減少冗餘方面的進步是顯而易見的。例如,有使用者提到 GPT 5.4 在搜尋既有工具函數與避免重複代碼上比前代優秀許多,這種「程式碼品味」的提升難以被單一的合併率指標捕捉。支持者認為,模型現在更懂得「適可而止」,不再像早期模型那樣盲目增添不必要的輔助函數,而是能寫出更符合慣例的代碼。
然而,另一派觀點則認同模型核心推理能力可能確實遇到了瓶頸。這部分討論者指出,過去一年的「進步感」很大程度來自於「外殼工程」或「代理化工具」的進化,而非模型本身的智力躍升。像是 Claude Code 或 Codex 等工具,透過自動化的代理循環、更精準的上下文檢索以及自我修正機制,大幅提升了開發體驗。這種進步被歸類為「腳手架」的完善,讓模型在實際應用中顯得更強大,但其本質上的邏輯推理與一年前相比,進步幅度可能微乎其微。
關於評測基準的有效性也引發了激烈爭論。有意見指出,合併率是一個極其主觀且受環境影響的指標,隨著 AI 工具普及,人類維護者的審核標準與提交任務的複雜度可能也隨之提高,這會導致數據上的平坦化。此外,部分開發者觀察到,雖然模型在處理主流語言時表現優異,但在 QML 或特定 C++ 框架等利基領域,直到最近的版本才真正達到可用的水準。這暗示了進步可能發生在「長尾知識」的覆蓋上,而非核心能力的突破。
最後,討論也觸及了 AI 開發的社會性問題,即「信任與責任」。即便模型生成的代碼品質與人類相當,缺乏責任歸屬仍是企業大規模採用的阻礙。有觀點認為,LLM 已經在 80% 的日常開發任務中達到飽和,未來的競爭將不在於模型規模的擴張,而是在於如何透過強化學習與推理鏈技術,解決那剩下 20% 最核心、最需要架構思維的難題。目前看來,業界正從單純追求參數規模轉向優化推理成本與代理工作流,這或許解釋了為何純粹的單次生成指標會出現停滯現象。
延伸閱讀
- Many SWE-bench-Passing PRs would not be merged:METR 發布的原始研究,深入探討 AI 生成程式碼與人類審核標準間的差距。
- The Emergent Abilities Mirage:探討 AI 「湧現能力」是否僅為測量方式造成的錯覺之學術論文。
- Claude Code & Codex:留言中多次提及、被認為大幅改善開發體驗的代理化程式開發工具。