許多通過 SWE-bench 測試的 PR 實際上不會被合併

Hacker News·25 天前

我們發現大約有一半通過 SWE-bench 自動評分器測試的 AI 生成 PR，在現實中會被維護者拒絕合併。這顯示若缺乏人類回饋或進一步誘導，單純解讀基準測試分數可能會讓人高估 AI 代理程式的實際效用。

2026 03 10 many swe bench passing prs would not be merged into main

背景

這篇文章探討了 AI 軟體工程代理人在基準測試（SWE-bench Verified）中的表現與現實世界開發需求之間的落差。研究團隊邀請了知名開源專案的維護者，針對通過自動化測試的 AI 生成拉取請求（PR）進行審查，結果發現約有一半的代碼雖然通過了測試，卻因為代碼品質、破壞其他功能或邏輯缺陷等原因，在現實中會被維護者拒絕合併。

社群觀點

在 Hacker News 的討論中，社群成員對於 AI 生成代碼的實用性與審查標準展開了辯論。部分討論聚焦於 AI 生成內容的「廢話感」（Slop），有留言指出即便是在雙盲測試中，資深的維護者依然能敏銳地察覺出 AI 撰寫代碼的特徵。例如，某些 AI 會在代碼中加入毫無意義的註釋，僅僅是重複描述下一行代碼的功能，這種做法被認為不僅無助於理解，反而增加了後續維護者的負擔。一旦代碼需要修改，維護者還必須同步更新這些冗餘的註釋，這種「負產值」的貢獻被視為阻礙而非助力。

關於審查的公平性，社群內出現了不同的聲音。有觀點認為，如果維護者知道 PR 是由 AI 自動生成的，通常會設立更高的准入門檻，這涉及到了人類對 AI 貢獻的信任關係。然而，反對者則引用研究方法指出，該實驗採取了盲測機制，維護者在審核時並不知道作者身份，因此拒絕合併的決定應是基於技術品質而非偏見。儘管如此，討論者也承認，當 AI 生成的代碼表現出明顯的「機器感」時，維護者很難不產生負面觀感。

此外，也有網友對研究的時間跨度提出質疑，認為分析 2024 年中期的 AI 代理人表現近乎於「人工智慧考古學」，暗示技術迭代速度極快，舊數據可能無法反映當前最先進模型的實力。但整體而言，社群共識傾向於認為，單純追求基準測試的通過率具有誤導性，若 AI 無法像人類開發者一樣根據反饋進行迭代，且無法產出符合工程規範的高品質代碼，其在真實開發環境中的價值將大打折扣。

https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/