newsence

許多通過 SWE-bench 測試的 PR 實際上不會被合併

Hacker News·25 天前

我們發現大約有一半通過 SWE-bench 自動評分器測試的 AI 生成 PR,在現實中會被維護者拒絕合併。這顯示若缺乏人類回饋或進一步誘導,單純解讀基準測試分數可能會讓人高估 AI 代理程式的實際效用。

背景

這篇文章探討了 AI 軟體工程代理人在基準測試(SWE-bench Verified)中的表現與現實世界開發需求之間的落差。研究團隊邀請了知名開源專案的維護者,針對通過自動化測試的 AI 生成拉取請求(PR)進行審查,結果發現約有一半的代碼雖然通過了測試,卻因為代碼品質、破壞其他功能或邏輯缺陷等原因,在現實中會被維護者拒絕合併。

社群觀點

在 Hacker News 的討論中,社群成員對於 AI 生成代碼的實用性與審查標準展開了辯論。部分討論聚焦於 AI 生成內容的「廢話感」(Slop),有留言指出即便是在雙盲測試中,資深的維護者依然能敏銳地察覺出 AI 撰寫代碼的特徵。例如,某些 AI 會在代碼中加入毫無意義的註釋,僅僅是重複描述下一行代碼的功能,這種做法被認為不僅無助於理解,反而增加了後續維護者的負擔。一旦代碼需要修改,維護者還必須同步更新這些冗餘的註釋,這種「負產值」的貢獻被視為阻礙而非助力。

關於審查的公平性,社群內出現了不同的聲音。有觀點認為,如果維護者知道 PR 是由 AI 自動生成的,通常會設立更高的准入門檻,這涉及到了人類對 AI 貢獻的信任關係。然而,反對者則引用研究方法指出,該實驗採取了盲測機制,維護者在審核時並不知道作者身份,因此拒絕合併的決定應是基於技術品質而非偏見。儘管如此,討論者也承認,當 AI 生成的代碼表現出明顯的「機器感」時,維護者很難不產生負面觀感。

此外,也有網友對研究的時間跨度提出質疑,認為分析 2024 年中期的 AI 代理人表現近乎於「人工智慧考古學」,暗示技術迭代速度極快,舊數據可能無法反映當前最先進模型的實力。但整體而言,社群共識傾向於認為,單純追求基準測試的通過率具有誤導性,若 AI 無法像人類開發者一樣根據反饋進行迭代,且無法產出符合工程規範的高品質代碼,其在真實開發環境中的價值將大打折扣。

https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/