為何 SWE-bench Verified 不再能衡量前沿程式碼編寫能力

Hacker News·2 天前

OpenAI 的分析顯示 SWE-bench Verified 受到嚴重的數據污染且包含有缺陷的測試設計，因此我們建議改用 SWE-bench Pro 作為衡量自主軟體工程能力更可靠的指標。

why we no longer evaluate swe bench verified

背景

OpenAI 近期發布報告指出，長期作為衡量 AI 自主軟體工程能力標準的 SWE-bench Verified 基準測試，已因資料污染與測試設計缺陷而失去參考價值。隨著頂尖模型在該測試的表現趨於飽和，OpenAI 發現剩餘的錯誤多源於測試案例過於狹隘或描述不全，甚至出現模型因曾在訓練階段看過原始碼，而能預知未說明的函式名稱等作弊現象。因此，OpenAI 宣布停止報告此項數據，並轉向推薦使用 SWE-bench Pro。

社群觀點

Hacker News 社群對此消息反應兩極，部分開發者認為這是一次「移動球門」的行為，質疑 OpenAI 是否因為模型無法達到百分之百的準確率，才回頭指責基準測試本身有問題。然而，更多專業評論者支持 OpenAI 的決定，認為這屬於「良性的球門移動」。他們指出，當一個基準測試有高達六分之一的題目存在邏輯缺陷或測試案例錯誤時，它確實無法再精確衡量模型的推理能力。例如，有留言提到 ImageNet 等知名數據集也曾被發現存在大量錯誤標籤，這反映了機器學習領域長期以來「數據雖有瑕疵但仍勉強運作」的現狀，但當模型進化到極致時，這些瑕疵就會變成進步的瓶頸。

關於「資料污染」的討論尤為激烈。社群普遍達成共識，認為任何開源的基準測試最終都會被納入模型的訓練集，導致測試結果失真。有網友諷刺地表示，模型能精準猜中未說明的參數名稱簡直是「神蹟」，這顯然是背誦而非推理。對此，社群成員提出了多種替代方案，有人建議應建立私有的、不公開的基準測試，或是在測試時加入大量無關的干擾資訊，以檢驗模型在混亂上下文中的處理能力。也有人分享了自己開發的測試方法，例如透過 Zork 等文字冒險遊戲來測試模型的環境感知與目標追求能力，因為這些遊戲雖然存在於訓練集中，但模型在實際操作時仍表現得像個「詞彙量驚人的五歲小孩」，缺乏對物理世界的直覺。

此外，社群也對當前 AI 產業過度依賴公開基準測試的現象感到疲勞。許多開發者表示，他們更傾向於建立私有的測試套件，針對具體的業務場景進行評估，因為公開榜單上的大幅進步往往無法轉化為實際開發中的生產力提升。更有留言者質疑雲端服務商可能在後端進行模型路由的「小動作」，導致用戶實際使用的模型與對外宣稱的性能不符。最終，社群傾向於認為，未來的基準測試必須朝向更高難度的推理任務發展，例如 ARC-AGI，這類測試目前連最強大的模型也難以突破，能更真實地反映 AI 的通用問題解決能力。

你的個人知識庫

為何 SWE-bench Verified 不再能衡量前沿程式碼編寫能力

背景

社群觀點

延伸閱讀