為何 SWE-bench Verified 不再能衡量前沿程式碼編寫能力

為何 SWE-bench Verified 不再能衡量前沿程式碼編寫能力

Hacker News·

OpenAI 的分析顯示 SWE-bench Verified 受到嚴重的數據污染且包含有缺陷的測試設計,因此我們建議改用 SWE-bench Pro 作為衡量自主軟體工程能力更可靠的指標。

背景

OpenAI 近期發布報告指出,長期作為衡量 AI 自主軟體工程能力標準的 SWE-bench Verified 基準測試,已因資料污染與測試設計缺陷而失去參考價值。隨著頂尖模型在該測試的表現趨於飽和,OpenAI 發現剩餘的錯誤多源於測試案例過於狹隘或描述不全,甚至出現模型因曾在訓練階段看過原始碼,而能預知未說明的函式名稱等作弊現象。因此,OpenAI 宣布停止報告此項數據,並轉向推薦使用 SWE-bench Pro。

社群觀點

Hacker News 社群對此消息反應兩極,部分開發者認為這是一次「移動球門」的行為,質疑 OpenAI 是否因為模型無法達到百分之百的準確率,才回頭指責基準測試本身有問題。然而,更多專業評論者支持 OpenAI 的決定,認為這屬於「良性的球門移動」。他們指出,當一個基準測試有高達六分之一的題目存在邏輯缺陷或測試案例錯誤時,它確實無法再精確衡量模型的推理能力。例如,有留言提到 ImageNet 等知名數據集也曾被發現存在大量錯誤標籤,這反映了機器學習領域長期以來「數據雖有瑕疵但仍勉強運作」的現狀,但當模型進化到極致時,這些瑕疵就會變成進步的瓶頸。

關於「資料污染」的討論尤為激烈。社群普遍達成共識,認為任何開源的基準測試最終都會被納入模型的訓練集,導致測試結果失真。有網友諷刺地表示,模型能精準猜中未說明的參數名稱簡直是「神蹟」,這顯然是背誦而非推理。對此,社群成員提出了多種替代方案,有人建議應建立私有的、不公開的基準測試,或是在測試時加入大量無關的干擾資訊,以檢驗模型在混亂上下文中的處理能力。也有人分享了自己開發的測試方法,例如透過 Zork 等文字冒險遊戲來測試模型的環境感知與目標追求能力,因為這些遊戲雖然存在於訓練集中,但模型在實際操作時仍表現得像個「詞彙量驚人的五歲小孩」,缺乏對物理世界的直覺。

此外,社群也對當前 AI 產業過度依賴公開基準測試的現象感到疲勞。許多開發者表示,他們更傾向於建立私有的測試套件,針對具體的業務場景進行評估,因為公開榜單上的大幅進步往往無法轉化為實際開發中的生產力提升。更有留言者質疑雲端服務商可能在後端進行模型路由的「小動作」,導致用戶實際使用的模型與對外宣稱的性能不符。最終,社群傾向於認為,未來的基準測試必須朝向更高難度的推理任務發展,例如 ARC-AGI,這類測試目前連最強大的模型也難以突破,能更真實地反映 AI 的通用問題解決能力。

延伸閱讀

在討論中,社群成員分享了幾個值得關注的替代方案與研究方向:

  • SWE-bench Pro:OpenAI 目前推薦的替代基準,旨在減少資料污染問題。
  • Zork Bench:利用經典文字冒險遊戲測試模型在確定性環境下的邏輯與行動能力。
  • ARC-AGI:由 François Chollet 發起的通用人工智慧挑戰,強調非依賴記憶的推理能力。
  • Terminal Bench:留言中提到的新興評估工具,被部分開發者視為未來的方向。
  • Entropic Thoughts:關於 LLM 在環境互動與目標達成能力上的基準測試研究。

Hacker News

相關文章

  1. 為什麼我們不再評估 SWE-bench Verified

    OpenAI · 2 個月前

  2. 我們如何攻破頂尖 AI Agent 基準測試:以及接下來的挑戰

    17 天前

  3. 許多通過 SWE-bench 測試的 PR 實際上不會被合併

    大約 2 個月前

  4. 所有基準測試都已失效

    Lesswrong · 3 個月前

  5. 在我看來,目前的 AI 系統似乎相當缺乏對齊

    Lesswrong · 13 天前

其他收藏 · 0