newsence

我們正在調整開發者生產力實驗設計

Hacker News·大約 1 個月前

我們正在修改研究設計,因為開發者越來越不願意在沒有 AI 工具的情況下工作,加上薪資費率的變動,導致我們的生產力測量結果出現了明顯的選擇偏誤。

背景

METR(前身為 METR.org)近期發布了關於開發者生產力實驗設計的重大調整說明。該機構在 2025 年初的研究曾指出 AI 工具會導致資深開發者效率下降 20%,然而在 2026 年初的追蹤研究中,數據卻顯示出截然不同的趨勢。由於開發者強烈拒絕在沒有 AI 輔助的情況下工作,導致實驗面臨嚴重的樣本偏差與選擇效應,METR 坦承原有的實驗設計已難以準確衡量 AI 對生產力的真實影響。

社群觀點

Hacker News 社群對此研究轉向展開了熱烈討論,許多留言者指出,這份報告實際上反映了 AI 工具在開發流程中已從「選配」轉變為「標配」。部分網友認為,開發者拒絕在無 AI 環境下工作,未必全然代表生產力大幅提升,也可能僅僅是因為 AI 讓工作過程變得更愉快、更不痛苦。然而,也有觀點反駁這種看法,認為開發者對特定任務的「避重就輕」——即只願意在有 AI 輔助時才提交任務——本身就是一種強烈的生產力訊號,暗示某些高產出的任務若缺乏 AI 輔助,其心理與時間成本已高到令人難以接受。

針對 METR 數據從「效率降低」轉向「效率提升」的變化,社群中出現了兩極化的解讀。支持者認為這證明了 AI 工具與開發者技能的磨合已見成效,特別是那些參與過兩次實驗的開發者,其表現明顯優於新加入者,顯示出 AI 協作存在學習曲線。反對者或懷疑論者則批評,這類研究往往缺乏對軟體開發生命週期的長期追蹤,僅關注任務完成速度而忽略了程式碼缺陷率與系統長期維護的熵值。有留言者犀利地指出,AI 產出的「垃圾程式碼」雖然在短期內看似快速,但可能為團隊帶來沉重的審核負擔與後續債務。

此外,實驗設計中的變數也受到質疑,特別是報酬從每小時 150 美元大幅降至 50 美元,被認為是導致高階開發者流失、產生樣本偏差的主因。社群中不乏對「AI 導致大腦萎縮」的擔憂,認為開發者對工具的依賴可能損害基礎解決問題的能力。但也有另一派聲音將此類比為從打孔卡轉向終端機的技術演進,認為拒絕使用 AI 就像現代工程師拒絕徒手計算一樣,是技術進步的必然結果。整體而言,社群共識傾向於認為,AI 已深刻改變了開發者的工作習慣,傳統的對照組實驗已難以捕捉到這種典範轉移後的真實產出價值。

延伸閱讀

  • Claude Code:Anthropic 推出的代理型(Agentic)指令列工具,在討論中被多次提及作為當前開發者偏好的 AI 協作方式。
  • METR 關於長任務水平(Long-task horizon)的研究:社群提到的另一份報告,顯示 AI 模型在處理長時間任務的能力上呈指數型增長。
https://metr.org/blog/2026-02-24-uplift-update/