二月更新後的 Claude Code 已無法處理複雜的工程任務
針對近 18,000 個思考區塊的量化分析顯示,Claude Code 最近的更新(特別是思考內容遮蔽與推理深度下降)導致其在處理複雜工程工作流時出現顯著的品質退化。
背景
這場討論源於 GitHub 上的一則 Issue 報告,指出 Anthropic 的 Claude Code 在二月更新後,處理複雜工程任務的能力大幅下滑。該報告透過數據分析 1.7 萬個思考區塊與 23 萬次工具調用,認為 Anthropic 為了節省成本或優化效能,縮減了模型的思考深度並隱藏了思考過程,導致模型從「先研究再修改」轉向「直接修改」的低品質行為模式。
社群觀點
在 Hacker News 的討論中,許多資深工程師對此報告深有共鳴,普遍認為 Claude 近期的表現確實變得「懶惰」。多位使用者觀察到模型現在傾向於採取所謂的「最簡單修復」,這類建議往往是缺乏長遠考量且破壞系統架構的權宜之計。有工程師指出,模型現在甚至會在閱讀程式碼之前就嘗試進行編輯,這種跳過上下文理解的行為是品質倒退的明顯紅線。此外,模型在處理複雜邏輯時,開始出現「不想承擔責任」的傾向,例如會以「這太耗費 Token」或「對話輪次過多」為由拒絕深入執行任務,甚至在未經許可的情況下自行更改實作方案。
然而,社群內對於這是否為「模型退化」仍存在分歧。部分觀點認為這可能與 Anthropic 調整了系統提示詞有關,例如在內建指令中加入了「實作最簡方案」的要求,導致模型過度追求簡潔而忽略了抽象化與擴展性。也有使用者提出,這或許是所謂的「新奇感消退」效應,當使用者對新一代模型的驚艷感過去後,會開始對其固有的缺陷感到不耐。另一種技術性的猜測是,Anthropic 為了替下一代模型騰出運算資源,可能對現有的 Opus 模型進行了量化處理或參數縮減,從而犧牲了推理的精確度。
在應對策略上,社群展現了不同的工作流哲學。有些開發者選擇透過極其詳盡的指引文件來約束模型行為,雖然這導致設定檔體積膨脹,但能有效防止模型走捷徑。另一派觀點則主張將任務拆解得更細碎,透過頻繁的提交與部署來降低模型出錯的風險。有趣的是,有使用者發現 Claude 雖然在「實作」上有所退步,但在「審閱」他人程式碼時依然保持極高水準,甚至優於競爭對手。這種角色錯位引發了討論:或許目前的 AI 工具更適合擔任嚴格的審查者,而非獨立的開發者。
最後,討論也觸及了 AI 產業的經濟現實。不少人認為目前的 AI 服務大多處於補貼狀態,隨著營運壓力增加,服務商必然會透過減少思考 Token 或降低模型複雜度來控制成本。這種「品質背叛」可能是訂閱制 AI 服務的常態,使用者必須在效能與成本之間不斷重新尋找平衡點。
延伸閱讀
- MarginLab Claude Code 效能追蹤器:提供 Opus 4.6 等模型的即時表現監測。
- Superpowers:一個能為 Claude 增加額外技能與工具調用能力的開源專案。
- Poison3:針對惡意網頁爬蟲的防禦工具,反映了社群對 AI 抓取行為的反彈。