二月更新後的 Claude Code 已無法處理複雜的工程任務

Hacker News·大約 21 小時前

原文

針對近 18,000 個思考區塊的量化分析顯示，Claude Code 最近的更新（特別是思考內容遮蔽與推理深度下降）導致其在處理複雜工程工作流時出現顯著的品質退化。

github.com

42796

背景

這場討論源於 GitHub 上的一則 Issue 報告，指出 Anthropic 的 Claude Code 在二月更新後，處理複雜工程任務的能力大幅下滑。該報告透過數據分析 1.7 萬個思考區塊與 23 萬次工具調用，認為 Anthropic 為了節省成本或優化效能，縮減了模型的思考深度並隱藏了思考過程，導致模型從「先研究再修改」轉向「直接修改」的低品質行為模式。

社群觀點

在 Hacker News 的討論中，許多資深工程師對此報告深有共鳴，普遍認為 Claude 近期的表現確實變得「懶惰」。多位使用者觀察到模型現在傾向於採取所謂的「最簡單修復」，這類建議往往是缺乏長遠考量且破壞系統架構的權宜之計。有工程師指出，模型現在甚至會在閱讀程式碼之前就嘗試進行編輯，這種跳過上下文理解的行為是品質倒退的明顯紅線。此外，模型在處理複雜邏輯時，開始出現「不想承擔責任」的傾向，例如會以「這太耗費 Token」或「對話輪次過多」為由拒絕深入執行任務，甚至在未經許可的情況下自行更改實作方案。

然而，社群內對於這是否為「模型退化」仍存在分歧。部分觀點認為這可能與 Anthropic 調整了系統提示詞有關，例如在內建指令中加入了「實作最簡方案」的要求，導致模型過度追求簡潔而忽略了抽象化與擴展性。也有使用者提出，這或許是所謂的「新奇感消退」效應，當使用者對新一代模型的驚艷感過去後，會開始對其固有的缺陷感到不耐。另一種技術性的猜測是，Anthropic 為了替下一代模型騰出運算資源，可能對現有的 Opus 模型進行了量化處理或參數縮減，從而犧牲了推理的精確度。

在應對策略上，社群展現了不同的工作流哲學。有些開發者選擇透過極其詳盡的指引文件來約束模型行為，雖然這導致設定檔體積膨脹，但能有效防止模型走捷徑。另一派觀點則主張將任務拆解得更細碎，透過頻繁的提交與部署來降低模型出錯的風險。有趣的是，有使用者發現 Claude 雖然在「實作」上有所退步，但在「審閱」他人程式碼時依然保持極高水準，甚至優於競爭對手。這種角色錯位引發了討論：或許目前的 AI 工具更適合擔任嚴格的審查者，而非獨立的開發者。

最後，討論也觸及了 AI 產業的經濟現實。不少人認為目前的 AI 服務大多處於補貼狀態，隨著營運壓力增加，服務商必然會透過減少思考 Token 或降低模型複雜度來控制成本。這種「品質背叛」可能是訂閱制 AI 服務的常態，使用者必須在效能與成本之間不斷重新尋找平衡點。

二月更新後的 Claude Code 已無法處理複雜的工程任務

背景

社群觀點

延伸閱讀