Claude 系統提示詞漏洞導致用戶資金浪費並使託管代理程式失效

Hacker News·大約 5 小時前

Claude Code 中的一個回歸錯誤導致惡意軟體安全提醒被注入到每一次的文件讀取中，導致子代理程式錯誤地拒絕合法的程式碼修改，並破壞了並行工作流程。

背景

近期在 GitHub 與 Hacker News 上引發熱議的技術問題，源於 Anthropic 開發的 Claude Code 工具出現了嚴重的系統提示詞（System Prompt）回歸臭蟲。該問題導致 Claude 在讀取任何程式碼檔案時，都會被強制注入一段關於「惡意軟體檢測」的提醒，而這段文字因語法歧義，使得 AI 代理（Agents）誤以為必須拒絕所有程式碼修改請求。這不僅導致自動化工作流中斷，更讓使用者在 AI 反覆分析與拒絕的過程中耗費大量無謂的 Token 成本。

社群觀點

社群對此現象展現出深層的疑慮，許多開發者認為這反映了當前 AI 代理架構中透明度不足的弊病。有留言指出，這類問題之所以難以在內部測試中被發現，可能是因為 Anthropic 的工程師在開發時使用的是「僅限幫助」（Helpful-only）的內部模型，這些模型並未受到針對一般大眾的安全性限制或強化學習（RL）約束。這種「內外有別」的規則環境，使得開發者難以預見一般用戶在受到層層安全護欄干擾時，模型表現會如何大幅下滑。

針對提示詞的設計，社群普遍批評其邏輯極其拙劣。該提示詞要求 AI 判斷檔案是否為惡意軟體，卻在後續指令中直接寫道「你必須拒絕改進或擴充程式碼」，語法上缺乏明確的條件判斷（If-then），導致 AI 傾向於採取最保守的策略：無論程式碼是否安全，一律拒絕修改。這種過度防禦的機制被視為一種「閹割」，甚至有開發者懷疑，未來這類限制可能會從惡意軟體延伸至商業領域，例如防止 AI 協助開發與特定企業競爭的產品。

更深層的爭論聚焦於商業模式與誘因失衡。部分評論者質疑，當 AI 代理的開發商同時也是 API 算力的銷售商時，兩者之間存在利益衝突。開發商缺乏動力去優化 Token 的使用效率，因為 AI 代理在錯誤路徑上反覆嘗試、消耗數十萬個 Token，最終轉化為開發商的營收。雖然有人認為訂閱制能緩解這種誘因失衡，讓服務商為了節省電力與算力而傾向於提供更簡潔高效的模型，但目前計費模式的混亂仍讓企業用戶感到不安。

此外，社群也開始反思對官方工具的過度依賴。有觀點建議開發者應轉向使用如 OpenCode 等開源替代方案，或是自行構建代理框架，以避免被官方強制注入的黑箱提示詞干擾。開發者們感嘆，目前 AI 代理的 Token 消耗過程過於黑箱，使用者往往難以審查系統提示詞、工具調用或模型背後的思考邏輯，這種不透明性在發生類似 Bug 時，會直接轉化為使用者的財務損失。

你的個人知識庫

Claude 系統提示詞漏洞導致用戶資金浪費並使託管代理程式失效

背景

社群觀點

延伸閱讀