Claude Code 二進制文件揭露其對核心功能進行隱蔽的 A/B 測試

Hacker News·22 天前

我透過反編譯 Claude Code 的二進制文件發現，Anthropic 正在進行隱蔽的 A/B 測試，這些測試在未經用戶同意的情況下顯著改變甚至損害了我的工作流程。

do not ab test my workflow

背景

這篇文章源於一位付費訂閱 Claude Code 的工程師發現，Anthropic 在其專業開發工具中進行了未經告知的 A/B 測試。作者透過反編譯二進位檔，證實了系統會隨機分配不同的提示詞策略，其中某些變體會大幅限制模型的輸出長度與解釋細節，導致工作流程遭到破壞。這引發了關於 AI 工具透明度、專業軟體的可靠性，以及開發者是否淪為實驗白老鼠的激烈討論。

社群觀點

針對這起事件，Hacker News 社群展開了多層次的辯論。部分用戶認為這反映了當前 AI 產業對「專業工具」定義的認知落差。有觀點指出，專業工具的核心價值在於結果的可預測性與可重複性，如同編譯器或鍵盤不應在輸入相同的情況下產生不同結果，而 A/B 測試這種隨機改變工具行為的做法，本質上與專業需求背道而馳。這種不確定性不僅存在於大型語言模型本身的隨機性，現在更延伸到了軟體邏輯層面，讓使用者難以建立穩定的工作習慣。

然而，另一派意見則認為 A/B 測試在現代軟體開發中早已是常態。支持者辯稱，無論是網頁介面還是後端邏輯，開發者本來就會透過實驗來優化產品，這與 AI 無關。他們認為 LLM 的本質更接近於「人類助理」而非「精密機械」，因此要求其完全去隨機化並不現實。甚至有留言指出，Anthropic 的服務條款中早已明確保留了隨時修改功能的權利，且禁止使用者進行反編譯，認為作者的行為在法律層面上可能站不住腳。

討論中也出現了對 Anthropic 企業文化的質疑。有開發者批評該公司雖然標榜 AI 安全與透明，但在產品營運上卻顯得封閉，例如配額限制不明確、發布版本不穩定等。有人懷疑這些 A/B 測試的真實目的並非提升用戶體驗，而是為了測試如何透過更簡短的提示詞來節省運算成本。這種「成本導向」的優化若以犧牲付費專業用戶的效率為代價，將嚴重損害品牌信任感。

此外，社群也探討了「擁有權」的問題。許多人感嘆在訂閱制與雲端服務盛行的時代，使用者只是在「租用」AI，而非真正擁有工具。這導致了開發者必須在追求最尖端技術與維持工作流程穩定之間做出取捨。部分用戶因此轉向開源替代方案，以追求更高的掌控權與透明度，避免自己的生產力被遠端的實驗參數所左右。

延伸閱讀

在討論中，有使用者提到已從 Claude Code 轉向使用 opencode，這是一個相對開放且允許更多自定義控制的替代方案。此外，也有留言引用了過往關於 Anthropic 服務條款與配額限制的討論，提醒開發者在依賴這類工具時應注意法律與合約風險。

https://backnotprop.com/blog/do-not-ab-test-my-workflow/