我實測了 Claude 4.7 的新分詞器：這對你的成本意味著什麼

Hacker News·大約 5 小時前

AI 生成摘要

一項獨立分析顯示，與 4.6 版本相比，Claude 4.7 的新分詞器使每個對話階段的代幣數量增加了 20-30%，這是在以更高的成本換取指令遵循能力的微幅提升。

i measured claude 4 7 s new tokenizer here s what it costs you

背景

隨著 Anthropic 推出 Claude Opus 4.7，官方文件指出新版 Tokenizer 會導致 Token 數量增加約 1.0 到 1.35 倍。然而，開發者透過實測發現，在處理技術文件與實際程式碼專案時，Token 消耗量增幅高達 30% 至 47%，這意味著在相同的價格與額度下，使用者的上下文視窗會更快耗盡，速率限制也會更早觸發。

社群觀點

Hacker News 社群對此變動反應兩極，且多數討論集中在「成本與效益是否對等」的質疑上。部分開發者證實了文章中的數據，認為在處理真實程式碼時，Token 增加三成確實符合現況。這引發了對模型服務商商業動機的討論，有觀點認為前沿模型公司存在天然的誘因去開發更消耗 Token 的模型，因為這能直接增加營收，並將此現象視為資本主義下服務商與客戶利益衝突的必然結果。

在效能提升方面，社群意見相當分歧。雖然官方宣稱更細碎的 Token 拆解能換取更精準的指令遵循能力，但許多資深使用者表示，Opus 4.7 顯得更加冗長，甚至有回覆內容過於繁瑣、品質下降的疑慮。有留言指出，這可能是因為 Anthropic 修改了系統提示詞或增加了背景指令，導致模型不再傾向於簡潔輸出。對於那些已經習慣 4.6 版本的開發者來說，目前的改進是否足以抵銷顯著增加的成本仍是未知數，甚至有人因為 Token 消耗過快、額度在短時間內見底，而決定退回使用舊版本。

此外，關於模型效能的評估也引發了技術性的爭論。有網友引用基準測試數據試圖證明 Claude 的穩定性，但隨即遭到反駁，認為目前的基準測試（如 SWE-bench）極易受到快取回應的干擾而失真，且人類對模型好壞的主觀判斷往往比數據更敏感。社群中也出現了對「推理成本」的擔憂，認為除了 Tokenizer 的改變外，新版模型的思考過程似乎也消耗了更多資源。儘管如此，仍有少數使用者回報 Opus 4.7 在「一次到位」的成功率上有顯著提升，認為這對於複雜任務而言仍具備投資價值。

延伸閱讀

在討論中，有使用者提到了一些追蹤模型效能與優化的資源。Marginlab 提供了 Claude 與 Codex 的歷史效能追蹤工具，可用於觀察模型隨時間變化的表現趨勢。另外，針對如何減少 Token 消耗，社群也提到了 Caveman 專案，雖然其對於 Tokenizer 本身的限制無法改變，但反映了開發者社群試圖透過改變溝通風格來節省成本的嘗試。

— Hacker News

其他收藏 · 0

收藏夾

你的個人知識庫

我實測了 Claude 4.7 的新分詞器：這對你的成本意味著什麼

背景

社群觀點

延伸閱讀