我實測了 Claude 4.7 的新分詞器:這對你的成本意味著什麼

我實測了 Claude 4.7 的新分詞器:這對你的成本意味著什麼

Hacker News·

AI 生成摘要

一項獨立分析顯示,與 4.6 版本相比,Claude 4.7 的新分詞器使每個對話階段的代幣數量增加了 20-30%,這是在以更高的成本換取指令遵循能力的微幅提升。

背景

隨著 Anthropic 推出 Claude Opus 4.7,官方文件指出新版 Tokenizer 會導致 Token 數量增加約 1.0 到 1.35 倍。然而,開發者透過實測發現,在處理技術文件與實際程式碼專案時,Token 消耗量增幅高達 30% 至 47%,這意味著在相同的價格與額度下,使用者的上下文視窗會更快耗盡,速率限制也會更早觸發。

社群觀點

Hacker News 社群對此變動反應兩極,且多數討論集中在「成本與效益是否對等」的質疑上。部分開發者證實了文章中的數據,認為在處理真實程式碼時,Token 增加三成確實符合現況。這引發了對模型服務商商業動機的討論,有觀點認為前沿模型公司存在天然的誘因去開發更消耗 Token 的模型,因為這能直接增加營收,並將此現象視為資本主義下服務商與客戶利益衝突的必然結果。

在效能提升方面,社群意見相當分歧。雖然官方宣稱更細碎的 Token 拆解能換取更精準的指令遵循能力,但許多資深使用者表示,Opus 4.7 顯得更加冗長,甚至有回覆內容過於繁瑣、品質下降的疑慮。有留言指出,這可能是因為 Anthropic 修改了系統提示詞或增加了背景指令,導致模型不再傾向於簡潔輸出。對於那些已經習慣 4.6 版本的開發者來說,目前的改進是否足以抵銷顯著增加的成本仍是未知數,甚至有人因為 Token 消耗過快、額度在短時間內見底,而決定退回使用舊版本。

此外,關於模型效能的評估也引發了技術性的爭論。有網友引用基準測試數據試圖證明 Claude 的穩定性,但隨即遭到反駁,認為目前的基準測試(如 SWE-bench)極易受到快取回應的干擾而失真,且人類對模型好壞的主觀判斷往往比數據更敏感。社群中也出現了對「推理成本」的擔憂,認為除了 Tokenizer 的改變外,新版模型的思考過程似乎也消耗了更多資源。儘管如此,仍有少數使用者回報 Opus 4.7 在「一次到位」的成功率上有顯著提升,認為這對於複雜任務而言仍具備投資價值。

延伸閱讀

在討論中,有使用者提到了一些追蹤模型效能與優化的資源。Marginlab 提供了 Claude 與 Codex 的歷史效能追蹤工具,可用於觀察模型隨時間變化的表現趨勢。另外,針對如何減少 Token 消耗,社群也提到了 Caveman 專案,雖然其對於 Tokenizer 本身的限制無法改變,但反映了開發者社群試圖透過改變溝通風格來節省成本的嘗試。

Hacker News

相關文章

其他收藏 · 0

收藏夾