重新思考 AI 總體擁有成本：為何每代幣成本是唯一關鍵指標

Nvidia Blog·大約 6 小時前

傳統數據中心正演變為以產出智能為主的 AI 代幣工廠，這要求經濟評估從原始算力投入轉向每百萬代幣的生產成本。輝達展示其 Blackwell 平台雖然前期成本較高，但透過全棧優化，其每代幣成本比前代架構降低了 35 倍。

傳統數據中心僅負責存儲、檢索和處理數據。在生成式與代理式 AI 時代，這些設施已演變成「AI 代幣工廠」（AI token factories）。隨著 AI 推論成為其主要工作負載，其主要產出是以代幣（tokens）形式製造的智能。

這種轉型要求在評估 AI 基礎設施經濟效益（包括總體擁有成本，TCO）的方式上做出相應轉變。企業在評估 AI 基礎設施時，往往仍過於關注晶片的峰值規格、運算成本，或是每投入一美元所獲得的每秒浮點運算次數（即 FLOPS per dollar）。

真正關鍵的區別在於：

運算成本（Compute cost）：企業為 AI 基礎設施支付的費用，無論是向雲端供應商租賃還是自建。
每美元 FLOPS（FLOPS per dollar）：企業每投入一美元所獲得的原始算力，但原始算力與現實世界的代幣產出並非同一回事。
每代幣成本（Cost per token）：企業生產每個交付代幣的全額成本，通常以每百萬個代幣的成本表示。

前兩者僅是「投入指標」。當業務運作依賴於「產出」時，卻針對「投入」進行優化，這是一種根本性的錯配。

每代幣成本決定了企業能否有利可圖地擴展 AI 規模。它是唯一能直接反映硬體性能、軟體優化、生態系統支持和實際利用率的 TCO 指標——而 NVIDIA 提供了業界最低的每代幣成本。

降低代幣成本的因素有哪些？

了解如何優化代幣成本，需要查看計算每百萬代幣成本的等式。

在這個等式中，許多評估 AI 基礎設施的企業都專注於分子：每小時每顆 GPU 的成本。對於雲端部署，這是支付給雲端供應商的每小時費率；對於地端部署，則是將擁有的基礎設施折舊後得出的有效每小時成本。然而，降低代幣成本的真正關鍵在於分母：最大化交付的代幣產出。

該分母具有兩個業務意義：

最小化代幣成本：當代幣產出的增加反映在成本等式中時，它會降低每代幣成本，進而提高每次服務交互的利潤率。
最大化營收：每秒交付更多代幣也意味著每百萬瓦（MW）產出更多代幣，這代表在 AI 驅動的產品和服務中可以使用更多智能，從同樣的基礎設施投資中產生更多營收。

因此，僅關注分子會忽略驅動分母的因素。可以將其視為「推論冰山」：分子位於水面上方，顯而易見且易於比較；分母則是水面下的一切，代表了決定現實世界代幣產出的關鍵因素。準確評估 AI 基礎設施應從詢問水面下的內容開始。

表面層級的詢問：

每小時 GPU 成本是多少？

峰值 Petaflops 和高頻寬記憶體（HBM）容量是多少？
每美元的 FLOPS 是多少？
深層成本分析：

每百萬個代幣的成本是多少？特別是對於目前部署最廣泛的 AI 模型類型——大規模混合專家（MoE）推理模型，其每百萬個代幣的成本是多少？

每百萬瓦交付的代幣產出是多少？特別是對於地端部署，土地、電力和基礎設施的資本投入巨大，最大化每百萬瓦產出的智能至關重要。
擴展互連（Scale-up interconnect）能否處理 MoE 模型的「全對全」（all-to-all）流量？
是否支持 FP4 精度？推論堆疊能否在保持高準確度的同時利用 FP4？
推論執行環境（runtime）是否支持投機解碼（speculative decoding）或多代幣預測以增加用戶互動性？
服務層是否支持解耦服務（disaggregated serving）、KV 感知路由、KV 快取卸載及其他優化？
平台是否支持代理式 AI（agentic AI）的獨特工作負載需求——包括超低延遲、高吞吐量和大輸入序列長度？
平台是否支持從訓練、後訓練到大規模推論的全生命週期，並涵蓋所有模型架構，以確保基礎設施的可替代性和高利用率？

上述每一項演算法、硬體和軟體優化都必須處於啟動並整合的狀態，否則分母就會崩潰。一個「較便宜」但每秒交付代幣顯著減少的 GPU，會導致更高的每代幣成本。在全堆疊範疇內做到正確的 AI 基礎設施，能確保每項優化都能增強其他優化。

為什麼每代幣成本比每美元 FLOPS 重要得多？

以下關於 DeepSeek-R1 AI 模型的數據展示了理論與實際業務成果之間的差異。

僅看運算成本，NVIDIA Blackwell 平台似乎比 NVIDIA Hopper 貴約 2 倍——但運算成本並未說明該投資所買到的產出。分析單純的每美元 FLOPS，Blackwell 相較於 Hopper 架構有 2 倍的優勢。然而，實際結果卻有天壤之別：Blackwell 每瓦交付的代幣產出比 Hopper 高出 50 倍以上，導致每百萬個代幣的成本降低了近 35 倍。

指標	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell 相對於 Hopper
每小時每顆 GPU 成本 ($)	$1.41	$2.65	2x
每美元 FLOP (PFLOPS)	2.8	5.6	2x
每顆 GPU 代幣產出	1.4萬	90.6萬	65x
每百萬瓦 (MW) 代幣產出	5.4萬	280萬	50x
每百萬個代幣成本 ($)	$4.20	$0.12	低 35x

註：數據來源於 NVIDIA 分析及 SemiAnalysis InferenceX v2 基準測試。

這種巨大的分歧證明，NVIDIA Blackwell 在業務價值上較前代 Hopper 實現了巨大飛躍，遠遠超過了系統成本的任何增幅。

如何選擇正確的 AI 基礎設施

基於運算成本或理論上的每美元 FLOPS 來比較 AI 基礎設施不僅不夠全面，也無法準確反映推論的經濟效益。如數據所示，準確評估 AI 基礎設施的營收潛力和獲利能力，需要將重點從「投入指標」轉向「每代幣成本」和「交付的代幣產出」。

NVIDIA 通過在運算、網路、記憶體、存儲、軟體和合作夥伴技術方面的深度協同設計（extreme codesign），提供了業界最低的代幣成本和最高的代幣吞吐量。此外，針對 vLLM、SGLang、NVIDIA TensorRT-LLM 和構建於 NVIDIA 平台上的 NVIDIA Dynamo 等開源推論軟體的持續優化，意味著在現有的 NVIDIA 基礎設施上，代幣產出將持續增加，而每代幣成本在購買後仍會持續下降。

領先的雲端供應商和 NVIDIA 雲端合作夥伴已經在大規模提供這種優勢。CoreWeave、Nebius、Nscale 和 Together AI 等合作夥伴已部署 NVIDIA Blackwell 基礎設施，並優化了其技術堆疊，為企業提供當前最低的代幣成本，讓每一次服務交互都能充分受益於 NVIDIA 硬體、軟體和生態系統的協同設計。

https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/

你的個人知識庫

重新思考 AI 總體擁有成本：為何每代幣成本是唯一關鍵指標

降低代幣成本的因素有哪些？

為什麼每代幣成本比每美元 FLOPS 重要得多？

如何選擇正確的 AI 基礎設施