newsence
歡迎

你的個人知識庫

從開放網路上發現值得讀的內容,收藏真正重要的。AI 為你摘要、串連、整理你所知道的一切。

重新思考 AI 總體擁有成本:為何每代幣成本是唯一關鍵指標

重新思考 AI 總體擁有成本:為何每代幣成本是唯一關鍵指標

Nvidia Blog·大約 6 小時前

傳統數據中心正演變為以產出智能為主的 AI 代幣工廠,這要求經濟評估從原始算力投入轉向每百萬代幣的生產成本。輝達展示其 Blackwell 平台雖然前期成本較高,但透過全棧優化,其每代幣成本比前代架構降低了 35 倍。

傳統數據中心僅負責存儲、檢索和處理數據。在生成式與代理式 AI 時代,這些設施已演變成「AI 代幣工廠」(AI token factories)。隨著 AI 推論成為其主要工作負載,其主要產出是以代幣(tokens)形式製造的智能。

這種轉型要求在評估 AI 基礎設施經濟效益(包括總體擁有成本,TCO)的方式上做出相應轉變。企業在評估 AI 基礎設施時,往往仍過於關注晶片的峰值規格、運算成本,或是每投入一美元所獲得的每秒浮點運算次數(即 FLOPS per dollar)。

真正關鍵的區別在於:

  • 運算成本(Compute cost):企業為 AI 基礎設施支付的費用,無論是向雲端供應商租賃還是自建。

  • 每美元 FLOPS(FLOPS per dollar):企業每投入一美元所獲得的原始算力,但原始算力與現實世界的代幣產出並非同一回事。

  • 每代幣成本(Cost per token):企業生產每個交付代幣的全額成本,通常以每百萬個代幣的成本表示。

前兩者僅是「投入指標」。當業務運作依賴於「產出」時,卻針對「投入」進行優化,這是一種根本性的錯配。

每代幣成本決定了企業能否有利可圖地擴展 AI 規模。它是唯一能直接反映硬體性能、軟體優化、生態系統支持和實際利用率的 TCO 指標——而 NVIDIA 提供了業界最低的每代幣成本。

降低代幣成本的因素有哪些?

了解如何優化代幣成本,需要查看計算每百萬代幣成本的等式。

在這個等式中,許多評估 AI 基礎設施的企業都專注於分子:每小時每顆 GPU 的成本。對於雲端部署,這是支付給雲端供應商的每小時費率;對於地端部署,則是將擁有的基礎設施折舊後得出的有效每小時成本。然而,降低代幣成本的真正關鍵在於分母:最大化交付的代幣產出。

該分母具有兩個業務意義:

  • 最小化代幣成本:當代幣產出的增加反映在成本等式中時,它會降低每代幣成本,進而提高每次服務交互的利潤率。

  • 最大化營收:每秒交付更多代幣也意味著每百萬瓦(MW)產出更多代幣,這代表在 AI 驅動的產品和服務中可以使用更多智能,從同樣的基礎設施投資中產生更多營收。

因此,僅關注分子會忽略驅動分母的因素。可以將其視為「推論冰山」:分子位於水面上方,顯而易見且易於比較;分母則是水面下的一切,代表了決定現實世界代幣產出的關鍵因素。準確評估 AI 基礎設施應從詢問水面下的內容開始。

  • 表面層級的詢問:

每小時 GPU 成本是多少?

  • 峰值 Petaflops 和高頻寬記憶體(HBM)容量是多少?

  • 每美元的 FLOPS 是多少?

  • 深層成本分析:

每百萬個代幣的成本是多少?特別是對於目前部署最廣泛的 AI 模型類型——大規模混合專家(MoE)推理模型,其每百萬個代幣的成本是多少?

上述每一項演算法、硬體和軟體優化都必須處於啟動並整合的狀態,否則分母就會崩潰。一個「較便宜」但每秒交付代幣顯著減少的 GPU,會導致更高的每代幣成本。在全堆疊範疇內做到正確的 AI 基礎設施,能確保每項優化都能增強其他優化。

為什麼每代幣成本比每美元 FLOPS 重要得多?

以下關於 DeepSeek-R1 AI 模型的數據展示了理論與實際業務成果之間的差異。

僅看運算成本,NVIDIA Blackwell 平台似乎比 NVIDIA Hopper 貴約 2 倍——但運算成本並未說明該投資所買到的產出。分析單純的每美元 FLOPS,Blackwell 相較於 Hopper 架構有 2 倍的優勢。然而,實際結果卻有天壤之別:Blackwell 每瓦交付的代幣產出比 Hopper 高出 50 倍以上,導致每百萬個代幣的成本降低了近 35 倍。

指標NVIDIA Hopper (HGX H200)NVIDIA Blackwell (GB300 NVL72)NVIDIA Blackwell 相對於 Hopper
每小時每顆 GPU 成本 ($)$1.41$2.652x
每美元 FLOP (PFLOPS)2.85.62x
每顆 GPU 代幣產出1.4萬90.6萬65x
每百萬瓦 (MW) 代幣產出5.4萬280萬50x
每百萬個代幣成本 ($)$4.20$0.12低 35x

註:數據來源於 NVIDIA 分析及 SemiAnalysis InferenceX v2 基準測試。

這種巨大的分歧證明,NVIDIA Blackwell 在業務價值上較前代 Hopper 實現了巨大飛躍,遠遠超過了系統成本的任何增幅。

如何選擇正確的 AI 基礎設施

基於運算成本或理論上的每美元 FLOPS 來比較 AI 基礎設施不僅不夠全面,也無法準確反映推論的經濟效益。如數據所示,準確評估 AI 基礎設施的營收潛力和獲利能力,需要將重點從「投入指標」轉向「每代幣成本」和「交付的代幣產出」。

NVIDIA 通過在運算、網路、記憶體、存儲、軟體和合作夥伴技術方面的深度協同設計(extreme codesign),提供了業界最低的代幣成本和最高的代幣吞吐量。此外,針對 vLLM、SGLang、NVIDIA TensorRT-LLM 和構建於 NVIDIA 平台上的 NVIDIA Dynamo 等開源推論軟體的持續優化,意味著在現有的 NVIDIA 基礎設施上,代幣產出將持續增加,而每代幣成本在購買後仍會持續下降。

領先的雲端供應商和 NVIDIA 雲端合作夥伴已經在大規模提供這種優勢。CoreWeave、Nebius、Nscale 和 Together AI 等合作夥伴已部署 NVIDIA Blackwell 基礎設施,並優化了其技術堆疊,為企業提供當前最低的代幣成本,讓每一次服務交互都能充分受益於 NVIDIA 硬體、軟體和生態系統的協同設計。

https://blogs.nvidia.com/blog/lowest-token-cost-ai-factories/