即將來臨的AI運算瓶頸

Hacker News·3 個月前

文章認為，目前對AI資本支出的討論方向有誤，真正的問題將是未來幾年AI運算能力的嚴重短缺，這源於AI模型進步導致的代幣消耗量爆炸性增長。

即將到來的 AI 運算短缺

最近關於「不可持續」的 AI 資本支出（capex）的討論非常多。最近仔細思考後，我認為這可能是錯誤的思考方向，根據我的研究，未來幾年我們更有可能面臨嚴重的運算短缺。

我認為這點非常重要，因為在假期期間，似乎幾乎所有從事軟體工程的人都終於意識到最新模型下的程式碼生成代理（coding agents）有多麼出色——這也證實了我關於隨著模型不斷進步，代幣消耗量將會爆炸性增長的論點。

我的代幣消耗量之旅

我相信許多讀者和我一樣，是大型語言模型（LLM）的早期採用者，尤其是在 ChatGPT 問世之後。我會問問題，請它協助寫作和其他一些（回想起來很簡單的）任務——但可能每天只用幾次。我估計當時我的代幣消耗量約為每天 5-10k 個代幣。

隨著 GPT4（以及後來的 Sonnet 3.5）的問世，模型的「知識」大幅提升。這也大幅增加了我的代幣消耗量——我幾乎總是在一個螢幕上開啟聊天介面，不斷提問和尋求協助。我並沒有像許多人那樣採用 VSCode Copilot 的「自動完成」工作流程——我發現它很分散注意力。但確實有大量的程式碼是從一個瀏覽器視窗複製貼上到我的 IDE 中。我猜測我的每日代幣消耗量可能增加了 5 倍（而且我開始嚴重觸及免費方案的使用限制，並購買了這些工具的付費訂閱，這只是其中之一）。

不到一年前，我開始使用 Claude Code——我必須承認，和許多人一樣，我一開始對這個概念非常懷疑。幾個月內，我很少打開我的 IDE，我的代幣消耗量更是直線飆升——以至於在一週內我就升級到了 Anthropic 的 Max 方案。

現在有了 Opus 4.5，更是進一步提升。我更有信心讓代理在沒有持續監督的情況下處理大量事務，它們可以並行工作，使用數百萬甚至數億個代幣。我也開始將它們用於越來越多的非軟體工程任務，使用命令列介面（CLI）包裝我經常使用的許多產品，為它們提供代理兼容的體驗。

雖然我沒有詳細的統計數據，但我估計在過去的 3 年裡，我的每日代幣消耗量增加了 50 倍。這甚至還不包括我在其他產品中使用的「嵌入式」AI，而我沒有看到（例如，Google AI 概覽，或各種其他 AI 整合，這些在許多情況下目前效用可疑）。

這需要巨大的運算量

所有這些代幣都需要在 GPU 或 TPU 上處理，才能通過模型運行。因此，我們目前正在見證人類歷史上最大規模的基礎設施部署之一，數據中心如雨後春筍般湧現，以滿足這種巨大（且不斷增長）的需求。

同時也要記住，使用 LLM 的人數也同步爆炸式增長——在撰寫本文時，大多數統計數據顯示約有 10 億活躍的 LLM 用戶。雖然其中大多數人不會像我和許多其他軟體工程師那樣使用數百萬個代幣，但隨著構建和運行代理工作流程的技術複雜性下降，我相信他們個人消耗的代幣數量將會越來越多。

這導致了資本支出的巨大增加，尤其是來自 AWS、Azure 和 GCP 等大型雲端服務供應商。我想補充的是，在 AI 出現之前，這些大型雲端服務供應商已經各自花費了數百億美元的資本支出來處理非 LLM 工作流程。

在過去的 6 個月裡，這達到了狂熱的頂點，一度似乎每天都有其中一家公司達成另一筆超過 100 億美元的基礎設施交易。

這隨後引起了媒體和金融分析師（可以理解的）質疑，詢問這筆巨大的資本支出究竟是如何花費的，特別是指出了其中一些看起來很奇怪的循環融資交易。需要注意的是，來自供應商的資產擔保貸款在資本支出密集型行業中非常普遍（福特汽車從資產融資中賺取的利潤比製造汽車還多），但在這個層級上確實是前所未有的。

敘事崩潰之處

因此，我們已經確定了每個用戶的代幣消耗量正在爆炸式增長，用戶數量也在極速增長，並且有數千億美元的「承諾」資本支出用於構建支持這一點的基礎設施。

我認為開始出現分歧的地方在於實際部署這些資金的能力。在橢圓形辦公室提出 5000 億美元的基礎設施支出是一回事，將其轉化為實體基礎設施、為其供電並使其上線並支持巨大的代幣需求則是另一回事。

第一個明顯的限制是電力——大多數國家已經嚴重缺乏電網容量。這無疑是一個主要因素，但至少在短期內，這些數據中心部署了「計量表後」（behind the meter，即不依賴電網）的燃氣輪機，在一定程度上緩解了這一問題。尤其是在德克薩斯州等主要產氣地區，（曾經）有相當大的剩餘天然氣管道容量，即使沒有高壓輸電可用。這導致了隨後的燃氣輪機發電機組短缺，但那是另一天的故事了。

我認為更大的問題更難解決——那就是 RAM。如果你最近在市場上購買新電腦，你可能會注意到電腦記憶體價格令人瞠目結舌的漲幅。據傳 OpenAI 購買了全球 DRAM 供應量的 40%。我們開始看到供應鏈因需求而承受壓力——而且大量的 DRAM 供應被鎖定在長期供應合約中，所以一旦這些合約在未來幾個月和幾年內到期，你很可能會看到對消費者產生更大的影響。

但真正引起我注意的是 Macquarie 的一份報告，該報告指出目前的 DRAM 供應量僅能支持 15GW 的 AI 基礎設施部署。

這對可以建造多少容量設定了一個非常嚴格的限制。無論 AI 公司/大型雲端服務供應商是從 Nvidia、AMD 購買，還是像 Google 那樣自行構建 TPU（與 Broadcom 合作）——它們都需要 HBM DRAM 記憶體才能成為最終產品的一部分。

更糟糕的是，快速增加 DRAM 容量非常困難。建造新的高端 DRAM 晶圓廠需要數年時間——而且他們所需的許多設備很可能供應短缺，特別是曝光設備。高端 DRAM（如 HBM3 和即將推出的 HBM4）需要 EUV 設備，而這種設備只有一家荷蘭公司生產[1]。

進行一些粗略計算，7.5GW 大約相當於 200 萬個 GB200 晶片的功耗，這些晶片在最先進的模型上可能總共提供約 5 億代幣/秒（這部分由於推測性解碼、批次效率以及預填充與推理的比例，難以準確估計）。

這「僅僅」能支持約 [2]3000 萬「硬核」代理用戶每天使用一百萬個代幣一年的增長（假設 2026 年部署 7.5GW，2027 年再部署 7.5GW，以達到研究報告指出的 15GW）。

鑑於模型和用例不斷出現（並且將繼續出現），我認為全球很可能會突破這一限制。請記住，這假設所有運算都用於代理推理——我們還有對運算需求極高的影片、音訊和「世界」模型，它們也將爭奪這些資源，此外還有訓練運行和其他 LLM 工作流程。

更糟糕的是，提示快取（prompt caching，這使得許多代理工作流程在經濟上可行）對 RAM 的需求極高。記憶體短缺恰恰對需求最高的用例造成了最嚴重的打擊。

可能會發生什麼

簡單的經濟學告訴我們，如果需求上升而供應跟不上，價格就會上漲。在我之前的部落格文章中，我估計目前的 AI 使用量實際上非常有利可圖（僅從硬體/基礎設施層面來看）。AWS 最近確實大幅提高了價格——將其 GPU 租賃價格提高了 15%。

儘管如此，各種前沿實驗室仍然面臨著維持市場份額的巨大壓力。我認為這種情況不會改變，我強烈懷疑他們會極力抵抗大幅提價——因為在不同供應商之間切換的障礙很低。

我認為越來越普遍的是更動態的推理定價，在「離峰」時段的價格將遠低於一天中需求最高的時候。我也可以看到免費方案變得遠不如現在慷慨，因為他們試圖在後台建立容量。

我確信這已經在推動模型效率的研究——在硬體上，每秒代幣吞吐量的小幅提升可以帶來巨大的商業價值。我想知道，在我們進入 2027 年之前，有多少時間將從製造更好的模型轉向更有效率的模型，直到 DRAM 容量得以提升。

還有幾個變數——也許我們會看到前沿實驗室將整個模型保留給自己使用，而不是提供給終端客戶來構建。例如，Google 將未來的 Gemini 模型僅保留給自己的產品使用，如代理版 Gmail 或 AI 概覽。

或者有人會提出更好的記憶體架構——完全繞過這些限制。這將帶來巨大的商業價值——我認為 Nvidia 最近與 Groq 達成的 200 億美元非獨家推理授權協議確實指向了這個方向（Groq 的記憶體架構不使用 HBM DRAM——它使用 SRAM——但深入探討這將是另一篇文章）。

無論如何，我認為目前我們不會過度建設 AI 容量的風險。無論達成了多少協議和簽署了多少無約束力的萬億美元承諾，DRAM 短缺很可能會在未來幾年定義這個行業。

如果你對這個市場背後的故事感興趣，我強烈推薦閱讀克里斯·米勒（Chris Miller）的《晶片戰爭》（Chip War）。這是一本引人入勝的讀物，也是對這個直到現在才受到極少關注的重要產業的歷史和動態的極易理解的概述。 ↩︎

我假設這會導致效率顯著下降，因為一天中的需求並不穩定——你需要相當大的備用容量來確保服務在「高峰時段」不會下降 ↩︎

感謝您的閱讀。不要錯過下一篇

數千名讀者會收到我每月的電子報，內容涵蓋 AI 發展、LLM 和經濟學的交叉點，以及任何值得您花時間的內容。沒有廢話，沒有垃圾郵件。

透過電子郵件獲取我的文章

最多每月一次，無垃圾郵件。

謝謝！您已訂閱。

— Hacker News