
Running AI models is turning into a memory game
When we talk about the cost of AI infrastructure, the focus is usually on Nvidia and GPUs -- but memory is an increasingly important part of the picture.
主題
最新
AI
Amazon
Apps
Biotech & Health
Climate
Cloud Computing
Commerce
Crypto
Enterprise
EVs
Fintech
Fundraising
Gadgets
Gaming
Government & Policy
Hardware
Layoffs
Media & Entertainment
Meta
Microsoft
Privacy
Robotics
Security
Social
Space
Startups
TikTok
Transportation
Venture
更多來自 TechCrunch
員工
活動
Startup Battlefield
StrictlyVC
新聞信
Podcast
影片
合作夥伴內容
TechCrunch Brand Studio
Crunchboard
聯絡我們

運行AI模型正變成一場記憶體遊戲
當我們談論AI基礎設施的成本時,焦點通常集中在Nvidia和GPU上——但記憶體正日益成為重要的一環。隨著超大規模企業準備斥資數十億美元建設新的數據中心,DRAM晶片的價格在過去一年中已飆升約7倍。
同時,越來越多的學科致力於協調所有這些記憶體,以確保正確的數據在正確的時間到達正確的代理。掌握它的公司將能夠以更少的tokens進行相同的查詢,這可能是倒閉和繼續經營之間的區別。
半導體分析師Dan O’Laughlin在他的Substack上對記憶體晶片的重要性進行了有趣的探討,他在那裡與Weka的首席AI官Val Bercovici進行了交流。他們都是半導體領域的人,所以重點更多地放在晶片上,而不是更廣泛的架構;但對AI軟體的影響也相當重大。
我特別被這段話所震驚,Bercovici在其中探討了Anthropic的prompt-caching文檔日益增長的複雜性:
關鍵在於我們是否訪問Anthropic的prompt caching定價頁面。它在六七個月前開始時是一個非常簡單的頁面,尤其是在Claude Code推出時——只是“使用緩存,它更便宜”。現在它成了一部關於到底要預先購買多少緩存寫入的百科全書。你有5分鐘的層級,這在整個行業中非常常見,或者1小時的層級——沒有更高的。這是一個非常重要的信號。然後,當然,你還有各種各樣的套利機會,圍繞著基於你預先購買了多少緩存寫入的緩存讀取定價。
這裡的問題是Claude將你的prompt在緩存記憶體中保留多長時間:你可以支付5分鐘的窗口,或者支付更多來獲得一小時的窗口。從仍然在緩存中的數據中提取數據要便宜得多,所以如果你管理得當,你可以節省很多。但有一個問題:你添加到查詢中的每一個新數據都可能將其他東西從緩存窗口中擠出去。
這很複雜,但最終結果很簡單:管理AI模型中的記憶體將成為AI發展的巨大組成部分。做得好的公司將會脫穎而出。
在這個新領域還有很多進展空間。早在10月份,我就報導了一家名為TensorMesh的初創公司,該公司正在研究堆疊中的一個層,稱為緩存優化。
TechCrunch創始人峰會 2026:門票開售
TechCrunch創始人峰會:門票開售
堆疊的其他部分也存在機會。例如,在堆疊的較低層,存在數據中心如何使用他們擁有的不同類型記憶體的問題。(採訪包括一個關於何時使用DRAM晶片而不是HBM的精彩討論,儘管它非常深入硬件細節。)在堆疊的較高層,最終用戶正在弄清楚如何構建他們的模型群,以利用共享緩存。
隨著公司在記憶體協調方面做得更好,他們將使用更少的tokens,並且推理將變得更便宜。同時,模型在處理每個token方面變得更加高效,進一步降低了成本。隨著伺服器成本的下降,許多現在看起來不可行的應用程式將開始進入盈利狀態。
相關文章