亞馬遜的韌性

stratechery·

亞馬遜在 AI 訓練時代看似落後,但憑藉其對長期投資的堅持,在推論時代已佔據有利位置。

Amazon 在 AI 訓練時代看似落後,但憑藉其對長期的持續投資,在推論時代已處於有利地位。


在您的播客播放器中收聽此更新


談到 AI 這齣肥皂劇——每天都有新聞,領先與落後的公司似乎每季、甚至每月都在更迭——本週我發現最有趣且具啟發性的新聞是關於實體商品與物流。摘自 Bloomberg

Amazon.com Inc. 推出了一系列物流服務,讓企業能以套裝形式購買其現有的貨運與分銷服務,導致聯邦快遞(FedEx Corp.)和聯合包裹(United Parcel Service Inc.)等競爭對手的股價下跌。這家全球最大的線上零售商週一宣布成立亞馬遜供應鏈服務(Amazon Supply Chain Services, ASCS),為其他公司提供其「全方位」供應鏈與分銷產品的存取權限。該服務主要將現有的產品組合——空運與海運、卡車運輸及最後一哩路配送——整合進一個新的套件中,並表示寶潔(Procter & Gamble Co.)和 3M 等公司已經在使用。

這對 Stratechery 來說是一個非常令人滿意的公告,因為它是我十年前在 《亞馬遜稅》(The Amazon Tax) 中所做預測的頂峰。當時亞馬遜有兩大主要業務——Amazon.com 和 AWS——我在那篇文章中主張它們實際上非常相似:在這兩個案例中,亞馬遜都構建了「原語」(primitives),並以亞馬遜自身作為第一個也是最好的客戶,以此證明並推動初始開發,但最終的策略都是將這些原語出售給其他公司。當時已經很清楚,物流將走上同樣的道路:

越來越明顯的是,亞馬遜打算在物流領域重複這一模式:在去年試驗了六架飛機後,該公司最近又租賃了 20 架,以充實其私人物流網絡;此外,它還將其中國子公司註冊為海運貨運代理商……

那麼這會如何發展呢?首先,亞馬遜本身將成為這個物流網絡的第一個也是最好的客戶,就像 AWS 的情況一樣。這證明了建立一個能與 UPS、FedEx 等競爭的物流網絡所需的大規模支出是合理的,大多數媒體將這些舉措解讀為亞馬遜控制運輸成本和提高可靠性(特別是在節假日期間)的一種方式。

然而,我認為如果覺得亞馬遜會止步於此就錯了:就像他們在 AWS 和電子商務分銷方面所做的那樣,我預計該公司會將其物流網絡提供給第三方,這將增加規模收益,並進而加深亞馬遜最終的護城河。

現在,十年過去了,我們來到了這裡,隨著 亞馬遜供應鏈服務 的正式亮相,我認為這個時間跨度非常重要:亞馬遜比任何其他公司都更具備以十年為單位的運作能力,持續進行大規模的現實世界投資,這些投資 (1) 將其邊際成本轉化為資本成本,並且 (2) 通過將這些資本成本出售給其他企業來獲得槓桿效應。

順便說一句,這仍然是一個關於 AI 的故事。

AWS 的簡史

三年前,SemiAnalysis 寫了一篇題為 《亞馬遜的雲端危機:AWS 將如何輸掉計算的未來》 的文章,我覺得非常引人入勝。首先,先回顧一些歷史(其中大部分在 SemiAnalysis 的文章中都有提及)。

亞馬遜不僅發明了雲端運算,還意識到這將是一個商品化市場。雖然科技界的大多數人都想著建立可持續的差異化,以便收取更高價格從而產生利潤,但商品化市場的運作方式不同:在那裡,可持續的利潤來自於擁有結構性更低的成本。

亞馬遜正是開發了這一點,首先是通過擁有最大的規模——這賦予了公司採購議價能力,以及對其開發成本的最大槓桿——其次是通過真正的創新。AWS 構建了一個名為 Nitro 的專門系統,基於自家晶片,將伺服器管理(包括網絡管理、存儲管理、虛擬機管理程序管理等)從公司出售存取權的昂貴 Intel 和 AMD 伺服器中卸載出來;這讓亞馬遜能在單台伺服器上運行更多的虛擬機,顯著提高了利用率,即交付了結構性的成本優勢。

亞馬遜通過其 ARM 處理器 Graviton 加倍投入自研晶片。Graviton 晶片,特別是前幾代,在性能上不如 Intel 或 AMD 晶片,但這並不意味著它們沒用。那時 AWS 已經從單純的基礎設施即服務(IaaS)供應商擴展為平台即服務(PaaS)供應商。IaaS 意味著你提供原始的計算、存儲等,客戶可以在其上運行操作系統或數據庫;PaaS 則意味著你將這些基本功能作為服務提供。例如,Amazon Relational Database Service (RDS) 是一個完全託管的數據庫,客戶可以通過一組 API 訪問,而無需擔心自己管理整個數據庫、擴展或備份等。這進而意味著客戶不需要知道、也不需要關心支撐 RDS 等服務的計算基礎設施——而這長期以來一直是 Graviton!

PaaS 讓亞馬遜在利潤上實現了「雙重獲利」:首先,AWS 可以以比 IaaS 產品更高的毛利銷售 PaaS 產品;其次,公司可以利用自家更便宜的晶片來支撐這些產品,降低成本。隨著時間推移,Graviton 在性能上變得更具競爭力——同時保持更便宜——為亞馬遜提供了成本更低的計算實例來銷售給終端用戶,但即使沒有第三方採用,投資自研晶片的努力也隨著時間獲得了回報。

訓練 vs. 推論

快進到 AI 時代,SemiAnalysis 的擔憂是,所有這些優化讓 AWS 對 AI 準備不足。一個大問題是網絡:

亞馬遜沒有採用 Nvidia 和/或 Broadcom 最好的網絡技術,而是使用自家的 Nitro 和彈性織物適配器(Elastic Fabric Adaptor, EFA)網絡。這對許多工作負載都很有效,此外還提供了成本、性能和安全優勢。亞馬遜不採用其他網絡技術有商業、文化和安全方面的原因。文化因素很重要。Nitro 和網絡 SoC 多年來一直是亞馬遜最大的成本優勢。這已植入他們的 DNA。即使是 EFA 也能提供這一點,但他們沒有看到新的工作負載是如何演變的,以及由於內部工作負載和基礎設施團隊缺乏遠見,需要一個新的層級。亞馬遜正在做出不採用的刻意選擇,我們相信這將在未來對他們造成打擊。

另一個問題是亞馬遜堅持自研晶片,這些晶片不僅在性能上不如 Nvidia 最好的晶片,還可能導致他們未來獲得的 Nvidia 晶片更少:

至少其他一些雲端服務商會實施節點外 NVLink。這就涉及到了優先級的討論。AI GPU 面臨嚴重的短缺,至少會持續整整一年。這是 AI 最關鍵的時期之一,它可能標誌著「擁有者」和「匱乏者」的分野。Nvidia 現在是完全的壟斷者。為什麼 Nvidia 要優先為亞馬遜提供這些 GPU,既然他們知道亞馬遜會盡快將盡可能多的計算工作負載轉移到自研晶片上?為什麼 Nvidia 要向不使用其任何網絡技術的雲端運算平台運送大量 GPU,從而減少自己的市場份額?

相反,Nvidia 會優先考慮那些「跟隨型」的雲端服務商。亞馬遜確實獲得了可觀的供貨量,但遠未達到需求。亞馬遜相對於公共雲出貨量的 H100 GPU 出貨量顯著低於其在公共雲中的份額。其他雲端服務商也無法滿足需求,但他們從 Nvidia 那裡獲得的 GPU 比例更高,因此,尋求訓練或推論 GPU 的公司將轉向這些雲端。Nvidia 現在是造王者,他們正在利用這一點。他們必須分散權力平衡,以防止計算份額向亞馬遜聚集。

在 2023 年那篇文章撰寫時,這些擔憂是有道理的:那時 AI 憑藉 ChatGPT 進入主流,但最大份額的計算仍用於訓練。訓練需要亞馬遜所缺乏的所有東西,特別是將大量 Nvidia GPU 聯網成一個連貫系統的能力。在這樣的系統中,最重要的能力是晶片之間的水平聯網,以便在訓練期間更新權重,這是一個需要序列化發生的步驟。當時的情況確實是,像微軟、甲骨文或新興雲端服務商(實施了完整的 Nvidia 解決方案,而非 AWS 偏好的獨立 HGX 機架)更適合訓練大型語言模型。

順便說一句,現在情況依然如此。改變的是,訓練不再是最大的 AI 計算市場;推論才是,這不僅歸功於 AI 採用的增加,還因為 AI 運作方式的根本變化。摘自 一篇關於 Nvidia 的更新

  • 第一個拐點是 LLM 的出現——稱之為 ChatGPT 時刻。在第一個範式中,Token 由 GPU 生成並作為問題的答案呈現。

  • 第二個拐點是推理模型(reasoning models)的出現——稱之為 o1 時刻。在這個範式中,在答案實際生成之前,會生成大量 Token 來推導答案;這是 Token 可尋址市場的指數級增長。

  • 第三個拐點是功能性代理(functional agents)的出現——稱之為 Opus 4.5 時刻。在這個範式中,這些推理模型不是由人類提問觸發的,而是由代理為了解決問題而觸發的。這從兩個方向增加了市場:首先,人類可以運行多個代理;其次,代理可以多次利用推理模型來完成任務。這不僅是 Token 可尋址市場的指數級增長,更是兩個指數級增長的平方。

無論是向推論的轉移,還是推論本質的轉變,對 AWS 的方法都是利好。

  • 首先,雖然推論仍需要大量內存,但需求顯著低於訓練。將模型參數存儲在單個伺服器中實際上是可行的;你不需要將成千上萬個晶片聯網。

  • 其次,雖然推理和代理工作負載需要顯著更多的 Token,從而需要大規模增長的 KV 快取,但這種增長實際上如此之大,以至於即使是最優化的 Nvidia 推論系統也正在構建 專用內存伺服器。這種架構與亞馬遜的聯網方法,比成千上萬個晶片聯網的方法更具兼容性。

  • 第三,代理高度依賴 CPU,這有兩個重要的影響。首先,充分利用加速器取決於擁有足夠的通用計算;其次,實現異構計算的最大利用率意味著解耦 CPU 和 GPU 並在資源之間路由工作負載,這正是亞馬遜一直通過 Nitro 構建的那種資源解耦抽象。

利用率這一點很重要。Nvidia 執行長黃仁勳在 GTC 2025 上詳盡闡述了 Nvidia 晶片優於自定義 ASIC 的理由。黃的論點是,AI 工廠(用他的話說)最終受限於電力;這意味著利潤最重要的指標不是晶片的成本,而是「每瓦 Token 數」。換句話說,如果你無法增加瓦數,那麼花更多錢買晶片以增加這些瓦數產出的 Token 是值得的。

然而,有三個原因解釋了為什麼這個論點可能站不住腳,特別是對亞馬遜這樣的公司。

  • 首先,如果你有錢買那麼多 Nvidia 晶片,你也有錢花在獲取更多電力上——這正是 AWS 一直關注的重點。這非常符合 AWS 的運作模式,即在更上游(在這種情況下是電力)投入更多,目標是在下游花得更少(支付 Nvidia 巨額利潤來購買其晶片)。

  • 其次,從長期來看,電力比邏輯晶片更像是一種商品。這意味著在電力市場,創新和競爭更有可能打破瓶頸,換句話說,投資自研晶片是最有可能帶來投資回報的領域。

  • 第三,推論工作負載的性質——特別是代理型工作負載——使得完美的加速器利用率將比訓練時更難解決。

然而,如果你沒有一個至少具備競爭力的自研邏輯晶片,這些點都是空談。而在這裡,亞馬遜的長期眼光正在獲得回報。亞馬遜在 2015 年收購了製造其晶片的 Annapurna Labs,並在 2019 年推出了首款專注於 AI 的晶片。是的,它當時並不好,但關鍵是,那是七年前的事了:現在 Trainium 3 已經相當不錯,而且發展軌跡更好。AWS 已準備好在未來的推論領域擁有可持續的成本優勢。

AWS 的中立性

此外,他們已經在重演 Graviton 的劇本。Trainium 晶片幫助支撐了其 AI 平台 Bedrock,也就是說,用戶即使沒有明確選擇使用 Trainium 晶片,也正在使用它們。AWS 執行長 Matt Garman 在 Stratechery 訪談 中明確指出了這一點:

我認為就 GPU 而言,順便說一句,你將通過抽象層與許多這些加速器晶片進行交互。因此,絕大多數客戶也不會直接與 GPU 交互,除非是通過筆記本電腦之類的東西進行圖形處理。但當你與 OpenAI 對話時,即使他們運行在 GPU 上,你也不是在與 GPU 對話;如果你與 Claude 對話,你是通過 GPU 或 Trainium 或 TPU,你不是在與任何這些晶片對話,你是在與接口對話。而目前絕大多數的推論都是在少數幾個模型上完成的。

因此,無論是 5 個、10 個、20 個還是 100 個模型,並非數百萬人在直接針對這些東西進行編程,未來也是如此,因為這些系統非常複雜且龐大。如果你要去訓練一個模型,沒有多少人有足夠的錢去訓練模型,也沒有多少人有實際管理它的專業知識。它們是非常複雜的系統,OpenAI 團隊在從大型計算集群中榨取價值的能力是驚人的。但並非很多人擁有能做到這一點的團隊,無論晶片是什麼,所以我認為這對所有加速器晶片來說都是事實。

前沿模型是其中的一個重要因素,這是我沒預料到的一個角度。Nvidia 執行長黃仁勳在 最近與 Dwarkesh Patel 的訪談 中解釋了為什麼 Nvidia 早期沒有投資 Anthropic:

當時,我沒有深刻領會到建立像 OpenAI 和 Anthropic 這樣的基础 AI 實驗室有多麼困難,以及他們需要供應商本身提供巨額投資。我們當時沒有能力對 Anthropic 進行數十億美元的投資,以便讓他們使用我們的計算資源。但 Google 和 AWS 做到了。他們在初期投入了巨額資金,作為回報,Anthropic 使用了他們的計算資源。我們當時就是沒法那樣做。

我會說我的錯誤在於我沒有深刻意識到他們真的別無選擇,風投永遠不會向一個 AI 實驗室投入 50 億到 100 億美元的投資,並寄希望於它能成為 Anthropic。那是我的失誤。但即使我當時理解了,我也不認為我們那時有能力那樣做。但我不會再犯同樣的錯誤了。

亞馬遜之所以有資金和晶片來投資 Anthropic,正是因為他們首先通過 AWS 建立了一個如此強大的提款機。這就是對基礎設施進行重大投資的特點:它們需要多年時間來建設,但投資的收益會隨時間複利增長。

與此同時,得益於亞馬遜和 Google 的投資,Anthropic 不僅可以在多種晶片上運行,而且在很長一段時間內是唯一可以在所有領先雲端平台上使用的前沿模型,這對企業來說是一個重要的賣點。微軟最終 不得不放棄 Azure 對 OpenAI API 的獨家訪問權,部分原因是這種獨家性損害了他們在 OpenAI 巨額股份的前景。

你也可以主張,在計算資源有限的世界中,亞馬遜是獲取前沿模型的最佳選擇:微軟的核心業務是軟體,這意味著該公司面臨巨大的壓力要投資於自家的 AI 能力,甚至不惜降低雲端客戶的優先級。這正是 今年早些時候 微軟發生的情況,當時該公司未達 Azure 增長預期,因為他們將更多計算資源投入到了內部工作負載中。這是一個可以理解的決定:雲端需求是永恆的,但 AI 對現有軟體業務的風險是生存性的。

這也適用於 Google:該公司的核心業務也是數位化的,雖然搜尋業務抵禦了許多人預期的聊天機器人威脅,但根本挑戰仍需管理,而非消滅。與此同時,亞馬遜的核心業務深植於實體世界:銷售和運輸實體商品,以及建設數據中心。這兩者都使得亞馬遜能夠將大部分晶片投入到客戶的工作負載中。

亞馬遜的未來

如果本週標誌著亞馬遜一項長期賭注的收官,你可以從現在的公告中看到未來收官的輪廓。一個突出的例子是 Amazon Leo,該公司的衛星服務,乍看之下與 SpaceX 的 Starlink 重複,後者已具備規模優勢。

然而,請記住亞馬遜的公式,執行長 Andy Jassy 在 公司最近的財報電話會議 中明確闡述了關於 Leo 的觀點:

今天,如果你問是什麼阻礙了我們業務的增長,那就是我們必須將星座送入太空。我們今年計劃了 20 多次發射。我們在 2027 年計劃了 30 多次發射。但我認為這項業務有機會成為一個非常龐大的、價值數十億美元的營收業務。我認為它具有一些讓人聯想到 AWS 的特徵,即前期是資本密集型的,你在早期投入大量資本和現金用於資產,而這些資產你可以長期利用。因此,從中長期來看,我喜歡這項業務的自由現金流和投資回報率特徵。

極度資本密集並非 Leo 唯一像 AWS 的地方:一個關鍵因素是亞馬遜是第一個也是最好的客戶,能為該服務提供規模,這裡值得回顧一下物流。我上面提到亞馬遜配送仍有邊際成本,那是因為必須由人類來完成配送。

然而,亞馬遜早在 13 年前 首次公開討論無人機配送時,就已經指出了未來。這確實是一段漫長的艱苦過程,但越來越可以想像一個未來,配送成本只是無人機資產的折舊,而那樣的未來需要什麼?可靠且廣泛的衛星覆蓋,以便與這些無人機通信並引導它們,如何?而且,如果亞馬遜不想在晶片上依賴黃仁勳,你認為他們會想在無人機連接上依賴 Elon Musk 嗎?

當然,其他企業——如 Apple——將能夠付費使用亞馬遜的衛星基礎設施,就像他們現在可以付費使用亞馬遜的配送服務、付費使用 AWS 或付費在 Amazon.com 上銷售一樣。世界可能會發生翻天覆地的變化,但亞馬遜的方法,憑藉其對實體世界長期投資的專注,似乎一如既往地穩固。

更廣泛地說,我越來越懷疑,對 AI 的長期脆弱性——或者更積極地說,投資 AI 的長期動力——與一家公司與實體世界互動的程度,以及公司對其分銷控制的安全感程度密切相關:

  • Apple 和 Amazon 對於不擁有領先模型感到自在,只要能訪問它們即可,因為他們的業務紮根於實體。

  • 微軟在數據中心投入巨資,但並不擁有自己的模型,或許是因為他們覺得自己對企業分銷的控制將保護其核心業務(或者因為他們對 OpenAI 有太深的依賴)。

  • Google 和 Meta 的投資規模與亞馬遜相當,並且也大力投資於自家的模型。兩者都是聚合者(Aggregators),這意味著他們必須不斷贏得消費者的注意力,因為競爭對手僅一鍵之遙;擁有優秀的 AI 對他們來說是生存性的。

這最終是進行亞馬遜所擅長的那種長期賭注的另一個優勢:威脅是如此遙遠,以至於你有充足的時間進行新的投資,以解決在此期間出現的任何弱點——或者,如 AI 的情況,等待市場向你傾斜。


添加到您的播客播放器:Stratechery | Sharp Tech | Dithering | Sharp China | GOAT | Asianometry


stratechery

相關文章

  1. AI 晶片市場迎來大轉折,Meta 簽約採購數百萬顆亞馬遜 AI CPU

    Techcrunch · 12 天前

  2. 亞馬遜在 AI 相關服務中斷後召開工程會議

    Hacker News · 大約 2 個月前

  3. 獨家參訪亞馬遜 Trainium 實驗室:這款晶片已成功贏得 Anthropic、OpenAI 甚至蘋果的青睞

    Techcrunch · 大約 1 個月前

  4. AI資本支出:建立在選擇權之上,定價為確定性

    Hacker News · 4 個月前

  5. 亞馬遜執行長於年度股東信中對準輝達、英特爾、星鏈等競爭對手發起挑戰

    Techcrunch · 27 天前