newsence
獨家參訪亞馬遜 Trainium 實驗室:這款晶片已成功贏得 Anthropic、OpenAI 甚至蘋果的青睞

獨家參訪亞馬遜 Trainium 實驗室:這款晶片已成功贏得 Anthropic、OpenAI 甚至蘋果的青睞

Techcrunch·14 天前

在亞馬遜宣布對 OpenAI 進行 500 億美元的投資後不久,AWS 邀請我對這筆交易核心的晶片開發實驗室進行私人參訪,費用主要由亞馬遜負擔。

在亞馬遜執行長 Andy Jassy 宣布 AWS 與 OpenAI 達成突破性的 500 億美元投資協議後不久,亞馬遜邀請我對該協議核心的晶片開發實驗室進行私人參訪,費用(大部分*)由該公司承擔。

業界專家正密切關注在該設施中開發的亞馬遜 Trainium 晶片,因其對降低 AI 推論成本的影響,以及潛在可能對輝達(Nvidia)近乎壟斷地位造成的衝擊。

帶著好奇心,我答應了這次行程。

當天我的導覽員是實驗室總監 Kristopher King(下圖右)和工程總監 Mark Carroll(下圖左),以及安排此次訪問的團隊公關 Doron Aronson(稍後將在文中與本人合影)。

ASW 晶片實驗室負責人 Mark Carroll, Kristopher King

自這家 AI 實驗室成立初期以來,AWS 一直是 Anthropic 的主要雲端平台——這段關係深厚到足以在 Anthropic 後來增加微軟作為雲端合作夥伴,以及亞馬遜與 OpenAI 日益增長的合作關係中倖存下來。

與 OpenAI 的交易使 AWS 成為該模型製造商新型 AI 代理建構工具 Frontier 的獨家供應商。如果 AI 代理(agents)真如矽谷預期的那樣發展壯大,這可能會成為 OpenAI 業務的重要組成部分。我們將觀察這種獨家性是否會如宣布的那樣維持下去。《金融時報》本週報導稱,微軟可能認為 OpenAI 與亞馬遜的交易違反了其與 OpenAI 的協議,即雷德蒙德(微軟總部)應能獲取 OpenAI 的所有模型和技術。

是什麼讓 AWS 對 OpenAI 如此具有吸引力?作為這筆交易的一部分,這家雲端巨頭已同意向 OpenAI 提供 2 十億瓦(gigawatts)的 Trainium 運算能力。這是一個巨大的承諾,因為 Anthropic 和亞馬遜自家的 Bedrock 服務消耗 Trainium 晶片的速度已經超過了亞馬遜的生產速度。

該公司表示,目前在三代產品中已部署了 140 萬顆 Trainium 晶片,而 Anthropic 的 Claude 則運行在超過 100 萬顆已部署的 Trainium2 晶片上。

值得注意的是,雖然 Trainium 最初是為了更快、更便宜的模型訓練而設計(這是幾年前的首要任務),但現在它也經過調整並用於推論(inference)。推論——即實際運行 AI 模型以生成回應的過程——是目前行業中最大的性能瓶頸。

一個典型的例子是:Trainium2 處理了亞馬遜 Bedrock 服務上的大部分推論流量,該服務支持亞馬遜眾多企業客戶構建 AI 應用程序,並允許應用程序使用多個模型。

「我們的客戶群擴張速度與我們釋出產能的速度一樣快,」King 說。「Bedrock 有朝一日可能會像 EC2 一樣龐大,」他補充道,指的是 AWS 龐大的運算雲端服務。

亞馬遜的 Trainium3 晶片

Trainium vs. 輝達

除了提供輝達積壓嚴重、難以獲取的 GPU 之外的替代方案,亞馬遜表示,在其新型專用 Trn3 UltraServer 上運行的晶片,在同等性能下的運行成本比使用傳統雲端伺服器低多達 50%。

除了 12 月發布的 Trainium3,這支 AWS 團隊還構建了新型 Neuron 交換機,Carroll 表示這種組合具有變革性。

「這給了我們巨大的優勢,」Carroll 說。這些交換機允許每顆 Trainium3 晶片在網狀配置中與其他每顆晶片通信,從而降低延遲。「這就是為什麼 Trainium3 正在打破各種記錄的原因,」特別是在「效能功耗比」方面,他說。

當涉及每天數兆個 token 時,這些改進積少成多。

事實上,亞馬遜的晶片團隊在 2024 年受到了蘋果公司的讚賞。在這家神秘公司罕見的公開時刻,蘋果的 AI 總監公開描述了它如何使用該團隊的另一款晶片——Graviton,這是一款低功耗、基於 ARM 架構的伺服器 CPU,也是該團隊設計的第一款突破性晶片。蘋果還讚揚了 Inferentia——一款專為推論設計的晶片——並對當時剛推出的 Trainium 表示認可。

這些晶片代表了亞馬遜的經典策略:觀察人們想買什麼,然後建立一個在價格上有競爭力的內部替代方案。

歷史上,晶片的難點在於轉換成本。為輝達晶片編寫的應用程序必須重新架構才能與其他晶片配合使用——這是一個耗時的過程,會阻礙開發者進行切換。

但 AWS 晶片團隊自豪地告訴我,Trainium 現在支持 PyTorch,這是一個用於構建 AI 模型的流行開源框架。這包括託管在 Hugging Face(一個開發者分享開源模型的巨大庫)上的許多模型。

Carroll 告訴我,這種轉換「基本上只需要更改一行代碼,然後重新編譯,就可以在 Trainium 上運行。」換句話說,亞馬遜正試圖在任何可能的地方削弱輝達的市場主導地位。

AWS 本月還宣布與 Cerebras Systems 建立合作夥伴關係,將該公司的推論晶片集成到運行 Trainium 的伺服器上,亞馬遜承諾這將帶來超強大、低延遲的 AI 性能。

但亞馬遜的雄心不僅限於晶片本身。它還設計託管晶片的伺服器。除了網絡組件,該團隊還設計了「Nitro」,這是一種提供虛擬化技術(允許許多軟體實例在同一台伺服器上獨立運行)的硬體-軟體組合;新型尖端的液冷技術;以及託管這些設備的伺服器滑板(sleds,如下圖所示)。

所有這一切都是為了控制成本和性能。

AWS 奧斯汀晶片實驗室參訪,帶有組件的滑板

24/7 全天候進行「啟動測試」

亞馬遜的客製化晶片設計單位誕生於 2015 年 1 月,當時這家雲端巨頭以約 3.5 億美元收購了以色列晶片設計商 Annapurna Labs。因此,這支團隊現在已有超過 10 年為 AWS 設計晶片的經驗。該單位保留了 Annapurna 的根源和名稱——其標誌在辦公室隨處可見。

這間晶片實驗室位於奧斯汀高檔的「The Domain」區一棟擁有閃亮鉻窗的大樓裡,這是一個充滿商店和餐廳的步行區,有時被稱為奧斯汀的矽谷。

辦公室具有經典的科技公司氛圍:隔間辦公桌、聚集點和會議室。但在大樓高層後方隱藏著真正的實驗室,擁有俯瞰城市的壯麗景色。

實驗室裡擺滿了架子,大小約為兩間大型會議室,由於設備上的風扇,這是一個吵雜的工業空間。它看起來像是高中工藝課教室和好萊塢高端實驗室場景的結合體,只是工程師們穿著牛仔褲,而不是白實驗袍。

ASW 晶片實驗室

ASW 奧斯汀晶片實驗室

請注意,這裡不是製造晶片的地方,因此不需要穿白色防護服。Trainium3 是一款尖端的 3 奈米晶片,由台積電(TSMC)生產,台積電無疑是 3 奈米製造領域的領導者,其他晶片則由 Marvell 生產。

但這個房間是「啟動測試」(bring-up)奇蹟發生的地方。

「矽片啟動測試是你第一次拿到晶片的時候,就像一場盛大的通宵派對。你會待在這裡,就像被鎖在裡面一樣,」King 解釋道。經過 18 個月的工作,晶片第一次被激活,以驗證其是否按設計運行。該團隊甚至拍攝了一些 Trainium3 啟動測試的過程並上傳到了 YouTube。

劇透警告:過程從來不會是一帆風順的。

對於 Trainium3,原型晶片最初像以前的版本一樣採用風冷。現在的晶片則是液冷的,這提供了能源優勢,也是一項相當大的工程成就。

在啟動測試期間,晶片連接到風冷散熱器的尺寸出現了偏差,導致晶片無法激活。

團隊並沒有因此退縮,他們「立即拿來研磨機,開始磨掉金屬,」King 說。因為他們不想讓噪音破壞啟動測試派對的氣氛,他們偷偷溜走,在會議室裡進行研磨。

熬夜解決問題「就是矽片啟動測試的全部意義,」King 說。

實驗室甚至還有一個焊接站,硬體實驗室工程師兼焊接大師 Isaac Guevara 演示了如何通過顯微鏡焊接微小的集成電路組件。這是一項極其困難的工作,以至於資深領導者 Carroll 公開承認他做不到,引來 Guevara 和房間裡其他工程師的哄堂大笑。

ASW 晶片參訪焊接站

實驗室還包含用於測試和分析晶片問題的客製化及商業工具。這是信號工程師 Arvind Srinivasan 正在演示實驗室如何測試晶片上的每個微小組件:

AWS 奧斯汀晶片實驗室參訪,測試設備

滑板是實驗室的主角

但實驗室的主角是整排展示每一代團隊設計的「滑板」(sleds)。

AWS 奧斯汀晶片實驗室參訪滑板牆

滑板是裝載 Trainium AI 晶片、Graviton CPU 晶片以及支持電路板和組件的托盤。將它們與同樣由該團隊客製化設計的網絡組件一起堆疊在機架上,你就得到了 Anthropic Claude 成功的核心系統。

這是 12 月 AWS re:invent 大會上展示的滑板:

AWS 奧斯汀晶片實驗室參訪,Trainium3 滑板

經 Anthropic 和 OpenAI 驗證

我原以為我的導覽員會在參訪期間大肆宣揚與 OpenAI 的交易。但他們沒有。

這種謹慎可能與前述可能籠罩在交易上的法律陰影有關。但我得到的感覺是,這些第一線工程師(目前正在設計下一個版本 Trainium4)還沒有太多機會與 OpenAI 合作。到目前為止,他們的日常工作一直專注於 Anthropic 和亞馬遜的需求。

目前,最大份額的 Trainium2 晶片部署在 Project Rainier 中——這是全球最大的 AI 運算集群之一,於 2025 年底投入運行,擁有 50 萬顆晶片。它由 Anthropic 使用。

但在主辦公室的一台牆面顯示器上,顯示著一段關於 OpenAI 將如何使用 Trainium 的引言。那種自豪感是存在的,儘管很含蓄。

除了這個實驗室,該團隊還擁有自己的私人數據中心用於品質和測試目的。開車一小段路即可到達,它不運行客戶的工作負載,因此設在一個託管設施中,而不是 AWS 數據中心。

安保非常嚴密:進入大樓以及進入亞馬遜內部的區域都有嚴格的協議。

數據中心的冷卻系統聲音大到必須戴耳塞,空氣中瀰漫著濃烈的金屬加熱後的辛辣味。對於普通人來說,這不是一個令人愉快的地方。

AWS 奧斯汀晶片實驗室參訪數據中心

在這個數據中心,有一排又一排的伺服器,裡面裝滿了整合了亞馬遜所有最新客製化晶片的滑板:Graviton CPU、液冷 Trainium3、Amazon Nitro,都在愉快地運算著。工程師們說,液體在封閉系統中運行,這意味著它是循環使用的,這也有助於減少對環境的影響。

這就是目前的 Trn3 UltraServer 的樣子:多個滑板位於頂部和底部,Neuron 交換機位於中間。圖中可以看到硬體開發工程師 David Martinez-Darrow 正在對滑板進行維護:

AWS 奧斯汀晶片實驗室參訪數據中心

雖然對該團隊的關注度一直很高,但最近這種審視確實大幅增加了。

亞馬遜執行長 Andy Jassy 密切關注著這個實驗室,像一位自豪的父親一樣公開誇耀其產品。12 月,他表示 Trainium 已經是 AWS 的數十億美元業務,並稱其為他最感興奮的 AWS 技術之一。他在宣布與 OpenAI 的協議時也特別提到了這款晶片。

團隊也感受到了壓力。工程師們會在每次啟動測試活動前後的三到四週內 24/7 全天候工作,以修復任何問題,以便晶片可以量產並投入數據中心。

「盡快證明它確實能正常工作是非常重要的,」Carroll 說。「到目前為止,我們做得非常好。」

*披露:亞馬遜提供了機票並支付了一晚當地酒店的費用。為了踐行其「勤儉節約」的領導力準則,這是一個飛機後排的中間座位和一間普通的房間。TechCrunch 承擔了其他相關旅行費用,如 Uber 和行李費。(是的,我為了一次過夜旅行託運了行李。我就是這麼難伺候。)

https://techcrunch.com/2026/03/22/an-exclusive-tour-of-amazons-trainium-lab-the-chip-thats-won-over-anthropic-openai-even-apple/