NVIDIA 與 Google Cloud 合作推動代理型與物理人工智慧發展

Nvidia Blog·大約 4 小時前

NVIDIA 與 Google Cloud 已合作超過十年，共同工程設計了跨越每個技術層級的全疊代 AI 平台。這項基礎使開發者、新創公司和企業能夠將代理型與物理 AI 從實驗室推向生產階段，涵蓋從管理複雜工作流的代理到工廠車間的機器人與數位孿生。

NVIDIA 與 Google Cloud 已合作超過十年，共同設計了涵蓋每個技術層級的全棧 AI 平台——從效能優化的函式庫和框架到企業級雲端服務。

這一基礎使開發者、新創公司和企業能夠將代理式（agentic）和物理 AI 從實驗室推向生產階段——從管理複雜工作流的代理到工廠地面上的機器人和數位孿生。

在本週於拉斯維加斯舉行的 Google Cloud Next 大會上，雙方的合作夥伴關係達到了新的里程碑，透過擴展用於 AI 工廠的 Google Cloud AI Hypercomputer 進展，將為代理式和物理 AI 的下一個前沿領域提供動力。

這些進展包括：搭載全新 NVIDIA Vera Rubin 的 A5X 裸機執行個體；在運行於 NVIDIA Blackwell 和 NVIDIA Blackwell Ultra GPU 的 Google Distributed Cloud 上預覽 Google Gemini；配備 NVIDIA Blackwell GPU 的機密虛擬機器（Confidential VMs）；以及在 Gemini Enterprise Agent 平台上使用 NVIDIA Nemotron 開放模型和 NVIDIA NeMo 框架的代理式 AI。

下一代基礎設施：從 NVIDIA Blackwell 到 Vera Rubin

在 Google Cloud Next 上，Google 宣布了由 NVIDIA Vera Rubin NVL72 機架級系統驅動的 A5X，透過晶片、系統和軟體的極致共同設計，其每個代幣（token）的推論成本比上一代降低高達 10 倍，每百萬瓦的代幣吞吐量則提高 10 倍。

A5X 將使用 NVIDIA ConnectX-9 SuperNICs，並結合下一代 Google Virgo 網路，在單一站點叢集中可擴展至多達 80,000 個 NVIDIA Rubin GPU，在多站點叢集中則可達 960,000 個 NVIDIA Rubin GPU，使客戶能夠在 NVIDIA 優化的基礎設施上運行其最大規模的 AI 工作負載。

Google Cloud AI 與運算基礎設施副總裁兼總經理 Mark Lohmeyer 表示：「在 Google Cloud，我們相信 AI 的下一個十年將由客戶在真正整合、AI 優化的基礎設施堆疊上運行最苛刻工作負載的能力所塑造。透過將 Google Cloud 的可擴展基礎設施和託管 AI 服務與 NVIDIA 業界領先的平台、系統和軟體相結合，我們為客戶提供了靈活性，使其能夠訓練、微調和提供從前沿模型、開放模型到代理式和物理 AI 工作負載的一切，同時優化效能、成本和永續性。」

Google Cloud 廣泛的 NVIDIA Blackwell 產品組合涵蓋了從配備 NVIDIA HGX B200 系統的 A4 VM，到配備 NVIDIA GB200 NVL72 的機架級 A4X VM 和 A4X Max NVIDIA GB300 NVL72 系統，甚至包括配備 NVIDIA RTX PRO 6000 Blackwell 伺服器版 GPU 的部分（fractional）G4 VM。

客戶可以精確調整其加速能力，無論是使用多個互連的 NVL72 機架（可擴展至數萬個 NVIDIA Blackwell GPU）、單一機架（透過第五代 NVIDIA NVLink 和 NVLink 5 Switch 可擴展至 72 個 Blackwell GPU），或僅使用八分之一個 GPU。

這個全面的平台協助團隊優化每一項工作負載，從混合專家（MoE）推理、多模態推論和數據處理，到針對物理 AI 和機器人下一個前沿領域的複雜模擬。

領先的前沿 AI 實驗室已經開始投入使用這些基礎設施。Thinking Machines Lab 正在配備 GB300 NVL72 系統的 A4X Max VM 上擴展其 Tinker 應用程式介面 (API) 以加速訓練；而 OpenAI 則在 Google Cloud 上使用 NVIDIA GB300 (A4X Max VM) 和 GB200 NVL72 系統 (A4X VM) 運行大規模推論，以處理包括 ChatGPT 在內的一些最苛刻的推論工作負載。

隨處運行的安全 AI：主權與機密

運行於 NVIDIA Blackwell 和 Blackwell Ultra GPU 的 Google Gemini 模型現已在 Google Distributed Cloud 上提供預覽，因此客戶可以將 Google 的前沿模型部署在最敏感數據所在地。

NVIDIA 機密運算結合 NVIDIA Blackwell 平台，使 Gemini 模型能在受保護的環境中運行，提示詞（prompts）和微調數據保持加密狀態，且無法被未經授權的各方（包括基礎設施營運商）查看或更改。

在公有雲中，配備 NVIDIA RTX PRO 6000 Blackwell GPU 的機密 G4 VM 預覽版將這些保護帶到了多租戶環境中——有助於保護提示詞、AI 模型和數據，使受監管行業的客戶能夠在不犧牲安全性或效能的情況下獲取 AI 的力量。

這是雲端首個提供 NVIDIA Blackwell GPU 的機密運算產品，為 Google Cloud 客戶提供了安全、高效能 AI 的新基礎。

用於代理式 AI 的開放模型與 API

Google Cloud 上的 NVIDIA 平台經過優化，可運行各類模型——從 Google 的前沿 Gemini 和 Gemma 系列到 NVIDIA Nemotron 開放模型以及更廣泛的開放權重生態系統——裝備開發者構建具備推理、規劃和行動能力的代理式 AI 系統。

NVIDIA Nemotron 3 Super 已在 Gemini Enterprise Agent 平台上線，為開發者提供了一條直接路徑，用於發現、自定義和部署針對代理式工作流優化的 NVIDIA 推理和多模態模型。

Google Cloud 和 NVIDIA 還簡化了大規模訓練和自定義開放模型的流程。Gemini Enterprise Agent 平台上的託管訓練叢集（Managed Training Clusters）推出了一種全新的託管強化學習 (RL) API，該 API 基於 NVIDIA NeMo RL 構建，旨在加速大規模 RL 訓練，同時自動化叢集規模調整、故障恢復和作業執行，讓團隊能專注於代理行為和模型品質，而非基礎設施管理。

網路安全領導者 CrowdStrike 使用 NVIDIA NeMo 開放函式庫（如 NeMo Data Designer、NeMo Automodel 和 NeMo Megatron Bridge）來生成合成數據，並針對特定領域的網路安全微調 Nemotron 和其他開放大語言模型。這些功能運行在配備 NVIDIA Blackwell GPU 的 Gemini Enterprise Agent 平台託管訓練叢集上，加速了威脅檢測、調查和回應。

構建工業與物理 AI 的未來

大規模構建工業和物理 AI 需要強大的硬體，以及開放模型、函式庫和框架的結合，以開發這些複雜的端到端工作流。

在 Google Cloud 上提供的 NVIDIA AI 基礎設施、開放模型和物理 AI 函式庫，正使工業和物理 AI 應用走向主流，讓客戶能夠模擬、優化和自動化現實世界的工作流。

來自領先工業軟體供應商（包括 Cadence 和 Siemens Digital Industries Software）的解決方案現已在 Google Cloud 上提供，並由 NVIDIA AI 基礎設施加速。這些應用程式正為從晶片到自動駕駛車輛、機器人、航空航天平台、重型機械和大型生產系統的下一代設計、工程和製造提供動力。

藉由 NVIDIA Omniverse 函式庫和開源 NVIDIA Isaac Sim 機器人模擬框架（可在 Google Cloud Marketplace 取得），開發者可以構建物理精確的數位孿生，並開發自定義機器人模擬流水線，在實際部署前對機器人進行訓練、模擬和驗證。

針對 NVIDIA Cosmos Reason 2 等模型的 NVIDIA NIM 微服務可部署至 Google Vertex AI 和 Google Kubernetes Engine。這使機器人和視覺 AI 代理能夠像人類一樣在物理世界中觀察、推理和行動，支援自動化數據策劃與標註、高級機器人規劃與推理，以及用於即時洞察和決策的智慧影片分析代理等案例。

這些技術共同協助開發者從電腦輔助設計無縫過渡到活生生的工業數位孿生和 AI 驅動的機器人，在運行於 Google Cloud 的 NVIDIA 平台上加速從設計定案到工廠優化的流程。

實證影響力：從新創公司到全球企業

全球企業、AI 實驗室和高成長新創公司正利用 NVIDIA 與 Google Cloud 共同設計的平台，更快速地從原型轉向生產，其中包括 Snap、Schrödinger 和 Salesforce。Snap 透過將數據流水線遷移到 Google Cloud 上由 GPU 加速的 Spark，降低了大規模 A/B 測試的成本。Schrödinger 則利用 Google Cloud 上的 NVIDIA 加速運算，將長達數週的藥物研發模擬縮短至僅需數小時。

新創公司正策劃下一波 AI 創新——利用 Google Cloud 上的 NVIDIA 加速運算構建新的代理和 AI 原生應用。

作為透過 NVIDIA Inception 和 Google for Startups 凸顯的廣泛生態系統的一部分，CodeRabbit 和 Factory 正在 Google Cloud 上使用基於 NVIDIA Nemotron 的模型來驅動代碼審查和自主軟體開發代理；而 Aible、Mantis AI、Photoroom 和 Baseten 則在 Google Cloud 的全棧 NVIDIA 平台上構建企業數據、影片智慧、生成式圖像和託管推論解決方案。

在短短一年多的時間裡，已有超過 90,000 名開發者加入 NVIDIA 與 Google Cloud 的聯合開發者社群，利用此平台構建和擴展新的 AI 應用。

此外，NVIDIA 在 Next 大會上榮獲 Google Cloud 年度合作夥伴獎中的兩個類別——AI 全球技術合作夥伴和基礎設施現代化運算——以表彰其深厚的技術專長和市場推廣的一致性。

NVIDIA 與 Google Cloud 攜手為客戶提供了一個雲端規模的平台，將實驗性的代理和模擬轉化為生產系統，在現實世界中審查代碼、保護車隊、實現新的 AI 應用並優化工廠。

欲了解更多關於兩家公司合作的資訊，請參加 Google Cloud Next 的 NVIDIA 議程、演示和工作坊。

— Nvidia Blog