
打造全球最強大 AI 工廠的競賽,需要能與 AI 雄心並駕齊驅的網路技術。NVIDIA Spectrum-X 乙太網路擴展基礎設施作為當今最先進的 AI 網路技術站在競賽前沿,並透過引入 MRC 協定,為大規模 AI 訓練架構提升吞吐量、負載平衡與可用性。
打造全球最強大 AI 工廠的競賽,需要能與 AI 本身雄心壯志並駕齊驅的網路技術。
NVIDIA Spectrum-X Ethernet 向外擴展(scale-out)基礎設施站在這場競賽的最前沿,作為當今最先進的 AI 網路技術,已被那些在效能、韌性或規模上不願妥協的業界領導者所採用。
這包括 OpenAI、微軟(Microsoft)和甲骨文(Oracle)。
包括 NVIDIA、Microsoft 和 OpenAI 在內的公司,透過推出多路徑可靠連接(Multipath Reliable Connection, MRC)這一 RDMA 傳輸協定,展現了行業領導地位。MRC 允許單個 RDMA 連接將流量分配到多條網路路徑上,從而提高大規模 AI 訓練架構的吞吐量、負載平衡和可用性。
這可以想像成將橫跨城鎮的單線車道,替換為佈局巧妙的街道網格系統,並搭配即時交通應用程式,讓駕駛員能夠繞過擁堵和封閉路段。
OpenAI 工業運算負責人 Sachin Katti 表示:「在 Blackwell 世代部署 MRC 非常成功,這得益於與 NVIDIA 的強大合作。MRC 的端到端方法使我們能夠避免許多典型的網路相關減速和中斷,並在大規模環境下維持前沿訓練運行的效率。」
此外,微軟與 NVIDIA 長期合作,致力於推進下一代 AI 所需的基礎設施。微軟的 Fairwater 和甲骨文雲端基礎設施(OCI)的 Abilene 資料中心,是兩座專為訓練和部署領先的前沿大型語言模型(LLM)而打造的全球最大 AI 工廠,它們皆依賴 MRC 來滿足效能、規模和效率的要求。NVIDIA Spectrum-X Ethernet 非常適合這種環境,有助於提供運行大規模 AI 模型和應用程式所需的網路基礎。
MRC 首先在生產環境中獲得驗證,並在 NVIDIA Spectrum-X Ethernet 硬體上進行了效能優化,現在已透過 Open Compute Project 作為開放規範發佈。這展示了 Spectrum-X Ethernet 平台的實力:專用硬體、深度遙測和智慧架構控制協同工作,將一種新協定(一套控制數據在網路中兩個系統間移動的規則)從概念轉化為十億瓦級(gigascale)的 AI 生產力。
MRC 透過在所有可用路徑上平衡流量負載,實現了極高的 GPU 利用率,使每個 GPU 在整個訓練過程中都能獲得所需的頻寬。即使在擁塞情況下,它也能透過即時動態避開過載路徑來維持高頻寬。
當發生數據丟失時,智慧重傳功能可實現快速、精確的復原,將短期中斷對長期運行任務的影響降至最低,有助於避免 GPU 空轉。
管理員還能獲得對流量路徑的細粒度可視化和控制,從而簡化操作並加速大規模環境下的故障排除。
部署在 Spectrum-X Ethernet 上的 MRC,是專為大規模韌性而設計與優化的。其故障繞過(failure bypass)技術可以在短短幾微秒內偵測到網路路徑故障,並在硬體層級自動重新路由流量。
這種故障繞過技術對於 AI 訓練集群至關重要,因為數千個 GPU 必須保持同步,即使是短暫的網路中斷也可能減慢或中斷整個訓練任務。Spectrum-X Ethernet 透過硬體速度的響應來防止這種情況,確保流量在十億瓦級 AI 架構的精確路徑上持續流動。
實現十億瓦級 AI 工廠的另一個關鍵創新是多平面(multiplanar)網路設計,OpenAI 將其與 Spectrum-X Ethernet 及 MRC 結合部署。多平面網路由多個獨立的網路架構(或稱平面)組成,每個平面都為 GPU 之間提供備選的通訊路徑。
NVIDIA Spectrum-X 的多平面功能透過支援跨平面的硬體加速負載平衡,增強了這種網路架構,在不犧牲效能的情況下提升了韌性和規模。這使得延遲在擴展至數十萬個 GPU 時仍能保持可預測的低水平。
透過 Spectrum-X Ethernet,客戶可以選擇不同的 RDMA 傳輸模型。Spectrum-X Ethernet 自適應 RDMA(Adaptive RDMA)和 MRC 協定,以及其他自定義協定,都能在 NVIDIA ConnectX SuperNIC 和 Spectrum-X Ethernet 交換器上原生運行,並支援十億瓦級的多平面網路設計。
透過這種方式,驅動當今最大 AI 集群的 Spectrum-X Ethernet 硬體和軟體基礎設施,賦予了客戶為其工作負載選擇合適傳輸方式的靈活性。
MRC 傳輸協定是業界將 Spectrum-X Ethernet 作為靈活、可組合平台,並整合至現代 AI 基礎設施全範疇的最新範例。
隨著 AI 工廠持續擴大規模,網路必須不僅僅是快速移動數據。它必須是智慧的、具備韌性的,並且基於開放標準。NVIDIA Spectrum-X Ethernet 同時滿足了這三點,並透過 MRC 繼續為先進 AI 網路樹立標準。
NVIDIA 與 AMD、Broadcom、Intel、Microsoft 和 OpenAI 合作開發了 MRC。
欲了解更多關於 NVIDIA Spectrum-X Ethernet 的資訊,請參閱 網頁、規格表 和 技術白皮書。
請參閱關於軟體產品資訊的 聲明。
相關文章
其他收藏 · 0