
推進開源 AI 發展:NVIDIA 向 Kubernetes 社群捐贈 GPU 動態資源分配驅動程式
人工智慧已迅速成為現代運算中最關鍵的工作負載之一。為了幫助全球開發者社群以更高的透明度和效率管理高性能 AI 基礎設施,NVIDIA 正向雲原生計算基金會捐贈一項關鍵軟體:適用於 GPU 的 NVIDIA 動態資源分配驅動程式。
人工智慧已迅速崛起,成為現代運算中最關鍵的工作負載之一。
對於絕大多數企業而言,這項工作負載運行在 Kubernetes 上。Kubernetes 是一個開源平台,可自動執行容器化應用程式的部署、擴展和管理。
為了幫助全球開發者社群以更高的透明度和效率管理高效能 AI 基礎設施,NVIDIA 正將一套關鍵軟體——適用於 GPU 的 NVIDIA 動態資源分配 (DRA) 驅動程式——捐贈給雲原生運算基金會 (CNCF)。CNCF 是一個中立的供應商組織,致力於培育和維持雲原生生態系統。
這項捐贈於本週在阿姆斯特丹舉行的 CNCF 旗艦會議 KubeCon Europe 上宣布。此舉將該驅動程式從供應商治理轉變為 Kubernetes 專案下的全面社群所有。這種開放環境鼓勵更廣泛的專家圈貢獻想法、加速創新,並確保該技術與現代雲端環境保持一致。
CNCF 技術長 Chris Aniszczyk 表示:「NVIDIA 與 Kubernetes 和 CNCF 社群深度合作,將 NVIDIA GPU DRA 驅動程式推向向上游(upstream),這標誌著開源 Kubernetes 和 AI 基礎設施的一個重要里程碑。透過將其硬體創新與上游 Kubernetes 和 AI 一致性工作相結合,NVIDIA 正在使高效能 GPU 編排變得無縫且人人皆可使用。」
此外,NVIDIA 與 CNCF 的機密容器(Confidential Containers)社群合作,為 Kata Containers 引入了 GPU 支援。Kata Containers 是運作方式類似容器的輕量級虛擬機。這將硬體加速擴展到更強的隔離環境中,分離工作負載以提高安全性,並使 AI 工作負載能夠在增強的保護下運行,讓組織能輕鬆實施機密運算以保護數據。
簡化 AI 基礎設施
過去,在資料中心內管理驅動 AI 的強大 GPU 需要投入大量精力。
這項貢獻旨在讓高效能運算變得更易於取得。對開發者而言,其主要優勢包括:
- 提高效率: 該驅動程式允許更智慧地共享 GPU 資源,透過支援 NVIDIA 多程序服務 (MPS) 和 NVIDIA 多實例 GPU (MIG) 技術,實現運算能力的有效利用。
- 大規模擴展: 它提供連接系統的原生支援,包括 NVIDIA 多節點 NVlink 互連技術。這對於在 NVIDIA Grace Blackwell 系統和下一代 AI 基礎設施上訓練大規模 AI 模型至關重要。
- 靈活性: 開發者可以根據需求動態重新配置其硬體,即時更改資源分配方式。
- 精準度: 該軟體支援精細化請求,允許使用者針對其應用程式所需的特定運算能力、記憶體設定或互連排列進行請求。
全產業的協作努力
NVIDIA 正與產業領導者合作——包括 Amazon Web Services、Broadcom、Canonical、Google Cloud、Microsoft、Nutanix、Red Hat 和 SUSE——共同推動這些功能,造福整個雲原生生態系統。
Red Hat 技術長兼全球工程高級副總裁 Chris Wright 表示:「開源將是每個成功的企業 AI 策略的核心,為驅動生產級 AI 工作負載的高效能基礎設施組件帶來標準化。NVIDIA 捐贈 GPU DRA 驅動程式有助於鞏固開源在 AI 演進中的角色,我們期待與 NVIDIA 以及 Kubernetes 生態系統中更廣泛的社群合作。」
CERN 平台基礎設施負責人 Ricardo Rocha 表示:「開源軟體及其維持的社群是科學運算和研究所需基礎設施的基石。對於像 CERN 這樣需要高效分析數 PB 數據以進行科學發現的組織來說,社群驅動的創新有助於加速科學進程。NVIDIA 捐贈的 DRA 驅動程式強化了研究人員在傳統科學運算和新興機器學習工作負載中處理數據所依賴的生態系統。」
擴展開源視野
這項捐贈僅是 NVIDIA 支援開源社群廣泛倡議的一部分。例如,在上週的 GTC 大會上宣布了 NVSentinel(用於 GPU 故障修復的系統)和 AI Cluster Runtime(一個代理式 AI 框架)。
此外,NVIDIA 在 GTC 上宣布了新的開源專案,包括 NVIDIA NemoClaw 參考堆疊和用於安全運行自主代理的 NVIDIA OpenShell 運行時。OpenShell 提供細粒度的可程式化策略安全與隱私控制,並與 Linux、eBPF 和 Kubernetes 原生整合。
NVIDIA 今天還宣布,其高效能 AI 工作負載調度器 KAI Scheduler 已加入 CNCF 沙盒(Sandbox)專案——這是促進更廣泛協作並確保技術隨雲原生生態系統需求演進的關鍵一步。開發者和組織現在即可使用並為 KAI Scheduler 做出貢獻。
NVIDIA 仍致力於積極維護並貢獻於 Kubernetes 和 CNCF 專案,以幫助滿足企業 AI 客戶的嚴苛需求。
此外,繼 NVIDIA Dynamo 1.0 發布後,NVIDIA 正在擴展 Dynamo 生態系統,推出了 Grove,這是一個開源的 Kubernetes 應用程式介面,用於在 GPU 集群上編排 AI 工作負載。Grove 允許開發者在單個聲明式資源中表達複雜的推論系統,目前正與 llm-d 推論堆疊整合,以便在 Kubernetes 社群中得到更廣泛的採用。
開發者和組織現在可以開始使用並為 NVIDIA DRA 驅動程式 做出貢獻。
歡迎蒞臨 KubeCon 的 NVIDIA 展位,觀看這項技術的現場演示。