newsence
在 Jetson 平台上部署開源視覺語言模型 (VLM)

在 Jetson 平台上部署開源視覺語言模型 (VLM)

Huggingface·大約 1 個月前

本教學示範如何使用 vLLM 框架在 Jetson 系列產品上部署 NVIDIA Cosmos Reasoning 2B 模型,並引導你將此模型連接至 Live VLM WebUI,實現用於互動式物理人工智慧的即時攝影機介面。

Image

在 Jetson 上部署開源視覺語言模型 (VLM)

Image

Image

Image

Image

Image

Image

推理準確性與效率的快速演進,使得這些模型成為邊緣裝置的理想選擇。NVIDIA Jetson 系列,從高效能的 AGX Thor 和 AGX Orin 到精巧的 Orin Nano Super,皆專為驅動物理 AI 與機器人技術的加速應用而打造,為領先的開源模型提供所需的優化運行環境。

在本教學中,我們將示範如何使用 vLLM 框架在 Jetson 全系列產品上部署 NVIDIA Cosmos Reasoning 2B 模型。我們還將引導您將此模型連接到 Live VLM WebUI,實現基於網路攝影機的即時交互式物理 AI 介面。

先決條件

支援的裝置:

JetPack 版本:

儲存空間:需要 NVMe SSD

帳號:

概覽

兩類裝置的工作流程相同:

步驟 1:安裝 NGC CLI

NGC CLI 讓您可以從 NVIDIA NGC 目錄下載模型權重(checkpoints)。

下載與安裝

設定 CLI

系統會提示您輸入:

步驟 2:下載模型

下載 FP8 量化權重。這適用於所有 Jetson 裝置:

這將建立一個名為 cosmos-reason2-2b_v1208-fp8-static-kv8/ 的目錄,其中包含模型權重。請記住完整路徑 — 您需要將其作為磁碟卷(volume)掛載到 Docker 容器中。

步驟 3:拉取 vLLM Docker 鏡像

針對 Jetson AGX Thor

針對 Jetson AGX Orin / Orin Super Nano

步驟 4:使用 vLLM 運行 Cosmos Reasoning 2B 服務

選項 A:Jetson AGX Thor

Thor 擁有充足的 GPU 記憶體,可以以寬裕的上下文長度運行模型。

設定下載模型的路徑並釋放主機上的快取記憶體:

啟動掛載了模型的容器:

在容器內,激活環境並啟動模型服務:

注意:--reasoning-parser qwen3 標記啟用了思維鏈(chain-of-thought)推理提取。--media-io-kwargs 標記用於配置視訊幀處理。

等待直到看到:

選項 B:Jetson AGX Orin

AGX Orin 有足夠的記憶體,可以使用與 Thor 相同的寬裕參數運行模型。

設定下載模型的路徑並釋放主機上的快取記憶體:

  1. 啟動容器:

  2. 在容器內,激活環境並啟動服務:

等待直到看到:

選項 C:Jetson Orin Super Nano(記憶體受限)

Orin Super Nano 的 RAM 顯著較少,因此我們需要激進的記憶體優化標記。

設定下載模型的路徑並釋放主機上的快取記憶體:

  1. 啟動容器:

  2. 在容器內,激活環境並啟動服務:

關鍵標記說明(僅限 Orin Super Nano):

等待直到看到伺服器就緒:

驗證伺服器是否正在運行

在 Jetson 的另一個終端機執行:

您應該會在回應中看到列出的模型。

步驟 5:使用快速 API 調用進行測試

在連接 WebUI 之前,驗證模型是否正確回應:

提示:API 請求中使用的模型名稱必須與 vLLM 報告的名稱匹配。可透過 curl http://localhost:8000/v1/models 進行驗證。

步驟 6:連接到 Live VLM WebUI

Live VLM WebUI 提供了一個即時的網路攝影機到 VLM 的介面。透過 vLLM 提供的 Cosmos Reasoning 2B 服務,您可以串流網路攝影機畫面並獲得帶有推理過程的即時 AI 分析。

安裝 Live VLM WebUI

最簡單的方法是使用 pip(開啟另一個終端機):

或使用 Docker:

設定 WebUI

WebUI 現在會將您的網路攝影機幀串流至 Cosmos Reasoning 2B,並即時顯示模型的分析結果。

針對 Orin 的推薦 WebUI 設定

由於 Orin 以較短的上下文長度運行,請在 WebUI 中調整以下設定:

疑難排解

Orin 上的記憶體不足 (OOM)

問題:vLLM 因 CUDA 記憶體不足錯誤而崩潰。

解決方案:

啟動前釋放系統記憶體:

降低 --gpu-memory-utilization(嘗試 0.55 或 0.50)

進一步減少 --max-model-len(嘗試 128)

確保沒有其他佔用 GPU 的進程正在運行

WebUI 中找不到模型

問題:模型未出現在 Live VLM WebUI 的下拉選單中。

解決方案:

Orin 上的推理速度慢

問題:每次回應都需要很長時間。

解決方案:

vLLM 無法載入模型

問題:vLLM 報告模型路徑不存在或無法載入。

解決方案:

總結

在本教學中,我們展示了如何使用 vLLM 在 Jetson 系列裝置上部署 NVIDIA Cosmos Reasoning 2B 模型。

Cosmos Reasoning 2B 的思維鏈能力與 Live VLM WebUI 的即時串流相結合,使其成為在邊緣端原型設計和評估視覺 AI 應用的理想選擇。

額外資源

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/nvidia/cosmos-on-jetson