在 Jetson 平台上部署開源視覺語言模型 (VLM)

Huggingface·大約 1 個月前

本教學示範如何使用 vLLM 框架在 Jetson 系列產品上部署 NVIDIA Cosmos Reasoning 2B 模型，並引導你將此模型連接至 Live VLM WebUI，實現用於互動式物理人工智慧的即時攝影機介面。

在 Jetson 上部署開源視覺語言模型 (VLM)

推理準確性與效率的快速演進，使得這些模型成為邊緣裝置的理想選擇。NVIDIA Jetson 系列，從高效能的 AGX Thor 和 AGX Orin 到精巧的 Orin Nano Super，皆專為驅動物理 AI 與機器人技術的加速應用而打造，為領先的開源模型提供所需的優化運行環境。

在本教學中，我們將示範如何使用 vLLM 框架在 Jetson 全系列產品上部署 NVIDIA Cosmos Reasoning 2B 模型。我們還將引導您將此模型連接到 Live VLM WebUI，實現基於網路攝影機的即時交互式物理 AI 介面。

先決條件

支援的裝置：

JetPack 版本：

儲存空間：需要 NVMe SSD

帳號：

概覽

兩類裝置的工作流程相同：

步驟 1：安裝 NGC CLI

NGC CLI 讓您可以從 NVIDIA NGC 目錄下載模型權重（checkpoints）。

下載與安裝

設定 CLI

系統會提示您輸入：

步驟 2：下載模型

下載 FP8 量化權重。這適用於所有 Jetson 裝置：

這將建立一個名為 cosmos-reason2-2b_v1208-fp8-static-kv8/ 的目錄，其中包含模型權重。請記住完整路徑 — 您需要將其作為磁碟卷（volume）掛載到 Docker 容器中。

步驟 3：拉取 vLLM Docker 鏡像

針對 Jetson AGX Thor

針對 Jetson AGX Orin / Orin Super Nano

步驟 4：使用 vLLM 運行 Cosmos Reasoning 2B 服務

選項 A：Jetson AGX Thor

Thor 擁有充足的 GPU 記憶體，可以以寬裕的上下文長度運行模型。

設定下載模型的路徑並釋放主機上的快取記憶體：

啟動掛載了模型的容器：

在容器內，激活環境並啟動模型服務：

注意：--reasoning-parser qwen3 標記啟用了思維鏈（chain-of-thought）推理提取。--media-io-kwargs 標記用於配置視訊幀處理。

等待直到看到：

選項 B：Jetson AGX Orin

AGX Orin 有足夠的記憶體，可以使用與 Thor 相同的寬裕參數運行模型。

設定下載模型的路徑並釋放主機上的快取記憶體：

啟動容器：
在容器內，激活環境並啟動服務：

等待直到看到：

選項 C：Jetson Orin Super Nano（記憶體受限）

Orin Super Nano 的 RAM 顯著較少，因此我們需要激進的記憶體優化標記。

設定下載模型的路徑並釋放主機上的快取記憶體：

啟動容器：
在容器內，激活環境並啟動服務：

關鍵標記說明（僅限 Orin Super Nano）：

等待直到看到伺服器就緒：

驗證伺服器是否正在運行

在 Jetson 的另一個終端機執行：

您應該會在回應中看到列出的模型。

步驟 5：使用快速 API 調用進行測試

在連接 WebUI 之前，驗證模型是否正確回應：

提示：API 請求中使用的模型名稱必須與 vLLM 報告的名稱匹配。可透過 curl http://localhost:8000/v1/models 進行驗證。

步驟 6：連接到 Live VLM WebUI

Live VLM WebUI 提供了一個即時的網路攝影機到 VLM 的介面。透過 vLLM 提供的 Cosmos Reasoning 2B 服務，您可以串流網路攝影機畫面並獲得帶有推理過程的即時 AI 分析。

安裝 Live VLM WebUI

最簡單的方法是使用 pip（開啟另一個終端機）：

或使用 Docker：

設定 WebUI

WebUI 現在會將您的網路攝影機幀串流至 Cosmos Reasoning 2B，並即時顯示模型的分析結果。

針對 Orin 的推薦 WebUI 設定

由於 Orin 以較短的上下文長度運行，請在 WebUI 中調整以下設定：

疑難排解

Orin 上的記憶體不足 (OOM)

問題：vLLM 因 CUDA 記憶體不足錯誤而崩潰。

解決方案：

啟動前釋放系統記憶體：

降低 --gpu-memory-utilization（嘗試 0.55 或 0.50）

進一步減少 --max-model-len（嘗試 128）

確保沒有其他佔用 GPU 的進程正在運行

WebUI 中找不到模型

問題：模型未出現在 Live VLM WebUI 的下拉選單中。

解決方案：

Orin 上的推理速度慢

問題：每次回應都需要很長時間。

解決方案：

vLLM 無法載入模型

問題：vLLM 報告模型路徑不存在或無法載入。

解決方案：

總結

在本教學中，我們展示了如何使用 vLLM 在 Jetson 系列裝置上部署 NVIDIA Cosmos Reasoning 2B 模型。

Cosmos Reasoning 2B 的思維鏈能力與 Live VLM WebUI 的即時串流相結合，使其成為在邊緣端原型設計和評估視覺 AI 應用的理想選擇。

額外資源

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/nvidia/cosmos-on-jetson