NVIDIA Isaac GR00T N1.7：人形機器人的基礎模型

Huggingface·大約 4 小時前

AI 生成摘要

NVIDIA 推出 GR00T N1.7，這是一個擁有 30 億參數的視覺-語言-動作模型，透過超過 2 萬小時的人類視角影片訓練，實現了機器人靈巧性擴展定律的突破。

NVIDIA Isaac GR00T N1.7：人形機器人基礎模型

內容摘要

什麼是 GR00T N1.7？

GR00T N1.7 是一個擁有 30 億參數（3B）的視覺-語言-動作（VLA）模型，能將視覺觀測結果和自然語言指令映射為連續的機器人動作。它採用了動作級聯（Action Cascade）架構——這是一種雙系統設計，將高階推理與低階電機控制分離：

輸入：RGB 圖像幀（任何解析度）+ 語言指令 + 機器人本體感受狀態（關節位置、速度、末端執行器位姿）

輸出：映射到機器人自由度的連續值動作向量

已在 Unitree G1、雙手操作器 YAM 和 AGIBot 遠征 A1（Genie 1）上針對移動操作、桌面操作和雙手靈巧任務進行了驗證。

基於人類第一人稱視角影片數據的訓練

GR00T N1.7 的核心研究基礎是 EgoScale——在超過 20,854 小時的人類第一人稱視角（egocentric）影片上進行預訓練，涵蓋從製造、零售到醫療保健和家庭環境等 20 多個任務類別。這比訓練 N1.6 時使用的數千小時機器人遠程操作數據有了顯著提升。

直覺在於：人類和機器人擁有相似的具身特徵——雙手、第一人稱視角、充滿可操作物品的世界。在帶有感測器的人類影片（第一人稱攝影機、手腕攝影機、手部追蹤）上進行訓練，能賦予模型豐富的操作先驗知識，而無需先在實體機器人上演示每一種行為。這使得預訓練超越了遠程操作數據所能擴展的極限。

這項工作的關鍵發現：我們發現了首個機器人靈巧性的縮放定律（scaling law）。更多的人類第一人稱數據能產生可預測且一致的靈巧操作能力提升——從 1,000 小時增加到 20,000 小時，平均任務完成率提高了一倍以上。這種縮放定律直接轉化為靈巧操作能力——使 22 個自由度的手部能夠執行充滿接觸的複雜任務，而這類任務在過去一直是通用機器人模型的難點。

GR00T N1.7 — 雙手桌面任務

GR00T N1.7 — 22 自由度手部處理微小物品

推論與部署

針對您的具身設備安裝並啟動策略伺服器：

然後從您的環境迴圈中進行查詢：

在 4 個去噪步驟、單攝影機視角下的推論效能可以在此處找到。

GR00T N1.7 已獲得商業授權，並在 NVIDIA Ampere、Hopper、Lovelace、Blackwell 和 Jetson 平台上提供支援。

在您的機器人上進行微調

N1.7 支援使用 LeRobot 數據集格式在自定義具身上進行微調。預註冊的具身包括 UNITREE_G1、LIBERO_PANDA、OXE_WIDOWX 等——或者您也可以註冊自己的具身：

從 N1.6 升級？這是一個直接替換的過程——將 --model-path 指向 nvidia/GR00T-N1.7，您現有的具身配置和工作流程即可延用。主要的區別在於升級後的 VLM 骨幹網路（Cosmos-Reason2-2B）和 EgoScale 預訓練，這在進行任何微調之前就提升了開箱即用的靈巧性和泛化能力。

如果您使用 GR00T N1.7 構建了任何成果，我們很期待收到您的回饋。

本文提到的收藏 1

更多來自此作者的內容

在一天內構建特定領域的嵌入模型

Nemotron 3 內容安全 4B：多模態、多語言內容審核

社群

· 註冊或登入以發表評論

本文提到的收藏 1

— Huggingface

其他收藏 · 0

收藏夾

你的個人知識庫

NVIDIA Isaac GR00T N1.7：人形機器人的基礎模型

NVIDIA Isaac GR00T N1.7：人形機器人基礎模型

內容摘要

什麼是 GR00T N1.7？

基於人類第一人稱視角影片數據的訓練

推論與部署

在您的機器人上進行微調

本文提到的收藏 1

在一天內構建特定領域的嵌入模型

Nemotron 3 內容安全 4B：多模態、多語言內容審核

社群

本文提到的收藏 1