NVIDIA Isaac GR00T N1.7:人形機器人的基礎模型
AI 生成摘要
NVIDIA 推出 GR00T N1.7,這是一個擁有 30 億參數的視覺-語言-動作模型,透過超過 2 萬小時的人類視角影片訓練,實現了機器人靈巧性擴展定律的突破。
NVIDIA Isaac GR00T N1.7:人形機器人基礎模型
內容摘要
什麼是 GR00T N1.7?
GR00T N1.7 是一個擁有 30 億參數(3B)的視覺-語言-動作(VLA)模型,能將視覺觀測結果和自然語言指令映射為連續的機器人動作。它採用了動作級聯(Action Cascade)架構——這是一種雙系統設計,將高階推理與低階電機控制分離:
輸入:RGB 圖像幀(任何解析度)+ 語言指令 + 機器人本體感受狀態(關節位置、速度、末端執行器位姿)
輸出:映射到機器人自由度的連續值動作向量
已在 Unitree G1、雙手操作器 YAM 和 AGIBot 遠征 A1(Genie 1)上針對移動操作、桌面操作和雙手靈巧任務進行了驗證。
基於人類第一人稱視角影片數據的訓練
GR00T N1.7 的核心研究基礎是 EgoScale——在超過 20,854 小時的人類第一人稱視角(egocentric)影片上進行預訓練,涵蓋從製造、零售到醫療保健和家庭環境等 20 多個任務類別。這比訓練 N1.6 時使用的數千小時機器人遠程操作數據有了顯著提升。
直覺在於:人類和機器人擁有相似的具身特徵——雙手、第一人稱視角、充滿可操作物品的世界。在帶有感測器的人類影片(第一人稱攝影機、手腕攝影機、手部追蹤)上進行訓練,能賦予模型豐富的操作先驗知識,而無需先在實體機器人上演示每一種行為。這使得預訓練超越了遠程操作數據所能擴展的極限。
這項工作的關鍵發現:我們發現了首個機器人靈巧性的縮放定律(scaling law)。更多的人類第一人稱數據能產生可預測且一致的靈巧操作能力提升——從 1,000 小時增加到 20,000 小時,平均任務完成率提高了一倍以上。這種縮放定律直接轉化為靈巧操作能力——使 22 個自由度的手部能夠執行充滿接觸的複雜任務,而這類任務在過去一直是通用機器人模型的難點。


推論與部署
針對您的具身設備安裝並啟動策略伺服器:
然後從您的環境迴圈中進行查詢:
在 4 個去噪步驟、單攝影機視角下的推論效能可以在此處找到。
GR00T N1.7 已獲得商業授權,並在 NVIDIA Ampere、Hopper、Lovelace、Blackwell 和 Jetson 平台上提供支援。
在您的機器人上進行微調
N1.7 支援使用 LeRobot 數據集格式在自定義具身上進行微調。預註冊的具身包括 UNITREE_G1、LIBERO_PANDA、OXE_WIDOWX 等——或者您也可以註冊自己的具身:
從 N1.6 升級?這是一個直接替換的過程——將 --model-path 指向 nvidia/GR00T-N1.7,您現有的具身配置和工作流程即可延用。主要的區別在於升級後的 VLM 骨幹網路(Cosmos-Reason2-2B)和 EgoScale 預訓練,這在進行任何微調之前就提升了開箱即用的靈巧性和泛化能力。
如果您使用 GR00T N1.7 構建了任何成果,我們很期待收到您的回饋。
本文提到的收藏 1
更多來自此作者的內容
在一天內構建特定領域的嵌入模型
Nemotron 3 內容安全 4B:多模態、多語言內容審核
社群
· 註冊或登入以發表評論
本文提到的收藏 1
相關文章
其他收藏 · 0
收藏夾