輝達推出 Nemotron 3 Nano Omni:支援文件、音訊與影片代理程式的長文本多模態智慧模型

輝達推出 Nemotron 3 Nano Omni:支援文件、音訊與影片代理程式的長文本多模態智慧模型

Huggingface·

輝達推出了 Nemotron 3 Nano Omni,這是一款高效的多模態模型,採用混合 Mamba-Transformer-MoE 架構,專為長篇文件、音訊和影片的複雜推理任務而設計。

推出 NVIDIA Nemotron 3 Nano Omni:適用於文件、音訊與視訊代理程式的長文本多模態智慧

效率亮點:與其他具有相同互動性的開源全能(omni)模型相比,Nemotron 3 Nano Omni 在多文件使用場景中提供高出 7.4 倍的系統效率,在視訊使用場景中則提供高出 9.2 倍的系統效率。
圖 1. 在固定的每位使用者互動閾值(tokens/sec/user)下,各模型在多文件與視訊使用場景中所維持的總系統吞吐量。

Efficiency-Plots

Nemotron 3 Nano Omni 的設計用途

從高層次來看,Nemotron 3 Nano Omni 針對五類工作負載:

1. 現實世界的文件分析

這不僅僅是關於 OCR。該模型的定位是處理冗長、雜亂且高價值的文件,其理解取決於版面配置、表格、圖表、公式、章節結構和跨頁引用。例如合約、技術論文、報告、手冊、多頁表單或合規文件包。該模型可以處理超過 100 頁的文件。

2. 自動語音辨識 (ASR)

Nemotron 3 Nano Omni 包含強大的語音理解能力,可在多種音訊條件下實現高品質的轉錄。它能處理具有不同說話者、口音和背景噪音的長篇音訊。這些能力可以整合到更廣泛的工作流中,使語音內容能夠被轉錄、分析,並與其他模態結合,用於摘要、問答和跨模態推理等任務。

3. 長篇影音理解

許多企業和開發者的工作流依賴於混合的音訊和視覺證據:帶有旁白的螢幕錄影、培訓影片、帶有投影片的會議、教學課程、產品演示、客戶支援擷取以及長篇影片存檔。Nemotron 3 Nano Omni 旨在對這些輸入進行聯合推理。

4. 代理型電腦使用 (Agentic computer use)

Nemotron 3 Nano Omni 模型專門針對代理型電腦使用進行了訓練,使其能夠協助圖形使用者介面 (GUI) 環境中的任務。其能力包括解讀螢幕截圖、監控使用者介面狀態、將推理建立在螢幕視覺效果之上,並協助動作選擇或工作流自動化。

5. 通用多模態推理

該模型的設計不僅限於感知。它在需要跨長文本窗口、多種模態以及結構化或半結構化證據綜合資訊的推理密集型任務中表現出色。它可以執行多步推理、進行計算,並連接來自文本、圖像、表格和其他輸入的信號,以得出連貫且有據可查的答案。

模型架構與關鍵創新

Nemotron 3 Nano Omni 採用統一的「編碼器-投影器-解碼器」(encoder-projector-decoder)設計。語言主幹為 Nemotron 3 Nano 30B-A3B,搭配 C-RADIOv4-H 視覺編碼器和 Parakeet-TDT-0.6B-v2 音訊編碼器。特定模態的編碼器透過輕量級投影器連接到 LLM 主幹。

圖 2. NVIDIA Nemotron 3 Nano Omni 30B-A3B 的模型架構

Nemotron_arch_v3_reduced

用於長多模態文本的混合 Mamba-Transformer-MoE 主幹

模型主幹交織了三個關鍵組件:23 個 Mamba 選擇性狀態空間層(selective state-space layers),用於高效的長文本處理;23 個 MoE 層,具有 128 個專家、top-6 路由和一個用於條件容量的共享專家;以及 6 個分組查詢注意力層(grouped-query attention layers),以保持強大的全局交互和表達能力。

Nemotron 3 Nano Omni 在統一設計中結合了狀態空間模型、注意力機制和 MoE,在保持強大推理性能的同時,對於長篇多模態文本仍具實用性。

針對密集文件、圖表和螢幕的動態解析度

在視覺方面,Nemotron 3 Nano Omni 取代了 v2 模型中使用的平鋪策略,改用原生長寬比的動態解析度處理。每張圖像可以使用可變數量的 16 x 16 補丁(patches)來表示,每張圖像最少 1,024 個,最多 13,312 個視覺補丁。對於正方形圖像,這分別相當於 512 x 512 和 1840 x 1840。

這種靈活性對於處理高解析度、複雜的視覺輸入(如 OCR 密集型文件、財務表格、投影片、研究圖表、螢幕截圖和 GUI 版面)至關重要,特別是當需要同時理解細微細節和整體結構時。

用於視訊的 Conv3D 時間壓縮

對於視訊,Nemotron 3 Nano Omni 使用專用的 Conv3D tubelet 嵌入路徑。與獨立嵌入每一幀不同,每對連續的幀在進入 ViT 之前會被融合為單個「tubelet」,從而將語言模型必須處理的視覺標記(tokens)數量減半。這使我們能夠在相同的標記預算下將幀數增加一倍,或者在相同的幀數下將標記數量減半。

EVS — 高效視訊採樣

EVS 是一項重要的功能,在推論期間啟用,可剔除視覺編碼器後的冗餘視訊標記。這在保持準確性的同時降低了延遲並提高了吞吐量。視訊的第一幀被完整保留,隨後對於每一幀,EVS 會保留視訊發生變化的「動態」標記,並剔除與前一幀相比沒有變化的「靜態」標記。我們將此與 Conv3D 結合以實現卓越的壓縮:Conv3D 將成對幀的標記融合為一,然後 EVS 修剪冗餘的靜態資訊。

原生音訊輸入,而不僅僅是文本轉錄

音訊端由 Parakeet-TDT-0.6B-v2 提供動力,透過其自身的 2 層 MLP 投影器連接到主幹。音訊採樣率為 16 kHz,模型訓練輸入長度可達 1,200 秒(20 分鐘),而 LLM 最大文本長度支援 5 小時以上。

這代表了從傳統 VLM 流水線的轉變,透過在共享的多模態序列中實現原生音訊處理,允許對音訊、視覺和文本標記進行聯合建模。這對於旁白螢幕錄影、語音改變視覺含義的視訊問答、長篇教學或會議內容,以及需要時間定位的多模態推理任務至關重要。

輕量級模態投影器與統一標記交織

每個編碼器都透過一個輕量級的 2 層 MLP 投影器連接到 LLM,該投影器將編碼器特徵映射到共享的嵌入空間。投影後,視覺、音訊和文本標記會交織在一起並進行聯合處理。

這種設計保持了整體系統的模組化,同時仍能在主幹內部實現真正的跨模態推理。

訓練數據、基礎設施與系統故事

SFT 階段在 NVIDIA H100 上進行訓練,根據階段不同,規模從 32 個節點擴展到 128 個節點。技術棧使用 Megatron-LM、Transformer Engine 和 Megatron Energon,並採用張量並行、專家並行、序列並行、長文本階段的文本並行、在線序列打包以及選擇性激活重計算。

SFT 後的強化學習使用具有 Megatron 後端的 NeMo-RL 和 NeMo Gym。RL 基礎設施使用了跨 B200 和 H100 集群的基於 Ray 的分散式設置,加上多模態去重,因此重複的展開(rollouts)不會成倍增加圖像、視訊和音訊記憶體。

我們開源了大部分訓練代碼。

使用 RL 塑造可靠的多模態行為

我們在 Nemotron 3 Nano Omni 中引入了多環境文本和全能訓練。我們的文本 RL 訓練階段發生在 Nemo-Gym 的多樣化環境中,該環境評估模型執行一系列動作(如工具調用、編寫代碼和多部分規劃)的能力,以滿足可驗證的標準。

全能 RL 在統一框架內訓練模型跨圖像、視訊、音訊和文本進行推理,涵蓋從單模態到完全多模態的任務。多樣化的驗證器套件評估各種格式的輸出,如多選題、數學、GUI 定位和 ASR,同時刻意包含無法回答的案例,以教導模型在證據不足時選擇棄權,而不是產生幻覺。

數據與數據流水線

Nemotron 3 Nano Omni 在增強型數據集上進行訓練,該數據集強調跨多種模態的高品質推理。我們顯著擴大了任務覆蓋範圍,並針對公共數據集有限的複雜推理場景引入了合成數據。為了支援這一點,我們構建了特定任務的多階段流水線,用於可擴展的合成數據生成。

舉例來說,我們使用 NeMo Data Designer 從大量真實世界的 PDF 語料庫中生成了約 1,140 萬個合成問答對(約 450 億個標記)。該數據集用於加強訓練後的長文本文件推理,並使 MMLongBench-Doc 的整體準確度提高了 2.19 倍。

我們在 Data Designer 開發者筆記中詳細介紹了完整的流水線演進,包括失敗分析和關鍵經驗教訓。該筆記還包含九個可運行的流水線配方,可作為構建您自己的文件理解數據集的起點。

範例工作流

範例 1:長篇多頁文件分析

Nemotron 3 Nano Omni 可以分析並推理長文件,如財務報告、學術論文、產品手冊等。以下範例從一份 100 多頁的文件中檢索財務指標以計算另一個指標:

圖 3:來自 MMLongBench-Doc 基準測試的風格化範例

adobe-multipage-reasoning-visual-v6

模型被提示回答以下問題:

該模型能夠一次性完成長文本檢索、結構化提取、表格/圖表讀取和多頁推理。

範例 2:視訊 + 音訊理解

Nemotron-3 Nano Omni 執行聯合影音分析,既包括針對特定場景的局部分析,也包括針對整個視訊的全局分析。這使其能夠回答需要跨模態推理的複雜問題,例如識別音訊中提到某個主題時所顯示的特定視覺效果。

視訊

問題

答案

範例 3:代理型電腦使用 / 螢幕截圖推理

Nemotron 3 Omni 可以整合到代理型電腦使用系統中,以推理使用者意圖、分析 GUI 元素並執行動作以完成任務。

animation

模型被授予訪問 Web 環境的權限,並帶有以下系統提示:

使用者指令

模型回應:上方的 GIF 顯示了代理為滿足使用者請求而採取的動作。

範例 4:混合文件 + 圖表 + 旁白推理

Nemotron-3 Nano Omni 可以分析圖表、圖像中顯示的數字以及音訊文件,以生成媒體之間的任何共同點或差異。

圖像

Screenshot 2026-04-27 at 12.29.11 PM

音訊

問題

答案

範例 5:音景

Nemotron-3 Nano Omni 可以分析圖表、圖像中顯示的數字以及音訊文件,以生成媒體之間的任何共同點或差異。

音訊

問題

答案

範例 6:音樂

Nemotron-3-Nano-Omni 可以解讀並推理通用音訊,包括音景和環境聲音。

音訊

問題

答案

開始使用 Nemotron 3 Nano Omni

參考資料

本文提到的模型 5

本文提到的數據集 1

更多來自此作者的內容

使用物理知覺 NV-Raw2Insights-US AI 的自適應超音波成像

Jetson Orin Nano Super 上的 Gemma 4 VLA 演示

社群

· 註冊或登入以發表評論

本文提到的模型 5

本文提到的數據集 1

Huggingface

相關文章

  1. 輝達推出 Nemotron 3 Nano Omni 模型,統一視覺、音訊與語言處理,將 AI 代理效率提升高達 9 倍

    Nvidia Blog · 大約 4 小時前

  2. Nemotron 3 Content Safety 4B:多模態與多語言內容審核模型

    大約 1 個月前

  3. Nemotron ColEmbed V2:以 ViDoRe V3 的頂尖模型提升多模態檢索水平

    3 個月前

  4. 全新 NVIDIA Nemotron 3 Super 為代理型 AI 提供高達 5 倍的吞吐量

    Nvidia Blog · 大約 2 個月前

  5. 小巧而強大:利用 Llama Nemotron RAG 模型提升多模態搜尋與視覺文件檢索的準確性

    4 個月前

其他收藏 · 0