輝達推出 Nemotron 3 Nano Omni 模型,統一視覺、音訊與語言處理,將 AI 代理效率提升高達 9 倍

輝達推出 Nemotron 3 Nano Omni 模型,統一視覺、音訊與語言處理,將 AI 代理效率提升高達 9 倍

Nvidia Blog·

輝達今日發表 Nemotron 3 Nano Omni,這是一款將視覺、語音和語言功能整合至單一系統的開放式多模態模型,讓代理程式能針對影片、音訊、圖像和文字提供更快、更聰明的進階推理回應。這款頂尖模型為企業和開發者提供了一條生產路徑,能以全方位的部署靈活性與控制力,打造更高效且精確的多模態 AI 代理。

當今的 AI 代理系統往往需要同時處理視覺、語音和語言等多個獨立模型,在數據於模型間傳遞時,會損失時間與上下文資訊。

今日發布的 NVIDIA Nemotron 3 Nano Omni 是一款開放式多模態模型,將這些功能整合至單一系統中,使代理能夠在影片、音訊、圖像和文本之間進行進階推理,提供更快速、更智慧的響應。這款同類最佳的模型為企業和開發者提供了一條生產路徑,以實現更高效、更準確的多模態 AI 代理,並具備完整的部署靈活性與控制權。

Nemotron 3 Nano Omni 為開放式多模態模型樹立了新的效率標竿,具備領先的準確度和低成本特性,在複雜文件智慧、影片及音訊理解等 六個排行榜上名列前茅

概覽

它是什麼
一款開放式全模態(Omni-modal)推理模型 —— 同類產品中效率最高且具備領先準確度的開放式多模態模型。

它處理什麼
文本、圖像、音訊、影片、文件、圖表和圖形介面(輸入);文本(輸出)。

適用對象
正在構建快速、可靠且需要多模態感知子代理(Sub-agent)之代理系統的企業與開發者。

運作方式
在代理系統中充當「眼睛和耳朵」,與 Nemotron 3 Super、Ultra 或其他專有模型協同工作。

為何重要
具備領先的多模態準確度,且在相同互動性下,吞吐量比其他開放式全模態模型高出 9 倍,從而在不犧牲響應速度的情況下,降低成本並提升擴展性。

架構
30B-A3B 混合專家模型(MoE),搭載 Conv3D、EVS,支援 256K 上下文。

供應時間
2026 年 4 月 28 日,透過 Hugging Face、OpenRouter、build.nvidia.com 及超過 25 個合作夥伴平台提供。

已經採用 Nemotron 3 Nano Omni 的 AI 和軟體公司包括 AibleApplied Scientific Intelligence (ASI)Eka Care、鴻海(Foxconn)、H Company、Palantir 和 Pyler;Dell Technologies、DocuSign、Infosys、K-Dense、Lila、Oracle 和 Zefr 則正在評估該模型。

H Company 執行長 Gautier Cloix 表示:「要構建有用的代理,你不能為了讓模型解讀螢幕畫面而等待數秒。透過基於 Nemotron 3 Nano Omni 進行開發,我們的代理可以快速解讀全高清螢幕錄影,這在以前是不切實際的。這不僅僅是速度的提升,更是我們的代理即時感知數位環境並與之互動方式的根本轉變。」

Nemotron 3 Nano Omni 實現更快速、更精簡的多模態代理

想像一個用於客戶支援的 AI 代理,它在分析上傳的通話音訊並檢查數據日誌的同時,還需要處理螢幕錄影;或者一個負責解析 PDF、試算表、圖表和語音筆記的金融代理。目前,大多數代理系統透過獨立的視覺、語音和語言模型來完成這些任務。

這種方法會因為重複的推理過程而增加延遲,導致跨模態的上下文碎片化,並隨著時間增加成本和誤差。

透過在其 30B-A3B 混合混合專家架構中結合視覺和音訊編碼器,Nemotron 3 Nano Omni 消除對獨立感知模型的需求,提高了大規模運作的效率。作為首款同時具備如此高效能和強大多模態感知準確度的開放模型,它使 AI 系統能夠實現比其他具有類似互動性的開放全模態模型高出 9 倍的吞吐量。其結果是在不犧牲響應速度或品質的情況下,降低了成本並提升了擴展性。

透過在其 30B-A3B 混合 混合專家(MoE) 架構中結合視覺和音訊編碼器,Nemotron 3 Nano Omni 消除對獨立感知模型的需求,推動了大規模的推理效率。它將這種效率與強大的多模態感知準確度相結合,使 AI 系統能夠實現比其他具有相同互動性的開放全模態模型高出 9 倍的吞吐量。其結果是在不犧牲響應速度或品質的情況下,降低了成本並提升了擴展性。

在代理系統中,Nemotron 3 Nano Omni 可以與專有雲端模型或其他 NVIDIA Nemotron 開放模型協同工作——例如用於高頻執行的 Nemotron 3 Super 或用於複雜規劃的 Nemotron 3 Ultra——以及來自其他供應商的專有模型,為電腦使用、文件智慧和音影推理等代理工作流提供子代理動力。

  • 電腦使用代理 —— Nemotron 3 Nano Omni 為導航圖形用戶介面、對螢幕內容進行推理以及理解用戶介面隨時間變化的狀態提供感知閉環。H Company 最新的 電腦使用代理 由 Nemotron 3 Nano Omni 驅動,使用 1920×1080 像素的原生輸入解析度來實現高保真視覺推理。在 OSWorld 基準測試的初步評估中,這種整合在導航複雜圖形介面方面展現了重大飛躍,並利用了 Nemotron 3 Nano Omni 處理極高解析度圖像的能力。

  • 文件智慧 —— 解讀文件、圖表、表格、螢幕截圖和混合媒體輸入,使代理能夠連貫地跨視覺結構和文本內容進行推理。這對於企業分析和合規工作流至關重要。

  • 音訊和影片理解 —— 對於客戶服務、研究和監控工作流,Nemotron 3 Nano Omni 維持音影上下文,將所說、所見和所記錄的內容整合到單一推理流中,而非斷開的摘要。

開放且可自定義,隨處部署

Nemotron 3 Nano Omni 以開放權重、數據集和訓練技術發布,讓組織能夠完全透明地控制模型的自定義與部署方式。

開發者可以使用 NVIDIA NeMo 等工具進行自定義、評估和針對特定領域案例的優化。由於 Nemotron 系列模型是開放的,組織可以將其部署在符合法規、主權或數據在地化要求的環境中。

Nemotron 3 系列(包括 Nano、Super 和 Ultra 模型)在過去一年中的下載量已超過 5,000 萬次。Omni 將該系列的功能擴展到了多模態和代理領域。

該模型可在 Hugging Face、OpenRouter 和 build.nvidia.com 上以 NVIDIA NIM 微服務形式獲取,並透過廣泛的 NVIDIA 雲端合作夥伴、推理平台和雲端服務供應商提供。

其開放、輕量化的架構支持從本地系統(如 NVIDIA DGX SparkDGX Station)到數據中心和雲端環境的一致部署。

訪問 NVIDIA 技術部落格以獲取 Nemotron 3 Nano Omni 使用案例的 教學、食譜和部署指南。訂閱 NVIDIA 新聞加入社群 並在 LinkedInInstagramXFacebook 上關注 NVIDIA AI,以獲取代理式 AI、NVIDIA Nemotron 等最新資訊。

探索 自學影片教學和直播

Nvidia Blog

相關文章

  1. 全新 NVIDIA Nemotron 3 Super 為代理型 AI 提供高達 5 倍的吞吐量

    大約 2 個月前

  2. 輝達推出 Nemotron 3 Nano Omni:支援文件、音訊與影片代理程式的長文本多模態智慧模型

    Huggingface · 大約 4 小時前

  3. Nemotron 3 Content Safety 4B:多模態與多語言內容審核模型

    Huggingface · 大約 1 個月前

  4. NVIDIA 如何為人工智慧構建開放數據

    Huggingface · 大約 2 個月前

  5. Nvidia 發布 Nemotron Speech ASR,支援串流與批次工作負載

    Hacker News · 4 個月前

其他收藏 · 0