
Holotron-12B:高吞吐量電腦操作代理模型
H Company 發佈了 Holotron-12B,這是一款專為電腦操作代理優化的多模態模型,透過混合 SSM 架構實現了比前代版本高出 2 倍以上的吞吐量。
Holotron-12B - 高吞吐量電腦操作代理模型

我們很高興發佈 Holotron-12B,這是由 H Company 推出的一款多模態電腦操作模型。Holotron-12B 是基於 NVIDIA 開源的 Nemotron-Nano-2 VL 模型,並使用 H Company 的專有混合數據進行後訓練(Post-trained)而成。它是我們研究實驗室密切合作的成果,旨在開發一種主要針對生產環境中的規模化與性能進行優化的新型模型。
H Company 是 NVIDIA Inception 計畫的成員。
該模型現已在 Hugging Face 上提供。
為什麼我們開發 Holotron-12B
當今大多數多模態模型主要針對靜態視覺或指令遵循進行優化。然而,Holotron-12B 與我們的 Holo2 模型一樣,有著不同的目標:作為電腦操作代理(Computer-use agents)的策略模型,必須在互動環境中高效地感知、決策並行動。
透過 Holotron-12B,我們希望創建一個能夠在處理包含多張圖像的長上下文時,仍能有效且高效地在生產環境中擴展,並在代理基準測試(Agent benchmarks)中表現優異的模型。NVIDIA Nemotron 模型在推理端提供了強大的基礎,而透過開發 Holotron-12B,我們展示了該模型在進一步訓練後能達成多麼顯著的成就。
採用混合 SSM 架構的高吞吐量推理
Holotron-12B 在推理效率上的重大飛躍,歸功於其基礎的 Nemotron 架構,該架構利用了混合狀態空間模型(SSM)與注意力機制(Attention mechanism)。與純 Transformer 模型不同,這種設計針對高吞吐量服務進行了優化。狀態空間模型透過避免與完整注意力機制相關的二次計算成本,為長上下文推理提供了卓越的可擴展性,這對於涉及多張圖像和冗長互動歷史的代理工作負載特別有利。在推理方面,SSM 的主要貢獻在於大幅降低了記憶體佔用:傳統的注意力機制會為每個 Token 和每一層存儲 K 和 V 激活值(即著名的 KV 快取),而 SSM 是一種線性遞歸模型,每層每個生成的序列僅存儲一個恆定狀態,與序列長度無關。
在 WebVoyager 基準測試評估中,該模型在包含長上下文、多張高解析度圖像以及 100 個基準測試工作線程的高請求併發量的真實多模態代理工作負載下表現出色。在單個 H100 GPU 上運行,並使用帶有最新 SSM 優化(v0.14.1)的 vLLM,Holotron-12B 的吞吐量比 Holo2-8B 高出 2 倍以上。這使得 Holotron-12B 成為數據生成、標註和在線強化學習等受吞吐量限制的工作負載的理想選擇。

在受控實驗設置中(見圖 2),隨著併發量的增加,Holotron-12B 繼續保持高效擴展,總 Token 吞吐量在最大併發量 100 時穩定上升至 8.9k tokens/s。相比之下,Holo2-8B 的總 Token 吞吐量在 5.1k tokens/s 時就迅速進入平台期。這種表現突顯了 Nemotron 架構的一個關鍵優勢,即更有效且高效的 VRAM 利用率,以及更小的整體記憶體佔用,這允許在相同硬體上實現更大的有效批次大小(Batch sizes)。即使在大批次情況下,Holotron-12B 仍能保持強勁的吞吐量。

訓練與評估 Holotron-12B
Holotron-12B 的訓練分為兩個階段。我們從 NVIDIA 發佈的多模態基礎模型 Nemotron-Nano-12B-v2-VL-BF16 開始。隨後,我們在 H Company 的專有定位與導航混合數據上進行了監督式微調(SFT),重點在於螢幕理解、定位(Grounding)以及 UI 層級的互動。
最終的檢查點(Checkpoint)是在大約 140 億個 Token 上訓練完成的。
代理基準測試(Agent Benchmarks)
在電腦操作和導航基準測試中,Holotron-12B 較 Nemotron 基礎模型有顯著提升,並在與成熟的代理模型對比中展現出強勁性能。其 WebVoyager 性能從 35.1% 提升至 80.5%,超過了 Holo2-8B 在該基準測試中的表現,說明了該模型在代理環境中有效運作的能力。

定位基準測試(Localization Benchmarks)
Holotron-12B 在 OS-World-G、GroundUI 和 WebClick 等定位與接地基準測試中,也比基礎 Nemotron 模型有了實質性的改進。

結論
Holotron-12B 證明了 NVIDIA Nemotron VL 模型在配合正確的訓練設置和基礎設施工作時,能為現實世界的多模態代理提供強大的基礎。
該模型提供了強大的代理性能、顯著提升的推理吞吐量,並為未來的改進(特別是圍繞更高解析度的視覺訓練)提供了清晰的路徑。
我們期待看到其他人利用 Holotron-12B 構建的成果。該模型和檢查點現已在 Hugging Face 上根據 NVIDIA Open Model License 提供。
下一步:利用 Nemotron 3 Omni 擴展代理智能的未來
NVIDIA 今天宣佈發佈 Nemotron 3 Omni。基於 Holotron-12B 的成功,我們正準備對這一代新多模態模型進行後訓練。透過利用 Nemotron 3 系列增強的混合 SSM-Attention 和 MoE 架構基礎,我們旨在透過新發佈的 Nemotron 3 Omni 在推理能力和多模態精準度上實現更大的飛躍。隨著這一演進將 Holotron 從研究推向商業應用,它將為企業提供大規模自主「電腦操作」部署所需的高吞吐量、低延遲性能。
社群
· 註冊或登入以發表評論