newsence
NVIDIA AI-Q 如何在 DeepResearch Bench I 與 II 奪得第一

NVIDIA AI-Q 如何在 DeepResearch Bench I 與 II 奪得第一

Huggingface·25 天前

NVIDIA AI-Q 深度研究代理透過模組化多代理架構與微調的 Nemotron 3 模型,在主要基準測試中取得領先地位。這套開放藍圖證明了開發者可取得的工具能為企業與網路數據提供頂尖的代理式研究能力。

NVIDIA AI-Q 如何在 DeepResearch Bench I 與 II 奪冠

NVIDIA AI-Q 深度研究代理程式(deep research agent)最近在 DeepResearch Bench (55.95) 和 DeepResearch Bench II (54.50) 這兩個評估深度研究代理程式的主要基準測試中雙雙榮獲第一。這標誌著開放、可移植的深度研究邁出了有意義的一步。一個可配置的技術棧在兩項測試中均領先,顯示出開發者可取得的模型與工具足以驅動最先進的代理研究。

AI-Q 的獨特之處在於?AI-Q 是一個構建 AI 代理程式的開放藍圖,這些代理程式能對企業和網路數據進行推理,並提供引用詳實的回答。AI-Q 提供了一個完全開放且模組化的架構,企業可以根據具體使用場景擁有、檢查、自定義和配置。深度研究員(deep researcher)是更廣泛的 AI-Q 藍圖中的一個工作流,該藍圖還包括意圖路由、查詢澄清和淺層研究。深度研究員採用多代理架構,由規劃器(planner)、研究員(researcher)和編排器(orchestrator)組成,基於 NVIDIA NeMo Agent Toolkit 和微調過的 NVIDIA Nemotron 3 Super 模型構建,並配有可選的集成(ensemble)和報告精煉器(report refiner)以實現最高的報告品質。一套技術棧——設計靈活,可根據您的需求進行調整。

為什麼同時贏得兩項基準測試至關重要

DeepResearch Bench I 和 II 以互補的方式評估研究代理程式。

DeepResearch Bench 根據參考報告,從全面性、洞察深度、指令遵循和可讀性維度對報告品質進行評分。在此取得佳績代表能產出精煉、結構良好且具備強大綜合能力的敘述。

DeepResearch Bench II 針對每項任務使用 70 多個細粒度的二元準則,檢查代理程式是否檢索到正確資訊(資訊召回)、是否將其綜合為更高層次的分析(分析),以及是否清晰地呈現發現(呈現)。在此取得佳績代表具備細粒度的事實正確性和分析嚴謹性。

在兩項基準測試中均領先,意味著 AI-Q 深度研究員既能產出精美且引用詳實的報告,又能確保底層的檢索和推理正確無誤。

架構一覽

這兩項成績背後的 AI-Q 深度研究員架構以三個組件為中心:負責協調研究循環的編排器;負責繪製資訊圖譜並設計基於證據的研究計劃的規劃器;以及負責派遣並行專家從多個分析視角收集並綜合證據的研究員。每個代理程式都可以由不同的大型語言模型(LLM)驅動。可選的集成層會並行運行多個代理程式並合併其輸出,以實現最高的報告品質和資訊覆蓋率。圖 1 顯示了完整架構。

Aiq

圖 1. AI-Q 深度研究員:編排器、規劃器和研究員流水線(右)以及可選的集成層(左)。

核心技術棧:NVIDIA 與深度研究

兩次排行榜提交均由相同的底層技術棧驅動:開放、可重現,且構建於:

核心始終是多步驟研究(規劃 → 收集 → 綜合)、網頁搜尋(Tavily)和學術論文搜尋(Serper),以及有引用支持的報告。可選地,可以在頂層添加集成層和報告精煉器以獲得最高的報告品質。

AI-Q 的關鍵要素

四個要素是取得該成果的核心:

後續章節將詳細介紹每一項。

微調 NVIDIA Nemotron 3 Super:數據與訓練

結果的一個主要因素是定製微調的 NVIDIA Nemotron-3-Super-120B-A12B 模型。我們在該工作流中選擇它,是因為它與多步代理推理、工具使用和基於引用的報告高度契合;在真實的搜尋與綜合軌跡上進行微調,使其在大規模應用中能有效擔任規劃器、研究員和編排器的角色。

軌跡生成

基於原則的過濾

SFT 訓練

AI-Q 深度研究員

AI-Q 深度研究員採用多代理架構(編排器、規劃器和研究員),具有迭代的「規劃 → 收集 → 綜合」循環、引用管理以及用於長時程(long-horizon)可靠性的自定義中間件。可以啟用可選的集成和報告精煉層以獲得最高的報告品質。多代理設計也作為一種長上下文策略:每個子代理在自己的上下文窗口內工作,僅返回其綜合輸出,因此編排器永遠不會看到原始的工具響應。這使編排器的上下文保持集中,並防止冗長、雜亂的搜尋結果降低其推理能力。

編排器(Orchestrator): 協調完整的研究循環。調用規劃器產生基於證據的研究計劃,然後根據該計劃衍生的重點研究任務多次調用研究員。研究完成後,編排器審查計劃的品質約束,派遣有針對性的補缺研究,並撰寫長篇報告。可選的精煉步驟利用新鮮上下文窗口中的原始研究簡報對報告進行編輯——這是第二個證據恢復點。

規劃器(Planner): 分兩個階段運行。**偵察(Scout)**子代理首先通過廣泛搜尋繪製資訊圖譜。**架構(Architect)**子代理隨後設計研究計劃,包括報告大綱、目標搜尋查詢和品質約束,同時運行自己的搜尋以驗證結構選擇。

基於證據的規劃是產出可靠、高品質報告的關鍵。我們的規劃器在確定結構之前就已了解資訊圖譜。它根據實際發現的內容(而非假設)來決定在哪裡深入、在哪裡廣泛。

研究員(Researcher): 並行派遣多個專家子代理,每個子代理都有獨特的視角:

它們共享相同的搜尋工具,但具有不同的分析框架。研究同一主題的多樣化專家通常能發現單一通用代理會遺漏的證據。

研究員將專家的發現綜合為一份統一的、有引用的簡報。隨後,LLM 在新鮮的上下文窗口中將此綜合內容與原始專家輸出進行交叉檢查,恢復任何相關資訊。

配置驅動的靈活性: 每個組件都是可更換的。LLM、工具和代理圖(agent graphs)都可以通過 YAML 進行配置。規劃器、研究員和編排器可以分別由不同的 LLM 驅動。在基準測試提交中,微調後的 Nemotron 3 驅動研究員,其處理的 token 數量是規劃器和編排器總和的 4 倍。

用於長時程可靠性的自定義中間件

每個代理和子代理在多個步驟(通常超過 32 步)中交替進行 LLM 和工具調用。在這種規模下,系統可能會以短時間交互中從未暴露的方式失效。我們的代理框架提供自定義中間件來處理並減輕這些問題:

每種中間件都針對在代理軌跡中觀察到的失敗模式。它們共同確保了長時程運行的可靠性。

集成(Ensemble): 啟用後,N 個獨立的深度研究流水線並行運行。LLM 讀取所有 N 個輸出,選擇一個作為結構基礎,並整合來自其他輸出的獨特內容。集成產生的證據覆蓋範圍比任何單一流水線都廣,直接提高了全面性和資訊召回率。校對環節會移除處理痕跡,使輸出讀起來像是由單一作者完成的作品。

事後精煉器(Post-hoc Refiner): 一個可選的最終報告精煉步驟,可以根據結構化指令對報告進行處理,以量化模糊的主張、深化實體覆蓋、削減腳手架文字、落實風險評估、構建對比表並加強因果推理。重寫提示是通過針對僅使用尖端 LLM 生成的參考報告進行自監督元學習(self-supervised meta-learning)獲得的。

總結

NVIDIA AI-Q 憑藉單一技術棧在 Deep Research Bench 和 Deep Research Bench II 上均獲得第一名:這是一個基於 NVIDIA NeMo Agent Toolkit 構建的多代理深度研究員,採用微調的 NVIDIA Nemotron 3 模型和自定義中間件,並在需要最高報告品質時配備可選的集成和精煉器。該技術棧是開放、可重現的,且可根據您的需求進行配置。在不犧牲透明度或控制權的情況下,實現了最先進的結果。

歡迎在 2026 年 3 月 16 日當週參加在聖荷西舉行的 NVIDIA GTC 以了解更多資訊。

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/nvidia/how-nvidia-won-deepresearch-bench