NVIDIA 如何為人工智慧構建開放數據

Huggingface·26 天前

原文

NVIDIA 正在透過發佈超過 2 PB 的開放數據集與訓練配方來加速人工智慧發展，旨在解決數據瓶頸並培育透明的生態系統。

NVIDIA 如何構建 AI 開放數據

AI 的進步通常被歸功於模型的架構能力與效率。但事實上，每一個訓練流水線最終都建立在數據層之上，這決定了模型的行為模式。

隨著代理系統（Agentic systems）變得更加自主，訓練它們的數據日益決定了它們知道什麼、如何推理以及能安全地執行什麼任務。然而，當今大部分的訓練數據仍然是不透明、碎片化或封閉在各個團隊的孤島中。

開放數據存取改變了這一現狀。它為開發者提供了一條更快、更具成本效益的路徑來構建高質量模型，同時讓整個生態系統的評估與改進變得更加容易。這就是為什麼 NVIDIA 在發布開放模型、工具和訓練技術的同時，也發布了開放數據集。

AI 數據瓶頸

構建高質量的數據集仍然是 AI 開發中最大的瓶頸之一。企業往往在開始單次模型訓練之前，就花費數百萬美元和數月（甚至超過一年）的時間來收集、標註和驗證數據。即使模型已經部署，獲取領域專業知識和評估框架仍然是一項長期的挑戰。

NVIDIA 旨在透過在 HuggingFace 上發布具有寬鬆許可證的數據集，並在 GitHub 上提供訓練配方和評估框架，來減少這種摩擦，讓開發者可以立即進行構建。截至目前，我們已在 180 多個數據集和 650 多個開放模型中分享了超過 2 PB 的 AI 就緒訓練數據。而這僅僅是個開始。

現實世界的開放數據集

NVIDIA 的開放數據發布涵蓋多個領域——從機器人與自主系統到主權 AI、生物學和評估基準。這些數據集由 NVIDIA 各個團隊構建，展示了共享數據如何加速現實世界的 AI 開發。

以下是我們生態系統中的幾個範例：

物理 AI 集合 (Physical AI Collection)

機器人系統需要結構化的多模態數據。此集合包含超過 50 萬條機器人軌跡、5700 萬次抓取和 15TB 的多模態數據，其中包括用於開發 NVIDIA GR00T 推理視覺-語言-動作模型（跨多種夾具類型和感測器配置）的資產。該數據集已被下載超過 1000 萬次，使用者包括 Runway（利用開放的 GR00T 數據集開發了其最近發布的 GWM-Robotics 世界模型）以及機器人模擬公司 Lightwheel（正使用該數據集來優化機器人策略）。

該集合還包含目前地理多樣性最高的自動駕駛（AV）數據集之一，擁有超過 1,700 小時的多感測器數據，包括 7 個攝像頭配置以及涵蓋 25 個國家和 2,500 多個城市的光學雷達（LiDAR）和雷達數據。這種廣度支持了跨不同駕駛環境的感知基準測試，並以更廣泛的商業可用性補充了學術數據集。

Nemotron 人格集合 (Nemotron Personas Collection)

Nemotron Personas 是完全合成的人格數據集，基於現實世界的人口分佈，能大規模產生跨地區和語言、具有文化真實感且多樣化的個體。

該集合支持主權 AI 的發展，目前包含以下地區的人口規模數據集：

這些數據集已經在推動全球的實際部署。CrowdStrike 使用 200 萬個人格將 NL→CQL 的翻譯準確率從 50.7% 提升至 90.4%。在日本，NTT Data 和 APTO 使用這些數據集，在極少私有數據的情況下引導領域特定智能，將法律問答準確率從 15.3% 提升至 79.3%，並將攻擊成功率從 7% 降至 0%。

這些數據集還支持了 NVIDIA Nemotron-Nano-9B-v2-Japanese 的開發，這是一款最先進的 10B 以下模型，位居 Nejumi 排行榜榜首。

https://huggingface.co/blog/nvidia/open-data-for-ai