Nemotron 3 Nano 4B:用於高效本地人工智慧的緊湊型混合模型
NVIDIA 推出 Nemotron 3 Nano 4B,這是一款針對 Jetson 和 RTX GPU 等邊緣裝置優化的緊湊型模型,透過創新的剪枝與蒸餾技術提供頂尖的準確度。這款開源模型為本地對話代理實現了更快的響應速度與更高的隱私性,同時保持高效率與低推論成本。
Nemotron 3 Nano 4B:適用於高效本地 AI 的緊湊型混合模型
Nemotron 3 Nano 4B 僅擁有 40 億個參數,其體積足夠緊湊,可以在 NVIDIA Jetson 平台(Jetson Thor/Jetson Orin Nano)以及 NVIDIA DGX Spark 和 NVIDIA RTX GPU 等邊緣端運行。這實現了更快的響應速度、增強的數據隱私和靈活的部署,同時保持較低的推理成本。
Nemotron 3 Nano 4B 是我們首個專為設備端部署優化的模型,旨在為 GeForce RTX、Jetson 和 Spark 客戶的使用場景提供本地對話代理和角色支持。該模型在邊緣端生產用途的幾個關鍵維度上,實現了領先的準確性和效率:
(*1) 效率基準測試是在 RTX 4070 上使用 Llama.cpp,對兩個模型的 Q4_K_M 量化版本進行測量的。
此外,Nemotron 3 Nano 4B 提供了卓越的工具使用性能,並在避免幻覺方面具有極強的競爭力。這些能力共同證明了該模型對邊緣端使用場景的高度適用性。
Nemotron 3 Nano 4B 是使用 Nemotron Elastic 框架從 Nemotron Nano 9B v2 剪枝和蒸餾而來,使其繼承了作為混合推理模型的強大推理能力。它隨後使用源自 Nemotron 3 後訓練數據的新配方進行了後訓練,使模型即使在沒有顯式思考的情況下也能擅長解決任務。
最後,作為一個開源模型,它賦予了生態系統針對特定領域使用場景進行自定義、微調和優化的能力。

對於 Orak,我們在《超級瑪利歐》、《暗黑地牢》和《星露谷物語》等策略遊戲中對模型進行了評估。
Nemotron 3 Nano 4B 的訓練配方

使用 Nemotron Elastic 將 9B 壓縮至 4B
Nemotron 3 Nano 4B 是利用 Nemotron Elastic 技術從 Nemotron Nano 9B v2 衍生而來的。Nemotron Elastic 並非從頭開始訓練 4B 模型,也不是像現有的 LLM 壓縮技術那樣執行獨立的剪枝、候選搜索和蒸餾階段,而是使用由路由器引導的結構化剪枝。該路由器與模型共同訓練,使用處理學生模型大小的輔助損失以及原始的知識蒸餾損失。這項技術能夠以從頭預訓練或傳統壓縮成本的一小部分,實現最優的學生模型。
路由器如何決定剪枝內容
Nemotron Elastic 引入了一個端到端訓練的路由器,它在知識蒸餾運行的同時,對多個壓縮軸執行神經架構搜索。對於 Nano 4B,該框架被用於單一預算配置——僅針對 4B 參數數量——路由器的作用是確定剪枝哪些軸以及剪枝多少,以達到目標預算。
路由器有四個剪枝軸可供選擇:
對於每個寬度軸,通過根據基於激活的顯著性評分對通道、頭和神經元進行排序,向路由器提供有關組件重要性的先驗知識。對於深度,使用了基於歸一化 MSE 的層重要性排名:迭代地移除每一層,並測量對完整模型輸出 Logits 的影響,從而得出哪些層最重要的原則性排序。更多細節可以在 Nemotron Elastic 論文中找到。
給定 4B 目標參數預算,路由器收斂於以下剪枝決策: