Nemotron 3 Content Safety 4B：多模態與多語言內容審核模型

Huggingface·16 天前

NVIDIA 推出了 Nemotron 3 Content Safety 4B，這是一款專為跨 140 多種語言和不同文化背景提供準確、低延遲內容審核而設計的多模態與多語言模型。該模型基於 Gemma-3 4B-IT 基礎構建，擅長識別涉及文本與圖像複雜交互中的安全違規行為。

Nemotron 3 Content Safety 4B：多模態、多語言內容審核

早期的安全模型僅限於文本，且主要針對英文數據進行訓練，在處理非英文和多語言提示詞時表現不佳，經常忽略文化細微差異。為了瞭解決這一問題，NVIDIA 開發了多模態、多語言的 Nemotron 3 Content Safety 模型。該模型使用來自 Nemotron Safety Guard Dataset v3 的新型、具備文化一致性的多語言安全數據進行訓練。在這些數據上訓練的多語言安全模型在多語言基準測試中展現了卓越的性能。

為什麼多模態內容安全很重要？

多模態輸入（例如文本與圖像配對）的複雜性對安全模型提出了重大挑戰，因為其含義通常並非簡單疊加。例如，一張普通家用物品（如常見的廚房刀具）的圖像配以「這是一個很棒的烹飪工具」的文本是安全的；但同一張圖像配以「我要用這個來傷害某人」的文本，則變成了明顯違反政策的行為，需要立即進行審核。

多模態多語言內容安全具有挑戰性，因為它需要理解文化和語言背景，尤其是在多模態 AI 中。安全模型不僅必須處理多種語言，還必須識別語言和文化背景如何改變「提示詞-圖像」對的安全狀態。例如，一個包含傳統宗教符號（如卐字元）的提示詞圖像，配以描述慶祝活動的文本，在某種語言和文化（如印度）中可能是完全可以接受的；但當配以相同的圖像和文本，卻使用另一種具有群體衝突歷史的語言（如德語）時，這種組合可能會被解釋為煽動仇恨言論或歧視，需要立即審核。這種對文化細微差異的敏感度對於準確、全球部署的內容安全模型至關重要。

模型運作原理

Nemotron 3 Content Safety 構建於 Gemma-3 4B-IT 視覺語言基礎模型之上，該模型提供強大的多模態推理、指令遵循能力、128K 上下文窗口，並支持超過 140 種語言。NVIDIA 使用 LoRA 適配器（adapter）對該基礎模型進行了微調，在保持模型輕量且高效的同時，添加了針對性的安全分類行為。

當用戶提供文本、圖像或兩者兼有時，模型會共同編碼視覺和語言特徵，並輸出簡潔的安全判斷。如果包含助手的回答，模型會評估整個交互過程，以確定該回答在特定語境下是否安全，從而使其能夠捕捉僅由請求、圖像和輸出之間的相互作用而產生的違規行為。

它支持兩種推理模式：

安全類別遵循 Aegis AI Content Safety Dataset v2 分類法，該分類法與 ML Commons 安全分類法緊密結合，並支持在開放和封閉的防禦系統之間進行比較。

Nemotron 3 Content Safety 是如何構建的

Nemotron 3 Content Safety 模型構建於強大的底層多模態多語言基礎模型之上，並在文化多樣化的多語言和人工標記的多模態數據集上進行了微調，這些數據集由文本、真實世界圖像、螢幕截圖、文檔和針對性的合成範例組成。

我們的整體訓練數據組合包括：

上述數據組合確保了在各種傷害類別中的多語言和特定領域覆蓋，例如有害語言、自殘、騷擾、隱私侵犯、越獄模式和特定地區的安全政策。所有純英文文本數據都被翻譯成 12 種不同的語言——英語、阿拉伯語、德語、西班牙語、法語、印地語、日語、泰語、荷蘭語、意大利語、韓語和中文——反映了現代 LLM 和企業代理運行的多語言環境。我們隨機移除約 25% 訓練數據的安全類別，並配合字串切換參數 /no_categories。這教會模型如果開啟此切換，則跳過安全類別的生成。

這種組合確保了模型能夠跨模態和跨語言進行泛化，這是其他同類安全防禦系統難以企及的。

合成數據生成 (SDG)

合成數據生成 (SDG) 被用來補充人工來源的數據。SDG 在多個方面做出了貢獻：

此外，SDG 在獲取難以從人工來源獲得的高度特定數據方面發揮了重要作用，例如安全輸入（提示詞和圖像）導致不安全回答的情況。Mixtral 8x 22B、Gemma 3-27B 和 Microsoft Phi-4 等開放模型被整合到我們的 SDG 流程中。

值得注意的是，合成數據僅佔總訓練數據的約 10%；大部分數據源自人工，包括手寫提示詞和真實圖像。

NVIDIA 長期致力於 LLM 安全和護欄（guardrails）的開放技術投資。Nemotron 3 Content Safety 模型是 NVIDIA 利用先前在內容安全領域的研究成果，推出的下一代開放內容安全模型。

基準測試

Nemotron 3 Content Safety 在已建立的開放多模態和多語言基準測試中進行了評估，包括 Polyguard、RTP-LX、VLGuard、MM SafetyBench 和 Figstep。這些基準測試模擬了真實代理會遇到的場景：混合語言對話、帶有嵌入文本的螢幕截圖、視覺驅動的安全風險，以及僅在文本和圖像結合考慮時含義才會發生變化的情況。

在這些基準測試中，該模型在其規模級別上提供了行業領先的準確性。在多模態有害內容測試中，它平均達到了 84% 的準確率，優於同類的開放安全模型。

Nemotron 3 Content Safety 模型準確率（有害 F1 分數）與其他安全模型在多模態、多語言有害內容基準測試中的對比

這一優勢也延續到了多語言評估中。該模型在 12 種語言中保持了強大且一致的準確性，包括許多安全系統表現大幅下降的語言。這反映了其多語言訓練數據以及跨語言解釋圖像嵌入文本的能力。此外，該模型在葡萄牙語、瑞典語、俄語、捷克語、波蘭語和孟加拉語等其他語言中也展現了強大的零樣本（zero-shot）泛化能力。

Nemotron 3 Content Safety 模型與其他安全模型在 12 種語言中的準確率對比

對於代理系統而言，僅有準確性是不夠的；安全檢查必須在不減慢代理循環的情況下運行。Nemotron 3 Content Safety 針對低延遲推理進行了優化，在平均值、中位數和 P99 測量中，其延遲大約僅為較大型多模態安全模型的一半。這使得它能夠在規劃循環、工具調用和交互式應用程序中進行實時使用——即使是在 8GB+ VRAM 的 GPU 上。

平均延遲僅為其他安全模型的一半

綜合來看，基準測試顯示該模型準確、具備多語言與多模態能力，且速度足以在現代 AI 代理和安全關鍵型工作流中進行實際部署。

開始使用

Nemotron 3 Content Safety 模型已在 Hugging Face 上提供，可以輕鬆地為您的代理 AI 應用程序添加多模態和多語言安全功能。開發者可以通過標準的 transformers 或 vLLM 接口加載模型，並對文本、圖像或兩者結合進行安全檢查。

該模型可以部署在代理循環中進行同步審核，用於文檔或圖像審查的批處理流水線，或作為自定義服務中的安全層——幫助團隊在全球用戶群中發布準確、實時的多模態審核功能。

今年 4 月，該模型還將作為生產級 NVIDIA NIM 提供，為開發者提供預封裝、安全加固且經過 GPU 優化的推理微服務，讓您可以跳過底層模型服務的搭建，更快地將可靠、可擴展的 AI 功能投入生產。

社群

· 註冊或登入以發表評論

https://huggingface.co/blog/nvidia/nemotron-3-content-safety