Granite 4.0 3B Vision：專為企業文件打造的輕量化多模態智慧模型

Huggingface·5 天前

IBM 推出 Granite 4.0 3B Vision，這是一款專為企業文件任務優化的輕量化多模態模型，透過全新的 ChartNet 資料集與 DeepStack 架構，在圖表理解與表格擷取方面表現出色。

Granite 4.0 3B Vision：適用於企業文件的緊湊型多模態智慧模型

該模型以 LoRA 適配器（adapter）的形式搭載於我們的密集語言模型 Granite 4.0 Micro 之上，保持視覺與語言的模組化，以便在僅限文本的情況下進行備援，並無縫整合至混合工作流中。它持續支援視覺語言任務，例如根據圖像生成詳細的自然語言描述（例如：「詳細描述這張圖片」）。該模型可獨立使用，或與 Docling 協同工作，以深層視覺理解能力增強文件處理流程。

Granite 4.0 3B Vision 是如何構建的

Granite 4.0 3B Vision 的性能源於三項關鍵投入：透過創新的代碼引導數據增強方法構建的專用圖表理解數據集、一種能夠實現高細節視覺特徵注入的 DeepStack 架構新變體，以及使模型便於企業部署的模組化設計。

ChartNet：教導模型真正理解圖表

圖表對視覺語言模型（VLM）構成了挑戰，因為理解圖表需要對視覺模式、數值數據和自然語言進行聯合推理，這是大多數 VLM 無法很好處理的組合，尤其是在涉及空間精確度時——例如從折線圖中讀取準確數值。為了彌補這一差距，我們開發了 ChartNet：一個專為圖表解釋和推理而構建的百萬級多模態數據集，詳情見我們即將發表的 CVPR 2026 論文。

ChartNet 使用代碼引導的合成流程，生成了涵蓋 24 種圖表類型和 6 個繪圖庫的 170 萬個多樣化圖表樣本 [見圖 1]。其獨特之處在於每個樣本由五個對齊的組件組成——繪圖代碼、渲染圖像、數據表、自然語言摘要和問答對——為模型提供了關於圖表含義（而不僅僅是外觀）的深層跨模態視角。該數據集還包括經過視覺保真度、語義準確性和多樣性篩選的人工標註及真實世界子集。

其結果是產生了一種訓練資源，使 VLM 從僅僅描述圖表轉向真正理解其編碼的結構化信息——在各種模型大小、架構和任務中均取得了持續的進步。

圖 1：ChartNet 的合成數據生成流程。

chartnet (1)

DeepStack：更聰明的視覺特徵注入

大多數 VLM 在單一點將視覺信息注入其語言模型，這迫使模型同時處理高層語義和細粒度的空間細節。Granite 4.0 3B Vision 採用了不同的 DeepStack 注入方法：抽象語義特徵被路由到較早的層級進行語義理解，而高解析度空間特徵則被饋送到較後的層級以保留細節。其結果是模型既能理解文件中的內容，也能理解內容的位置——這對於表格提取、圖表理解和關鍵值對（KVP）解析等佈局與內容同樣重要的任務至關重要。如需完整的技術細節，請參閱模型卡（model card）的「模型架構」部分。

模組化：一種模型，兩種模式

Granite 4.0 3B Vision 是作為 Granite 4.0 Micro 之上的 LoRA 適配器封裝的，而非獨立模型。在實踐中，這意味著同一個部署可以同時處理多模態和純文本工作負載，在不需要視覺功能時自動回退到基礎模型。這在不犧牲性能的前提下，保持了企業整合的簡便性。

性能表現

圖表：在經過人工驗證的 ChartNet 基準測試中，使用 LLM-as-a-judge（大模型評測）進行評估，Granite 4.0 3B Vision 在所有受評模型（包括顯著更大的模型）中獲得了最高的 Chart2Summary 分數（86.4%）[見圖 2]。它在 Chart2CSV（62.1%）中也排名第二，僅次於 Qwen3.5-9B（63.4%），而後者的規模是其兩倍多。

圖 2：Granite 4.0 3B Vision 在 chart2csv 和 chart2summary 上的表現，並使用 LLM-as-a-judge 與同類視覺語言模型進行對比。

表格：我們在兩種場景下評估表格提取：裁剪表格（孤立區域）和整頁文件（嵌入複雜佈局中的表格）[見圖 3]。基準測試套件包括 TableVQA-extract（裁剪表格圖像）、OmniDocBench-tables（整頁文件）和 PubTables-v2（裁剪和整頁場景）。模型任務是以 HTML 格式提取表格，並使用 TEDS（一種同時捕捉結構和內容準確性的指標）進行評分。Granite 4.0 3B Vision 在各項基準測試中表現最強，在 PubTablesV2 的裁剪（92.1）和整頁（79.3）場景、OmniDocBench（64.0）以及 TableVQA（88.1）分數上均領先於所有受評模型。

圖 3：Granite 4.0 3B Vision 在裁剪和整頁基準測試（TableVQA-extract、PubTables-v2、OmniDocBench-tables）中的表格提取性能，以 TEDS 衡量。

Tables

語義 KVP：VAREX 是一個專門為區分小型提取模型而設計的基準測試，包含 1,777 份美國政府表單，涵蓋從簡單的扁平佈局到複雜的嵌套和表格結構。模型使用精確匹配（EM）進行評估，這是一個嚴格的指標，要求模型提取的鍵值對必須與標準答案完全一致。Granite 4.0 3B Vision 在零樣本（zero-shot）情況下達到了 85.5% 的 EM 準確度。

如何使用

Granite 4.0 3B

https://huggingface.co/blog/ibm-granite/granite-4-vision