newsence
Granite 4.0 3B Vision:專為企業文件打造的輕量化多模態智慧模型

Granite 4.0 3B Vision:專為企業文件打造的輕量化多模態智慧模型

Huggingface·5 天前

IBM 推出 Granite 4.0 3B Vision,這是一款專為企業文件任務優化的輕量化多模態模型,透過全新的 ChartNet 資料集與 DeepStack 架構,在圖表理解與表格擷取方面表現出色。

Granite 4.0 3B Vision:適用於企業文件的緊湊型多模態智慧模型

該模型以 LoRA 適配器(adapter)的形式搭載於我們的密集語言模型 Granite 4.0 Micro 之上,保持視覺與語言的模組化,以便在僅限文本的情況下進行備援,並無縫整合至混合工作流中。它持續支援視覺語言任務,例如根據圖像生成詳細的自然語言描述(例如:「詳細描述這張圖片」)。該模型可獨立使用,或與 Docling 協同工作,以深層視覺理解能力增強文件處理流程。

Granite 4.0 3B Vision 是如何構建的

Granite 4.0 3B Vision 的性能源於三項關鍵投入:透過創新的代碼引導數據增強方法構建的專用圖表理解數據集、一種能夠實現高細節視覺特徵注入的 DeepStack 架構新變體,以及使模型便於企業部署的模組化設計。

ChartNet:教導模型真正理解圖表

圖表對視覺語言模型(VLM)構成了挑戰,因為理解圖表需要對視覺模式、數值數據和自然語言進行聯合推理,這是大多數 VLM 無法很好處理的組合,尤其是在涉及空間精確度時——例如從折線圖中讀取準確數值。為了彌補這一差距,我們開發了 ChartNet:一個專為圖表解釋和推理而構建的百萬級多模態數據集,詳情見我們即將發表的 CVPR 2026 論文。

ChartNet 使用代碼引導的合成流程,生成了涵蓋 24 種圖表類型和 6 個繪圖庫的 170 萬個多樣化圖表樣本 [見圖 1]。其獨特之處在於每個樣本由五個對齊的組件組成——繪圖代碼、渲染圖像、數據表、自然語言摘要和問答對——為模型提供了關於圖表含義(而不僅僅是外觀)的深層跨模態視角。該數據集還包括經過視覺保真度、語義準確性和多樣性篩選的人工標註及真實世界子集。

其結果是產生了一種訓練資源,使 VLM 從僅僅描述圖表轉向真正理解其編碼的結構化信息——在各種模型大小、架構和任務中均取得了持續的進步。

圖 1:ChartNet 的合成數據生成流程。

chartnet (1)

DeepStack:更聰明的視覺特徵注入

大多數 VLM 在單一點將視覺信息注入其語言模型,這迫使模型同時處理高層語義和細粒度的空間細節。Granite 4.0 3B Vision 採用了不同的 DeepStack 注入方法:抽象語義特徵被路由到較早的層級進行語義理解,而高解析度空間特徵則被饋送到較後的層級以保留細節。其結果是模型既能理解文件中的內容,也能理解內容的位置——這對於表格提取、圖表理解和關鍵值對(KVP)解析等佈局與內容同樣重要的任務至關重要。如需完整的技術細節,請參閱模型卡(model card)的「模型架構」部分。

模組化:一種模型,兩種模式

Granite 4.0 3B Vision 是作為 Granite 4.0 Micro 之上的 LoRA 適配器封裝的,而非獨立模型。在實踐中,這意味著同一個部署可以同時處理多模態和純文本工作負載,在不需要視覺功能時自動回退到基礎模型。這在不犧牲性能的前提下,保持了企業整合的簡便性。

性能表現

圖表:在經過人工驗證的 ChartNet 基準測試中,使用 LLM-as-a-judge(大模型評測)進行評估,Granite 4.0 3B Vision 在所有受評模型(包括顯著更大的模型)中獲得了最高的 Chart2Summary 分數(86.4%)[見圖 2]。它在 Chart2CSV(62.1%)中也排名第二,僅次於 Qwen3.5-9B(63.4%),而後者的規模是其兩倍多。

圖 2:Granite 4.0 3B Vision 在 chart2csv 和 chart2summary 上的表現,並使用 LLM-as-a-judge 與同類視覺語言模型進行對比。

image

表格:我們在兩種場景下評估表格提取:裁剪表格(孤立區域)和整頁文件(嵌入複雜佈局中的表格)[見圖 3]。基準測試套件包括 TableVQA-extract(裁剪表格圖像)、OmniDocBench-tables(整頁文件)和 PubTables-v2(裁剪和整頁場景)。模型任務是以 HTML 格式提取表格,並使用 TEDS(一種同時捕捉結構和內容準確性的指標)進行評分。Granite 4.0 3B Vision 在各項基準測試中表現最強,在 PubTablesV2 的裁剪(92.1)和整頁(79.3)場景、OmniDocBench(64.0)以及 TableVQA(88.1)分數上均領先於所有受評模型。

圖 3:Granite 4.0 3B Vision 在裁剪和整頁基準測試(TableVQA-extract、PubTables-v2、OmniDocBench-tables)中的表格提取性能,以 TEDS 衡量。

Tables

語義 KVP:VAREX 是一個專門為區分小型提取模型而設計的基準測試,包含 1,777 份美國政府表單,涵蓋從簡單的扁平佈局到複雜的嵌套和表格結構。模型使用精確匹配(EM)進行評估,這是一個嚴格的指標,要求模型提取的鍵值對必須與標準答案完全一致。Granite 4.0 3B Vision 在零樣本(zero-shot)情況下達到了 85.5% 的 EM 準確度。

如何使用

Granite 4.0 3B

https://huggingface.co/blog/ibm-granite/granite-4-vision