Falcon Perception：用於視覺與語言的統一早期融合 Transformer 模型

Huggingface·4 天前

Huggingface 推出了 Falcon Perception 與 Falcon OCR，採用單一早期融合 Transformer 骨幹架構，在密集感知與高吞吐量 OCR 任務中達到了頂尖性能。

Falcon Perception

我們同時發布了 Falcon OCR，這是一個擁有 0.3B 參數的模型，在 olmOCR 基準測試和 OmniDocBench 上分別達到了 80.3 和 88.6 的分數，同時擁有所有開源 OCR 模型中最高的吞吐量。

這篇文章是對我們構建了什麼、為什麼這樣構建，以及在此過程中所學到經驗的簡短實用總結。

問題：為什麼感知系統最終會變成流水線（Pipelines）？

許多開放詞彙感知系統是作為模組化流水線構建的：一個（通常是凍結的）視覺主幹提取特徵，一個獨立的融合/解碼階段將其與語言結合，還有額外的組件處理匹配和後處理。這類設計在許多場景下運作良好，但也伴隨著權衡：它難以乾淨地擴展，難以將改進歸功於正確的組件，且隨著我們為每種失敗模式添加新的修復方案，複雜性很容易累積。

我們提出了一個更簡單的問題：如果我們選擇正確的注意力模式、輸出接口和訓練信號，單個早期融合（Early-fusion）的 Transformer 主幹是否能同時處理感知和語言建模？

在我們的實驗中，答案很大程度上是肯定的。本文的其餘部分描述了主要的設計選擇及其背後的證據。

架構：早期融合、混合注意力與高效的密集接口

falcon_inference

單個自回歸 Transformer 處理圖像補丁（Patches）、文本和任務標記（Tokens）的統一序列。
模型按固定順序預測對象屬性：<coord> → <size> → <seg>。
邊界框坐標和尺寸通過專門的標頭（Heads）解碼，並作為傅立葉特徵（Fourier features）重新注入。
高解析度分割遮罩（Segmentation masks）通過 <seg> 標記與上採樣圖像特徵之間的點積生成。

單一主幹，兩種行為

Falcon Perception 的核心是一個密集 Transformer，從第一層開始就在共享參數空間中處理圖像補丁和文本標記。我們不使用單獨的視覺主幹後接晚期融合（Late-fusion）解碼器，而是保持單一主幹，並依靠遮罩（Masking）和輕量級輸出接口來使密集預測問題變得可處理。

圖像和文本具有不同的結構：像素是 2D 的，受益於雙向上下文，而預測接口自然是序列化的。我們通過混合注意力遮罩來解決這個問題：

這使得同一個主幹在圖像標記上表現得像雙向視覺編碼器，同時仍支持對任務標記進行自回歸預測。

感知鏈（Chain-of-Perception）：針對密集輸出的從粗到細監督

密集感知不是一個固定大小的預測問題：一張圖像可能包含零個或數百個實例。自回歸生成提供了一個乾淨的可變長度接口，但完全自回歸的密集生成（例如，逐個標記生成多邊形或高解析度遮罩）很快就會變得昂貴。

我們使用一個小型結構化接口「感知鏈」（Chain-of-Perception），將每個實例分解為三個步驟：

這種順序是經過深思熟慮的。先確定幾何形狀可以減少歧義（「哪一個實例？」），並使遮罩預測步驟更接近於基於已確定對象的像素細化。

專門標頭，極低開銷

主幹是共享的，而解碼則使用針對輸出類型量身定制的輕量級標頭：

坐標與尺寸標頭使用傅立葉特徵編碼：通過隨機高斯投影將連續坐標映射到高維正弦空間。這克服了神經網絡的光譜偏差，產生比單純離散分箱（Binning）更精確的定位。解碼後的坐標作為後續標記的調節條件重新注入序列中。

分割標頭計算 <seg> 標記的隱藏狀態與內容感知上採樣圖像特徵之間的點積。由於 <seg> 標記是在幾何形狀之後生成的，並且可以訪問早期融合的視覺上下文，我們可以避免在基於解碼器的實例分割訓練中經常出現的單獨遮罩查詢機制和匈牙利匹配（Hungarian matching）。

PBench：旨在隔離缺失環節的基準測試

現有的指代理解（Referring-expression）基準測試（如 RefCOCO）已經飽和——模型通常能達到 90% 以上的分數——而且它們混淆了出錯的原因。模型失敗是因為無法閱讀文本？無法理解空間關係？還是無法處理擁擠場景？

我們推出了 PBench，這是一個診斷性基準測試，根據所需的核心能力對樣本進行分類：

每個樣本針對一種主導能力：OCR 提示避免空間限定詞，空間提示避免圖像內文本消歧。這產生的是能力概況而非單一的不透明分數，使我們更容易決定下一步該在哪裡投入（數據、訓練課程或後訓練）。

訓練：蒸餾、大規模數據與三階段配方

多教師蒸餾

Falcon Perception 並非從隨機權重開始訓練（在我們的消融實驗中，這對分割任務不穩定），而是通過多教師蒸餾進行初始化。兩位強大的視覺教師貢獻了互補的信號：

蒸餾後的初始化在 ImageNet-1k 上達到了 74.25% 的零樣本準確率，在 Pascal VOC 上達到了 85.11% 的線性探測 mIoU，在進行感知特定訓練之前提供了強大的視覺基礎。

數據：5400 萬張圖像、1.95 億個正向表達、4.88 億個硬負樣本

我們通過多階段流水線構建訓練集：

我們保持正負樣本 1:1 的嚴格比例。這使存在校準（Presence calibration）成為首要目標：模型應該能夠可靠地說出「不存在」，而不僅僅是在有信心時繪製遮罩。

三個階段（總計 700 GT）

第一階段 — 上下文內列舉（450 GT）：模型學習自回歸地列出場景清單——預測文本表達及其位置。查詢之間的完全因果注意力使其能夠學習對象的共現關係（「叉子，然後是刀，然後是盤子」）。這建立了廣泛的場景理解。

第二階段 — 任務對齊（225 GT）：修改注意力遮罩，使查詢之間不再互見，模擬推理時的獨立查詢。遮蔽文本標記上的損失，將梯度信號完全集中在存在分類和定位上。這一階段從「場景理解」轉向「回答這個特定問題」。

第三階段 — 長上下文微調（10 GT）：一個短暫的階段，將遮罩限制提高到每個表達 600 個，並使用極小的恆定學習率。這使模型能夠適應極端擁擠的密度，同時不遺忘之前的能力。

通過消融實驗驗證的關鍵設計選擇：

結果

SA-Co：同類最佳的遮罩質量

在 SA-Co 開放詞彙分割基準測試中，Falcon Perception（0.6B 參數）達到了 68.0 的 Macro-F1，而 SAM 3 為 62.3，在屬性密集型（+8.2）、食物與飲料（+12.2）和體育器材（+4.0）分項上有大幅提升。同時，Falcon Perception 在存在校準（MCC: 0.64 vs 0.82）方面落後於 SAM 3，這是目前最明確的改進方向。

這是一個輸出示例——提示詞「Falcon」產生了精確的實例遮罩：

falcon_demo

Falcon Perception 在指代理解方面也表現出色，能夠正確分割影片每一幀中帶有黑色麵包的漢堡：

burger_output

PBench：隨提示複雜度擴展

這是早期融合設計展現出最大差異的地方：

在簡單對象上，差距並不明顯。隨著提示變得更具組合性——需要 OCR 引導的消歧、空間約束或關係綁定——差距隨之擴大。

在我們的 PBench 密集分項中，Falcon Perception (0.6B) 顯著優於通用 VLM 基準模型（例如，在我們的評估設置中為 72.6 對比 Qwen3-VL-30B 的 8.9），並且在空間和關係層級上達到或超過了 8B 模型。

定性結果：OCR、空間、關係與密集場景

隨著提示變得更具組合性——需要 OCR 引導的消歧、空間約束、關係綁定，或擴展到數百個實例——早期融合的優勢在視覺上變得清晰：

Level 2: OCR-guided identification — Falcon Perception vs SAM 3

「168 葡萄酒瓶」：Falcon Perception 識別出標有「168」的瓶子，而 SAM 3 則標註了所有瓶子。「檀香山方向指示牌」：Falcon 閱讀文本以找到正確的牌子。

Level 3: Spatial understanding — Falcon Perception vs SAM 3

「左側烤架上較低的肉串」、「底部紅色汽車右側的黑色汽車」、「左側的比利時國旗」——Falcon Perception 根據空間約束解析出正確的實例。SAM 3 對多個候選對象預測了假陽性。

Level 4: Relational reasoning — Falcon Perception vs SAM 3

「棕色圓麵包旁邊的糕點」、「正在使用手機的人」、「手裡拿著頭盔的人」——Falcon Perception 識別出發生交互的實例。SAM 3 標註了該對象類別的所有實例，忽略了關係約束。

Dense split: Falcon Perception scales to hundreds of instances

「雪鵝」、「鴿子」、「五顏六色的罐裝飲料」——Falcon Perception 自回歸地分割出數百個實例。SAM 3 的固定大小解碼器在超過約 200 個實例後會耗盡查詢標記。

Falcon OCR：將早期融合擴展到文檔理解

現代 OCR 已經遠遠超出了從乾淨掃描件中提取文本的範疇。今天的系統必須一次性處理多欄佈局、數學公式、表格、圖表和多語言內容。大多數具競爭力的 OCR VLM 使用熟悉的配方：視覺編碼器饋送給獨立的文本解碼器，加上特定任務的粘合組件。這些系統雖然有效，但往往體積龐大（1B–3B+ 參數）。

我們走了一條不同的路：重複使用來自 Falcon Perception 的相同早期融合密集 Transformer，但從頭開始訓練一個專門用於 OCR 的較小 0.3B 參數變體。結果就是 Falcon OCR——一個單一主幹，在共享參數空間中處理圖像補丁和文本標記，使用相同的混合注意力遮罩（圖像標記為雙向，文本標記為因果），並通過提示而非額外模組切換任務。

我們從頭開始訓練（沒有多教師蒸餾），因為 OCR 需要的視覺特徵（細粒度的字形識別、筆畫級區分）與對分割有用的對象級特徵有實質性不同。從頭開始讓主幹能夠從基礎發展出針對文本優化的表示。

訓練

我們在精心策劃的英文混合數據集上進行訓練，涵蓋三個核心任務：通用文檔文本解析（數位 PDF、舊掃描件、打字文檔）、數學和科學公式識別，以及表格結構識別。該混合數據還包括手寫體、現實場景文本，以及從渲染的 LaTeX 和 HTML 源生成的合成樣本。訓練目標是對結構化文本輸出進行純粹的下一個標記預測。

訓練分兩個階段進行：一個是以恆定學習率進行的漫長預訓練階段，模型學習所有元素類型的核心 OCR 能力；隨後是一個短暫的餘弦衰減微調階段，學習率退火至接近零。

基準測試結果

我們在 olmOCR（跨多種輸入的二元正確性檢查）和 OmniDocBench（整頁解析的連續指標）上進行評估。所有對比模型都顯著更大且/或使用專有基礎設施。Falcon OCR 僅憑 0.3B 參數在 olmOCR 上達到 80.3%，與頂級系統的差距在 1.7 分以內，並在多欄（87.1%）和表格（90.3%）方面領先所有模型。在 OmniDocBench 上，它的總分為 88.64，領先於 DeepSeek OCR v2、GPT 5.2 和 Mistral OCR 3。

服務吞吐量

Falcon OCR 的參數為 0.3B，大約比 0.9B 級別的 OCR VLM 小 3 倍，這直接轉化為更高的服務吞吐量。在單張 A100-80GB 上使用 vLLM 在高併發下測得：

緊湊的佔用空間和 vLLM 集成（連續批處理、PagedAttention、優化的 CUDA 內核）使其在需要處理數百萬頁的大規模文檔數位化中非常實用。

我們從結果中看到了什麼

更廣泛地說，這些結果表明，早期融合的單堆棧 Transformer 是 OCR「視覺編碼器加文本解碼器」配方的一個可行替代方案。單一主幹、共享參數空間、單一解碼接口，以及更好的數據和訓練信號，而非日益複雜的流水線。我們希望這能鼓勵更多這方面的工作。

定性示例

Falcon OCR 處理在具有挑戰性的現實條件下捕獲的圖像，包括變化的光照、多樣的文本語義（數學公式、結構化表格、手寫筆記）和複雜的文檔佈局，以產生結構化的文本輸出。

點擊下方各個類別以展開。

Falcon OCR: handwriting and real-world image transcription

Falcon OCR 從具有不同光照、方向和內容複雜性的手寫文檔和現實照片中提取文本。

Falcon OCR: table extraction from documents

Falcon OCR 準確地從各種格式和複雜程度的表格中還原單元格條目和結構佈局。

Falcon OCR: mathematical formula recognition

Falcon OCR 正確轉錄數學表達式，範圍從簡單方程到帶有嵌套運算符的多行推導。

Falcon OCR: complex document layout extraction

Falcon OCR 在從具有多欄佈局、插圖和腳註的文檔中提取文本時，保持了閱讀順序和結構忠實度。

推理：快速、實用且開放

此次發布包含一個基於 PyTorch FlexAttention 構建的推理棧，這使得表達自定義注意力模式並高效服務打包的可變長度序列變得切實可行。

分頁推理引擎

在我們使用 H100 的設置中，典型延遲約為：預填充（Prefill）~100ms，上採樣 ~200ms（如果已緩存則為 0ms），以及針對少數實例的解碼 ~50ms。（這些數字取決於解析度、序列長度和預測實例的數量。）

Falcon-OCR 的 Docker 和 MLX 集成

對於 Falcon-OCR 模型，我們還提供了一個用於快速部署的 vLLM Docker 伺服器，以及針對 Apple Silicon 的 MLX 集成。

詳情請查看 GitHub 倉庫。

大局觀：感知的「慘痛教訓」

Falcon Perception 刻意保持極簡：一個主幹、一個目標系列，且僅在輸出為連續和密集的地方使用小型標頭。其工作假設是，大部分收益應來自數據、計算和訓練信號，而不是通過專門模組不斷擴展流水線。

該架構並未阻礙任何明顯的擴展路徑：添加更多圖像和更難的提示以獲得更好的對齊，混入純文本數據以獲得更好的語言能力，增加上下文長度以處理更密集的場景。它仍然只是一個序列模型。

Falcon Perception 由阿拉伯聯合大公國阿布達比技術創新研究所 (TII) 的 Falcon 視覺團隊開發。