Granite 4.1 大型語言模型:構建過程全解析
Granite 4.1 是一個僅包含解碼器的稠密大型語言模型系列,透過 15 兆個標記的多階段預訓練流程打造而成,強調數據品質並將上下文擴展至 512K 標記。這些模型利用 GRPO 等先進的強化學習技術,使其性能達到甚至超越了參數規模更大的混合專家模型架構。
Granite 4.1 LLM:構建過程詳解
作者:Granite 團隊,IBM
摘要(TL;DR)— Granite 4.1 是一個僅包含解碼器(decoder-only)的稠密 LLM 系列(3B、8B 和 30B),在約 15 兆(15T)個 token 上進行訓練。訓練採用了多階段預訓練流水線,包括高達 512K token 的長文本擴展。這些模型透過約 410 萬個高品質精選樣本進行監督式微調(SFT),並結合帶有 DAPO 損失的在線策略 GRPO(on-policy GRPO with DAPO loss, Yu et al., 2025)進行強化學習優化。值得注意的是,儘管 8B 指令模型採用了參數較少的簡單稠密架構,其表現已達到或超越了前一代 Granite 4.0-H-Small(32B-A9B MoE)。所有 Granite 4.1 模型均以 Apache 2.0 許可證發佈。
相關連結:
概述
構建高品質的小型語言模型不僅僅是擴展計算規模,更需要在整個訓練過程中進行嚴格的數據精選。對於 Granite 4.1,我們將數據質量置於數量之上,在五個預訓練階段中逐步細化數據混合比例。我們進一步利用 LLM-as-Judge 框架精選監督式微調數據,並應用多階段強化學習流水線,系統性地增強模型在數學、編碼、指令遵循和通用對話方面的性能。
模型架構
Granite 4.1 模型採用僅解碼器的稠密 Transformer 架構。核心設計選擇包括分組查詢注意力(Grouped Query Attention, GQA)、旋轉位置嵌入(Rotary Position Embeddings, RoPE)、SwiGLU 激活函數、RMSNorm 以及共享輸入/輸出嵌入。
三種規模的模型共享相同的訓練流水線和數據策略,僅在架構維度上有所不同。
預訓練
Granite 4.1 使用五階段訓練策略,從零開始在約 15 兆個 token 上進行訓練。第 1-2 階段側重於基礎預訓練;第 3-4 階段進行中期訓練(mid-training),使用逐漸提高質量的數據進行退火(annealing);第 5 階段引入長文本訓練,將上下文窗口擴展至 512K token。每個階段都採用獨特的數據混合和學習率排程,從廣泛的網頁規模數據逐漸轉向更精選的特定領域內容。

圖 2:五階段預訓練流水線。第 1-2 階段為預訓練,第 3-4 階段為中期訓練(高品質數據退火),第 5 階段為長文本訓練(LCE)。
第 1 階段:通用預訓練(10T token)
第一階段透過通用的訓練數據混合,配合冪律學習率排程和預熱,建立廣泛的語言理解能力。
數據組成:
第 2 階段:數學/代碼預訓練(2T token)
第二階段大幅增加了代碼和數學數據的比例,轉向強化推理能力,同時仍保持通用的語言覆蓋。
數據組成:
第 3 階段:高品質數據退火(2T token)
第三階段進入中期訓練,採用更平衡的高品質混合數據和指數衰減學習率排程。在此階段,我們開始融入思維鏈(CoT)和合成指令數據。
數據組成:
第 4 階段:高品質數據退火 — 精煉(0.5T token)
第四階段繼續中期訓練,學習率線性衰減至零,使模型專注於現有的最高品質數據。
數據組成:

圖 3:數據混合在預訓練階段的演變。請注意從以網頁為主(第 1 階段)到以指令和推理數據為主的質量轉向(第 3-4 階段)。
第 5 階段:長文本訓練(LCE)
第五階段也是中期訓練的一部分,透過分階段的長文本擴展過程,將上下文窗口從 4K 擴展到 512K:
LCE 階段使用指數學習率排程,從 1e-4 開始衰減至 0。為了確保模型能原生處理長序列而不降低短文本性能,我們在每個 LCE 階段後都會進行模型合併。基礎模型的 RULER 基準測試結果:
SFT:數據準備與質量控制
監督式微調(SFT)是將基礎模型轉化為可靠指令遵循助手的關鍵,這使得數據質量至關重要——因為即使是少量的錯誤或幻覺樣本也會植入不良行為。為了解決這個問題,我們應用了嚴格的 LLM-as-Judge 框架以及基於規則的過濾來精選高品質樣本。該流水線會根據結構、語義和行為標準自動評估每個樣本,盡可能修復問題,並過濾掉不符合質量標準的樣本。

圖 4:SFT 數據質量流水線。原始對話數據通過具有多維度評分標準的 LLM-as-Judge,產生接受/邊緣/拒絕的判定。硬性拒絕缺陷(幻覺、錯誤前提、計算錯誤)無論得分高低都會觸發自動拒絕。
我們嚴格的 LLM-as-Judge 框架僅評估助手的回答,將系統提示、用戶輸入、檢索到的文檔和工具輸出嚴格視為上下文信息。這確保了評判者評估的是模型「說了什麼」,而不是它被「要求做什麼」。在 RAG 場景中,未基於檢索上下文的回答會被標記為幻覺;而工具調用輸出則會根據允許的工具集及其參數架構進行驗證。
我們針對不同的 SFT 數據類型(包括多輪對話、RAG 增強回答、工具調用交互和多語言對話)採用了專門的評判提示詞。每個回答根據六個加權維度進行評分:指令遵循、正確性、完整性、簡潔性、自然度以及校準(可選批判性思考檢查)。樣本根據確定的分數閾值被接受、標記為邊緣或拒絕,而硬性拒絕規則會針對幻覺、錯誤前提或計算錯誤等嚴重缺陷覆蓋評分。
為了補充語義評估,我們應用了確定性的基於規則的流水線,透過文本標準化、截斷與長度過濾、架構驗證和洩漏檢測來強制執行結構完整性。最後的全局去重步驟確保了整個數據集的唯一性。所有過濾和修正操作均完全可審計。
SFT 訓練細節
在通過 LLM-as-Judge、基於規則的過濾和全局去重流水線後,我們在約 410 萬個高品質樣本上對基礎模型進行微調。以下細節適用於所有三種模型變體:
訓練配置:
強化學習:多階段 RL 流水線
在 SFT 之後,我們應用多階段強化學習流水線來進一步提升模型在特定領域的能力。我們並非進行單次 RL,而是運行多個有針對性的 RL 階段,每個階段針對不同的能力進行優化。
訓練方法
我們使用帶有 DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)損失(Yu et al., 2025)的在線策略 GRPO(Group Relative Policy Optimization)(Shao et al., 2024),這比標準 GRPO 提供更穩定的訓練信號。然而,由於動態採樣的計算強度較高,我們在訓練運行中將其關閉。
RL 訓練配置
RL 流水線
圖 10 展示了我們用於訓練 Granite 4.1 模型的強化學習流水線。透過對各種強化學習方案的大量實驗,我們發現這一系列步驟能在最大限度提升多領域性能的同時,將災難性遺忘降至最低。

圖 10:Granite 4.1 強化學習流水線,由四個連續階段組成:多領域 RL、RLHF、身份與知識校準 RL,以及數學 RL。
多領域 RL
在此階段,模型在來自多個領域的統一混合數據上進行聯合訓練。因此,每次梯度更新都反映了任務的多樣性,這能防止災難性遺忘,提升整體基準測試性能,並減少單個任務上的退步。
此階段涵蓋的不同領域包括:
在此階段,我們在 45,504 個唯一提示詞上訓練模型(所有 Granite 4.1 模型的平均值),發現學習率 5e-7 配合 KL 損失係數 ($\beta$) 0.05 對於多領域強化學習效果最佳。
RLHF
為了進一步提升模型的幫助性和對話能力,我們使用多語言標量獎勵模型在通用對話提示詞上訓練模型。在此階段,我們觀察到與 SFT 檢查點相比,Alpaca-Eval 的平均得分提升了約 18.9 分(三款 Granite 4.1 模型的平均值)。
為了減輕策略偏離先前學到的知識,我們在此階段使用了保守的學習率 3e-7 和較高的 KL 損失係數 $\beta$ 0.09。我們在此 RLHF 階段平均使用了 17,920 個唯一提示詞。
身份與知識校準 RL
在此階段,我們在身份和知識校準提示詞上對模型進行了少量步驟(約 40 個訓練步)的訓練。我們觀察到這個微小的訓練階段顯著提升了模型的自我識別能力。
與 RLHF 階段類似,我們使用了 3e-7 的學習率和 0.09 的 KL 損失係數 $\beta$,並在此階段使用了 1728 個唯一提示詞。
數學 RL
在 RL 訓練過程中,我們發現 RLHF 階段會導致數學基準測試分數下降(例如 GSM8K、DeepMind-Math)。數學 RL 階段使模型能夠從這種下降中恢復,並超越原始 SFT 在數學基準測試上的表現:GSM8K 平均提升約 3.8 分,DeepMind-Math 平均提升約 23.48 分。我們在此階段平均使用了 13,504 個唯一提示詞,並與多領域 RL 階段類似,使用了 5e-7 的學習率和 0.05 的 KL 損失係數 $\beta$。
結果
基礎模型基準測試
指令模型基準測試
支持語言:英語、德語、西班牙語、法語、日語、葡萄牙語、阿拉伯語、捷克語、意大利語、韓語、荷蘭語和中文。
Granite 4.1 與領先開源模型的比較
Granite 4.1 在不依賴長思維鏈的情況下,提供了極具競爭力的指令遵循和工具調用能力。透過避免冗長的推理軌跡,它提供了可預測的延遲、穩定的 token 使用量和更低的運營成本。這使得 Granite 4.1 成為企業工作負載中注重效率、可靠性和成本控制的生產級開源選擇。


Granite 4.1-8B vs. Granite 4.0-H-Small (32B-A9B)
一個驚人的結果:Granite 4.1-8B 稠密模型在各項基準測試中始終與前一代 Granite 4.0-H-Small(具有 9B 激活參數的 32B 參數專家混合模型)持平或更優。

圖 13:Granite 4.1-8B(深藍色)與 Granite 4.0-H-Small 32B-A9B(淺藍色)在各項基準測試中的對比。這款 8B 稠密模型在 IFEval、AlpacaEval、MMLU-Pro、BBH、GSM8K、DeepMind-Math、Evalplus、ArenaHard、BFCL V3 和 MBPP(+) 上均達到或超過了規模更大的 MoE 模型。
Granite 4.1 模型系列比較

圖 14:Granite 4.1 系列(30B、8B 和 3B 模型)的比較。分數隨模型規模可預測地增長,其中 30B 模型在所有基準測試中領先。
FP8 量化
我們還發佈了 Granite 4.1 模型的 fp8 量化版本,針對 vLLM 推理進行了優化。精度從 16 位降低到 8 位,使磁盤佔用空間和 GPU 顯存使用量均減少了約 50%。量化僅透過 LLM Compressor 應用於 Transformer 塊內線性算子的權重和激活,而所有其他層則保留原始精度。
基礎設施
我們在 CoreWeave 託管的 NVIDIA GB200 NVL72 集群上訓練了 Granite 4.1 語言模型:
該基礎設施提供了高效分佈式訓練所需的可擴展、高帶寬互連,以處理所需的 token 總量(僅預訓練階段就超過 15T token)。
開始使用
Granite 4.1 模型在 Apache 2.0 許可證下提供。以下是如何開始使用 30B 指令模型進行工具調用的示例:
預期輸出:
資源:
Granite 4.1 標誌著高品質開源語言模型邁出了重要一步。透過在每個階段(從預訓練精選到監督式微調和多階段強化學習)優先考慮數據質量和嚴謹性,我們提供了一個大幅改進的後訓練流水線。結果是更強的指令遵循、工具使用和對話性能,證明了精心訓練的稠密 8B 模型可以與更大規模的 MoE 架構相媲美。我們期待看到社區如何採用並基於這些模型進行構建。
本文提到的論文 1
更多來自此作者的內容
Granite 4.0 3B Vision:適用於企業文檔的緊湊型多模態智能
Mellea 0.4.0 + Granite 庫發佈的新功能
社區
· 註冊或登錄以發表評論
本文提到的論文 1
相關文章
其他收藏 · 0