核心概念

Granite 4.1 是 IBM 與 Hugging Face 合作發布的開源 LLM 系列,包含 3B、8B、30B 三個密集型 Decoder-only Transformer 模型,以約 15 兆 token 的多階段 pipeline 訓練完成。最值得注意的成果是:8B instruct 模型表現追平甚至超越上一代 32B MoE 模型(Granite 4.0-H-Small),使用的參數量卻只有四分之一。

模型架構基礎

三個規模均採用相同架構設計:

  • Grouped Query Attention(GQA),8 個 KV head:減少 KV cache 記憶體佔用,利於長上下文推論
  • Rotary Position Embeddings(RoPE):支援序列長度外推
  • SwiGLU 激活函數:比 ReLU 在語言建模任務上有穩定優勢
  • RMSNorm:取代 LayerNorm,計算效率更高
  • 共享 input/output embeddings:減少參數量

五階段預訓練策略

Granite 4.1 的訓練核心是嚴格的分階段資料課程(data curriculum),讓模型依序習得不同能力層次:

階段 Token 數 資料重點
Phase 1 10T 通用預訓練:59% CommonCrawl、20% 程式碼、7% 數學
Phase 2 2T 數學/程式碼強化:35% 數學、30% 程式碼(數學資料增加 5 倍)
Phase 3 2T 高品質退火:混合 chain-of-thought + 合成資料
Phase 4 0.5T 品質精煉:40% CommonCrawl-HQ、20% 程式碼、20% 數學
Phase 5 長上下文擴展:分段延伸至 512K token(32K → 128K → 512K)

分階段課程的設計邏輯是:早期用大量廣泛資料建立語言能力基礎,中期集中強化特定弱項(數學),後期用最高品質資料進行精煉,最後才處理長上下文的位置嵌入適應。

監督微調(SFT)

SFT 使用約 410 萬筆高品質精選樣本,通過以下三層品質控制:

  1. LLM-as-Judge 框架:多維度評分標準,對模型回應的準確性、幫助性、安全性進行自動評估
  2. 規則式過濾:確保回應的結構完整性,移除格式異常樣本
  3. 全局去重:避免重複樣本導致過擬合

訓練硬體使用 16 節點、每節點 4 片 NVIDIA GB200 GPU(共 64 片 GB200)。

多階段強化學習 Pipeline

這是 Granite 4.1 技術含量最高的部分。採用 On-policy GRPO + DAPO loss,依序執行四個 RL 階段:

第一階段:Multi-domain RL

  • 45,504 個跨 8 個領域的 unique prompt
  • 目標是讓模型在多個知識領域均衡提升

第二階段:RLHF

  • 使用通用對話 prompt
  • 帶來約 +18.9 分的整體評分改善
  • 顯著提升對話自然度與指令跟隨能力

第三階段:Identity & Knowledge-Calibration RL

  • 訓練模型的自我辨識一致性
  • 防止模型在「你是誰」類問題上產生混淆或幻覺

第四階段:Math RL

  • 針對「RLHF 後數學能力下降」的已知問題進行修復
  • 成果:GSM8K +3.8、DeepMind-Math +23.48
  • 這種順序設計揭示了一個關鍵洞察:通用 RLHF 可能會損傷專項能力,需要後續補充針對性 RL 修復

關鍵要點

  • 小模型追平大模型的關鍵在於訓練資料的品質分級與分階段課程設計,而非單純增加參數量
  • RL 的順序很重要:RLHF 提升對話能力,但會損傷數學推理;IBM 的解法是在 RLHF 後加一個 Math RL 修復階段,而非試圖在同一 RL 階段同時優化兩者
  • 長上下文分段擴展(32K → 128K → 512K)比一次跳到 512K 更穩定,讓 RoPE 有足夠步驟適應更長序列
  • FP8 量化讓磁碟和記憶體佔用減少約 50%,大幅降低部署成本,是開源模型工程化的重要決策
  • Apache 2.0 授權:可商用,是企業採用開源 LLM 的重要門檻
  • 支援 12 種語言(含中文),具備多語言商業部署能力

實務應用

效能基準(instruct 模型)

基準測試 8B 30B
MMLU 73.84 80.16
GSM8K 92.49 94.16
HumanEval 87.20 89.63
AlpacaEval 2.0 50.08 56.16

長上下文能力(RULER 基準)

上下文長度 8B 30B
32K 83.6 85.2
128K 79.1 84.6
512K 73.0 76.7

Granite 4.1 的實際定位:企業在本地部署場景(避免資料外流)或需要可商用授權時,8B 版本是兼顧效能與成本的選擇;30B 版本在長上下文任務(法律合約分析、程式碼庫理解)表現更好。

延伸觀點

Granite 4.1 的訓練設計與近期兩項研究高度吻合,提供更清晰的理論依據。

多階段資料課程是業界共識。MIT 與多所大學的 mid-training 系統性調查(arXiv:2510.06826)梳理了 OLMo 2、Phi-4 等主流模型後發現,從嘈雜的通用網頁資料逐步過渡到高品質精選資料、並搭配 learning rate 退火,是當前效能最穩定的預訓練策略。理論基礎是 gradient noise scale:早期大批量嘈雜資料建立廣義表示,後期小批量精煉資料讓梯度更新聚焦。Granite 4.1 的五階段課程正是這一原則的實踐。

DAPO 解決了 GRPO 的根本缺陷。ByteDance 提出的 DAPO(arXiv:2503.14476)針對 GRPO 三大問題開刀:entropy collapse(模型過早收斂、不再探索)、reward noise(雜訊梯度干擾訓練)、training instability。關鍵修正包括 Clip-Higher(放寬策略更新上界,維持探索空間)與 Token-Level Policy Gradient Loss(依序列長度加權,抑制冗長輸出)。Granite 4.1 採用「on-policy GRPO + DAPO loss」的組合,正是利用 DAPO 在 GRPO 基礎上的穩定性改善。

多階段 RL 比單一 RL 更能保住專項能力。兩項研究均觀察到類似現象:通用 RLHF 提升對話品質,但會侵蝕數學推理能力(DAPO 論文在 AIME 基準上有量化記錄)。Granite 4.1 的解法——在 RLHF 後追加獨立的 Math RL 階段——是目前可驗證的有效修復路徑,而非把衝突目標硬塞進同一 RL 階段。

相關頁面:LLM主流地位與替代路徑 Prompt Engineering 進階技術:CoT、Few-shot 與提示鏈

反向連結

以下頁面引用了本頁: