核心概念
IBM 於 2026 年 5 月 14 日在 Hugging Face 發布 Granite Embedding Multilingual R2,推出兩個新的多語言嵌入模型,基於 ModernBERT 架構,採 Apache 2.0 授權完全開源。
兩個模型規格對比:
| 項目 | 97M 模型 | 311M 模型 |
|---|---|---|
| 嵌入維度 | 384 | 768 |
| Context Length | 32,768 tokens | 32,768 tokens |
| MTEB 多語言檢索 | 60.3(sub-100M 最強) | 65.2(500M 以下第 2) |
| Matryoshka 支持 | 否 | 是 |
| 模型大小 | 195MB | Safetensors + ONNX |
最大亮點是 32K context window,是前代 R1(512 tokens)的 64 倍,讓長文件(法律合約、技術手冊)得以完整處理而不截斷。
架構升級:從 XLM-RoBERTa 到 ModernBERT
R2 相比 R1 的核心技術升級:
- 旋轉位置嵌入(RoPE),無需對長度插值
- Flash Attention 2.0 加速長序列運算
- 交替注意力降低計算複雜度
- 分詞器優化:311M 採 Gemma 3 詞表(262K tokens),97M 優化至 180K tokens
語言覆蓋:200+ 語言廣泛支援,52 個語言深度優化,另支援 Python、Go、Java 等 9 種程式語言的代碼檢索。
關鍵要點
- 97M 模型效能飛躍:MTEB 多語言檢索比 R1 提升 +12.2 分(48.1 → 60.3),擊敗所有 sub-100M 開源模型,甚至超越三倍大的 multilingual-e5-base(278M,得分 52.7)
- 長文件處理大躍進:LongEmbed 評測 97M 提升 +31.3 分,311M 提升 +34.0 分,代表長上下文理解能力質變
- 代碼檢索顯著改善:97M +19.7 分,311M +15.3 分,對技術文件 RAG 系統尤其有用
- Matryoshka 彈性維度(311M 限定):從 768 維截至 256 維只損失 0.5 分,卻節省 3 倍儲存空間;128 維版本損失僅 2.3 分,儲存節省 6 倍
- 企業部署友善:Apache 2.0 授權無商業限制;ONNX + OpenVINO 支援 CPU 推理,無 GPU 依賴;97M 吞吐量達 2,500+ 文件/秒
訓練方法論亮點:
- 311M 採知識蒸餾(從 Granite 3.3 + Mistral v0.2 教師模型)+ 對比微調 + 模型融合三階段
- 97M 使用更精簡的詞表蒸餾(262K → 180K),在保持多語言覆蓋的同時大幅縮減嵌入層參數
- 訓練資料基於 IBM 精選 GneissWeb(公開網路),刻意迴避 MS-MARCO 和非商業授權數據集
實務應用
選型指引:
- 邊緣部署 / 低延遲 / 高吞吐:選 97M(195MB ONNX 版,2,500+ 文件/秒)
- 最佳多語言品質 / 需要維度彈性:選 311M(Matryoshka 支持)
- 以英語為主的工作負載:考慮 granite-embedding-english-r2(149M)或 small 版(47M)
框架整合一行搞定:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("ibm-granite/granite-embedding-97m-multilingual-r2")
同樣的模型名稱可直接替換進 LangChain、LlamaIndex、Haystack、Milvus 等主流框架,無需改動現有 pipeline 邏輯。
跨語言語意搜尋:模型支援跨語言配對——英文查詢可匹配日文或德文文件,這對多國語言的企業知識庫場景意義重大。與 Granite LLM 系列 同出 IBM,可在全 Granite 生態內搭配使用。
另可透過 Hugging Face 推論供應商 直接呼叫 API,無需本地部署。
延伸觀點
ModernBERT 成為多語言編碼器的新架構共識:Granite R2 與 JHU 的 mmBERT(涵蓋 1,833 語言,8K context)都捨棄 XLM-RoBERTa,轉向 ModernBERT。兩個獨立團隊匯聚同一架構選擇,意味著 ModernBERT 正在成為多語言編碼器的事實基準。核心優勢在於 Flash Attention 2 + RoPE 的組合,讓長序列處理的效率提升 2-4 倍且無需位置插值。
Matryoshka 已是 SOTA 模型標配:2025-2026 的頂尖嵌入模型(OpenAI text-3、Gemini Embedding 2、Voyage 4、Jina v5、Microsoft Harrier)幾乎全數支援 Matryoshka。實驗顯示「98% Rule」成立——截至原始維度 8-10% 仍保留約 98% 效能。IBM 311M 模型的結果(256 維損失僅 0.7 分)與此一致,是業界趨勢的又一數據點。
兩階段檢索是 Matryoshka 的最佳實踐:低維向量(128-256d)快速篩選候選集,高維(768d)精確重排,可降低向量搜索延遲達 80%,同時維持準確度。對大規模 RAG 系統而言,這讓 311M 模型的實際部署成本接近 97M,同時保留高品質精排能力。
反向連結
以下頁面引用了本頁:
- Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略(文章精選)
- Hugging Face 推論供應商生態系:DeepInfra 整合實錄(文章精選)
- RAG 三路選型:Naive、Agentic 與 GraphRAG(技術與AI)
- 嵌入模型基礎與選型(技術與AI)
- Ettin Reranker:六尺寸開源重排器的效率與精度突破(文章精選)