核心概念

IBM 於 2026 年 5 月 14 日在 Hugging Face 發布 Granite Embedding Multilingual R2,推出兩個新的多語言嵌入模型,基於 ModernBERT 架構,採 Apache 2.0 授權完全開源。

兩個模型規格對比

項目 97M 模型 311M 模型
嵌入維度 384 768
Context Length 32,768 tokens 32,768 tokens
MTEB 多語言檢索 60.3(sub-100M 最強) 65.2(500M 以下第 2)
Matryoshka 支持
模型大小 195MB Safetensors + ONNX

最大亮點是 32K context window,是前代 R1(512 tokens)的 64 倍,讓長文件(法律合約、技術手冊)得以完整處理而不截斷。

架構升級:從 XLM-RoBERTa 到 ModernBERT

R2 相比 R1 的核心技術升級:

  • 旋轉位置嵌入(RoPE),無需對長度插值
  • Flash Attention 2.0 加速長序列運算
  • 交替注意力降低計算複雜度
  • 分詞器優化:311M 採 Gemma 3 詞表(262K tokens),97M 優化至 180K tokens

語言覆蓋:200+ 語言廣泛支援,52 個語言深度優化,另支援 Python、Go、Java 等 9 種程式語言的代碼檢索。

關鍵要點

  • 97M 模型效能飛躍:MTEB 多語言檢索比 R1 提升 +12.2 分(48.1 → 60.3),擊敗所有 sub-100M 開源模型,甚至超越三倍大的 multilingual-e5-base(278M,得分 52.7)
  • 長文件處理大躍進:LongEmbed 評測 97M 提升 +31.3 分,311M 提升 +34.0 分,代表長上下文理解能力質變
  • 代碼檢索顯著改善:97M +19.7 分,311M +15.3 分,對技術文件 RAG 系統尤其有用
  • Matryoshka 彈性維度(311M 限定):從 768 維截至 256 維只損失 0.5 分,卻節省 3 倍儲存空間;128 維版本損失僅 2.3 分,儲存節省 6 倍
  • 企業部署友善:Apache 2.0 授權無商業限制;ONNX + OpenVINO 支援 CPU 推理,無 GPU 依賴;97M 吞吐量達 2,500+ 文件/秒

訓練方法論亮點

  • 311M 採知識蒸餾(從 Granite 3.3 + Mistral v0.2 教師模型)+ 對比微調 + 模型融合三階段
  • 97M 使用更精簡的詞表蒸餾(262K → 180K),在保持多語言覆蓋的同時大幅縮減嵌入層參數
  • 訓練資料基於 IBM 精選 GneissWeb(公開網路),刻意迴避 MS-MARCO 和非商業授權數據集

實務應用

選型指引

  • 邊緣部署 / 低延遲 / 高吞吐:選 97M(195MB ONNX 版,2,500+ 文件/秒)
  • 最佳多語言品質 / 需要維度彈性:選 311M(Matryoshka 支持)
  • 以英語為主的工作負載:考慮 granite-embedding-english-r2(149M)或 small 版(47M)

框架整合一行搞定

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("ibm-granite/granite-embedding-97m-multilingual-r2")

同樣的模型名稱可直接替換進 LangChain、LlamaIndex、Haystack、Milvus 等主流框架,無需改動現有 pipeline 邏輯。

跨語言語意搜尋:模型支援跨語言配對——英文查詢可匹配日文或德文文件,這對多國語言的企業知識庫場景意義重大。與 Granite LLM 系列 同出 IBM,可在全 Granite 生態內搭配使用。

另可透過 Hugging Face 推論供應商 直接呼叫 API,無需本地部署。

延伸觀點

ModernBERT 成為多語言編碼器的新架構共識:Granite R2 與 JHU 的 mmBERT(涵蓋 1,833 語言,8K context)都捨棄 XLM-RoBERTa,轉向 ModernBERT。兩個獨立團隊匯聚同一架構選擇,意味著 ModernBERT 正在成為多語言編碼器的事實基準。核心優勢在於 Flash Attention 2 + RoPE 的組合,讓長序列處理的效率提升 2-4 倍且無需位置插值。

Matryoshka 已是 SOTA 模型標配:2025-2026 的頂尖嵌入模型(OpenAI text-3、Gemini Embedding 2、Voyage 4、Jina v5、Microsoft Harrier)幾乎全數支援 Matryoshka。實驗顯示「98% Rule」成立——截至原始維度 8-10% 仍保留約 98% 效能。IBM 311M 模型的結果(256 維損失僅 0.7 分)與此一致,是業界趨勢的又一數據點。

兩階段檢索是 Matryoshka 的最佳實踐:低維向量(128-256d)快速篩選候選集,高維(768d)精確重排,可降低向量搜索延遲達 80%,同時維持準確度。對大規模 RAG 系統而言,這讓 311M 模型的實際部署成本接近 97M,同時保留高品質精排能力。

反向連結

以下頁面引用了本頁: