核心概念

嵌入模型(Embedding Model)是 RAG 檢索增強生成架構 的「語意橋樑」——將文字轉換成向量(數字陣列),使得語意相近的文字在向量空間中的距離也相近。

為什麼需要嵌入?

LLM 無法直接比對「哪兩段文字的意思最接近」,因為 token 比對是字面層面的。嵌入模型解決了這個問題:它把「請假規定」和「年假政策」都對應到向量空間中相近的位置,讓後續的近似最近鄰搜尋能找到語意相關的文件,即使用詞完全不同。

嵌入的工作原理

  1. 輸入文字被 tokenize(分詞)成 token 序列
  2. Transformer 架構逐層計算注意力,提取語意特徵
  3. 最後輸出一個固定維度的向量(通常 384–4096 維)
  4. 這個向量就是該文字在語意空間中的「座標」

嵌入模型的訓練目標是讓語意相似的句子有更小的餘弦距離(cosine distance),語意無關的句子有更大的距離。

嵌入維度的影響

維度越高,理論上能編碼的語意資訊越豐富,但儲存成本成正比增加(384 維 vs 1536 維 = 4 倍空間),計算相似度的運算量也成正比增加。高維度不一定意味著更好的實際 Retrieval 表現。

關鍵要點

主流模型分層

層級 代表模型 維度 適用情境
快速輕量 all-MiniLM-L6-v2 384 原型、延遲敏感應用
平衡型 all-mpnet-base-v2, bge-base-en-v1.5 768 多數生產環境
高精度 mxbai-embed-large-v1, bge-large-en-v1.5 1024 追求最高召回率
閉源商業 OpenAI text-embedding-3-small/large 512–3072 不想管模型部署
多語言 Qwen3-Embedding-8B 4096 中英混合、多語言 RAG

MTEB 基準測試

MTEB(Massive Text Embedding Benchmark)是目前最全面的嵌入模型評估框架,涵蓋 56 個資料集、8 種任務類型(檢索、分類、語意相似度等)、112 種語言。

關鍵原則:整體 MTEB 排名不等於 RAG 效能。必須查看 Retrieval 子榜單,因為其他任務(分類、Bitext Mining)的評估邏輯與 RAG 的文件檢索需求不同。

開源 vs 閉源

  • mxbai-embed-large-v1 在 MTEB Retrieval 榜上優於 OpenAI text-embedding-3-large,且可本地部署,零 API 成本
  • all-MiniLM-L6-v2:2200 萬參數,HuggingFace 下載次數超過 2.1 億次,是實際最廣泛使用的基線模型
  • 閉源模型的主要優勢是零部署成本,適合沒有 GPU 資源的團隊

選型決策

  1. 預算優先all-MiniLM-L6-v2(輕量,免費自托管)
  2. 準確度為主,可接受部署成本mxbai-embed-large-v1bge-large-en-v1.5
  3. 不想自己部署 → OpenAI text-embedding-3-small(便宜)或 3-large(高品質)
  4. 中英混合或多語言 → Qwen3-Embedding 系列或 multilingual-e5-large

實務應用

在 RAG Pipeline 中的位置

嵌入模型出現在 pipeline 的兩個地方:

  1. 索引階段(Build time):文件切塊後,對每個 chunk 做一次嵌入,存入 向量資料庫
  2. 查詢階段(Query time):用戶問題實時轉換成向量,再與索引中的向量做 ANN 搜尋

重要約束:索引和查詢必須使用同一個嵌入模型。換模型等於需要重新對所有文件做嵌入(re-index),成本不低,需納入技術選型時的長期考量。

Chunking 策略影響嵌入品質

嵌入模型有最大輸入長度限制(多數是 512 tokens)。超出限制的文字會被截斷,導致後半部分資訊完全遺失。chunking 策略(固定長度、句子邊界、段落邊界)會顯著影響實際檢索準確度,與嵌入模型本身的選擇同等重要。

延伸觀點

Late Chunking 技術

傳統 chunking 先切塊再嵌入,每個 chunk 失去跨段的上下文資訊。JinaAI 提出的 Late Chunking 方法先對整份文件做嵌入(保留全文 attention),最後才在向量空間中切分。Substack 和 HuggingFace 的比較研究均確認此方向對長文件的 RAG 表現提升顯著,是 2025 年嵌入研究的前沿方向。

Matryoshka Representation Learning(MRL)

OpenAI text-embedding-3 系列採用 MRL 訓練,允許在推論時動態縮減向量維度而不需重新訓練。例如 3072 維的向量可以截斷為 256 維使用,大幅降低儲存和計算成本,同時保留大部分語意資訊。HuggingFace 確認此方向已被多個開源模型跟進採用,是平衡效能與成本的重要技術選項。

反向連結

以下頁面引用了本頁: