核心概念
嵌入模型(Embedding Model)是 RAG 檢索增強生成架構 的「語意橋樑」——將文字轉換成向量(數字陣列),使得語意相近的文字在向量空間中的距離也相近。
為什麼需要嵌入?
LLM 無法直接比對「哪兩段文字的意思最接近」,因為 token 比對是字面層面的。嵌入模型解決了這個問題:它把「請假規定」和「年假政策」都對應到向量空間中相近的位置,讓後續的近似最近鄰搜尋能找到語意相關的文件,即使用詞完全不同。
嵌入的工作原理
- 輸入文字被 tokenize(分詞)成 token 序列
- Transformer 架構逐層計算注意力,提取語意特徵
- 最後輸出一個固定維度的向量(通常 384–4096 維)
- 這個向量就是該文字在語意空間中的「座標」
嵌入模型的訓練目標是讓語意相似的句子有更小的餘弦距離(cosine distance),語意無關的句子有更大的距離。
嵌入維度的影響
維度越高,理論上能編碼的語意資訊越豐富,但儲存成本成正比增加(384 維 vs 1536 維 = 4 倍空間),計算相似度的運算量也成正比增加。高維度不一定意味著更好的實際 Retrieval 表現。
關鍵要點
主流模型分層
| 層級 | 代表模型 | 維度 | 適用情境 |
|---|---|---|---|
| 快速輕量 | all-MiniLM-L6-v2 | 384 | 原型、延遲敏感應用 |
| 平衡型 | all-mpnet-base-v2, bge-base-en-v1.5 | 768 | 多數生產環境 |
| 高精度 | mxbai-embed-large-v1, bge-large-en-v1.5 | 1024 | 追求最高召回率 |
| 閉源商業 | OpenAI text-embedding-3-small/large | 512–3072 | 不想管模型部署 |
| 多語言 | Qwen3-Embedding-8B | 4096 | 中英混合、多語言 RAG |
MTEB 基準測試
MTEB(Massive Text Embedding Benchmark)是目前最全面的嵌入模型評估框架,涵蓋 56 個資料集、8 種任務類型(檢索、分類、語意相似度等)、112 種語言。
關鍵原則:整體 MTEB 排名不等於 RAG 效能。必須查看 Retrieval 子榜單,因為其他任務(分類、Bitext Mining)的評估邏輯與 RAG 的文件檢索需求不同。
開源 vs 閉源
mxbai-embed-large-v1在 MTEB Retrieval 榜上優於 OpenAItext-embedding-3-large,且可本地部署,零 API 成本all-MiniLM-L6-v2:2200 萬參數,HuggingFace 下載次數超過 2.1 億次,是實際最廣泛使用的基線模型- 閉源模型的主要優勢是零部署成本,適合沒有 GPU 資源的團隊
選型決策
- 預算優先 →
all-MiniLM-L6-v2(輕量,免費自托管) - 準確度為主,可接受部署成本 →
mxbai-embed-large-v1或bge-large-en-v1.5 - 不想自己部署 → OpenAI
text-embedding-3-small(便宜)或3-large(高品質) - 中英混合或多語言 → Qwen3-Embedding 系列或
multilingual-e5-large
實務應用
在 RAG Pipeline 中的位置
嵌入模型出現在 pipeline 的兩個地方:
- 索引階段(Build time):文件切塊後,對每個 chunk 做一次嵌入,存入 向量資料庫
- 查詢階段(Query time):用戶問題實時轉換成向量,再與索引中的向量做 ANN 搜尋
重要約束:索引和查詢必須使用同一個嵌入模型。換模型等於需要重新對所有文件做嵌入(re-index),成本不低,需納入技術選型時的長期考量。
Chunking 策略影響嵌入品質
嵌入模型有最大輸入長度限制(多數是 512 tokens)。超出限制的文字會被截斷,導致後半部分資訊完全遺失。chunking 策略(固定長度、句子邊界、段落邊界)會顯著影響實際檢索準確度,與嵌入模型本身的選擇同等重要。
延伸觀點
Late Chunking 技術
傳統 chunking 先切塊再嵌入,每個 chunk 失去跨段的上下文資訊。JinaAI 提出的 Late Chunking 方法先對整份文件做嵌入(保留全文 attention),最後才在向量空間中切分。Substack 和 HuggingFace 的比較研究均確認此方向對長文件的 RAG 表現提升顯著,是 2025 年嵌入研究的前沿方向。
Matryoshka Representation Learning(MRL)
OpenAI text-embedding-3 系列採用 MRL 訓練,允許在推論時動態縮減向量維度而不需重新訓練。例如 3072 維的向量可以截斷為 256 維使用,大幅降低儲存和計算成本,同時保留大部分語意資訊。HuggingFace 確認此方向已被多個開源模型跟進採用,是平衡效能與成本的重要技術選項。
反向連結
以下頁面引用了本頁:
- 向量資料庫選型:Pinecone、Weaviate、Qdrant 與 ChromaDB 比較(技術與AI)
- RAG 檢索增強生成架構(技術與AI)
- 語言演化的普遍統計模式(技術與AI)
- Hugging Face 推論供應商生態系:DeepInfra 整合實錄(文章精選)
- RAG 三路選型:Naive、Agentic 與 GraphRAG(技術與AI)
- Fine-tuning 與 LoRA:LLM 參數高效微調技術(技術與AI)
- Granite Embedding Multilingual R2:開源多語言嵌入的效能突破(文章精選)
- Ettin Reranker:六尺寸開源重排器的效率與精度突破(文章精選)