嵌入模型基礎與選型 — 柒藍的學習筆記

核心概念

嵌入模型（Embedding Model）是 RAG 檢索增強生成架構的「語意橋樑」——將文字轉換成向量（數字陣列），使得語意相近的文字在向量空間中的距離也相近。

為什麼需要嵌入？

LLM 無法直接比對「哪兩段文字的意思最接近」，因為 token 比對是字面層面的。嵌入模型解決了這個問題：它把「請假規定」和「年假政策」都對應到向量空間中相近的位置，讓後續的近似最近鄰搜尋能找到語意相關的文件，即使用詞完全不同。

嵌入的工作原理

輸入文字被 tokenize（分詞）成 token 序列
Transformer 架構逐層計算注意力，提取語意特徵
最後輸出一個固定維度的向量（通常 384–4096 維）
這個向量就是該文字在語意空間中的「座標」

嵌入模型的訓練目標是讓語意相似的句子有更小的餘弦距離（cosine distance），語意無關的句子有更大的距離。

嵌入維度的影響

維度越高，理論上能編碼的語意資訊越豐富，但儲存成本成正比增加（384 維 vs 1536 維 = 4 倍空間），計算相似度的運算量也成正比增加。高維度不一定意味著更好的實際 Retrieval 表現。

關鍵要點

主流模型分層

層級	代表模型	維度	適用情境
快速輕量	all-MiniLM-L6-v2	384	原型、延遲敏感應用
平衡型	all-mpnet-base-v2, bge-base-en-v1.5	768	多數生產環境
高精度	mxbai-embed-large-v1, bge-large-en-v1.5	1024	追求最高召回率
閉源商業	OpenAI text-embedding-3-small/large	512–3072	不想管模型部署
多語言	Qwen3-Embedding-8B	4096	中英混合、多語言 RAG

MTEB 基準測試

MTEB（Massive Text Embedding Benchmark）是目前最全面的嵌入模型評估框架，涵蓋 56 個資料集、8 種任務類型（檢索、分類、語意相似度等）、112 種語言。

關鍵原則：整體 MTEB 排名不等於 RAG 效能。必須查看 Retrieval 子榜單，因為其他任務（分類、Bitext Mining）的評估邏輯與 RAG 的文件檢索需求不同。

開源 vs 閉源

mxbai-embed-large-v1 在 MTEB Retrieval 榜上優於 OpenAI text-embedding-3-large，且可本地部署，零 API 成本
all-MiniLM-L6-v2：2200 萬參數，HuggingFace 下載次數超過 2.1 億次，是實際最廣泛使用的基線模型
閉源模型的主要優勢是零部署成本，適合沒有 GPU 資源的團隊

選型決策

預算優先 → all-MiniLM-L6-v2（輕量，免費自托管）
準確度為主，可接受部署成本 → mxbai-embed-large-v1 或 bge-large-en-v1.5
不想自己部署 → OpenAI text-embedding-3-small（便宜）或 3-large（高品質）
中英混合或多語言 → Qwen3-Embedding 系列或 multilingual-e5-large

實務應用

在 RAG Pipeline 中的位置

嵌入模型出現在 pipeline 的兩個地方：

索引階段（Build time）：文件切塊後，對每個 chunk 做一次嵌入，存入向量資料庫
查詢階段（Query time）：用戶問題實時轉換成向量，再與索引中的向量做 ANN 搜尋

重要約束：索引和查詢必須使用同一個嵌入模型。換模型等於需要重新對所有文件做嵌入（re-index），成本不低，需納入技術選型時的長期考量。

Chunking 策略影響嵌入品質

嵌入模型有最大輸入長度限制（多數是 512 tokens）。超出限制的文字會被截斷，導致後半部分資訊完全遺失。chunking 策略（固定長度、句子邊界、段落邊界）會顯著影響實際檢索準確度，與嵌入模型本身的選擇同等重要。

延伸觀點

Late Chunking 技術

傳統 chunking 先切塊再嵌入，每個 chunk 失去跨段的上下文資訊。JinaAI 提出的 Late Chunking 方法先對整份文件做嵌入（保留全文 attention），最後才在向量空間中切分。Substack 和 HuggingFace 的比較研究均確認此方向對長文件的 RAG 表現提升顯著，是 2025 年嵌入研究的前沿方向。

Matryoshka Representation Learning（MRL）

OpenAI text-embedding-3 系列採用 MRL 訓練，允許在推論時動態縮減向量維度而不需重新訓練。例如 3072 維的向量可以截斷為 256 維使用，大幅降低儲存和計算成本，同時保留大部分語意資訊。HuggingFace 確認此方向已被多個開源模型跟進採用，是平衡效能與成本的重要技術選項。

反向連結

以下頁面引用了本頁：

向量資料庫選型：Pinecone、Weaviate、Qdrant 與 ChromaDB 比較（技術與AI）
RAG 檢索增強生成架構（技術與AI）
語言演化的普遍統計模式（技術與AI）
Hugging Face 推論供應商生態系：DeepInfra 整合實錄（文章精選）
RAG 三路選型：Naive、Agentic 與 GraphRAG（技術與AI）
Fine-tuning 與 LoRA：LLM 參數高效微調技術（技術與AI）
Granite Embedding Multilingual R2：開源多語言嵌入的效能突破（文章精選）
Ettin Reranker：六尺寸開源重排器的效率與精度突破（文章精選）