RAG 檢索增強生成架構 — 柒藍的學習筆記

核心概念

RAG（Retrieval-Augmented Generation，檢索增強生成）是解決 LLM主流地位與替代路徑兩大根本限制的核心應用架構：知識截止日期（訓練資料有時效）與幻覺問題（模型憑空捏造事實）。核心邏輯是：不讓模型靠訓練記憶回答，而是推理時即時從外部知識庫檢索相關資訊，注入 prompt 後再生成答案。

完整 Pipeline

RAG 分兩大階段——

離線索引（Indexing），一次性建立知識庫：

文件分塊（Chunking）：將長文件切成可檢索的段落。常見策略：
- 固定大小：預設 512 tokens，重疊 50–100 tokens（約 10–20%），防止邊界語義斷裂
- 語義分塊：偵測語義邊界切割，適合技術與學術文件
向量嵌入（Embedding）：用 embedding 模型（如 all-MiniLM-L6-v2）將每個 chunk 轉成高維向量，相似語義在向量空間中距離接近
向量儲存（Vector DB）：將向量連同原始文本存入資料庫，供後續檢索

線上查詢（Retrieval + Generation）： 4. 將使用者問題嵌入相同向量空間 5. 用 cosine similarity 找出最相近的 chunks 6. 將檢索到的文本作為 context 注入 prompt，LLM 基於此生成答案

三代演進

世代	特徵	限制
Naive RAG	直接切塊→嵌入→檢索→生成	精度低，context 噪音多
Advanced RAG	加入 query rewriting、reranking	流程複雜度提升
Modular RAG	各組件可替換的模組化設計	需要更多工程協調

三種檢索策略

稀疏檢索（BM25）：關鍵字匹配，速度快，擅長精確詞彙（專有名詞、版本號）
稠密檢索（Dense）：向量相似度，擅長語義理解與同義詞
混合檢索（Hybrid）：用 Reciprocal Rank Fusion（RRF）融合兩者分數，生產環境首選

關鍵要點

Chunking 是精度關鍵：chunk 太大→噪音多；太小→缺乏上下文。起點建議 512 tokens + 50 tokens 重疊，依效果迭代調整
嵌入模型必須一致：索引和查詢時必須用同一個 embedding 模型；混用會導致向量空間不對齊，檢索結果錯亂
嵌入只是橋樑：向量嵌入無法還原為文字（單向轉換），送給 LLM 的永遠是原始文本，而不是向量本身
Hybrid 優於純向量：純語義搜索在精確詞彙上表現差；混合檢索能同時命中語義接近與關鍵字完全匹配的文件
HyDE 提升查詢品質：先讓 LLM 生成一份假設答案，再嵌入這份假設去搜索。假設的向量分布比原始問題更接近目標文件，可提升召回精度
RAG 可與 AI Agent 設計模式結合：在 Agent 系統中，RAG 作為記憶層，讓 Agent 能動態查閱外部知識庫執行任務

實務應用

向量資料庫選型：

資料庫	定位
FAISS	Meta 開源，本地/離線環境
Chroma	輕量，開發測試首選
Weaviate	Hybrid search + GraphQL，適合結構化查詢
Pinecone	全託管，零基礎架構負擔

生產環境三大優化：

Contextual Retrieval（Anthropic 2024）：嵌入前先讓 LLM 為每個 chunk 生成上下文摘要，定位 chunk 在文件中的位置。實測可降低 67% 檢索失敗率
Reranking：初次取 Top-20 候選，用 cross-encoder 精確重排，最終只取前 3–5 個送入 LLM，大幅降低 context 噪音
分層檢索：先從章節級索引定位大方向，再進入段落級精確搜索，降低跨無關段落的干擾

與後端資料庫基礎概念的差異：向量資料庫的查詢語言是數學距離，而非 SQL；索引結構是 HNSW（近似最近鄰圖），而非 B-Tree。

反向連結

以下頁面引用了本頁：

AI Agent 設計模式
LLM主流地位與替代路徑
後端資料庫基礎概念
AI 知識庫典範比較——Karpathy、Lütke 與 Tan（技術與AI）
Agentic AI 企業落地現實：基礎建設障礙與突破策略（技術與AI）
YouTube 推薦系統的語意配對機制（技術與AI）
向量資料庫選型：Pinecone、Weaviate、Qdrant 與 ChromaDB 比較（技術與AI）
嵌入模型基礎與選型（技術與AI）
Agentic Memory：LLM Agent 長短期記憶統一管理框架（研究速遞）
Hugging Face 推論供應商生態系：DeepInfra 整合實錄（文章精選）
LLM Agent 藥物資產盡職調查競爭格局分析（研究速遞）
RAG 三路選型：Naive、Agentic 與 GraphRAG（技術與AI）
Fine-tuning 與 LoRA：LLM 參數高效微調技術（技術與AI）
知識管理工具典範演進——從 Tags 到 LLM Wiki（技術與AI）
Ettin Reranker：六尺寸開源重排器的效率與精度突破（文章精選）