AI 知識庫典範比較——Karpathy、Lütke 與 Tan

核心概念

2024-2025 年間，三位科技領域一線人物分別公開了自己的 AI 知識管理架構，代表三種截然不同的思考路徑。

Andrej Karpathy — 羅盤（LLM Wiki）

Karpathy（深度學習教育者、Tesla AI 前總監、Eureka Labs 創辦人）提出的不是一套軟體，而是一種工作模式：用不可變的原始資料為地基，讓 LLM 維護一層持久性 wiki（摘要、實體、概念、交叉引用），並用 schema 檔（如 CLAUDE.md）約束「怎麼攝入、怎麼查詢、怎麼健檢」。他的 CS231n 課程影響整代工程師入門深度學習；「Software 2.0」與「vibe coding」概念塑造了開發者理解 LLM 與 Agent 的框架；2024 年創辦 Eureka Labs 則是這套思維往 AI 原生教育產品的延伸。

核心洞見：好檢索不如好編纂。知識要跨多次對話、多份來源被寫進結構，而不是每次從零拼湊。規模數十到數百頁時，index.md 加連結即夠導航，不必急著上向量庫。

Tobi Lütke — 望遠鏡（QMD）

Shopify CEO 提出的 QMD（Query Markup Documents）是裝在本機的混合搜尋引擎：BM25、向量語意、查詢擴展與重排序，以本地 GGUF 模型完成，強調隱私、零雲端 API、可腳本化與 MCP 整合。

核心洞見：在資料已存在的前提下，把「找得到」做到極致，而且不離開你的機器。適合需要搜尋離線或敏感 corpus 的工程師，尤其是 AST 感知的程式碼庫與技術文件。

Garry Tan — 營運系統（GBrain）

Y Combinator 總裁 Garry Tan 的 GBrain 是真實運行的系統：萬級 Markdown、千級人物檔、多年日曆與會議轉錄，由 Postgres + pgvector 與混合搜尋支撐。頁面模型是 compiled truth（當前最佳論述）+ timeline（只增不刪的證據鏈）；Agent 透過 skills 知道何時讀、何時寫、如何做 enrichment。

核心洞見：當個人知識庫像一家公司一樣有資產負債表，需要的是資料庫與管線，而不只是資料夾。

關鍵要點

維度	Karpathy	Lütke	Tan
比喻	羅盤	望遠鏡	營運系統
核心問題	知識有沒有在長大？	找不找得到？	能不能每天自動變聰明？
技術層次	Markdown + LLM 維護	本地混合搜尋引擎	Postgres + pgvector + Agent
隱私導向	彈性	強本地、零雲	雲端資料庫
適合規模	數十到數百頁	整個本機 corpus	萬頁以上
適合對象	研究者、深度閱讀者	工程師、大量技術文件	高密度知識工作者

三種系統解決不同層次的問題：Karpathy 解決「知識是否被結構化」，Lütke 解決「已存在的資料是否可被找到」，Tan 解決「知識庫是否可以自我演進」。三者可組合，並非互斥。

實務應用

從小到大的自然演進路徑：

起點（Karpathy 模式）：建立 wiki 式知識庫，用 LLM 維護結構。規模小時連結 + 索引即夠，不需向量庫。柒藍 wiki 目前走的就是這條路。參考 AI 輔助知識管理。
中期（加入 Lütke 概念）：當本機檔案量大到 grep 失效，加入 QMD 類本地混合搜尋層。不改變 wiki 架構，只是強化「找得到」的能力，且維持隱私。
大規模（Tan 架構）：當規模達萬頁、需要增量同步與圖譜關聯，引入 Postgres + pgvector 工程方案。此時知識庫已是可運營的平台，而非個人筆記本。可參考 RAG 檢索增強生成架構的向量檢索設計。

領域專用變體：三種典範都可窄化為特定領域的知識系統——例如把 Karpathy 模式應用在投資研究，就會演化出「公司頁面 + 產業地圖 + 研究報告」的結構，用 skills 組織研究管線，儀表板呈現結構化查找結果，重點是「研究資產複利」而非泛用筆記本。領域明確反而讓編纂紀律更容易落實：因為什麼值得寫進去，判斷標準清晰。

選擇時，最重要的問題不是「哪個最強」，而是「我目前的瓶頸在哪」。多數人的瓶頸不是搜尋不夠好，而是根本沒有持續將想法寫進結構。先把 Karpathy 的「好編纂」做到位，再考慮其他層次的升級。

參見電馭大腦三層架構、Harness Engineering。

延伸觀點

RAG 的根本限制是「失憶」，不是「不準」

多篇分析指出，RAG 的核心問題不是準確率，而是每次查詢都從零開始，沒有累積。LLM wiki 的優勢不在於「找得更準」，而在於「每次查詢都會在知識庫留下沉澱」——Karpathy 原文裡真正重要的一句話是：「My own explorations and queries always add up in the knowledge base.」這個複利機制才是根本差異，而不是 Markdown 對 Vector DB 的技術選型之爭。

複利的前提是雙向流動

典型 AI 工作流是單向的：輸入 → 輸出 → 消失於對話歷史。Karpathy 模式的突破在於把「輸出」轉為「存入」，讓每次互動沉澱到知識庫，下次查詢時可以站在上一次的結果上繼續推進。這個邏輯不需要複雜的向量架構就能實現，反而是「堅持寫入」的工作紀律更關鍵。

Postgres + pgvector 已足夠覆蓋 Tan 的大規模需求

實作案例顯示，多數個人知識庫不需要獨立的向量資料庫——PostgreSQL 16 + pgvector 搭配非同步 AI enrichment（標籤、摘要、嵌入在後台跑，不阻塞主流程），已能支撐千級頁面規模，且維運成本遠低於專屬向量服務。Tan 所描述的「工程級方案」在技術上已是相對平易的選擇，門檻更多在於「你是否真的有萬頁以上的資料需要管理」。

「記帳負擔」才是知識庫棄用的真正原因

多篇分析指出，傳統個人知識庫（Notion、Roam、Obsidian 手動維護）最終失敗，根因不是搜尋不夠好，而是「記帳負擔」（bookkeeping burden）增速超過價值創造速度：標籤整理、交叉引用、過時內容清理、矛盾偵測——這些維護工作逐漸讓人精疲力竭。LLM wiki 模式的根本創新在於把這層負擔轉移給模型，人只需負責「找到好輸入」與「提出有意義的問題」。這也是為什麼三位大師的系統都共同強調「schema 約束 AI 行為」——不是為了限制模型，而是讓維護工作可以自動化地可預期執行。

反向連結

以下頁面引用了本頁：

AI 輔助知識管理（技術與AI）
Harness Engineering（技術與AI）
RAG 檢索增強生成架構（技術與AI）
Thin Harness, Fat Skills — Garry Tan AI 效能架構（技術與AI）
AI 組織作業系統：Context 飛輪與無為架構（商業經營）
Lehrwerkstatt 效應：Shopify River 的公開 AI 協作設計（技術與AI）
Vivian Balakrishnan 的 AI 第二大腦——外交官的個人代理架構（技術與AI）
知識管理工具典範演進——從 Tags 到 LLM Wiki（技術與AI）
脈絡越多不等於AI越好用（技術與AI）