核心概念
2024-2025 年間,三位科技領域一線人物分別公開了自己的 AI 知識管理架構,代表三種截然不同的思考路徑。
Andrej Karpathy — 羅盤(LLM Wiki)
Karpathy(深度學習教育者、Tesla AI 前總監、Eureka Labs 創辦人)提出的不是一套軟體,而是一種工作模式:用不可變的原始資料為地基,讓 LLM 維護一層持久性 wiki(摘要、實體、概念、交叉引用),並用 schema 檔(如 CLAUDE.md)約束「怎麼攝入、怎麼查詢、怎麼健檢」。他的 CS231n 課程影響整代工程師入門深度學習;「Software 2.0」與「vibe coding」概念塑造了開發者理解 LLM 與 Agent 的框架;2024 年創辦 Eureka Labs 則是這套思維往 AI 原生教育產品的延伸。
核心洞見:好檢索不如好編纂。知識要跨多次對話、多份來源被寫進結構,而不是每次從零拼湊。規模數十到數百頁時,index.md 加連結即夠導航,不必急著上向量庫。
Tobi Lütke — 望遠鏡(QMD)
Shopify CEO 提出的 QMD(Query Markup Documents)是裝在本機的混合搜尋引擎:BM25、向量語意、查詢擴展與重排序,以本地 GGUF 模型完成,強調隱私、零雲端 API、可腳本化與 MCP 整合。
核心洞見:在資料已存在的前提下,把「找得到」做到極致,而且不離開你的機器。適合需要搜尋離線或敏感 corpus 的工程師,尤其是 AST 感知的程式碼庫與技術文件。
Garry Tan — 營運系統(GBrain)
Y Combinator 總裁 Garry Tan 的 GBrain 是真實運行的系統:萬級 Markdown、千級人物檔、多年日曆與會議轉錄,由 Postgres + pgvector 與混合搜尋支撐。頁面模型是 compiled truth(當前最佳論述)+ timeline(只增不刪的證據鏈);Agent 透過 skills 知道何時讀、何時寫、如何做 enrichment。
核心洞見:當個人知識庫像一家公司一樣有資產負債表,需要的是資料庫與管線,而不只是資料夾。
關鍵要點
| 維度 | Karpathy | Lütke | Tan |
|---|---|---|---|
| 比喻 | 羅盤 | 望遠鏡 | 營運系統 |
| 核心問題 | 知識有沒有在長大? | 找不找得到? | 能不能每天自動變聰明? |
| 技術層次 | Markdown + LLM 維護 | 本地混合搜尋引擎 | Postgres + pgvector + Agent |
| 隱私導向 | 彈性 | 強本地、零雲 | 雲端資料庫 |
| 適合規模 | 數十到數百頁 | 整個本機 corpus | 萬頁以上 |
| 適合對象 | 研究者、深度閱讀者 | 工程師、大量技術文件 | 高密度知識工作者 |
三種系統解決不同層次的問題:Karpathy 解決「知識是否被結構化」,Lütke 解決「已存在的資料是否可被找到」,Tan 解決「知識庫是否可以自我演進」。三者可組合,並非互斥。
實務應用
從小到大的自然演進路徑:
-
起點(Karpathy 模式):建立 wiki 式知識庫,用 LLM 維護結構。規模小時連結 + 索引即夠,不需向量庫。柒藍 wiki 目前走的就是這條路。參考 AI 輔助知識管理。
-
中期(加入 Lütke 概念):當本機檔案量大到 grep 失效,加入 QMD 類本地混合搜尋層。不改變 wiki 架構,只是強化「找得到」的能力,且維持隱私。
-
大規模(Tan 架構):當規模達萬頁、需要增量同步與圖譜關聯,引入 Postgres + pgvector 工程方案。此時知識庫已是可運營的平台,而非個人筆記本。可參考 RAG 檢索增強生成架構 的向量檢索設計。
領域專用變體:三種典範都可窄化為特定領域的知識系統——例如把 Karpathy 模式應用在投資研究,就會演化出「公司頁面 + 產業地圖 + 研究報告」的結構,用 skills 組織研究管線,儀表板呈現結構化查找結果,重點是「研究資產複利」而非泛用筆記本。領域明確反而讓編纂紀律更容易落實:因為什麼值得寫進去,判斷標準清晰。
選擇時,最重要的問題不是「哪個最強」,而是「我目前的瓶頸在哪」。多數人的瓶頸不是搜尋不夠好,而是根本沒有持續將想法寫進結構。先把 Karpathy 的「好編纂」做到位,再考慮其他層次的升級。
參見 電馭大腦三層架構、Harness Engineering。
延伸觀點
RAG 的根本限制是「失憶」,不是「不準」
多篇分析指出,RAG 的核心問題不是準確率,而是每次查詢都從零開始,沒有累積。LLM wiki 的優勢不在於「找得更準」,而在於「每次查詢都會在知識庫留下沉澱」——Karpathy 原文裡真正重要的一句話是:「My own explorations and queries always add up in the knowledge base.」這個複利機制才是根本差異,而不是 Markdown 對 Vector DB 的技術選型之爭。
複利的前提是雙向流動
典型 AI 工作流是單向的:輸入 → 輸出 → 消失於對話歷史。Karpathy 模式的突破在於把「輸出」轉為「存入」,讓每次互動沉澱到知識庫,下次查詢時可以站在上一次的結果上繼續推進。這個邏輯不需要複雜的向量架構就能實現,反而是「堅持寫入」的工作紀律更關鍵。
Postgres + pgvector 已足夠覆蓋 Tan 的大規模需求
實作案例顯示,多數個人知識庫不需要獨立的向量資料庫——PostgreSQL 16 + pgvector 搭配非同步 AI enrichment(標籤、摘要、嵌入在後台跑,不阻塞主流程),已能支撐千級頁面規模,且維運成本遠低於專屬向量服務。Tan 所描述的「工程級方案」在技術上已是相對平易的選擇,門檻更多在於「你是否真的有萬頁以上的資料需要管理」。
「記帳負擔」才是知識庫棄用的真正原因
多篇分析指出,傳統個人知識庫(Notion、Roam、Obsidian 手動維護)最終失敗,根因不是搜尋不夠好,而是「記帳負擔」(bookkeeping burden)增速超過價值創造速度:標籤整理、交叉引用、過時內容清理、矛盾偵測——這些維護工作逐漸讓人精疲力竭。LLM wiki 模式的根本創新在於把這層負擔轉移給模型,人只需負責「找到好輸入」與「提出有意義的問題」。這也是為什麼三位大師的系統都共同強調「schema 約束 AI 行為」——不是為了限制模型,而是讓維護工作可以自動化地可預期執行。
反向連結
以下頁面引用了本頁:
- AI 輔助知識管理(技術與AI)
- Harness Engineering(技術與AI)
- RAG 檢索增強生成架構(技術與AI)
- Thin Harness, Fat Skills — Garry Tan AI 效能架構(技術與AI)
- AI 組織作業系統:Context 飛輪與無為架構(商業經營)
- Lehrwerkstatt 效應:Shopify River 的公開 AI 協作設計(技術與AI)
- Vivian Balakrishnan 的 AI 第二大腦——外交官的個人代理架構(技術與AI)
- 知識管理工具典範演進——從 Tags 到 LLM Wiki(技術與AI)