核心概念

Y Combinator 總裁 Garry Tan 提出的核心洞察:相同的 AI 模型,使用者的生產力可以差距 2 倍到 100 倍。差別不在模型智力,而在包裹模型的架構設計

原則稱為「Thin Harness, Fat Skills」(薄外殼,厚技能):

  • Harness(外殼):運行 LLM 的程式層,負責在迴圈中執行模型、讀寫檔案、管理上下文、強制安全規則。保持精簡,約 200 行程式碼。
  • Skills(技能檔案):用 Markdown 寫成的可重複使用工作流程,編碼判斷、流程與領域知識。90% 的價值在此。

設計原則:把智力往上推進 Skills,把執行往下推進確定性工具,Harness 只做最少的事。

「Fat Harness」反面模式:40+ 工具定義吃掉半個 context window、萬能 God-tools 每次 MCP 來回 2-5 秒、REST API wrapper 每個 endpoint 獨立一個工具。結果是三倍 token 消耗、三倍延遲、三倍失敗率。


關鍵要點

五個核心定義

1. Skill Files(技能檔案) 類似函式呼叫——接受參數(TARGET / QUESTION / DATASET),相同流程傳入不同引數產生截然不同的能力。同一個 /investigate skill(七步驟),指向醫療訴訟文件 → 醫學研究分析師;指向 FEC 選舉申報資料 → 法務調查員。這不是 Prompt Engineering,而是用 Markdown 當程式語言、人類判斷力當 runtime 的軟體設計

2. Harness(外殼架構) 只做四件事:在迴圈中執行模型、讀寫檔案、管理上下文、強制安全規則。

3. Resolvers(上下文路由器) 「當任務類型 X 出現時,載入文件 Y。」Skills 說明如何做,Resolvers 決定何時載入什麼。Claude Code 的內建 resolver:每個 skill 的 description 欄位即是路由規則,模型自動配對使用者意圖與 skill。CLAUDE.md 只需是指向文件的指標,不需要堆砌所有知識。

4. Latent vs. Deterministic(潛在 vs. 確定性)

類型 特性 適合場景
Latent 模型判斷、詮釋、綜合 分析、模式識別、人物側寫
Deterministic 相同輸入 = 相同輸出 SQL 查詢、數學運算、組合排程

最常見的 Agent 設計錯誤:把確定性問題(如 800 人座位安排)硬塞進 Latent space。

5. Diarization(結構化主題摘要) 模型閱讀大量文件,蒸餾出一頁結構化判斷摘要。不是 RAG 能做到的——模型必須真正閱讀、同時持有矛盾、注意時間軸變化,才能綜合成「分析師簡報」而非「資料庫查詢」。


實務應用

YC Startup School 6000 位創辦人配對系統

傳統 15 人人工審查團隊在 6000 人規模下崩潰。Thin Harness + Fat Skills 架構的解法:

  1. /enrich-founder skill:每晚 cron job 自動充實所有資料並做 diarization,產出「說的 vs. 實際在做的」落差(如某人自稱做「Datadog for AI agents」,但 80% commit 在帳務模組 → 實為 FinOps 工具)
  2. 同一個 /match skill,三種呼叫:按行業配對(150 人/組)、跨行業機緣配對(每桌 8 人)、即時現場配對(200ms 回應)
  3. /improve skill(學習迴圈):活動後讀取「普通」NPS 回饋做 diarization → 提取模式 → 回寫新規則進 skill file。Skill 自己改寫自己。結果:12% 「還好」評分 → 4%。

核心原則(適用於所有 Skills):「如果我需要同一件事跟你說兩次,就是你的失敗。手動做 3-10 個項目 → 確認結果 → 寫成 skill file → 應該自動化的放上 cron。」

每個 skill 都是系統的永久升級,不會退化,不會忘記,新模型發佈時自動受益。


延伸觀點

Harness 應隨模型進化而持續精簡(2 篇以上共同提及):Hugo Bowne 與 bdtechtalks 均指出,Manus 等 agent 系統自 2024 年至今已重建五次,每次迭代都是在剝除更強模型已不再需要的複雜度。Thin Harness 不是一個設計目標,而是一個動態過程——模型越強,Harness 應該越薄。

Context Engineering 是 Thin Harness 的操作核心(2 篇以上共同提及):競爭優勢不在模型本身,而在「在對的時間把對的上下文送給模型」。具體三個操作方向:

  • Reduce:主動壓縮上下文(總結歷史 tool calls、threshold 後做 trajectory summarization)
  • Offload:將資訊移出 prompt(外部儲存 tool results、提供 bash terminal 而非 100 個專門工具)
  • Isolate:多 agent 架構,專門 sub-agent 處理 token 密集任務,只回傳簡潔結果給主 agent

Claude Code 洩漏原始碼揭示的反差(bdtechtalks 優先來源):51 萬行程式碼的 Claude Code 本身是一個「胖 Harness」——有 autoDream 背景記憶守護程式、自癒查詢迴圈、並發安全工具批次。這說明 Garry Tan 的「Thin Harness」是給使用者端設計的原則,而不是說 Anthropic 自己的基礎設施也要極簡。兩者並不矛盾。


Harness Engineering | AI Agent 設計模式 | AI 知識庫典範比較——Karpathy、Lütke 與 Tan | Claude Code 工作流程設定

反向連結

以下頁面引用了本頁: