Thin Harness, Fat Skills — Garry Tan AI 效能架構

核心概念

Y Combinator 總裁 Garry Tan 提出的核心洞察：相同的 AI 模型，使用者的生產力可以差距 2 倍到 100 倍。差別不在模型智力，而在包裹模型的架構設計。

原則稱為「Thin Harness, Fat Skills」（薄外殼，厚技能）：

Harness（外殼）：運行 LLM 的程式層，負責在迴圈中執行模型、讀寫檔案、管理上下文、強制安全規則。保持精簡，約 200 行程式碼。
Skills（技能檔案）：用 Markdown 寫成的可重複使用工作流程，編碼判斷、流程與領域知識。90% 的價值在此。

設計原則：把智力往上推進 Skills，把執行往下推進確定性工具，Harness 只做最少的事。

「Fat Harness」反面模式：40+ 工具定義吃掉半個 context window、萬能 God-tools 每次 MCP 來回 2-5 秒、REST API wrapper 每個 endpoint 獨立一個工具。結果是三倍 token 消耗、三倍延遲、三倍失敗率。

關鍵要點

五個核心定義

1. Skill Files（技能檔案） 類似函式呼叫——接受參數（TARGET / QUESTION / DATASET），相同流程傳入不同引數產生截然不同的能力。同一個 /investigate skill（七步驟），指向醫療訴訟文件 → 醫學研究分析師；指向 FEC 選舉申報資料 → 法務調查員。這不是 Prompt Engineering，而是用 Markdown 當程式語言、人類判斷力當 runtime 的軟體設計。

2. Harness（外殼架構） 只做四件事：在迴圈中執行模型、讀寫檔案、管理上下文、強制安全規則。

3. Resolvers（上下文路由器） 「當任務類型 X 出現時，載入文件 Y。」Skills 說明如何做，Resolvers 決定何時載入什麼。Claude Code 的內建 resolver：每個 skill 的 description 欄位即是路由規則，模型自動配對使用者意圖與 skill。CLAUDE.md 只需是指向文件的指標，不需要堆砌所有知識。

4. Latent vs. Deterministic（潛在 vs. 確定性）

類型	特性	適合場景
Latent	模型判斷、詮釋、綜合	分析、模式識別、人物側寫
Deterministic	相同輸入 = 相同輸出	SQL 查詢、數學運算、組合排程

最常見的 Agent 設計錯誤：把確定性問題（如 800 人座位安排）硬塞進 Latent space。

5. Diarization（結構化主題摘要） 模型閱讀大量文件，蒸餾出一頁結構化判斷摘要。不是 RAG 能做到的——模型必須真正閱讀、同時持有矛盾、注意時間軸變化，才能綜合成「分析師簡報」而非「資料庫查詢」。

實務應用

YC Startup School 6000 位創辦人配對系統

傳統 15 人人工審查團隊在 6000 人規模下崩潰。Thin Harness + Fat Skills 架構的解法：

/enrich-founder skill：每晚 cron job 自動充實所有資料並做 diarization，產出「說的 vs. 實際在做的」落差（如某人自稱做「Datadog for AI agents」，但 80% commit 在帳務模組 → 實為 FinOps 工具）
同一個 /match skill，三種呼叫：按行業配對（150 人/組）、跨行業機緣配對（每桌 8 人）、即時現場配對（200ms 回應）
/improve skill（學習迴圈）：活動後讀取「普通」NPS 回饋做 diarization → 提取模式 → 回寫新規則進 skill file。Skill 自己改寫自己。結果：12% 「還好」評分 → 4%。

核心原則（適用於所有 Skills）：「如果我需要同一件事跟你說兩次，就是你的失敗。手動做 3-10 個項目 → 確認結果 → 寫成 skill file → 應該自動化的放上 cron。」

每個 skill 都是系統的永久升級，不會退化，不會忘記，新模型發佈時自動受益。

延伸觀點

Harness 應隨模型進化而持續精簡（2 篇以上共同提及）：Hugo Bowne 與 bdtechtalks 均指出，Manus 等 agent 系統自 2024 年至今已重建五次，每次迭代都是在剝除更強模型已不再需要的複雜度。Thin Harness 不是一個設計目標，而是一個動態過程——模型越強，Harness 應該越薄。

Context Engineering 是 Thin Harness 的操作核心（2 篇以上共同提及）：競爭優勢不在模型本身，而在「在對的時間把對的上下文送給模型」。具體三個操作方向：

Reduce：主動壓縮上下文（總結歷史 tool calls、threshold 後做 trajectory summarization）
Offload：將資訊移出 prompt（外部儲存 tool results、提供 bash terminal 而非 100 個專門工具）
Isolate：多 agent 架構，專門 sub-agent 處理 token 密集任務，只回傳簡潔結果給主 agent

Claude Code 洩漏原始碼揭示的反差（bdtechtalks 優先來源）：51 萬行程式碼的 Claude Code 本身是一個「胖 Harness」——有 autoDream 背景記憶守護程式、自癒查詢迴圈、並發安全工具批次。這說明 Garry Tan 的「Thin Harness」是給使用者端設計的原則，而不是說 Anthropic 自己的基礎設施也要極簡。兩者並不矛盾。

Harness Engineering | AI Agent 設計模式 | AI 知識庫典範比較——Karpathy、Lütke 與 Tan | Claude Code 工作流程設定

反向連結

以下頁面引用了本頁：

AI Agent 設計模式（技術與AI）
AI 知識庫典範比較——Karpathy、Lütke 與 Tan（技術與AI）
Claude Code 工作流程設定（技術與AI）
Harness Engineering（技術與AI）
Vivian Balakrishnan 的 AI 第二大腦——外交官的個人代理架構（技術與AI）
AI Agent 術語解析：Model、Harness、Scaffold 的精確定義（文章精選）
CUGA：IBM 開源代理 Harness 的 24 個真實應用實踐（文章精選）
SkillOpt：將 Agent 技能視為可訓練參數（文章精選）
脈絡越多不等於AI越好用（技術與AI）