AI Agent 設計模式 — 柒藍的學習筆記

核心概念

AI Agent 是指能夠自主決策、執行多步驟任務、並根據結果調整行為的 AI 系統。與傳統 LLM 問答不同，Agent 擁有目標導向的規劃能力、持久記憶，以及對外部工具的調用權。Anthropic 將 Agentic 系統定義為具備以下四個特徵：獨立決策、目標導向規劃、從互動中持續學習、以及跨整合系統的複雜推理。

四層基礎架構

現代 AI Agent 系統通常由四個核心層組成：

層級	職責
Model 層	底層語言模型，提供推理與語言理解能力
Memory 層	儲存短期（對話上下文）與長期（語義記憶）資訊
Tools 層	可調用的外部能力（搜尋、API、程式執行）
Orchestrator 層	協調多個 Agent、執行策略、強制執行政策

這四層的完整組合，將孤立的 LLM 呼叫轉變為可擴展、可問責的作業系統。其中 Memory 層尤為關鍵：短期記憶（對話窗口）負責任務內的連貫性，長期記憶（向量資料庫）讓 Agent 在跨任務間保持學習積累。

三種架構類型

1. 單體 Agent（Monolithic Single Agent） 一個 LLM 配備多種工具，簡單直接。然而存在「工具爆炸」問題——每個 Agent 超過 10-20 個工具後，性能與可靠性明顯下降，工具選擇容易出錯。適合快速原型驗證，不適合生產環境長期運行。

2. 多 Agent 工作流（Agentic Workflows） 多個專門化 Agent 組成有向圖，每個節點負責特定子任務（研究、程式執行、品質評估等）。支援並行處理與成本優化，是目前企業生產環境的主流模式。代表性框架：LangGraph、AutoGen、CrewAI。

3. LLM Skills（技能注入） 將可重用的模組化能力動態注入核心 LLM。Anthropic 的 Agent Skills 是代表案例——打包知識與可選腳本，減少工具重疊、降低認知負擔，同時保持組合性。適合需要持續注入領域專業的場景。

當前趨勢

2025 年後，業界已轉向混合架構：以有序工作流負責協調（確保可靠性），以技能注入處理領域知識（確保靈活性）。純單體設計逐漸被淘汰，模組化多 Agent 的組合成為標準，對應到協調框架如 AGNTCY 與語義記憶層如 Mem0 的興起。

關鍵要點

固定工作流模式（六種）

基於 Anthropic 實戰建議，固定工作流模式適合結構可預測的任務：

模式	核心機制	典型場景
Augmented LLM	為 LLM 加上記憶、檢索、工具	大多數 AI 應用的基礎層
Prompt Chaining	有序步驟串連，前步輸出為後步輸入	需高精度、可接受延遲的任務
Routing	分類輸入後導向對應專門模型	輸入類型明確且差異顯著
Parallelization	多 LLM 同時執行後彙總	獨立子任務、多角度評估
Orchestrator-Workers	中心 LLM 動態分解後委派子 LLM	子任務難以事先預知的複雜工作
Evaluator-Optimizer	生成 LLM + 評估 LLM 迭代優化	有明確品質標準（數學、程式碼）

動態 Agent 模式

Agent 採取行動 → 評估結果 → 調整下一步，形成反饋迴圈。適用於開放式任務（電腦操作、長期研究），但需要容錯設計——錯誤會在迴圈中累積放大，需設定最大迭代次數或人工介入觸發點。

設計核心原則

「找到最簡單可行的方案，只在確實需要時才增加複雜度。」——Anthropic

複雜多 Agent 框架帶來的協調成本與除錯難度往往被低估。Google Deep Research 等強大 Agent 使用的仍是簡單底層架構——靠的是高能力的模型與可靠的工具，而非複雜的 orchestration 邏輯。

實務應用

選擇模式的決策框架：

任務結構可預測 → Prompt Chaining 或 Parallelization
輸入類型差異大 → Routing（避免單一通用 Agent 承擔所有輸入）
需要反覆品質優化 → Evaluator-Optimizer（自動迭代直到達標）
子任務無法事先預知 → Orchestrator-Workers
完全開放式目標 → 動態 Agent Pattern（需設計容錯機制）

工具數量警戒線：單個 Agent 工具超過 15 個時，應重構為多 Agent 架構，將工具按職責分組到不同專門 Agent。

記憶設計警示：只有短期記憶的 Agent 在長任務中會「失憶」，導致重複工作或前後矛盾。重要 Agent 系統應搭配向量資料庫作長期記憶儲存。

延伸觀點

來自學術研究的三個補充視角：

多 Agent 系統的量化優勢：AWS 企業實驗（2024）顯示，相較於單一 Agent，多 Agent 協作在目標達成率上可提升高達 70%。關鍵機制是 Supervisor Agent 架構——中央 Agent 負責任務路由，子 Agent 保持專注領域——並搭配動態路由（繞過不必要的協調步驟），達到 ≥90% 的路由準確率、同時降低延遲。

幻覺級聯（Hallucination Cascade）是多 Agent 的隱性風險：多篇研究一致指出，單 Agent 的幻覺在多 Agent 系統中會沿有向圖向下傳播放大。預防策略包括：在每個 Agent 的輸出邊界加入驗證步驟（assertion checks）、限制 Agent 間的上下文傳遞深度，以及為關鍵節點加入人工確認機制。

MCP 作為跨 Agent 上下文共享的標準化解法：Model Context Protocol（MCP）的設計目標是解決「斷裂模型問題」——LLM 本身無法跨任務維持持久狀態。MCP 以五大原則（互通性、簡潔性、可擴展性、安全優先、人類中心控制）定義跨 Agent 的標準資源存取與記憶共享介面，目前已成為多 Agent 生態的新興標準。

Harness Engineering LLM主流地位與替代路徑

反向連結

以下頁面引用了本頁：

AI 驅動一人公司創業規劃
Harness Engineering
LLM主流地位與替代路徑
RAG 檢索增強生成架構
從層級走向智能：AI 重塑組織設計
Thin Harness, Fat Skills — Garry Tan AI 效能架構（技術與AI）
Prompt Engineering 進階技術：CoT、Few-shot 與提示鏈（技術與AI）
2026 年 Agentic AI 七大趨勢（技術與AI）
Agentic AI 企業落地現實：基礎建設障礙與突破策略（技術與AI）
多 Agent 系統協作架構：MCP 與 A2A 協議（技術與AI）
Claude Code Routines 雲端自動化排程（技術與AI）
LLM API Router 供應鏈攻擊（技術與AI）
Office 賭注（產業觀察）
製造業 AI Agent 架構：Hermes 執行層與 Agent Teams 落地方案（技術與AI）
AI Eval 成本危機：評估比訓練更貴（文章精選）
AI 共診醫師——Google DeepMind 臨床 AI 研究（文章精選）
Agentic Memory：LLM Agent 長短期記憶統一管理框架（研究速遞）
EnvScaler：程式合成大規模 LLM Agent 工具互動訓練環境（研究速遞）
LLM Agent 藥物資產盡職調查競爭格局分析（研究速遞）
NVIDIA Nemotron 3 Nano Omni——長上下文全模態模型（文章精選）
OpenAI 入駐 AWS Bedrock：GPT 模型、Codex 與託管代理三合一整合（文章精選）
OpenAI 語音 AI 低延遲架構：WebRTC 大規模部署實錄（文章精選）
多代理網絡的湧現風險：Microsoft Research 紅隊測試報告（文章精選）
MachinaCheck：多 Agent CNC 可製造性分析系統（文章精選）
OpenAI × PwC：AI Agent 重塑 CFO 辦公室（文章精選）
Parloa——企業語音 AI 客服代理管理平台（文章精選）
RAG 三路選型：Naive、Agentic 與 GraphRAG（技術與AI）
Uber × OpenAI：司機智慧賺錢與乘客語音預約（文章精選）
AI Agent 工具呼叫：Code Mode 終結 MCP vs CLI 之爭（技術與AI）
AI Agent 平台競爭：從聊天走向部署治理基礎設施（技術與AI）
Vivian Balakrishnan 的 AI 第二大腦——外交官的個人代理架構（技術與AI）
AI Agent 工作流的人機分工原則（技術與AI）
OpenAI Codex 的非技術轉型：Agent 普及化與知識工作者未來（技術與AI）
Generate-Evaluate-Repair：代理式排班系統的迭代設計（技術與AI）
自主高分子材料探索：AI驅動生成設計與閉環工程架構（研究速遞）
AI Agent 術語解析：Model、Harness、Scaffold 的精確定義（文章精選）
IBM Research：超越 LLM，企業 AI 規模化的 Agent Logic 關鍵（文章精選）
LLM Agent 工具與代理選擇：生產環境全景調查（研究速遞）
Hugging Face Spaces agents.md：AI Agent 組合多媒體服務的新標準（文章精選）
DeepPlanning：長程智能體規劃基準測試（研究速遞）
MCP-Atlas：大規模 MCP 真實伺服器工具使用能力基準測試（研究速遞）
CUGA：IBM 開源代理 Harness 的 24 個真實應用實踐（文章精選）
ScarfBench：企業 Java 框架遷移的 AI Agent 基準測試（文章精選）
SkillOpt：將 Agent 技能視為可訓練參數（文章精選）
Claude Code 循環模式：四種 Agentic Loop 設計與選型（技術與AI）