Prompt Engineering 進階技術：CoT、Few-shot 與提示鏈

核心概念

Prompt Engineering 的進階技術圍繞一個核心問題：如何讓語言模型在不微調的前提下，產出更精確、更可靠的結果。三個最關鍵的技術——Chain-of-Thought（CoT）、Few-shot 提示、提示鏈——分別解決不同層次的問題。

Chain-of-Thought（思維鏈）

Wei et al.（2022）提出 CoT：強制模型在給出最終答案前，先產出完整的中間推理步驟。CoT 是一種「湧現能力」，主要在參數量足夠大的模型上才有效，小模型幾乎無效。

機制上，CoT 延伸了 Transformer 的計算圖，每個中間步驟都提供自我修正機會，明確的推理 token 會激活模型內部的邏輯運算迴路。

三種主要形式：

類型	做法	特點
Few-Shot CoT	prompt 中附上含推理過程的示範	效果最穩定，適合可預期任務
Zero-Shot CoT	加上「Let's think step by step」	無需準備範例，泛用性強
Auto-CoT	自動聚類問題並生成推理鏈示範	降低人工設計成本

Zero-Shot CoT 之所以有效，是因為「Let's think step by step」這類短語在預訓練語料中大量出現在推理範例旁邊，模型學會了將此短語與逐步推導行為關聯。

Self-Consistency（自洽性採樣）：Wang et al.（2022）提出的進化版 CoT。做法是用高 temperature 讓模型多次採樣，產生多條不同推理路徑，最後以多數決選出答案。在 GSM8K 數學基準測試上提升 +17.9%，在 AQuA 提升 +12.2%，效果顯著。

最新發現（2025）：在 Qwen2.5 等強模型上，傳統 few-shot CoT 範例不再提升推理表現，主要功能退化為格式對齊。CoT 的角色正在演化。

Few-Shot 提示

在 prompt 中放入示範範例（input + output 配對），讓模型學習任務格式與模式，無需微調。

Min et al.（2022）的關鍵發現顛覆直覺：示範範例的標籤正確性比你以為的不重要。即使標籤是隨機的，效果仍遠優於完全沒有示範。真正決定效果的是：標籤空間的完整性、輸入文字的分佈、以及格式一致性。

實踐建議：

數量：2–5 個是甜蜜點；從 0 到 2 個提升最顯著，之後邊際遞減
品質優先：爛的範例比沒有範例更糟，寧可少不要濫
多樣性：範例多樣性比範例相似性更能提升泛化能力
失效邊界：Few-shot 對需要多步推理的數學題幾乎無效，此時必須配合 CoT

Few-shot 與 CoT 的最佳組合：在示範範例中同時展示完整推理過程（Few-shot CoT），這是目前複雜推理任務最強的基礎組合。

提示鏈（Prompt Chaining）

將複雜任務分解成多個子任務，每一步的輸出成為下一步的輸入，並在每步之間進行驗證：

任務分解 → Step 1 → 驗證 → Step 2 → 驗證 → Step 3 → 最終輸出

優勢在於：每個子任務獲得模型完整注意力、中間輸出可驗證除錯、模組化設計讓錯誤容易定位。這是 AI Agent 設計模式的底層基礎——Agent 任務幾乎都是提示鏈的延伸應用。

OpenAI 實測，在 Agentic 工作流的 system prompt 中加入三條指令，內部 coding 基準提升近 20%：

持續性指令：要求模型持續工作直到任務完全解決
工具使用指令：明確要求使用工具而非猜測
規劃指令：要求在函數呼叫之間做出明確規劃

關鍵要點

CoT 的本質是延伸計算：不是讓模型「更聰明」，而是給它更多 token 空間進行中間計算。移除推理步驟等於剝奪計算資源
標籤正確性遠不如格式一致性重要（Min et al. 2022）：Few-shot 的作用主要是告訴模型「應該產出什麼格式」，而非示範「正確答案是什麼」
Self-Consistency 是最低成本的效能提升：不需要更好的 prompt，只需多次採樣 + 多數決，數學任務即可提升 17.9%
模型強度改變技術優先序：強模型時代，zero-shot CoT 往往優於 few-shot CoT；weak model 時代，精心設計的 few-shot 才是關鍵
Position Bias（位置偏見）：模型對長 context 中間段落注意力下降（"Lost in the Middle"）。重要資訊應放開頭或結尾，不要埋在中間
Token 要精省：Transformer 注意力是 O(n²) 複雜度，冗長 prompt 稀釋注意力，每個 token 都有成本

實務應用

Prompt 結構最佳順序（GPT-4.1 官方建議）：角色與目標 → 指令 → 推理步驟 → 輸出格式 → 示範範例 → 上下文資料 → 最終思考指令。

格式選擇：Claude 用 XML 標籤效果最佳；GPT-4 用 JSON 結構較好；長 context 任務避免 JSON，改用 XML 或管道格式。

進階技術選型：

Tree-of-Thoughts（思維樹）：將推理結構化為有分支的搜尋樹，可回溯，適合有多個解法空間的問題（創意寫作、策略規劃）
ReAct（推理+行動）：思考 → 工具呼叫 → 觀察 → 循環。適合需要查詢外部資料的 Agent 任務，對應到 AI Agent 設計模式的 Agentic Loop
Self-Ask（自問自答）：讓模型自己生成中間問題逐一回答，適合多跳推理（multi-hop reasoning）

選技術的判斷流程：任務需要推理 → CoT。任務需要探索多路徑 → ToT。任務需要工具呼叫 → ReAct。任務需要多步驟串行 → 提示鏈。

這些技術與 LLM 語言思考品質中討論的中文思考策略可以疊加：在 CoT 推理步驟中強制使用中文思考，可進一步提升複雜語言任務的品質。詳細的 LLM 基礎見 LLM主流地位與替代路徑，以及如何把這些技術整合進工程工作流見 AI 輔助後端工程師技能地圖。

延伸觀點

2025 年最新研究（arxiv 2506.14641）指出，對 Qwen2.5 等強模型，few-shot CoT 範例的作用已從「提升推理」退化為「格式對齊」——這意味著模型越強，工程師越不需要精心設計示範範例，而是應該把精力放在任務分解與提示鏈架構上。

Self-Consistency 的效果（+17.9% on GSM8K）遠超大多數人的直覺估計。在 inference cost 允許的情況下，多次採樣 + 多數決是最簡單、最可靠的效能提升手段，比優化 prompt 措辭更有效。這個洞察指向一個方向：未來 PE 的核心競爭力可能不是「寫出完美的 prompt」，而是「設計出能利用多次採樣的可驗證任務分解框架」。

Two sources cross-validate（Prompt Engineering Guide + OpenAI Cookbook）：prompt 結構的順序顯著影響效果，特別是範例的位置——放在 context 末尾（靠近生成點）通常比放在開頭效果更好，因為語言模型對近期 token 有更強的注意力。

反向連結

以下頁面引用了本頁：

AI Agent 設計模式（技術與AI）
AI 輔助後端工程師技能地圖（技術與AI）
LLM 語言思考品質（技術與AI）
LLM主流地位與替代路徑（技術與AI）
Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略（文章精選）
Generate-Evaluate-Repair：代理式排班系統的迭代設計（技術與AI）
Prompt 遷移除錯：評估套件、結構清理與三大陷阱（技術與AI）
LLM推理失敗：首個全面分類調查框架（研究速遞）