核心概念
Prompt Engineering 的進階技術圍繞一個核心問題:如何讓語言模型在不微調的前提下,產出更精確、更可靠的結果。三個最關鍵的技術——Chain-of-Thought(CoT)、Few-shot 提示、提示鏈——分別解決不同層次的問題。
Chain-of-Thought(思維鏈)
Wei et al.(2022)提出 CoT:強制模型在給出最終答案前,先產出完整的中間推理步驟。CoT 是一種「湧現能力」,主要在參數量足夠大的模型上才有效,小模型幾乎無效。
機制上,CoT 延伸了 Transformer 的計算圖,每個中間步驟都提供自我修正機會,明確的推理 token 會激活模型內部的邏輯運算迴路。
三種主要形式:
| 類型 | 做法 | 特點 |
|---|---|---|
| Few-Shot CoT | prompt 中附上含推理過程的示範 | 效果最穩定,適合可預期任務 |
| Zero-Shot CoT | 加上「Let's think step by step」 | 無需準備範例,泛用性強 |
| Auto-CoT | 自動聚類問題並生成推理鏈示範 | 降低人工設計成本 |
Zero-Shot CoT 之所以有效,是因為「Let's think step by step」這類短語在預訓練語料中大量出現在推理範例旁邊,模型學會了將此短語與逐步推導行為關聯。
Self-Consistency(自洽性採樣):Wang et al.(2022)提出的進化版 CoT。做法是用高 temperature 讓模型多次採樣,產生多條不同推理路徑,最後以多數決選出答案。在 GSM8K 數學基準測試上提升 +17.9%,在 AQuA 提升 +12.2%,效果顯著。
最新發現(2025):在 Qwen2.5 等強模型上,傳統 few-shot CoT 範例不再提升推理表現,主要功能退化為格式對齊。CoT 的角色正在演化。
Few-Shot 提示
在 prompt 中放入示範範例(input + output 配對),讓模型學習任務格式與模式,無需微調。
Min et al.(2022)的關鍵發現顛覆直覺:示範範例的標籤正確性比你以為的不重要。即使標籤是隨機的,效果仍遠優於完全沒有示範。真正決定效果的是:標籤空間的完整性、輸入文字的分佈、以及格式一致性。
實踐建議:
- 數量:2–5 個是甜蜜點;從 0 到 2 個提升最顯著,之後邊際遞減
- 品質優先:爛的範例比沒有範例更糟,寧可少不要濫
- 多樣性:範例多樣性比範例相似性更能提升泛化能力
- 失效邊界:Few-shot 對需要多步推理的數學題幾乎無效,此時必須配合 CoT
Few-shot 與 CoT 的最佳組合:在示範範例中同時展示完整推理過程(Few-shot CoT),這是目前複雜推理任務最強的基礎組合。
提示鏈(Prompt Chaining)
將複雜任務分解成多個子任務,每一步的輸出成為下一步的輸入,並在每步之間進行驗證:
任務分解 → Step 1 → 驗證 → Step 2 → 驗證 → Step 3 → 最終輸出
優勢在於:每個子任務獲得模型完整注意力、中間輸出可驗證除錯、模組化設計讓錯誤容易定位。這是 AI Agent 設計模式 的底層基礎——Agent 任務幾乎都是提示鏈的延伸應用。
OpenAI 實測,在 Agentic 工作流的 system prompt 中加入三條指令,內部 coding 基準提升近 20%:
- 持續性指令:要求模型持續工作直到任務完全解決
- 工具使用指令:明確要求使用工具而非猜測
- 規劃指令:要求在函數呼叫之間做出明確規劃
關鍵要點
- CoT 的本質是延伸計算:不是讓模型「更聰明」,而是給它更多 token 空間進行中間計算。移除推理步驟等於剝奪計算資源
- 標籤正確性遠不如格式一致性重要(Min et al. 2022):Few-shot 的作用主要是告訴模型「應該產出什麼格式」,而非示範「正確答案是什麼」
- Self-Consistency 是最低成本的效能提升:不需要更好的 prompt,只需多次採樣 + 多數決,數學任務即可提升 17.9%
- 模型強度改變技術優先序:強模型時代,zero-shot CoT 往往優於 few-shot CoT;weak model 時代,精心設計的 few-shot 才是關鍵
- Position Bias(位置偏見):模型對長 context 中間段落注意力下降("Lost in the Middle")。重要資訊應放開頭或結尾,不要埋在中間
- Token 要精省:Transformer 注意力是 O(n²) 複雜度,冗長 prompt 稀釋注意力,每個 token 都有成本
實務應用
Prompt 結構最佳順序(GPT-4.1 官方建議):角色與目標 → 指令 → 推理步驟 → 輸出格式 → 示範範例 → 上下文資料 → 最終思考指令。
格式選擇:Claude 用 XML 標籤效果最佳;GPT-4 用 JSON 結構較好;長 context 任務避免 JSON,改用 XML 或管道格式。
進階技術選型:
- Tree-of-Thoughts(思維樹):將推理結構化為有分支的搜尋樹,可回溯,適合有多個解法空間的問題(創意寫作、策略規劃)
- ReAct(推理+行動):思考 → 工具呼叫 → 觀察 → 循環。適合需要查詢外部資料的 Agent 任務,對應到 AI Agent 設計模式 的 Agentic Loop
- Self-Ask(自問自答):讓模型自己生成中間問題逐一回答,適合多跳推理(multi-hop reasoning)
選技術的判斷流程:任務需要推理 → CoT。任務需要探索多路徑 → ToT。任務需要工具呼叫 → ReAct。任務需要多步驟串行 → 提示鏈。
這些技術與 LLM 語言思考品質 中討論的中文思考策略可以疊加:在 CoT 推理步驟中強制使用中文思考,可進一步提升複雜語言任務的品質。詳細的 LLM 基礎見 LLM主流地位與替代路徑,以及如何把這些技術整合進工程工作流見 AI 輔助後端工程師技能地圖。
延伸觀點
2025 年最新研究(arxiv 2506.14641)指出,對 Qwen2.5 等強模型,few-shot CoT 範例的作用已從「提升推理」退化為「格式對齊」——這意味著模型越強,工程師越不需要精心設計示範範例,而是應該把精力放在任務分解與提示鏈架構上。
Self-Consistency 的效果(+17.9% on GSM8K)遠超大多數人的直覺估計。在 inference cost 允許的情況下,多次採樣 + 多數決是最簡單、最可靠的效能提升手段,比優化 prompt 措辭更有效。這個洞察指向一個方向:未來 PE 的核心競爭力可能不是「寫出完美的 prompt」,而是「設計出能利用多次採樣的可驗證任務分解框架」。
Two sources cross-validate(Prompt Engineering Guide + OpenAI Cookbook):prompt 結構的順序顯著影響效果,特別是範例的位置——放在 context 末尾(靠近生成點)通常比放在開頭效果更好,因為語言模型對近期 token 有更強的注意力。
反向連結
以下頁面引用了本頁:
- AI Agent 設計模式(技術與AI)
- AI 輔助後端工程師技能地圖(技術與AI)
- LLM 語言思考品質(技術與AI)
- LLM主流地位與替代路徑(技術與AI)
- Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略(文章精選)
- Generate-Evaluate-Repair:代理式排班系統的迭代設計(技術與AI)
- Prompt 遷移除錯:評估套件、結構清理與三大陷阱(技術與AI)