核心概念

Prompt Engineering 的進階技術圍繞一個核心問題:如何讓語言模型在不微調的前提下,產出更精確、更可靠的結果。三個最關鍵的技術——Chain-of-Thought(CoT)、Few-shot 提示、提示鏈——分別解決不同層次的問題。

Chain-of-Thought(思維鏈)

Wei et al.(2022)提出 CoT:強制模型在給出最終答案前,先產出完整的中間推理步驟。CoT 是一種「湧現能力」,主要在參數量足夠大的模型上才有效,小模型幾乎無效。

機制上,CoT 延伸了 Transformer 的計算圖,每個中間步驟都提供自我修正機會,明確的推理 token 會激活模型內部的邏輯運算迴路。

三種主要形式:

類型 做法 特點
Few-Shot CoT prompt 中附上含推理過程的示範 效果最穩定,適合可預期任務
Zero-Shot CoT 加上「Let's think step by step」 無需準備範例,泛用性強
Auto-CoT 自動聚類問題並生成推理鏈示範 降低人工設計成本

Zero-Shot CoT 之所以有效,是因為「Let's think step by step」這類短語在預訓練語料中大量出現在推理範例旁邊,模型學會了將此短語與逐步推導行為關聯。

Self-Consistency(自洽性採樣):Wang et al.(2022)提出的進化版 CoT。做法是用高 temperature 讓模型多次採樣,產生多條不同推理路徑,最後以多數決選出答案。在 GSM8K 數學基準測試上提升 +17.9%,在 AQuA 提升 +12.2%,效果顯著。

最新發現(2025):在 Qwen2.5 等強模型上,傳統 few-shot CoT 範例不再提升推理表現,主要功能退化為格式對齊。CoT 的角色正在演化。

Few-Shot 提示

在 prompt 中放入示範範例(input + output 配對),讓模型學習任務格式與模式,無需微調。

Min et al.(2022)的關鍵發現顛覆直覺:示範範例的標籤正確性比你以為的不重要。即使標籤是隨機的,效果仍遠優於完全沒有示範。真正決定效果的是:標籤空間的完整性、輸入文字的分佈、以及格式一致性。

實踐建議:

  • 數量:2–5 個是甜蜜點;從 0 到 2 個提升最顯著,之後邊際遞減
  • 品質優先:爛的範例比沒有範例更糟,寧可少不要濫
  • 多樣性:範例多樣性比範例相似性更能提升泛化能力
  • 失效邊界:Few-shot 對需要多步推理的數學題幾乎無效,此時必須配合 CoT

Few-shot 與 CoT 的最佳組合:在示範範例中同時展示完整推理過程(Few-shot CoT),這是目前複雜推理任務最強的基礎組合。

提示鏈(Prompt Chaining)

將複雜任務分解成多個子任務,每一步的輸出成為下一步的輸入,並在每步之間進行驗證:

任務分解 → Step 1 → 驗證 → Step 2 → 驗證 → Step 3 → 最終輸出

優勢在於:每個子任務獲得模型完整注意力、中間輸出可驗證除錯、模組化設計讓錯誤容易定位。這是 AI Agent 設計模式 的底層基礎——Agent 任務幾乎都是提示鏈的延伸應用。

OpenAI 實測,在 Agentic 工作流的 system prompt 中加入三條指令,內部 coding 基準提升近 20%:

  1. 持續性指令:要求模型持續工作直到任務完全解決
  2. 工具使用指令:明確要求使用工具而非猜測
  3. 規劃指令:要求在函數呼叫之間做出明確規劃

關鍵要點

  • CoT 的本質是延伸計算:不是讓模型「更聰明」,而是給它更多 token 空間進行中間計算。移除推理步驟等於剝奪計算資源
  • 標籤正確性遠不如格式一致性重要(Min et al. 2022):Few-shot 的作用主要是告訴模型「應該產出什麼格式」,而非示範「正確答案是什麼」
  • Self-Consistency 是最低成本的效能提升:不需要更好的 prompt,只需多次採樣 + 多數決,數學任務即可提升 17.9%
  • 模型強度改變技術優先序:強模型時代,zero-shot CoT 往往優於 few-shot CoT;weak model 時代,精心設計的 few-shot 才是關鍵
  • Position Bias(位置偏見):模型對長 context 中間段落注意力下降("Lost in the Middle")。重要資訊應放開頭或結尾,不要埋在中間
  • Token 要精省:Transformer 注意力是 O(n²) 複雜度,冗長 prompt 稀釋注意力,每個 token 都有成本

實務應用

Prompt 結構最佳順序(GPT-4.1 官方建議):角色與目標 → 指令 → 推理步驟 → 輸出格式 → 示範範例 → 上下文資料 → 最終思考指令。

格式選擇:Claude 用 XML 標籤效果最佳;GPT-4 用 JSON 結構較好;長 context 任務避免 JSON,改用 XML 或管道格式。

進階技術選型

  • Tree-of-Thoughts(思維樹):將推理結構化為有分支的搜尋樹,可回溯,適合有多個解法空間的問題(創意寫作、策略規劃)
  • ReAct(推理+行動):思考 → 工具呼叫 → 觀察 → 循環。適合需要查詢外部資料的 Agent 任務,對應到 AI Agent 設計模式 的 Agentic Loop
  • Self-Ask(自問自答):讓模型自己生成中間問題逐一回答,適合多跳推理(multi-hop reasoning)

選技術的判斷流程:任務需要推理 → CoT。任務需要探索多路徑 → ToT。任務需要工具呼叫 → ReAct。任務需要多步驟串行 → 提示鏈。

這些技術與 LLM 語言思考品質 中討論的中文思考策略可以疊加:在 CoT 推理步驟中強制使用中文思考,可進一步提升複雜語言任務的品質。詳細的 LLM 基礎見 LLM主流地位與替代路徑,以及如何把這些技術整合進工程工作流見 AI 輔助後端工程師技能地圖

延伸觀點

2025 年最新研究(arxiv 2506.14641)指出,對 Qwen2.5 等強模型,few-shot CoT 範例的作用已從「提升推理」退化為「格式對齊」——這意味著模型越強,工程師越不需要精心設計示範範例,而是應該把精力放在任務分解與提示鏈架構上。

Self-Consistency 的效果(+17.9% on GSM8K)遠超大多數人的直覺估計。在 inference cost 允許的情況下,多次採樣 + 多數決是最簡單、最可靠的效能提升手段,比優化 prompt 措辭更有效。這個洞察指向一個方向:未來 PE 的核心競爭力可能不是「寫出完美的 prompt」,而是「設計出能利用多次採樣的可驗證任務分解框架」。

Two sources cross-validate(Prompt Engineering Guide + OpenAI Cookbook):prompt 結構的順序顯著影響效果,特別是範例的位置——放在 context 末尾(靠近生成點)通常比放在開頭效果更好,因為語言模型對近期 token 有更強的注意力。

反向連結

以下頁面引用了本頁: