Prompt 遷移除錯：評估套件、結構清理與三大陷阱

核心概念

把現有提示詞遷移到新模型後，測試案例失敗可能出於兩種截然不同的原因：一是新模型有能力，但行為不同，可以透過調整 prompt 修正；二是新模型能力本身不足，無論怎麼改提示詞都無效。在動手調整之前，必須先建立評估套件來分辨這兩種情況。

Anthropic 倫敦辦公室 Applied AI 工程師 Margot Vanlar 用電信公司客服機器人 Meridian Mobile 作為示範，說明評估套件裡需要三種測試案例：

控制案例：沒有歧義、模型本來就處理得好的基準任務，應永遠通過
邊界案例：過去曾出錯的情況，靠提示詞裡的明確指令防止再犯
能力邊界案例：確認模型知道自己的邊界——什麼時候該升級給人工，什麼時候該拒絕

她為 Meridian Mobile 設了五個案例：查基本方案流量上限（控制案例）、計算 prorated 帳單、回答政策問題、偵測帳單錯誤時升級人工、以及不隱瞞手上有的資訊。

在針對個別失敗案例之前，她優先做結構清理——典型客服機器人的毛病是多人協作維護、政策語氣流程全混在一起、夾雜針對舊模型的修補指令。她發現提示詞裡有「機器人被定義為人類」、有從網站直接複製的 cookies 文字、所有指令堆在一個大段落。

清理做法：用 XML 標籤分區（角色定義、一般指引、政策、語氣各自獨立），並在提示詞末尾加輸出合約（output contract），用 XML 標籤定義輸出格式，配合 API 的 stop sequence 確保一致性。她的經驗法則：「如果你閱讀提示詞時無法區分指引和政策、數據，模型很可能也做不到。」

關鍵要點

陷阱一：舊模型的修補指令在新模型過度擬合

客戶查 legacy plan 的 hotspot 配額，模型明明有準確資料，卻叫客戶自己去 URL 查。原因是提示詞裡有一條舊指令：「不要給客戶錯誤的方案詳情，改為引導他們到 URL。」這條指令原本是防止幻覺的修補，但新模型的指令遵循能力更強，反而把「不給錯誤資訊」過度擴展成「不給任何資訊」。

教訓：模型不只會幻覺，也會隱瞞它實際有權取得的資訊。修補指令應該用版本控制記錄原因，方便日後回溯並刪除過時防禦。

陷阱二：指令不會增加能力，工具才能

模型被要求精確計算 prorated 帳單，卻只給出模糊推理，不給確切數字。提示詞裡寫著「必須正確計算 prorated 金額」——但這沒有用。告訴模型「算得準確很重要」，不會讓它更擅長心算。正確做法是給它一個工具（calculate_proration），並在 API 層定義工具的 schema 與數學邏輯。

陷阱三：只說故事的一面，模型會過度擬合

偵測到帳單衝突時，模型應升級人工，卻反而自己診斷解釋。原因是提示詞告訴模型「每次升級花費 $8，會算進快速解決率」——只說了升級的成本，沒說不升級的代價。修正是補上另一面：「升級 $8，但如果搞砸了，除了退款，還會失去客戶信任。」

核心原則：模型會優化一個目標。隨著模型變得更聰明，必須陳述權衡的兩面，因為模型正在變得更擅長自己做取捨。

實務應用

建立評估套件的順序建議：

先跑現有案例，確認哪些通過、哪些失敗
做一般性結構清理（XML 分區、角色描述、輸出合約），觀察改善幅度
逐一處理失敗案例，每次只改一個變數，確認修正效果
每條防禦性修改都加版本控制備注，記錄原始問題和修補理由

清理結構本身往往就能帶來顯著改善，不一定需要逐條調整。複雜輸出格式（如巢狀 JSON）可用 structured outputs 程式化保證格式，不依賴文字指令。

延伸觀點

學術研究與實務社群對 prompt 遷移與回歸測試有幾個交叉驗證的共識：

評估套件應從失敗案例增量建構，而非一次性設計齊全。 多個來源（arXiv 回歸測試研究、Substack LLM 測試實務）都指出，LLM 開發不像傳統 ML，不需要從一開始收集大型訓練集。實務上從 1-5 個手工案例開始，每次失敗就把那個案例加進測試集，持續累積。這個「敏捷評估」方法比預先規劃大型測試集更符合 LLM 迭代速度。

系統性結構化比對比直覺測試找到兩倍多的問題。 RETAIN（CMU 研究）的用戶實驗顯示，使用結構化工具對比新舊模型輸出差異的開發者，找到的錯誤數量是靠直覺手動測試的兩倍，且 prompt 實驗次數高出 75%。這呼應 Margot 先做結構清理、建評估套件、再逐一修正的順序——有框架的調試比「感覺哪裡怪就改哪裡」更有效率。

模型 API 的靜默更新是隱患。 arXiv 研究指出，即使 prompt 完全沒改，模型供應商的靜默升級（silent update）也會導致行為漂移。這意味著評估套件不只是遷移時的工具，而是持續監控的必要基礎設施——部署後仍需定期跑，而非一次性使用。

反向連結

以下頁面引用了本頁：

Generate-Evaluate-Repair：代理式排班系統的迭代設計（技術與AI）
Prompt Engineering 進階技術：CoT、Few-shot 與提示鏈（技術與AI）