PACT：微調保留 LLM 安全對齊的 Safety Token 約束法

核心概念

大型語言模型（LLM）在部署前通常需要針對下游任務進行微調（fine-tuning），但這個過程存在一個危險的副作用：即使訓練資料完全無害，微調仍可能造成安全對齊漂移（safety-alignment drift），導致模型開始遵從原本應該拒絕的有害請求。

這篇論文（Wang et al., 2026）提出的 PACT（Preserving Safety Alignment via Constrained Tokens） 框架，核心洞察來自一個關鍵觀察：LLM 的安全拒絕行為，並非均勻分布在所有參數與所有輸出位置，而是高度集中在少數幾個「安全 Token」上的輸出信心（confidence）。

所謂「安全 Token」，是指模型在產生拒絕回應時，關鍵決策節點上的那些 token——例如「I cannot」、「I'm sorry」開頭，或中文「我無法協助」的第一個字元。這些 token 的預測信心分布，是模型是否維持拒絕行為的核心訊號。

PACT 的做法非常精準：在微調過程中，對這些安全 Token 位置施加正則化約束，使微調後模型在這些位置的輸出信心分布保持接近原始對齊模型（reference model）。而在非安全 Token 位置，則完全不加限制，讓模型自由調整以適應下游任務。

這與現有防禦方法形成鮮明對比。現有方法通常採用「模型級干預」（model-wide interventions），例如：限制哪些參數可以被更新、或注入額外的安全訓練資料——這些做法雖然有效，但代價是限制了模型整體的適應彈性，往往損害下游任務表現。PACT 的「外科手術式」Token 級約束，理論上在保留安全對齊的同時，對任務適應性的影響最小。

論文標題「Few Tokens, Big Leverage」（少數 Token，大槓桿）精確描述了這個框架的核心前提：LLM 的安全行為是極度「壓縮」的，找到並約束這些關鍵節點，效率遠高於全局干預。

關鍵要點

安全行為的稀疏性：LLM 的拒絕能力集中在極少數 safety token 的輸出信心分布上，這使得高效的局部保護成為可能
對齊漂移的根因：微調時的梯度更新會破壞 safety token 的信心分布，即使訓練集完全無害，梯度方向的累積衝突仍會侵蝕安全對齊（參見 LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現）
PACT 的約束機制：以 KL 散度或信心正則化項，在每個 response step 強制 safety token 位置的輸出分布貼近參考模型，同時對其他位置不施加約束
勝過全局方法：限制可更新參數（如 LoRA 只更新特定層）或注入安全資料的方法，都比 PACT 更粗糙、對任務性能影響更大（參見 Fine-tuning 與 LoRA：LLM 參數高效微調技術）
適用場景：API 供應商（如 OpenAI、Anthropic fine-tuning API）在允許用戶自定義微調時，PACT 類框架提供了一種可部署的安全保護機制

延伸觀點

安全與效用梯度的幾何衝突是 2025-2026 年微調安全研究中被多篇論文共同揭示的核心問題。SPF（Safety-Preserving Fine-tuning）的分析（arXiv:2601.10141）從梯度幾何角度佐證了 PACT 的前提：安全梯度只佔據低秩子空間，而效用梯度跨越更高維的空間，兩者方向往往負相關。這解釋了為何即使完全無害的微調仍會損害安全性——數學上，效用梯度必然部分投影在安全子空間的對立方向。

SPF 提出的解法是把效用梯度投影到安全子空間的正交補空間（orthogonal complement），只需一筆安全樣本即可實現「近乎完美的安全恢復」。GR-SAP（arXiv:2603.10243）則採用另一路徑：生成式回放（generative replay）在微調中實時合成安全對齊資料，無需儲存原始安全訓練資料，同樣在任務性能不損失的前提下大幅降低安全漂移。

三個方法從不同層次（token 信心層、梯度幾何層、訓練資料層）各自確認了同一結論：精準鎖定安全相關結構，遠優於粗粒度的全局限制。對於理解 LLM 安全的本質，這一系列研究也呼應了 Natural Language Autoencoders：解讀 Claude 的未說出口中關於模型內部安全信號的可解釋性方向。

反向連結

以下頁面引用了本頁：

DEFT：分佈導引高效 LLM 人類對齊微調框架（研究速遞）
Fine-tuning 與 LoRA：LLM 參數高效微調技術（技術與AI）
LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現（研究速遞）
Natural Language Autoencoders：解讀 Claude 的未說出口（技術與AI）