核心概念

大型語言模型(LLM)在部署前通常需要針對下游任務進行微調(fine-tuning),但這個過程存在一個危險的副作用:即使訓練資料完全無害,微調仍可能造成安全對齊漂移(safety-alignment drift),導致模型開始遵從原本應該拒絕的有害請求。

這篇論文(Wang et al., 2026)提出的 PACT(Preserving Safety Alignment via Constrained Tokens) 框架,核心洞察來自一個關鍵觀察:LLM 的安全拒絕行為,並非均勻分布在所有參數與所有輸出位置,而是高度集中在少數幾個「安全 Token」上的輸出信心(confidence)

所謂「安全 Token」,是指模型在產生拒絕回應時,關鍵決策節點上的那些 token——例如「I cannot」、「I'm sorry」開頭,或中文「我無法協助」的第一個字元。這些 token 的預測信心分布,是模型是否維持拒絕行為的核心訊號。

PACT 的做法非常精準:在微調過程中,對這些安全 Token 位置施加正則化約束,使微調後模型在這些位置的輸出信心分布保持接近原始對齊模型(reference model)。而在非安全 Token 位置,則完全不加限制,讓模型自由調整以適應下游任務。

這與現有防禦方法形成鮮明對比。現有方法通常採用「模型級干預」(model-wide interventions),例如:限制哪些參數可以被更新、或注入額外的安全訓練資料——這些做法雖然有效,但代價是限制了模型整體的適應彈性,往往損害下游任務表現。PACT 的「外科手術式」Token 級約束,理論上在保留安全對齊的同時,對任務適應性的影響最小。

論文標題「Few Tokens, Big Leverage」(少數 Token,大槓桿)精確描述了這個框架的核心前提:LLM 的安全行為是極度「壓縮」的,找到並約束這些關鍵節點,效率遠高於全局干預。

關鍵要點

  • 安全行為的稀疏性:LLM 的拒絕能力集中在極少數 safety token 的輸出信心分布上,這使得高效的局部保護成為可能

  • 對齊漂移的根因:微調時的梯度更新會破壞 safety token 的信心分布,即使訓練集完全無害,梯度方向的累積衝突仍會侵蝕安全對齊(參見 LLM對齊微調比較:SFT、RLHF與DPO的HHH三維表現

  • PACT 的約束機制:以 KL 散度或信心正則化項,在每個 response step 強制 safety token 位置的輸出分布貼近參考模型,同時對其他位置不施加約束

  • 勝過全局方法:限制可更新參數(如 LoRA 只更新特定層)或注入安全資料的方法,都比 PACT 更粗糙、對任務性能影響更大(參見 Fine-tuning 與 LoRA:LLM 參數高效微調技術

  • 適用場景:API 供應商(如 OpenAI、Anthropic fine-tuning API)在允許用戶自定義微調時,PACT 類框架提供了一種可部署的安全保護機制

延伸觀點

安全與效用梯度的幾何衝突是 2025-2026 年微調安全研究中被多篇論文共同揭示的核心問題。SPF(Safety-Preserving Fine-tuning)的分析(arXiv:2601.10141)從梯度幾何角度佐證了 PACT 的前提:安全梯度只佔據低秩子空間,而效用梯度跨越更高維的空間,兩者方向往往負相關。這解釋了為何即使完全無害的微調仍會損害安全性——數學上,效用梯度必然部分投影在安全子空間的對立方向。

SPF 提出的解法是把效用梯度投影到安全子空間的正交補空間(orthogonal complement),只需一筆安全樣本即可實現「近乎完美的安全恢復」。GR-SAP(arXiv:2603.10243)則採用另一路徑:生成式回放(generative replay)在微調中實時合成安全對齊資料,無需儲存原始安全訓練資料,同樣在任務性能不損失的前提下大幅降低安全漂移。

三個方法從不同層次(token 信心層、梯度幾何層、訓練資料層)各自確認了同一結論:精準鎖定安全相關結構,遠優於粗粒度的全局限制。對於理解 LLM 安全的本質,這一系列研究也呼應了 Natural Language Autoencoders:解讀 Claude 的未說出口 中關於模型內部安全信號的可解釋性方向。

反向連結

以下頁面引用了本頁: