PACT：Safety Token 約束保護 LLM 微調安全對齊

核心概念

大型語言模型（LLM）的安全對齊行為，在下游任務微調（Fine-tuning, FT）後往往出現漂移——即便訓練資料完全不含有害內容，模型原本的拒絕能力也可能悄悄被侵蝕。當訓練集中夾雜少量有害樣本時，情況更為嚴重：研究顯示，僅需 10 句有毒訓練資料，即可讓對齊後的模型開始配合有害指令。

這個問題的本質在於：安全對齊行為在微調時是「高度可覆寫」的。絕大多數既有防禦方案採用全模型介入策略——限制哪些參數可以更新、或在訓練集中注入安全資料——但這類方法會壓縮模型的通用性，並損害下游任務表現，形成「安全稅（alignment tax）」。

PACT（Preserving Safety Alignment via Constrained Tokens）由 Guoli Wang、Haonan Shi、O. Tu 與 Angelina Wang 提出，核心洞察是：安全對齊行為並非均勻分布於模型的所有輸出，而是高度集中在少量關鍵位置——「安全 Token（Safety Tokens）」。這些 token 通常是拒絕回應的起始詞（例如「I cannot」、「I'm unable to」、「I'm sorry」等）。只要穩定模型在這些 token 上的信心度，安全行為就能在微調後持續保留。

這正是標題「Few Tokens, Big Leverage」的意涵：以少量精準約束換取整體安全對齊的維護，不必犧牲下游任務的學習自由度。

技術機制

PACT 的核心操作是在微調過程中，以 KL 散度或信心正則化項，在每個 response step 對 safety token 位置施加約束，使微調後模型在這些位置的輸出分布保持接近原始對齊模型（reference model）：

識別 Safety Tokens：從對齊後模型的拒絕回應中提取代表性的起始 token，建立安全 token 集合
分布貼近約束：以 KL 散度或信心正則化項，強制 safety token 位置的輸出分布接近 reference model，防止因任務導向的梯度更新而漂移
其餘參數自由更新：非安全 token 的輸出空間不受限制，允許模型充分學習下游任務

這種精準介入策略避免了全模型約束的副作用，在理論上實現「安全保護不犧牲任務性能」。

與現有研究的定位

PACT 聚焦於「安全 token 的識別與輸出分布約束」；與此同時，另一方向的研究（如 OGPSA：Safety Alignment as Continual Learning）則從梯度空間入手，透過正交梯度投影，讓安全對齊的更新方向與通用能力的方向不互相干擾。兩者攻擊的是同一核心矛盾（安全 vs. 性能）的不同切面，代表當前安全微調研究的兩條主線。

關鍵要點

安全對齊的脆弱性是結構性的：微調不僅在有害資料下造成漂移，良性資料也可能無意間侵蝕 safety token 的激活強度——這不是偶發現象，而是梯度更新機制的內在特性
Safety token 是安全行為的濃縮點：拒絕回應的前幾個 token 承載大部分安全信號；約束這極小部分的輸出分布，等同於守住整個安全防線，是「少量 token 換大槓桿」的根本原因
模型整體介入策略代價太高：限制可更新參數集或注入安全資料，雖技術上有效，但壓縮模型的通用學習空間，損及下游任務品質，不適合需要深度客製化的場景
PACT 的約束機制：以 KL 散度或信心正則化項，在每個 response step 強制 safety token 位置的輸出分布貼近 reference model，同時對其他位置不施加約束
精準介入的設計哲學：PACT 與 SafetyLock（基於激活模式的後置修復）有共通之處——安全行為有其神經網路的「物理位址」，針對這些位址操作，效率遠高於全模型介入
微調即安全風險窗口：任何允許用戶或企業對模型進行 fine-tuning 的平台，都需要在微調流程中嵌入保護機制，而非依賴模型出廠時的對齊狀態

實務應用

企業客製化微調的安全合規需求

當企業在私有資料上對開源 LLM 進行 fine-tuning 時，安全對齊往往是第一個被犧牲的部分——企業資料通常不含安全訓練訊號，而梯度更新會自然侵蝕原本的對齊行為。PACT 提供了一個輕量且不影響業務性能的解法：在微調 pipeline 中加入 safety token 分布約束（KL 散度貼近 reference model），即可維持安全護欄。

這對需要同時滿足「高任務性能」和「AI 安全合規」雙重要求的 B2B 場景尤為重要，例如醫療、金融、法律等高風險應用領域。API 供應商（如 OpenAI、Anthropic fine-tuning API）在允許用戶自定義微調時，PACT 類框架提供了一種可部署的安全保護機制。

延伸觀點

安全行為的「物理集中性」是新興共識

近期多項研究從不同角度驗證了同一命題：LLM 的安全對齊並非均勻散布於模型全體，而是有結構性集中。PACT 識別到 safety tokens（輸出層的特定 token 位置）；SafetyLock 則發現微調後的模型仍保留「與原始版本相似的安全激活模式」，能以毫秒級介入恢復安全行為。這種結構性洞察正在推動安全防禦從「全面施打」轉向「精準注射」的典範轉移。

安全與效用梯度的幾何衝突是 2025-2026 年微調安全研究中被多篇論文共同揭示的核心問題。SPF（Safety-Preserving Fine-tuning）的分析（arXiv:2601.10141）從梯度幾何角度佐證了 PACT 的前提：安全梯度只佔據低秩子空間，而效用梯度跨越更高維的空間，兩者方向往往負相關。這解釋了為何即使完全無害的微調仍會損害安全性——數學上，效用梯度必然部分投影在安全子空間的對立方向。SPF 提出的解法是把效用梯度投影到安全子空間的正交補空間，只需一筆安全樣本即可實現「近乎完美的安全恢復」。GR-SAP（arXiv:2603.10243）則採用生成式回放（generative replay）在微調中實時合成安全對齊資料，無需儲存原始安全訓練資料，同樣在任務性能不損失的前提下大幅降低安全漂移。

安全稅問題尚未根本解決

OGPSA（正交梯度投影安全對齊）在 Qwen2.5-7B 與 Llama3.1-8B 上顯著提升了安全對齊後的模型性能，但研究者明確指出「並非所有對齊退化都源於梯度干擾」。PACT 約束的是 token 輸出分布；OGPSA 約束的是梯度方向；SafetyLock 提供的是後置修復——三個維度各自獨立，沒有哪一個方案能單獨解決全部問題，組合使用是當前研究前沿的默認方向。三個方法從不同層次（token 信心層、梯度幾何層、訓練資料層）各自確認了同一結論：精準鎖定安全相關結構，遠優於粗粒度的全局限制。

對 LLM 部署治理的意涵

這些研究共同強化了 AI Agent 生產環境防線：最小權限與稽核控制的「不信任下游修改」原則：任何對模型的 fine-tuning 都應視為潛在安全事件，需要主動保護機制，而非事後審查。

反向連結

以下頁面引用了本頁：

DEFT：分佈引導的高效 LLM 人類對齊框架（研究速遞）
AI Agent 生產環境防線：最小權限與稽核控制（技術與AI）
Fine-tuning 與 LoRA：LLM 參數高效微調技術（技術與AI）
LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現（研究速遞）
Natural Language Autoencoders：解讀 Claude 的未說出口（技術與AI）
α³-Bench：6G環境下LLM無人機代理安全性與穩健性基準（研究速遞）