核心概念
大型語言模型(LLM)的安全對齊行為,在下游任務微調(Fine-tuning, FT)後往往出現漂移——即便訓練資料完全不含有害內容,模型原本的拒絕能力也可能悄悄被侵蝕。當訓練集中夾雜少量有害樣本時,情況更為嚴重:研究顯示,僅需 10 句有毒訓練資料,即可讓對齊後的模型開始配合有害指令。
這個問題的本質在於:安全對齊行為在微調時是「高度可覆寫」的。絕大多數既有防禦方案採用全模型介入策略——限制哪些參數可以更新、或在訓練集中注入安全資料——但這類方法會壓縮模型的通用性,並損害下游任務表現,形成「安全稅(alignment tax)」。
PACT(Preserving Safety Alignment via Constrained Tokens)由 Guoli Wang、Haonan Shi、O. Tu 與 Angelina Wang 提出,核心洞察是:安全對齊行為並非均勻分布於模型的所有輸出,而是高度集中在少量關鍵位置——「安全 Token(Safety Tokens)」。這些 token 通常是拒絕回應的起始詞(例如「I cannot」、「I'm unable to」、「I'm sorry」等)。只要穩定模型在這些 token 上的信心度,安全行為就能在微調後持續保留。
這正是標題「Few Tokens, Big Leverage」的意涵:以少量精準約束換取整體安全對齊的維護,不必犧牲下游任務的學習自由度。
技術機制
PACT 的核心操作是在微調過程中,對 safety token 的輸出機率施加約束,防止這些位置的置信度因任務導向的梯度更新而下滑:
- 識別 Safety Tokens:從對齊後模型的拒絕回應中提取代表性的起始 token,建立安全 token 集合
- 置信度穩定:在每次參數更新後,檢查模型在 safety token 上的置信度,若下滑超過閾值則施加懲罰或約束
- 其餘參數自由更新:非安全 token 的輸出空間不受限制,允許模型充分學習下游任務
這種精準介入策略避免了全模型約束的副作用,在理論上實現「安全保護不犧牲任務性能」。
與現有研究的定位
PACT 聚焦於「安全 token 的識別與置信度約束」;與此同時,另一方向的研究(如 OGPSA:Safety Alignment as Continual Learning)則從梯度空間入手,透過正交梯度投影,讓安全對齊的更新方向與通用能力的方向不互相干擾。兩者攻擊的是同一核心矛盾(安全 vs. 性能)的不同切面,代表當前安全微調研究的兩條主線。
關鍵要點
- 安全對齊的脆弱性是結構性的:微調不僅在有害資料下造成漂移,良性資料也可能無意間侵蝕 safety token 的激活強度——這不是偶發現象,而是梯度更新機制的內在特性
- Safety token 是安全行為的濃縮點:拒絕回應的前幾個 token 承載大部分安全信號;約束這極小部分的輸出,等同於守住整個安全防線,是「少量 token 換大槓桿」的根本原因
- 模型整體介入策略代價太高:限制可更新參數集或注入安全資料,雖技術上有效,但壓縮模型的通用學習空間,損及下游任務品質,不適合需要深度客製化的場景
- 精準介入的設計哲學:PACT 與 SafetyLock(基於激活模式的後置修復)有共通之處——安全行為有其神經網路的「物理位址」,針對這些位址操作,效率遠高於全模型介入
- 微調即安全風險窗口:任何允許用戶或企業對模型進行 fine-tuning 的平台,都需要在微調流程中嵌入保護機制,而非依賴模型出廠時的對齊狀態
實務應用
企業客製化微調的安全合規需求
當企業在私有資料上對開源 LLM 進行 fine-tuning 時,安全對齊往往是第一個被犧牲的部分——企業資料通常不含安全訓練訊號,而梯度更新會自然侵蝕原本的對齊行為。PACT 提供了一個輕量且不影響業務性能的解法:在微調 pipeline 中加入 safety token 置信度約束,即可維持安全護欄。
這對需要同時滿足「高任務性能」和「AI 安全合規」雙重要求的 B2B 場景尤為重要,例如醫療、金融、法律等高風險應用領域。
延伸觀點
安全行為的「物理集中性」是新興共識
近期多項研究從不同角度驗證了同一命題:LLM 的安全對齊並非均勻散布於模型全體,而是有結構性集中。PACT 識別到 safety tokens(輸出層的特定 token 位置);SafetyLock 則發現微調後的模型仍保留「與原始版本相似的安全激活模式」,能以毫秒級介入恢復安全行為。這種結構性洞察正在推動安全防禦從「全面施打」轉向「精準注射」的典範轉移。
安全稅問題尚未根本解決
OGPSA(正交梯度投影安全對齊)在 Qwen2.5-7B 與 Llama3.1-8B 上顯著提升了安全對齊後的模型性能,但研究者明確指出「並非所有對齊退化都源於梯度干擾」。PACT 約束的是 token 置信度;OGPSA 約束的是梯度方向;SafetyLock 提供的是後置修復——三個維度各自獨立,沒有哪一個方案能單獨解決全部問題,組合使用是當前研究前沿的默認方向。
對 LLM 部署治理的意涵
這些研究共同強化了 AI Agent 生產環境防線:最小權限與稽核控制 的「不信任下游修改」原則:任何對模型的 fine-tuning 都應視為潛在安全事件,需要主動保護機制,而非事後審查。
相關頁面:LLM對齊微調比較:SFT、RLHF與DPO的HHH三維表現 · Fine-tuning 與 LoRA:LLM 參數高效微調技術 · Natural Language Autoencoders:解讀 Claude 的未說出口
反向連結
以下頁面引用了本頁: