核心概念
**人類對齊(Human Alignment)**是當前 LLM 開發中最關鍵也最棘手的問題之一:如何讓語言模型的輸出符合人類的價值觀、偏好與期望。主流方法 RLHF(Reinforcement Learning from Human Feedback)以 PPO(Proximal Policy Optimization)為核心,雖然有效,卻存在三個明顯痛點:
- 訓練成本高:PPO 需要同時維護獎勵模型(Reward Model)、評論模型(Critic Model)與策略模型(Policy Model),計算資源消耗遠超一般微調
- 訓練不穩定:強化學習的訓練動態本身就容易出現獎勵崩壞(reward collapse)或模式崩潰
- 人工標注瓶頸:偏好資料的收集成本隨規模呈線性增長,難以持續迭代
作為替代方案,DPO(Direct Preference Optimization)與 SFT + 對比學習(contrastive learning)的組合嘗試簡化對齊流程,但這些方法仍面臨兩個根本性弱點:需要海量偏好數據,以及可能削弱模型的泛化能力——後者在部署後往往才顯現,代價高昂。
DEFT(Distribution-guided Efficient Fine-Tuning)由 Liang Zhu 等 7 位研究者提出(EMNLP 2026),核心思路是「讓資料分佈說話」——先用分佈差異獎勵(differential distribution reward)篩選高品質樣本,再以篩選後的子集引導模型訓練過程中的輸出分佈。
兩階段設計
第一階段:資料過濾(Data Filtering)
DEFT 引入關鍵指標 DDR(differential distribution reward):計算模型當前輸出分佈與偏好資料分佈之間的差距,以此判斷每個訓練樣本對對齊的「資訊含量」。
直觀理解:若某樣本對應的輸出分佈已與模型原本輸出非常相近,對齊貢獻就小(噪聲多於信號);反之,若差距大且朝著偏好方向,就是高品質的對齊信號。DDR 過濾後保留能「最大化對齊效益」的子集,有效減少所需資料量。
第二階段:分佈引導訓練(Distributional Guidance)
篩選後的資料子集不只作為訓練語料,而是被用來「引導模型輸出分佈」——訓練過程中,模型的輸出逐步往偏好資料的分佈靠攏。這個機制可疊加在現有對齊方法(DPO、SFT)之上作為增強層,不需要替換整個訓練框架。
這種設計意味著 DEFT 本質上是一個框架,而非獨立算法。它可以與現有方法組合使用,降低整合門檻。
三重效益
研究結果顯示,採用 DEFT 框架後,對齊方法普遍在三個維度獲得改善:
- 對齊能力提升:在標準 HHH(Helpful、Harmless、Honest)評估中表現更好
- 泛化能力維持:減少對齊過程中常見的「過擬合偏好」問題
- 訓練效率提高:所需訓練時間縮短
關鍵要點
- DDR 是核心創新:differential distribution reward 讓系統能自動識別哪些訓練樣本對對齊最有價值,無需人工標注或額外模型判斷
- 解決資料效率問題:傳統對齊方法需要大量偏好資料;DEFT 透過智慧過濾,用更少的資料達到同等甚至更好的效果
- 框架可疊加性:DEFT 不是替代 DPO 或 SFT,而是在它們之上加一層分佈引導,已有對齊流程可直接整合
- 泛化能力保護:這是 DEFT 相對其他高效對齊方法的差異化優勢——許多方法為了對齊效率而犧牲泛化,DEFT 明確以此為設計目標之一
- 發表場地:EMNLP 2026,NLP 領域頂級會議
實務應用
DEFT 的應用場景集中在以下三類:
- 資源受限的微調需求:中小型團隊無法支撐完整 RLHF pipeline 的計算成本,但又需要比基礎 SFT 更好的對齊效果
- 持續對齊迭代:當產品需要頻繁根據用戶反饋更新模型偏好,DEFT 的資料過濾機制可以降低每輪迭代的成本
- 對齊與泛化的平衡:對下游任務多樣性有要求的應用(如通用助理、多領域問答),需要在對齊的同時保持足夠的泛化能力
與 LLM對齊微調比較:SFT、RLHF與DPO的HHH三維表現 的分析框架相互補充:後者比較了三種方法的表現差異,DEFT 則提供了一個可以疊加在這三種方法之上的效率提升層。Fine-tuning 與 LoRA:LLM 參數高效微調技術 關注的是參數效率,DEFT 則關注資料效率與分佈導引,兩者針對微調的不同成本維度。
關於安全對齊的保護,可參考 PACT:微調保留 LLM 安全對齊的 Safety Token 約束法,PACT 與 DEFT 關注對齊問題的不同側面:PACT 防止微調「抹去」安全對齊,DEFT 提升初始對齊的效率。
延伸觀點
從三篇同期相關研究(arxiv.org)可以歸納出兩個在多篇論文中反覆出現的趨勢:
1. 分佈層級優於樣本層級的優化思路
DEFT 的 DDR 和同期的 SOT(Safety Optimal Transport,arxiv:2601.07200)都採取了相同的底層邏輯:不再對單一訓練樣本做品質判斷,而是直接操作整個訓練資料的輸出分佈。SOT 的「推拉機制」(push-pull)將資料分佈往安全錨點拉近、同時推離有害分佈;DEFT 則計算偏好資料分佈與模型輸出分佈的差距作為篩選依據。這個共同取向表明:在微調問題上,把整體分佈的形狀做對,比篩選「哪些樣本好」更根本。
2. 靜態偏好資料集是對齊效率的根本瓶頸
DEFT 和 SAIL(arxiv:2406.15567)都指出離線偏好資料集(offline preference dataset)存在分佈偏移問題——收集資料時的模型行為,和訓練過程中的模型行為往往已經不同。DEFT 用分佈導引來緩解這個落差,SAIL 則從更根本的角度提出線上對齊(online alignment),將新生成的樣本持續納入偏好更新循環。兩條路徑都指向同一個結論:一次性的偏好資料集不夠用,動態地追蹤模型自身的分佈變化才是核心。
反向連結
以下頁面引用了本頁: