DEFT：分佈導引高效 LLM 人類對齊微調框架

核心概念

**人類對齊（Human Alignment）**是當前 LLM 開發中最關鍵也最棘手的問題之一：如何讓語言模型的輸出符合人類的價值觀、偏好與期望。主流方法 RLHF（Reinforcement Learning from Human Feedback）以 PPO（Proximal Policy Optimization）為核心，雖然有效，卻存在三個明顯痛點：

訓練成本高：PPO 需要同時維護獎勵模型（Reward Model）、評論模型（Critic Model）與策略模型（Policy Model），計算資源消耗遠超一般微調
訓練不穩定：強化學習的訓練動態本身就容易出現獎勵崩壞（reward collapse）或模式崩潰
人工標注瓶頸：偏好資料的收集成本隨規模呈線性增長，難以持續迭代

作為替代方案，DPO（Direct Preference Optimization）與 SFT + 對比學習（contrastive learning）的組合嘗試簡化對齊流程，但這些方法仍面臨兩個根本性弱點：需要海量偏好數據，以及可能削弱模型的泛化能力——後者在部署後往往才顯現，代價高昂。

DEFT（Distribution-guided Efficient Fine-Tuning）由 Liang Zhu 等 7 位研究者提出（EMNLP 2026），核心思路是「讓資料分佈說話」——先用分佈差異獎勵（differential distribution reward）篩選高品質樣本，再以篩選後的子集引導模型訓練過程中的輸出分佈。

兩階段設計

第一階段：資料過濾（Data Filtering）

DEFT 引入關鍵指標 DDR（differential distribution reward）：計算模型當前輸出分佈與偏好資料分佈之間的差距，以此判斷每個訓練樣本對對齊的「資訊含量」。

直觀理解：若某樣本對應的輸出分佈已與模型原本輸出非常相近，對齊貢獻就小（噪聲多於信號）；反之，若差距大且朝著偏好方向，就是高品質的對齊信號。DDR 過濾後保留能「最大化對齊效益」的子集，有效減少所需資料量。

第二階段：分佈引導訓練（Distributional Guidance）

篩選後的資料子集不只作為訓練語料，而是被用來「引導模型輸出分佈」——訓練過程中，模型的輸出逐步往偏好資料的分佈靠攏。這個機制可疊加在現有對齊方法（DPO、SFT）之上作為增強層，不需要替換整個訓練框架。

這種設計意味著 DEFT 本質上是一個框架，而非獨立算法。它可以與現有方法組合使用，降低整合門檻。

三重效益

研究結果顯示，採用 DEFT 框架後，對齊方法普遍在三個維度獲得改善：

對齊能力提升：在標準 HHH（Helpful、Harmless、Honest）評估中表現更好
泛化能力維持：減少對齊過程中常見的「過擬合偏好」問題
訓練效率提高：所需訓練時間縮短

關鍵要點

DDR 是核心創新：differential distribution reward 讓系統能自動識別哪些訓練樣本對對齊最有價值，無需人工標注或額外模型判斷
解決資料效率問題：傳統對齊方法需要大量偏好資料；DEFT 透過智慧過濾，用更少的資料達到同等甚至更好的效果
框架可疊加性：DEFT 不是替代 DPO 或 SFT，而是在它們之上加一層分佈引導，已有對齊流程可直接整合
泛化能力保護：這是 DEFT 相對其他高效對齊方法的差異化優勢——許多方法為了對齊效率而犧牲泛化，DEFT 明確以此為設計目標之一
發表場地：EMNLP 2026，NLP 領域頂級會議

實務應用

DEFT 的應用場景集中在以下三類：

資源受限的微調需求：中小型團隊無法支撐完整 RLHF pipeline 的計算成本，但又需要比基礎 SFT 更好的對齊效果
持續對齊迭代：當產品需要頻繁根據用戶反饋更新模型偏好，DEFT 的資料過濾機制可以降低每輪迭代的成本
對齊與泛化的平衡：對下游任務多樣性有要求的應用（如通用助理、多領域問答），需要在對齊的同時保持足夠的泛化能力

與 LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現的分析框架相互補充：後者比較了三種方法的表現差異，DEFT 則提供了一個可以疊加在這三種方法之上的效率提升層。Fine-tuning 與 LoRA：LLM 參數高效微調技術關注的是參數效率，DEFT 則關注資料效率與分佈導引，兩者針對微調的不同成本維度。

關於安全對齊的保護，可參考 PACT：微調保留 LLM 安全對齊的 Safety Token 約束法，PACT 與 DEFT 關注對齊問題的不同側面：PACT 防止微調「抹去」安全對齊，DEFT 提升初始對齊的效率。

延伸觀點

從三篇同期相關研究（arxiv.org）可以歸納出兩個在多篇論文中反覆出現的趨勢：

1. 分佈層級優於樣本層級的優化思路

DEFT 的 DDR 和同期的 SOT（Safety Optimal Transport，arxiv:2601.07200）都採取了相同的底層邏輯：不再對單一訓練樣本做品質判斷，而是直接操作整個訓練資料的輸出分佈。SOT 的「推拉機制」（push-pull）將資料分佈往安全錨點拉近、同時推離有害分佈；DEFT 則計算偏好資料分佈與模型輸出分佈的差距作為篩選依據。這個共同取向表明：在微調問題上，把整體分佈的形狀做對，比篩選「哪些樣本好」更根本。

2. 靜態偏好資料集是對齊效率的根本瓶頸

DEFT 和 SAIL（arxiv:2406.15567）都指出離線偏好資料集（offline preference dataset）存在分佈偏移問題——收集資料時的模型行為，和訓練過程中的模型行為往往已經不同。DEFT 用分佈導引來緩解這個落差，SAIL 則從更根本的角度提出線上對齊（online alignment），將新生成的樣本持續納入偏好更新循環。兩條路徑都指向同一個結論：一次性的偏好資料集不夠用，動態地追蹤模型自身的分佈變化才是核心。

反向連結

以下頁面引用了本頁：

Fine-tuning 與 LoRA：LLM 參數高效微調技術（技術與AI）
LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現（研究速遞）
PACT：微調保留 LLM 安全對齊的 Safety Token 約束法（研究速遞）