核心概念

DEFT(Distribution-guided Efficient Fine-Tuning)是發表於 EMNLP 2026 的 LLM 對齊框架,由 Liang Zhu 等七位作者提出。它的出發點是一個工程界已知但學術上尚未妥善解決的矛盾:主流對齊方法要麼太貴、要麼會破壞模型的泛化能力

現有方法的三個缺陷

RLHF + PPO 長期是人類對齊的黃金標準,但有兩個致命弱點:一是計算成本高昂(需要同時訓練 policy model、reward model、reference model),二是訓練不穩定(PPO 對超參數極度敏感,梯度方差大)。

這推動了「直接偏好優化」(DPO)和「SFT + 對比學習」的崛起,繞過 reward model,直接用偏好資料微調模型。但這條路有新的問題:

  1. 資料需求量仍然龐大:偏好資料標注昂貴,需要大量正負樣本對才能收斂
  2. 泛化能力退化:模型在對齊過程中容易「過擬合」偏好資料的分佈,在訓練分佈外的任務上表現下滑
  3. 分佈偏移未被顯式建模:模型在對齊前後的輸出分佈變化沒有被明確約束

DEFT 的核心主張是:對齊不應只是讓模型學習哪個回應更好,而應同時監控並引導模型輸出分佈的變化軌跡

兩個關鍵設計

DEFT 引入兩個相互配合的機制:

1. 資料過濾(Data Filtering)

在進入訓練之前,DEFT 先對偏好資料集進行過濾,剔除「噪聲樣本」——也就是那些正負偏好差距不夠顯著、或與訓練目標分佈偏差過大的樣本對。這個步驟減少了模型需要處理的資料量,同時提高每個樣本的信號質量。

這與 Fine-tuning 與 LoRA:LLM 參數高效微調技術 中「資料質量比數量更重要」的原則一致——在參數高效微調的脈絡下,低質量資料不只是浪費計算,而是主動的干擾。

2. 差異分佈獎勵(Differential Distribution Reward)

這是 DEFT 最核心的創新。傳統 RLHF 的獎勵信號是「這個回應比那個回應好多少」,屬於相對偏好信號。DEFT 額外引入一個分佈層面的引導項:透過計算對齊前後模型輸出分佈的差值(differential distribution),定義一個獎勵項來約束模型的更新方向。

直觀理解:這個機制相當於在模型學習「回答得更好」的同時,加了一條約束——「你的整體輸出風格不能偏離原來太遠」。這正是對抗泛化退化的核心手段。

與 RLHF 生態系的定位

DEFT 不是完全取代 RLHF 或 DPO,而是在它們的基礎上加入分佈感知層。如果說 LLM對齊微調比較:SFT、RLHF與DPO的HHH三維表現 的結論是「不同方法在 Helpful / Harmless / Honest 三維度各有擅長」,DEFT 試圖在效率和泛化兩個維度同時補足既有方法的弱點。

PACT:Safety Token 約束保護 LLM 微調安全對齊 的方向可以互補:PACT 是保護特定安全行為不因微調而流失,DEFT 是從分佈層面控制整個模型在微調後的漂移幅度。兩者都關注「微調如何傷害模型」,但切入點不同。

關鍵要點

  • 核心問題:RLHF 昂貴不穩定;DPO/SFT 替代方案又犧牲泛化能力——DEFT 同時攻這兩個問題
  • 資料過濾:預處理剔除低信號偏好樣本,減少訓練資料需求量
  • 差異分佈獎勵:在訓練目標中加入輸出分佈變化的約束項,顯式防止泛化退化
  • 發表場地:EMNLP(頂尖 NLP 學術會議),2026 年,引用數仍處於早期(2 引用)
  • 實務信號:引用數偏低,尚未被大量工作引用;方向有理論支撐,但工程落地效果需後續複現驗證

實務應用

適合使用 DEFT 思路的情境

  • 資料稀缺的對齊任務:當偏好標注資料有限(數百至數千條),過濾機制可以最大化每條資料的價值
  • 需要保留通用能力的垂直領域微調:例如醫療、法律等領域,既要讓模型符合領域規範,又不能讓通用問答能力退化
  • 替代 PPO 的輕量化對齊方案:如果工程團隊沒有 PPO 的算力預算,DEFT 提供一條更穩定的路徑

工程考量

DEFT 的差異分佈獎勵需要在訓練過程中維護一個參考分佈的快照,這帶來額外的記憶體佔用。對於超大模型(70B+),這個開銷需要評估。相比之下,純 DPO 的記憶體壓力相對低,但泛化退化的風險也更高——這是工程取捨,而非一方絕對勝出。

延伸觀點

DEFT 的核心設計選擇——用分佈約束對抗微調退化——與 2025-2026 年多篇獨立研究的結論高度吻合。

分佈漂移是對齊損壞泛化的根本原因(多篇論文共識)

來自 arxiv 的「Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control」(2026-05)提供了理論與實驗雙重佐證:模型在優化目標任務時,若偏離原始訓練分佈過遠,會觸發「分佈崩塌」——評估集性能下滑超過 53%。該研究的「動態移動錨點(Moving Anchor)」方案在每一步更新時保持線性 KL 散度上界,實質上與 DEFT 的差異分佈獎勵解決同一問題:如何讓模型往對齊方向走,卻不走得太猛。理論論文「Towards a Theoretical Understanding to the Generalization of RLHF」(2026-01)從統計學習理論角度補充了這個觀點:RLHF 能否泛化的關鍵在於「特徵覆蓋率」——也就是對齊前模型的表示空間是否足夠廣,否則無論 reward signal 多精準都難以逃脫局部過擬合。這兩篇研究都指向同一結論:分佈層面的顯式控制是比純粹優化目標更根本的設計抉擇。

資料過濾是比擴量更有效的對齊槓桿(多篇論文共識)

「Less is More: Improving LLM Alignment via Preference Data Selection」(2025-02)以 Ultrafeedback 資料集為案例,證明用「邊際最大化」原則篩選出 10% 的偏好樣本,在 Llama、Mistral 等多個模型上反而比使用全量資料高出 3-8% 的 AlpacaEval2 分數。這個發現的機制與 DEFT 的資料過濾設計互相印證:低置信度的偏好樣本(preferred 與 non-preferred 差距小)不只是「無效資料」,而是主動引入梯度噪聲,把模型推向分佈邊界的不穩定區域。

對實務的啟示

兩個共識觀點合起來,給出一條清晰的對齊設計原則:先過濾、再引導、最後約束漂移幅度——這個順序比過去「先收資料、再跑 RLHF、再祈禱不退化」的工程流程更有理論支撐。對小型 AI 工程團隊而言,資料過濾帶來的成本節省(可能只需要 10% 資料)也比引入分佈引導獎勵的工程成本更容易先實現;後者可作為進一步的品質提升手段。

反向連結

以下頁面引用了本頁: