LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現

大型語言模型要安全落地，不只是訓練它「說什麼」，更要讓它知道「什麼不該說」、「說到什麼程度才有用」。這就是對齊（Alignment）的核心挑戰。

核心概念

HHH 框架（Honesty、Helpfulness、Harmlessness）是業界最廣泛使用的對齊評估三維度：

本論文（郭浩東，2026）針對三大主流對齊微調方法——SFT、RLHF、DPO——在 HHH 三維度的表現進行文獻綜合比較分析，結論是：各方法存在明確的維度取捨，沒有單一方法能在三個維度同時最優。

做法：收集高品質人類示範對話，以最大似然估計訓練模型模仿示範行為。

做法：收集人類偏好評分 → 訓練獎勵模型 → 用 PPO 強化學習最大化獎勵。三階段管線。

做法：數學上等效 RLHF，但移除獨立獎勵模型，直接在主模型上優化偏好對比損失函數。

損失函數核心：

L_DPO = -E[log σ(β·log π_θ(y_w|x)/π_ref(y_w|x) - β·log π_θ(y_l|x)/π_ref(y_l|x))]

SFT 是地基，不是終點：沒有 SFT 底座，RLHF 和 DPO 都無法收斂；但純 SFT 天花板低，對齊效果普遍不如偏好學習方法
RLHF vs. DPO 的選擇取決於模型狀態：對預訓練模型用 SFT 效果更好；對已指令調整的模型，DPO 更忠實於偏好目標
Helpfulness 與 Harmlessness 存在根本張力：提升無害性往往以犧牲部分有用性為代價——一個「完全有用」的模型理論上應滿足所有用戶要求，包括有害請求
混合偏好訓練會降低整體表現：同時對 Helpfulness 和 Harmlessness 進行多偏好訓練，比各自單獨訓練後合併模型效果更差
SFT + DPO 組合優於單獨使用：兩種方法互補——SFT 建立指令遵循能力，DPO 精調偏好對齊

選方法的決策樹：

不能只靠訓練方法解決對齊：系統提示（system prompt）、安全護欄（guardrails）、用戶反饋迴路是必要的互補工具。HHH 是系統設計問題，不只是模型訓練問題。

三篇獨立研究（arxiv 2509.09055、2406.04879、Hugging Face 技術部落格）對本論文的核心論點提供進一步確認與補充：

SFT + DPO 組合是目前最佳實踐：arxiv 2509.09055 直接測試了 OPT-350M 在 Anthropic HH-RLHF 資料集上的表現，發現「SFT + DPO 在所有指標上優於任何單一方法」，而非取代關係。這與本論文的文獻綜合結論一致。

DPO 對弱底座模型的適用性問題：arxiv 2406.04879 發現，DPO 應用於預訓練（非指令調整）模型時效果顯著退化，SFT 在這種情境下仍佔優勢。這個細節在本論文的摘要中未明確點出，但對實踐者選型至關重要。

模型合併可部分緩解 HHH 張力：2406.04879 發現，分別針對 Helpfulness 和 Harmlessness 訓練的模型，透過 DARE 模型合併技術融合後，效果優於試圖同時優化兩個目標的單一模型——這是一個繞過 HHH 內在張力的架構解法，而非訓練層面的解法。

注意：本論文局限性：作為文獻綜合型論文，發表於非頂尖 AI 場地，引用數為 0，比較框架的嚴謹性受各研究評估標準不一致限制。上述延伸資料的原始實驗研究可視為更可靠的第一手依據。

以下頁面引用了本頁：