大型語言模型要安全落地,不只是訓練它「說什麼」,更要讓它知道「什麼不該說」、「說到什麼程度才有用」。這就是對齊(Alignment)的核心挑戰。
核心概念
HHH 框架(Honesty、Helpfulness、Harmlessness)是業界最廣泛使用的對齊評估三維度:
- Honesty(誠實性):模型提供的資訊是否真實、不誤導
- Helpfulness(有用性):模型是否有效協助使用者達成目標
- Harmlessness(無害性):模型是否避免產生有害、偏見或危險內容
本論文(郭浩東,2026)針對三大主流對齊微調方法——SFT、RLHF、DPO——在 HHH 三維度的表現進行文獻綜合比較分析,結論是:各方法存在明確的維度取捨,沒有單一方法能在三個維度同時最優。
SFT(監督式微調)
做法:收集高品質人類示範對話,以最大似然估計訓練模型模仿示範行為。
- 優勢:訓練穩定;是後續所有方法的必要基礎;對預訓練模型效果最佳
- 局限:被動模仿,無法主動區分「好答案」與「壞答案」;Honesty 和 Harmlessness 受示範資料品質制約
RLHF(人類反饋強化學習)
做法:收集人類偏好評分 → 訓練獎勵模型 → 用 PPO 強化學習最大化獎勵。三階段管線。
- 優勢:能捕捉難以量化的人類偏好;Helpfulness 提升顯著;可學習「不要說什麼」
- 局限:獎勵模型可能被破解(reward hacking);訓練不穩定;需大量人工標注;計算成本高
DPO(直接偏好優化)
做法:數學上等效 RLHF,但移除獨立獎勵模型,直接在主模型上優化偏好對比損失函數。
損失函數核心:
L_DPO = -E[log σ(β·log π_θ(y_w|x)/π_ref(y_w|x) - β·log π_θ(y_l|x)/π_ref(y_l|x))]
- 優勢:訓練更穩定;計算效率高;Honesty 維度表現特別好;對 instruction-tuned 模型效果優於 RLHF
- 局限:依賴高品質偏好對資料;對偏好資料噪音敏感;弱底座模型上效果退化
關鍵要點
- SFT 是地基,不是終點:沒有 SFT 底座,RLHF 和 DPO 都無法收斂;但純 SFT 天花板低,對齊效果普遍不如偏好學習方法
- RLHF vs. DPO 的選擇取決於模型狀態:對預訓練模型用 SFT 效果更好;對已指令調整的模型,DPO 更忠實於偏好目標
- Helpfulness 與 Harmlessness 存在根本張力:提升無害性往往以犧牲部分有用性為代價——一個「完全有用」的模型理論上應滿足所有用戶要求,包括有害請求
- 混合偏好訓練會降低整體表現:同時對 Helpfulness 和 Harmlessness 進行多偏好訓練,比各自單獨訓練後合併模型效果更差
- SFT + DPO 組合優於單獨使用:兩種方法互補——SFT 建立指令遵循能力,DPO 精調偏好對齊
實務應用
選方法的決策樹:
- 模型是預訓練基底模型 → 先跑 SFT,再考慮 DPO
- 模型已有指令調整 + 場景最在意 Honesty(法律、醫療)→ DPO
- 場景最在意 Helpfulness(客服、代理任務)且有算力預算 → RLHF
- 資源受限 + 需要快速部署 → SFT + DPO 兩階段
不能只靠訓練方法解決對齊:系統提示(system prompt)、安全護欄(guardrails)、用戶反饋迴路是必要的互補工具。HHH 是系統設計問題,不只是模型訓練問題。
延伸觀點
三篇獨立研究(arxiv 2509.09055、2406.04879、Hugging Face 技術部落格)對本論文的核心論點提供進一步確認與補充:
SFT + DPO 組合是目前最佳實踐:arxiv 2509.09055 直接測試了 OPT-350M 在 Anthropic HH-RLHF 資料集上的表現,發現「SFT + DPO 在所有指標上優於任何單一方法」,而非取代關係。這與本論文的文獻綜合結論一致。
DPO 對弱底座模型的適用性問題:arxiv 2406.04879 發現,DPO 應用於預訓練(非指令調整)模型時效果顯著退化,SFT 在這種情境下仍佔優勢。這個細節在本論文的摘要中未明確點出,但對實踐者選型至關重要。
模型合併可部分緩解 HHH 張力:2406.04879 發現,分別針對 Helpfulness 和 Harmlessness 訓練的模型,透過 DARE 模型合併技術融合後,效果優於試圖同時優化兩個目標的單一模型——這是一個繞過 HHH 內在張力的架構解法,而非訓練層面的解法。
注意:本論文局限性:作為文獻綜合型論文,發表於非頂尖 AI 場地,引用數為 0,比較框架的嚴謹性受各研究評估標準不一致限制。上述延伸資料的原始實驗研究可視為更可靠的第一手依據。
相關頁面:Fine-tuning 與 LoRA:LLM 參數高效微調技術 · 單模態 LLM 作為多模態 VLM 的偏好教師 · LLM主流地位與替代路徑 · GPT 小妖精事件:強化學習人格訓練的行為外洩
反向連結
以下頁面引用了本頁:
- Fine-tuning 與 LoRA:LLM 參數高效微調技術(技術與AI)
- GPT 小妖精事件:強化學習人格訓練的行為外洩(文章精選)
- LLM主流地位與替代路徑(技術與AI)
- 單模態 LLM 作為多模態 VLM 的偏好教師(研究速遞)
- DEFT:分佈導引高效 LLM 人類對齊微調框架(研究速遞)
- DEFT:分佈引導的高效 LLM 人類對齊框架(研究速遞)
- PACT:Safety Token 約束保護 LLM 微調安全對齊(研究速遞)
- PACT:微調保留 LLM 安全對齊的 Safety Token 約束法(研究速遞)