行有餘力則以學文: Direct Preference Optimization: Your Language Model is Secretly a Reward Model 深度解析

2026年5月28日星期四

Direct Preference Optimization: Your Language Model is Secretly a Reward Model 深度解析

在大型語言模型（Large-scale Language Models, LLMs）不斷推陳出新的當下，雖然它們在語言理解與生成方面表現出卓越的能力，卻始終面臨一個核心挑戰──如何精確且穩定地控制模型生成文字的質量與風格。這正是 NeurIPS 2023 上獲得 Outstanding Paper Runner-Up 的論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》想要解決的問題。本文由 Rafailov、Sharma、Mitchell、Ermon、Manning 與 Finn 共同完成，他們提出了一種新穎且優雅的訓練方法，透過巧妙的數學參數化，不僅簡化了現有強化學習自人類反饋（Reinforcement Learning from Human Feedback, RLHF）流程，也大幅提升了模型微調的穩定性與效果。

研究背景與動機

傳統上，LLM 是在大規模文本資料上進行無監督學習，學會語言的結構與知識。而隨著應用需求提升，我們希望這些模型不只是會說話，更能透過「偏好」（preference）進行微調，生成符合使用者期待、風格或內容更精準的回應。為此，現行的主流方法是 RLHF，即先透過人類標註的偏好數據訓練一個「獎勵模型」（Reward Model, RM），再用強化學習優化語言模型以最大化該獎勵。然而，RLHF 流程複雜，存在訓練不穩定、需要大量超參數調整、採樣成本高昂等多重挑戰。

因此，研究者們希望尋找一種更簡潔、理論上完整、且實務上操作簡便的策略，能直接利用人類偏好數據進行優化，並避免 RLHF 裡冗長且不易調適的步驟。

核心方法與創新

本論文最大創新點在於重新參數化獎勵模型的方式，發現原本文獻中語言模型與獎勵模型之間存有一種「隱藏」的關係：語言模型本身其實就含有一個「隱式獎勵模型」。換句話說，只要重新定義獎勵函數的結構，即可直接從語言模型中推導出最佳策略的封閉形式解（closed-form solution），無需動用複雜的強化學習演算法。

此方法稱為 Direct Preference Optimization（DPO），其核心概念為將偏好學習問題轉寫為一種簡單的分類問題。具體來說，DPO 透過最大化偏好標註對應的對數機率差異，以一個單純的「分類損失函數」取代了以往 RLHF 中需先擬合獎勵模型再進行 RL 微調的雙階段流程。

在數學形式上，DPO 利用人類偏好數據中的兩條文本（如生成的 A 與 B 文本，且標註 A 比 B 好），它直接優化參數使模型生成 A 的概率相較於 B 增加，且同時限制模型的分布不會偏離原始語言模型過多（類似於 KL 散度約束）。這種設計使訓練步驟穩定且易於收斂，避免了 RLHF 中常見的梯度不穩及采樣噪聲問題。

此外，DPO 不需要在微調過程中執行大量采樣，也不需要複雜的超參數調整，讓微調流程顯著簡化與加速。

主要實驗結果

作者針對多項任務進行實驗，包括情感控制（sentiment control）、文本摘要（summarization）、以及單輪對話生成（single-turn dialogue）等。核心比較基準包含：

傳統 RLHF 方法（PPO-based RLHF）
基於最大似然估計 (MLE) 的基線模型

實驗結果顯示：

穩定度與簡便性：DPO 在訓練過程中顯著更穩定，且不需繁複超參數設定，降低調試成本。
情感控制能力：DPO 超越了 PPO-RLHF，在調節生成文字的情感傾向上表現更佳，生成內容更貼近目標偏好。
文本質量與對話表現：在摘要與對話任務上，DPO 生成的回應質量與 PPO-RLHF 不相上下，甚至有所提升。
運算效率與資源消耗：由於取消了強化學習中繁重的采樣與策略更新，DPO 可大幅降低微調時間與計算資源。

綜合而言，DPO 不只奠定了從偏好學習問題直接連結語言模型與獎勵模型的理論基礎，也在各項實驗中展現了相當或更優於先前強化學習框架的性能。

對 AI 領域的深遠影響

這篇論文具有多重深遠的影響：

方法論創新：DPO 重新詮釋了強化學習與偏好學習之間的關係，揭示了「語言模型即獎勵模型」的隱含結構，為未來語言模型優化策略提供了新的視角。
降低工程門檻：相較於 RLHF 的複雜實作，DPO 以簡明的分類損失替代繁雜的強化學習流程，極大降低了技術和計算門檻，推動非大型研究團隊也能有效地進行語言模型的偏好微調。
提升模型效能與使用者體驗：能更精準控制輸出文本，對於對話系統、內容生成、文本校正等應用場景具有實務價值，有助於打造更符合人類需求的 AI 助手。
促進理論與實務結合：DPO 展示了如何用理論上嚴謹的數學推導指引實作，使得理論與工程優化達到良好平衡，為 AI 領域中偏好學習與強化學習交叉研究樹立典範。

總結而言，《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》提出的 DPO 方法，不僅解決了現有 RLHF 微調語言模型過程中穩定性與複雜度的瓶頸，也為語言模型根據人類偏好進行微調開啟了更簡潔且有效的新路徑。對於深耕自然語言處理（NLP）並追求生成品質與可控性的研究者和工程師來說，這篇論文無疑是近期不可忽視的重要突破。

論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290