2026年7月1日 星期三

Direct Preference Optimization: Your Language Model is Secretly a Reward Model 深度簡介

隨著大型語言模型(Large-scale Language Models, LMs)近年來的快速發展,模型在無監督訓練下已能展現廣泛的世界知識及推理能力,然而如何精確且有效地控制這些模型的行為,使其產生符合人類偏好或特定目標的回應,仍是一大挑戰。本文提出的《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》發表於 NeurIPS 2023 並獲頒優秀論文候選獎,提出了一種嶄新的方法來解決語言模型細調中對人類偏好的對齊問題,堪稱是現有強化學習從人類反饋(Reinforcement Learning from Human Feedback, RLHF)方法的破題之鑰。

研究背景與動機

當前大型語言模型的訓練多半採用無監督學習,透過大量網路文本資料進行自回歸預測,模型學會分布式表示知識與語言結構。然而此種訓練方式缺乏明確的行為目標,導致模型生成的結果可能偏離使用者期望,甚至出現不合適或錯誤的回應。為了控制語言模型的輸出品質與風格,RLHF 應運而生。RLHF 通常先訓練一個獎勵模型(Reward Model, RM)來擬合人類對模型生成對話或文本的偏好分數,接著以強化學習(例如 PPO)對原始語言模型進行微調,最大化該獎勵模型預測的分數。然而 RLHF 流程複雜,不但需要額外的建模步驟,強化學習過程也常因策略更新不穩定、超參數調整困難導致訓練不順或效果不理想。

在此背景下,本論文團隊反思 RLHF 的架構,嘗試尋找更直接且穩定的對齊方法,期望減少訓練複雜度與對超參數的依賴,並保持甚至超越現有 RLHF 方法的對齊效能。

核心方法與創新:Direct Preference Optimization (DPO)

本論文的關鍵突破在於提出一種新的獎勵模型參數化方式,並從中導出一個封閉形式的最優政策表達,使得可以直接從人類標註的偏好對(pairwise preferences)進行優化,而完全不需進行傳統經由強化學習的策略改進程序。

核心原理是將語言模型自身視為隱藏的獎勵模型,本論文巧妙地採用了一個對數機率比例的形式化參數化,證明了最佳的策略(即調整後的語言模型)可以直接透過一個二元分類損失函數來獲得。這個分類損失衡量的是模型對一對生成輸出的偏好正確性的預測,與傳統 RLHF 需要訓練獎勵模型後再透過強化學習更新策略形成鮮明對比。

具體來說,DPO 的步驟包括:利用人類評價成對產出勝負的信息,直接給定一個優化目標,使語言模型的條件機率具備和獎勵模型隱式一致的結構,透過簡單的分類損失在微調階段更新模型參數。此流程省略了策略採樣和複雜的強化學習算法,降低訓練成本和不穩定性。

此方法的優點相當明顯:

  • 簡化訓練流程: 不需顯式訓練獎勵模型,也不需強化學習步驟,減少技術難度與超參數調整。
  • 訓練穩定性高: 直接最小化分類誤差的形式較為穩定,避免強化學習中常見的爆炸梯度或策略崩壞問題。
  • 計算資源節省: 不必在線採樣生成文本,降低運算需求與時間成本。
  • 理論支持充分: 推導詳盡且與現有 RLHF 理論相互呼應,為方法可靠性提供支撐。

主要實驗結果

論文團隊在多個任務上評估 DPO 與目前最常用的 RLHF 演算法(如 PPO-based RLHF)之間的表現。

1. 情感控制任務: DPO 在調整生成文本的情感傾向(如正面或負面)方面優於 PPO 方法,顯示在較精準行為控制上具明顯優勢。

2. 摘要與對話質量: 在文章摘要與單輪對話生成任務中,DPO 調優後的模型同樣能匹配甚至超越傳統 RLHF 方法,生成更加貼合人類期望且語意流暢的回應。

3. 穩定性與簡易性: DPO 對超參數較不敏感,表現穩定且訓練過程相對簡便,降低了依賴大規模工程調整的門檻。

綜合實驗結果充分展現了 DPO 既能保有高效對齊品質又具備低門檻與高穩定性的特性。

對 AI 領域的深遠影響

本論文提出的 Direct Preference Optimization 方法代表了對當前語言模型對齊問題的根本性突破。過去幾年 RLHF 成為 NLP 領域調控語言模型生成風格和價值觀的主流技術,然而其高複雜度與不穩定性常限制了在工業落地和更大規模應用上的推廣。DPO 的問世不僅簡化了技術路徑,還可能推動更廣泛、更高效的語言模型微調實踐。

此外,這項研究也深化了我們對語言模型本身與獎勵模型之間關係的理解——即大型語言模型其實暗藏獎勵信息的能力,這為未來研究如何更巧妙地利用模型內在結構來實現對齊開啟新方向。

更寬泛來看,DPO 的思想可能被應用於其他需要偏好學習與策略優化的領域,例如多模態生成、推薦系統、甚至機器學習安全與倫理對齊領域。它激發了研究者對簡潔、高效且理論有根據的偏好優化策略的追求,有望成為下一代 AI 行為調控的基石。

總結

《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》為語言模型微調中整合人類偏好的問題帶來了創新解法。利用巧妙的參數化與封閉解導出,DPO 複雜的 RLHF 流程轉化為直接的分類優化,極大提升了訓練穩定性與效率。其在多項生成任務的優異表現展現了良好的實用價值與擴展潛力,為自然語言處理中的對齊問題提供了具突破性的技術路徑與理論啟示。


論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290

沒有留言:

張貼留言