近年來,大型無監督語言模型(Language Models, LM)經由海量文本訓練,展現了出色的語言生成能力及一定的推理能力,然而如何精確控制其行為,讓模型輸出更符合人類期望,仍是一大挑戰。這種控制通常依賴人類標註相對生成品質的偏好,用以調整模型行為。傳統方法多採用基於人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF),先訓練一個「獎勵模型」(Reward Model, RM)來近似人類偏好,再透過強化學習讓語言模型在追求高獎勵的策略中調整生成策略。然而,這種兩階段的方法不僅複雜且計算成本高昂,訓練過程容易不穩定,需要謹慎進行超參數調整與策略採樣技巧。
研究背景與動機
RLHF 的成功推動了當代對話式 AI(例如 ChatGPT)及其他對齊系統的發展,但其本質限制逐漸顯現。首先,獎勵模型和主模型之間存在潛在分歧,獎勵模型的誤差會反向影響策略調整;其次,強化學習過程中大量採樣和回饋機制使得訓練流程繁複且耗時,對硬體資源與操作經驗要求甚高。此外,模型生成時需面對在策略空間漂移過大導致語言質量下降的風險。這些問題使得如何更穩定、簡單且有效地整合人類偏好進入語言模型變得急迫,促使作者提出了新的方法論。
核心方法與創新
本論文的核心貢獻是提出了Direct Preference Optimization(DPO),一種引入獎勵模型參數化的新架構,能直接從人類偏好數據以分類損失形式優化語言模型,而不需分別訓練獎勵模型並進行強化學習調整。
具體來說,作者重新參數化獎勵模型,使其與語言模型的生成概率緊密耦合。此參數化使得最佳策略的形式解可直接被導出,也就是說在給定人類偏好的偏序標籤後,可以用一個簡單的二元分類目標直接微調未經調整的大型語言模型,模型本身即「隱藏」地擁有一個對應的獎勵模型。
此方法顯著簡化了過去 RLHF 中的繁複兩階段訓練流程,避免了強化學習常見的不穩定性與超參數敏感問題,極大降低了計算成本。DPO訓練過程中無需在微調期進行模型採樣,也無需設計複雜的獎勵加權策略,僅需對比兩個生成文本的相對優劣進行訓練,讓模型快速向偏好目標收斂。
主要實驗結果
作者在多個語言生成任務上評估了DPO,包括情感控制、摘要生成與單輪對話。實驗涵蓋了不同規模的語言模型,並對比了經典的PPO-based RLHF方法以及其他強化學習或監督學習基礎的微調技術。
- 情感控制:DPO在調整生成文本的情感傾向上超越了基於PPO的RLHF,不僅生成符合預期情感,且維持語言流暢與自然度。
- 摘要與對話質量:DPO達到與RLHF相當甚至更好的摘要準確性與對話回應品質,展示其在多樣任務上的通用性與穩定性。
- 訓練穩定性與效率:DPO顯著降低超參數調整需求,無需複雜的環境和策略設計,訓練過程平滑且計算資源消耗較低,適合大規模語言模型應用。
這些結果充分證明DPO不僅在理論上重新定義了獎勵模型與策略的關係,也在實踐中展現了卓越的性能與可用性。
對 AI 領域的深遠影響
DPO的提出對自然語言處理與強化學習領域均有重要啟示。傳統上強化學習與語言生成的結合須倚賴繁複的策略優化與獎勵設計,造成方法門檻高,限制了在工業或更廣泛研究上的推廣。DPO將獎勵模型與生成模型緊密整合,揭示了一條直接透過偏好數據優化生成策略的可行道路,大幅簡化了人類反饋驅動的語言模型對齊流程。
此創新促使未來的研究可以聚焦於更高質量的偏好數據收集及多樣化偏好的建模,而非花費大量精力在強化學習的算法調整上。它也降低了進行AI模型對齊的技術門檻,使得更多機構與研究者能夠有效開發可控、可調整的語言模型。
更廣泛而言,DPO展現了從標註式相對偏好數據中直接推斷最優策略的理論可能性,這種思想或可推廣至其他多模態生成模型及更複雜的決策系統中。例如圖像生成、機器人控制等領域均可受益於該架構的簡化與穩定性提升。
總結而言,Direct Preference Optimization (DPO) 提供了一個創新且高效的語言模型調整方法,其兼具理論嚴謹性與實務可行性,代表了語言模型人類偏好對齊的新趨勢,也為未來可控AI系統的研究與應用指明了方向。其獲得 NeurIPS 2023 傑出論文提名不僅表彰其技術價值,也反映出業界與學術界對於簡單、高效、人類中心AI方法的殷切期待。
論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290
