近年來,大型無監督語言模型(Language Models, LMs)因其在理解世界知識及推理能力上的卓越表現,成為自然語言處理領域的關鍵技術。然而,儘管這類模型在生成文字時展現了強大的能力,卻難以精確控制其行為,以符合特定的使用者偏好或倫理規範。這個問題的核心在於這些模型通常透過大規模的無監督學習訓練,缺乏直接學習人類偏好的機制。
過去的主要解決方案之一,是透過「人類回饋強化學習」(Reinforcement Learning from Human Feedback, RLHF)策略實現語言模型調整。簡而言之,RLHF先蒐集人類對模型生成文本的相對偏好標籤(哪個生成結果較好),接著訓練一個「獎勵模型」(Reward Model, RM)以模擬人類的偏好,最後使用強化學習(通常是PPO)讓語言模型藉由最大化該獎勵函數來調整生成策略。儘管這方法在實務上成效不錯,但也存在訓練過程繁瑣、計算資源消耗大,而且穩定性不佳,常需要反覆的超參數調整,以及在強化過程中防止模型演化過頭的技術手段。
基於此背景,Rafailov 等人於 2023 年 NeurIPS 提出的論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》帶來了一種革新性的思路和技術架構,獲得當年 NeurIPS 傑出論文亞軍殊榮。該研究從理論基礎出發,提出一種新的獎勵模型參數化方式,打破了傳統RLHF必須分階段訓練(先建構獎勵模型,後進行強化學習)的流程,直接用分類式損失函數進行參數優化,實現了對模型生成策略的有效調整,這就是本論文的核心方法——Direct Preference Optimization(DPO)。
核心方法與技術創新
DPO 的最大突破在於揭示了語言模型本身「暗藏」獎勵模型的本質。具體而言,作者將 RLHF 問題重新參數化,發現能直接從人類偏好數據推導出最優化的策略(Optimal Policy)的閉式解,並且不必再切割成兩步驟(獎勵模型擬合與策略強化)。
其方法流程簡化為以下幾點:
- 利用人類提供的偏好對(例如「生成 A 比生成 B 好」)作為訓練資料。
- 定義一個對比式分類損失,使得模型生成A的機率高於B,藉此直接調整模型分佈。
- 透過此分類損失,調整模型參數,使調整後的模型策略直接反映人類偏好,不再需要額外生成或強化學習過程中需耗費大量計算的探索和回放。
該方法省略了典型RLHF中的「獎勵模型擬合」以及複雜的「強化學習階段」,整合成一個簡潔且理論完備的端對端優化問題。因不需透過抽樣生成數據或複雜策略更新,訓練過程更穩定,計算消耗更低,也更易於實施。
主要實驗結果
作者在多個標準語言任務中評估 DPO,包括文字生成的情感控制、摘要生成與單回合對話質量調整。主要發現包括:
- 情感生成控制:DPO 在控制生成文本的情感傾向(如積極或消極)表現超越了傳統基於 PPO 的 RLHF,能更有效滿足用戶指定的偏好。
- 摘要與對話優化:在文摘與單回合對話生成任務中,DPO 的調整結果與現有強化學習策略相當甚至更優,且生成結果品質保持高標準。
- 訓練效率與穩定性:DPO 省略了 RLHF 中需要大量超參數調整及複雜采樣機制,帶來穩定且輕量級的微調過程,大幅降低了實驗調校門檻與計算成本。
綜合而言,DPO 既提升了模型生成結果的符合度與控制能力,同時顯著簡化了調整流程,是實務部署與後續研發的理想方法。
對人工智慧領域的深遠影響
DPO 的提出,不僅在技術層面優化了 RLHF 這一目前人工智慧調整大型語言模型行為的主要路徑,更在理論視角上擴展了對語言模型與獎勵模型內在關係的理解。透過揭露語言模型本身即包含隱性獎勵模型的結構,這為未來更高效與穩定的模型偏好對齊方法奠定基礎。
此論文的成果具有多方面的實務與研究價值:
- 提升用戶需求導向的模型定制能力,使語言模型更可信且安全,降低因偏好不符導致的風險。
- 簡化偏好學習訓練管線,降低產業界部署先進語言模型的技術門檻與成本,促進更多創新應用的落地。
- 提供學術界新思路,促進對語言生成偏好學習本質的深入研究,可能啟發更多關於模型逆向推理、人類偏好模擬等方向的探討。
總體而言,《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》以其理論創新與技術實用性,引領了語言模型微調史上的新篇章。它不僅彰顯了透過理性設計與數學框架優化AI訓練流程的可能,更為打造更貼近人類期望的智能系統提供了明確可行的實踐路徑。對未來大型語言模型進一步實現「用戶定制化」和「安全可信」目標,DPO 將是不可或缺的基石技術。
論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290
沒有留言:
張貼留言