在當前自然語言處理(NLP)領域,隨著大型無監督語言模型(Large-scale Unsupervised Language Models)如 GPT 系列的快速發展,這些模型因能學習大量世界知識及部分推理能力而成為主流。然而,如何精準控制這些模型的生成行為,進而使之符合人類使用偏好與倫理要求,仍是一大挑戰。傳統方法多依賴「人類回饋強化學習」(Reinforcement Learning from Human Feedback, RLHF)框架,但 RLHF 在實務中因涉及先訓練一個獎勵模型(Reward Model, RM)再以強化學習調整語言模型策略,流程複雜且常見不穩定性。為此,Rafailov 等人在 NeurIPS 2023 發表了《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》一文,提出一種創新穩定且高效的新技術——直接偏好優化(Direct Preference Optimization, DPO),成功簡化並優化了 RLHF 的核心流程,這篇論文獲得 NeurIPS 2023 傑出論文二等獎殊榮,值得深入探討。
研究背景與動機
無監督語言模型的訓練過程中,模型學習了龐大的語言知識和普通推理,卻無法有效「懂得人類所期望的回答」,由此產生了「可控性」與「模型對齊」(Alignment)的研究需求。過去主流作法通常借助 RLHF:首先使用人類標註的「偏好比較資料」(即兩段模型生成回答中較優者),訓練一個獎勵模型反映人類偏好;再以強化學習方法(如 Proximal Policy Optimization, PPO)微調基礎語言模型,使其生成偏好較高的輸出。然而,這種雙階段作法不僅計算資源消耗大、訓練過程不穩定,且調參難度高,阻礙了此技術的廣泛應用。
基於此背景,作者團隊希望尋找一條更簡單直觀的對齊路徑,避免繁複的獎勵模型幅射與策略更新過程,直接從偏好資料出發,建構一種可閉式求解的優化方法,既保持 RLHF 在提升語言模型符合人類期望輸出上的效果,同時大幅降低訓練複雜度與不穩定性。
核心方法與創新
本文的核心創新在於重新參數化獎勵模型,並發現語言模型本身隱含了一個對應的獎勵模型結構。作者提出的 Direct Preference Optimization (DPO) 方法,只需透過一個簡單的分類損失,即能近似傳統 RLHF 求解的最優策略,省去獎勵模型判斷和強化學習微調的中間環節。
具體來說,DPO 利用偏好比較數據訓練一個簡單的對數機率比(log-probability ratio)分類器,該分類器在數學上相當於獎勵函數的差異形式。換句話說,DPO 不直接學習一個顯式的獎勵函數,而是經由最大化偏好條件下的模型對比概率,直接更新基礎語言模型的參數。這種設計使得原本需做採樣模擬(sampling)、策略梯度計算及超參數精調的流程大幅簡化。
此方法的數學基礎涵蓋了 RLHF 的原理,但由於是閉式解決方案,迴避了 Reinforcement Learning 中常見的訓練不穩定問題。簡而言之,DPO 是在把「模型要學習人類偏好的行為」重新詮釋為一個分類問題,因此轉化為標準的有監督學習,無需額外強化學習算法的複雜性,提升了實務上的可用性。
主要實驗結果
作者以多個具有挑戰性的語言任務驗證了 DPO 的有效性。包括情感控制(sentiment control)、摘要生成(summarization)、單輪對話(single-turn dialogue)等任務中,DPO 的表現均優於或至少不輸傳統以 PPO 等強化學習為核心的 RLHF 方法。
- 在情感控制任務中,使用 DPO 微調後的語言模型能更精確地生成指定情感的文本,相較於基於 PPO 的 RLHF 展現更強的控制能力。
- 在文本摘要和對話生成評測中,DPO 不僅能保證生成回答的質量,亦達到或超越基線 RLHF 的同儕表現評分,說明其在自然語言生成質量上的競爭力。
- 此外,由於採用簡單的分類損失,DPO 訓練所需的計算成本與超參數調整明顯低於 RLHF,提升了流程的穩定與方便性。
這些實驗結果證明了 DPO 作為一種高效且穩定的直接偏好對齊方法,既具備強化學習框架的理論背景,卻跳脫其訓練瓶頸,為語言模型可控性研究帶來嶄新視角。
對 AI 領域的深遠影響
本論文從理論到實務皆帶來多重突破,直接挑戰了傳統 RLHF 複雜且不易調參的困境。藉由揭示語言模型內隱契合獎勵模型的結構,且透過 DPO 將偏好學習簡化為分類任務,有效降低了人工標註數據的使用門檻和訓練資源損耗,將強化學習與監督學習架構巧妙融合。
此一創新,對於語言模型的可控性、對齊性問題帶來新穎解決方案,不僅能推動安全可控的 AI 系統建設,更有助於縮短模型部署的週期,降低調校人工成本。未來,此方法亦可拓展至更多基於偏好的生成任務,例如個人化回應、生成人機協作式內容、自動化內容審查等場景中,助力人機協同發展。
此外,DPO 提供的理論視角將鼓勵研究社群重新審視獎勵函數建模與策略優化過程,可能引發更多新型非強化學習的策略優化手法,促使 AI 對齊領域朝向更加穩定、高效且易普及的方向邁進。
綜合而言,Rafailov 等人在本論文中提出的 Direct Preference Optimization,不僅是語言模型偏好學習方法上的重要里程碑,也強化了人工智慧以人類價值觀為導向調控的可能。對於在場的 AI 工程師與研究生而言,DPO 提供一條理論扎實卻更易實現的技術路徑,值得深入理解與發展,未來有望成為業界與學界調整大型語言模型的標竿技術。
論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290

沒有留言:
張貼留言