在近年來大型語言模型(Large-scale Language Models, LMs)快速發展的浪潮中,如何有效地用人類偏好來引導語言模型的生成行為,以達成更精確且可控的結果,成為自然語言處理領域的關鍵挑戰。雖然巨量的無監督訓練讓模型掌握廣泛知識和一定程度的推理能力,但由於缺乏明確的行為控制信號,我們很難保證其生成內容與使用者期待完全吻合。由此,能夠利用人類反饋(Human Feedback)來進行模型微調的「人類反饋強化學習」(Reinforcement Learning from Human Feedback, RLHF)成為重要手段。
本論文《Direct Preference Optimization (DPO): Your Language Model is Secretly a Reward Model》由Rafailov等人在NeurIPS 2023發表,榮獲傑出論文次佳獎,提出一種全新且優雅的解決路徑,以突破RLHF在實務應用中的複雜度和不穩定性,達到穩定且高品質的模型偏好對齊。
研究背景與動機
主流的RLHF實務流程包含兩個主要階段:先建立一個「獎勵模型」(Reward Model, RM),用以預測人類對不同模型輸出結果的偏好分數,接著使用強化學習(通常是PPO演算法)使基礎語言模型調整生成策略,最大化此獎勵模型的回饋。在過程中,PPO需要不斷取樣生成、進行策略更新,且高維參數空間與強化學習的本質使得整體訓練容易出現不穩定、需耗費大量計算資源與複雜的超參數調整。
此外,獎勵模型的建立與強化學習調整通常被當作兩個獨立步驟進行,缺乏聯合視角,容易導致最終策略與原始基礎模型差異過大,影響生成結果的語言品質及多樣性。
基於此,作者們觀察到語言模型本身已有相當程度的世界知識與語言結構理解,若能找到一種方式直接將偏好數據映射到語言模型更新,便能免除獎勵模型外推與強化學習中間環節,簡化流程並提升穩定性。
核心方法與創新
DPO的核心創新在於重新參數化獎勵模型,使其直接隱含於語言模型本身的概率輸出中,而不需額外訓練獨立獎勵模型。更具體的,傳統RLHF將語言模型生成策略視為一個策略π,優化獎勵模型 r 的期望分數;作者指出可將獎勵模型定義為:
r(x, y) = log π(y|x) - log π_0(y|x),其中π_0為基準語言模型策略,π為我們想優化的策略。
在這個框架下,他們發現最大化人類偏好概率等價於最大化上述對數比值,並且直接產生一個封閉形式的最優策略更新目標。結果是,我們能用一個簡單的分類損失函數替代強化學習,直接用相對偏好標籤(例如兩段生成文本哪一段更好)來優化語言模型參數,無需使用複雜的策略梯度技巧。
此分類損失會根據人類對兩段生成結果的標註,調整模型傾向使得優先生成被偏好的內容,從而在訓練過程中自然對齊人類偏好。此方法稱為Direct Preference Optimization(DPO)。
DPO技術亮點包括:
- 簡化訓練流程:不需獎勵模型二次訓練或強化學習采樣,改為單純監督式分類損失。
- 封閉形式最優策略求解:直接從偏好數據計算最優策略,而非近似最大化獎勵期望。
- 穩定且高效:避免強化學習中策略振盪和高計算成本。
- 對原始語言模型保持忠實:有效控制微調偏差,不導致語言品質下降。
主要實驗結果
作者在多項實驗中測試DPO與既有RLHF方法(例如PPO-based RLHF)的表現差異,涵蓋以下幾個面向:
- 情感控制:DPO在引導生成輸出呈現特定情感傾向(如正面或負面)時,表現優於PPO RLHF,能更精準且持久地控制情感方向。
- 摘要任務:在文本摘要生成任務中,DPO微調後的模型生成內容在人工評分和自動評分(如ROUGE)上與PPO持平甚至略有提升,且訓練過程更簡便。
- 對話生成:單輪對話回應質量提升,回答的相關性和流暢度得到改善,同時避免了強化學習過程中可能出現的反覆無常或模式崩壞問題。
整體來看,DPO不僅在多個任務上實現與傳統RLHF相當甚至更優的對齊效果,且大幅降低了訓練難度和計算資源需求,證明了其在實務應用上的價值。
對 AI 領域的深遠影響
DPO的提出,代表了一個從根本上簡化人類偏好對齊流程的突破。它顛覆了過去RLHF必須先訓練獨立獎勵模型,再以強化學習近似最大化獎勵的複雜框架。這種直接利用偏好標籤對語言模型進行分類式優化,讓整個微調流程更直觀、穩定且容易實現,有助於推動偏好學習方法的普及與標準化。
從長遠來看,DPO可能改變自然語言處理以及更廣泛機器學習模型調整的人類-人工智慧互動模式。它使得後續研究者與工程師能夠:
- 降低對複雜強化學習技術的依賴,專注於收集品質良好的人類偏好資料。
- 透過簡單而高效的方式提升生成模型的使用者體驗,特別是在需要準確反映人類意圖的任務中。
- 在安全與倫理考量上,減少生成模型偏離原始語言理解基礎的風險,提升內容可控性與可靠度。
此外,DPO表明語言模型隱含了「秘密的獎勵模型」結構,啟發未來研究在模型結構與訓練目標設計上的新方向,例如如何更好地理解生成模型的內部評價機制,並以此構建更強大且通用的偏好對齊策略。
結語
總結而言,《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》一文以理論創新與實驗驗證雙重方式,成功提出了一種簡單卻功能強大的偏好對齊方法DPO,極大地推動了自然語言生成模型的人類行為控制實務。對於希望在工程或研究中實現高效穩定偏好微調的開發者和學者,DPO提供了新的思考與操作範式,其影響將持續深遠。
論文資訊
📄 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
👥 Rafailov, Sharma, Mitchell, Ermon, Manning, Finn
🏆 NeurIPS 2023 · Outstanding Paper Runner-Up
🔗 arxiv.org/abs/2305.18290

沒有留言:
張貼留言