在強化學習(Reinforcement Learning, RL)中,獎勵(Reward)是一切學習動力的核心,代理人(Agent)透過獎勵來調整行為策略以達成目標任務。然而,究竟「獎勵函數」能夠多大程度上刻畫任務本身的複雜性?各種任務背後的行為如何被獎勵函數精確地表示,仍是強化學習理論中一個關鍵而尚未充分解答的問題。本文《On the Expressivity of Markov Reward》(Abel et al., NeurIPS 2021,獲Outstanding Paper獎)正是針對此一問題,從理論和演算法角度徹底探討「馬可夫獎勵函數(Markov Reward Function)」的表達能力(expressivity)。本文不僅提出新的抽象化任務定義,也證明了獎勵函數的局限,並設計多項多項式時間的算法加以構造與判定,最後以實證實驗展示理論與實踐間的連結與啟示。
研究背景與動機
強化學習中,環境對代理人的回饋模式即透過獎勵函數給出,獎勵是學習策略改進的唯一指標。傳統強化學習假設獎勵函數是馬可夫性的,即獎勵只依賴當下狀態與行動,無需考慮過去軌跡。這種假設促使強化學習在理論及算法上蓬勃發展,但也引起核心疑問:所有我們希望代理人完成的「任務」(task)是否都可以用這種馬可夫獎勵函數來表達?具體來說,當我們用不同角度去定義「任務」的意義──而不僅限於最終效用最大化──獎勵函數的表達極限在哪裡?這對於設計更加靈活且能解決多元任務的強化學習系統具有重要意義。
本文立足於此,提出三種全新且具備抽象性的「任務定義」來探索獎勵函數的表達力:
- 一組可接受的行為集合(Set of Acceptable Behaviors):代理人只需採取集合中任一行為即視為達成任務。
- 行為間的偏序關係(Partial Ordering over Behaviors):表達不同行為的優劣,讓任務成為行為的偏序結構。
- 軌跡的偏序關係(Partial Ordering over Trajectories):任務定義不僅限於行為(policy),而是依對完整狀態-行動序列的偏好排序。
這三種定義刻畫了強化學習任務的多樣性,從而展開對馬可夫獎勵功能的嚴謹分析。
核心方法與理論創新
作者圍繞上述三種抽象任務,深入探討了馬可夫獎勵函數的表達上界與下界,研究亮點包含:
- 理論證明馬可夫獎勵函數的表達限制:本論文證明存在某些可接受行為集合、行為或軌跡的偏序,無法被任何馬可夫獎勵函數所完美捕捉。這說明純馬可夫獎勵結構理論上有表達「盲區」,需要額外機制才能用獎勵充分描述複雜任務。
- 多項式時間的獎勵構造算法:針對三種類型的任務,作者提出了回轉為馬可夫獎勵函數的具體算法,這些算法可以在多項式時間內決定是否存在合適的馬可夫獎勵函數,並在存在時給出構造方法。這在學術上填補了「獎勵函數可構造性」的空白,實務上也有助於任務設計與獎勵工程。
- 標準化任務的嚴謹定義及分類:將「行為」與「軌跡」分別納入偏序結構的框架,展現強化學習任務理解的形式化新視角,為未來理論研究和算法設計奠定基礎。
主要實驗結果
為了驗證理論工作的實用性與準確性,作者設計了一系列實驗,針對不同任務類型和環境中獎勵函數構造算法的運作效率與判定正確率進行分析。實驗結果表明:
- 當任務可由馬可夫獎勵函數表示時,算法能有效構造出相應的獎勵函數,使得代理人學習到期望的行為。
- 對於理論上無法用馬可夫獎勵函數表達的任務,算法正確地判定不存在適用的獎勵函數,避免了錯誤引導強化學習代理。
- 實驗同時展示了在實際強化學習環境中,任務類型的複雜度與獎勵函數的表達能力如何影響學習效率和策略表現。
對 AI 領域的深遠影響
本論文在強化學習領域中,為我們理解「獎勵函數」的本質與限制提供了全新且具體的理論框架,其貢獻意義可從以下幾方面闡述:
- 理論深化:清晰界定了馬可夫獎勵函數的表達範圍及其無法涵蓋的部分,推動了強化學習reward設計理論的標準化與精準化。
- 工程應用:在強化學習任務設計和獎勵塑造時,提供了判定及構造的確切工具,可以避免設計出錯誤或無效的獎勵函數,提升代理人學習的可靠性和效率。
- 新任務建構:透過任務偏序的抽象化方法,文章開拓了任務定義的新視角,為未來多目標、偏序多樣化任務制定及評估開啟了可能。
- 促進獎勵替代方案研究:由於證明部分任務不擬合馬可夫獎勵函數,這推動了非馬可夫獎勵、逆向強化學習、偏好學習等領域的發展與交叉融合。
綜合而言,Abel 等人於 NeurIPS 2021 發表的《On the Expressivity of Markov Reward》毫無疑問地是強化學習理論與實踐交彙的重要里程碑。其深刻的理論洞察和演算法設計,不僅豐富了我們對「獎勵」這一核心概念的理解,也為未來設計更穩健、更靈活的智能體提供了寶貴指引。對於工程師和學術研究者而言,掌握本論文的思路與結果,有助於在開發更複雜、多樣化的強化學習系統時,避免「獎勵設計陷阱」,精準把握任務本質,開展更具挑戰與創新的研究。
論文資訊
📄 On the Expressivity of Markov Reward
👥 Abel, Dabney, Harutyunyan, Ho, Littman, Precup, Singh
🏆 NeurIPS 2021 · Outstanding Paper
🔗 arxiv.org/abs/2111.00876

沒有留言:
張貼留言