在強化學習(Reinforcement Learning, RL)領域中,報酬函數(reward function)是驅動智能體(agent)學習行為的核心機制。然而,傳統的設計多半假設報酬函數能完整並準確地描述我們期望智能體完成的任務。這篇由 Abel 等人發表於 NeurIPS 2021 且榮獲 Outstanding Paper 的論文《On the Expressivity of Markov Reward》,系統化且嚴謹地探討了報酬函數在表達「任務」這一抽象概念時的能力與限制,對強化學習中報酬設計的理論基礎提出了重要反思與創新見解。
研究背景與動機
過去強化學習成功的背後,一大關鍵是設計良好的報酬函數,使得智能體能通過最大化累積報酬學習期望行為。然而,「任務」其實是一個更為多元復雜的概念,可能不只是單純透過分配分數來評價行為的好壞,還包含了對行為集合的接受度、行為間相對優劣的排序,甚至是整段行為軌跡的排序。若以現有的馬可夫(Markov)報酬函數架構(即報酬僅依賴當前狀態與行為)來描述,是否能涵蓋所有這類任務?其中存在什麼理論上的限制?而智能體優化的結果是否因此有所束縛?
此篇論文正是為了回答上述疑問而誕生,作者從理論角度出發,重新審視馬可夫報酬的「表現力」(expressivity),企圖澄清哪些任務可被馬可夫報酬函數精確表達,哪些則無法。此外,也希望為未來設計更有效、合理的報酬機制提供理論依據,避免在無法用傳統報酬函數描述的任務上徒勞無功。
核心方法與創新
論文首先提出對「任務」的三種抽象描述模式:
- 一組可接受的行為集合(Set of acceptable behaviors):即一組智能體行為被視為符合任務要求的行為,允許多重行為並列達標。
- 行為之間的部份排序(Partial ordering over behaviors):不只是符合或不符合,還對不同行為按優劣設置層級排序,但不要求完全排序。
- 軌跡的部份排序(Partial ordering over trajectories):將任務視為對完整行為軌跡的排序,強調歷程的動態性與時間維度,非僅狀態行為對應。
接著,作者用形式化的方法建構理論框架,證明「馬可夫報酬函數」雖然具有很大的彈性,但仍存在無法完整表達上述三種任務類型的實例或限制。他們提出了如下幾項關鍵性理論結果:
- 存在任務類型中,無法由任何馬可夫報酬函數準確或完整刻畫。
- 對於部分可表達的任務,提供了多項多項式時間的算法,能夠構造出相應的馬可夫報酬函數,協助設計師確定智能體的最優策略與任務目標是否相符。
- 提出判別機制以判定給定任務是否可以由一個馬可夫報酬來表達,避免浪費時間嘗試尋找不存在的報酬函數。
這些理論證明與算法不僅深刻展示了報酬函數的內在限制與潛力,也為「逆強化學習」(Inverse Reinforcement Learning)等報酬推斷任務提供了理論指引。
主要實驗結果
為驗證理論的實用性與可行性,論文團隊設計了一系列模擬實驗,涵蓋多種複雜任務與環境設定。實驗重點在於:
- 測試提出的算法是否能有效構造出對應的馬可夫報酬函數,使智能體成功學習與優化。
- 檢驗算法能否準確判斷無可行報酬函數存在的任務,透過例證反映理論計算的嚴謹性。
- 觀察在無法用傳統馬可夫報酬函數表達的任務中,智能體學習的行為表現與理論預期的一致性。
實驗結果顯示,提出的算法在多數任務設定下皆能成功找到合適報酬函數,且在理論預測無法表達的情況下,確實無法透過強化學習獲得期望行為,彰顯理論與實際應用的高度吻合。此外,實驗還揭示了任務表達的約束如何影響學習收斂速度與策略選擇的多樣性。
對 AI 領域的深遠影響
此篇論文在強化學習研究中具有架構性意義。首先,它挑戰並精煉了報酬函數在智能體學習中的「任務表示工具」角色,讓學界重新思考傳統設計報酬函數的合理性與限制。
其次,明確劃定了馬可夫報酬表達能力的邊界,為理論研究與實踐應用築起一道指引牆,避免在任務設計或報酬推斷過程做無用功,促進研究資源有效分配。
再者,該研究提出的多項式時間構造算法與判別方法,能被廣泛應用於報酬設計、自動化任務分析,以及逆強化學習任務的報酬推斷,對推動自動化、可核查的智能體行為設計具有顯著價值。
最後,透過系統化闡述報酬函數的表現力,這項工作也為未來探索更高階的任務分解、多目標強化學習以及非馬可夫環境中如何設計有效獎勵奠定基礎,促使強化學習系統朝向更靈活且可泛化的智能體發展。
總結而言,《On the Expressivity of Markov Reward》不僅是對強化學習報酬函數理論基石的深化,也為實務中任務設計與報酬推斷提供了重要工具及清晰視角,是理解並突破強化學習中報酬限制的關鍵之作,值得研究者與工程師細讀與借鑒。
論文資訊
📄 On the Expressivity of Markov Reward
👥 Abel, Dabney, Harutyunyan, Ho, Littman, Precup, Singh
🏆 NeurIPS 2021 · Outstanding Paper
🔗 arxiv.org/abs/2111.00876
