2026年4月8日 星期三

On the Expressivity of Markov Reward

在強化學習(Reinforcement Learning, RL)中,獎勵(reward)函數扮演著核心的角色:它是驅動智能體行為的動力來源,直接決定了智能體學習並追求的目標。由於獎勵函數的設計影響了任務表達的能力與智能體的行為策略,理解獎勵函數的表達力(expressivity)便成為一個根本且重要的理論問題。本論文《On the Expressivity of Markov Reward》,由Abel等人發表於NeurIPS 2021,並獲得Outstanding Paper獎項,即是聚焦於探討利用馬可夫獎勵函數(Markov reward function)來表達任務目標的能力,開啟了對RL獎勵機制本質的深入剖析。

研究背景與動機

現有強化學習框架中,智能體透過獲取獎勵信號來學習如何選擇行動,目的是最大化累積期望報酬(return)。然而,實務上設計一個反映「任務目標」或「偏好」的獎勵函數不僅困難,也容易引起不期望的行為(reward hacking)。這其中一個關鍵疑問是:在理論上,馬可夫獎勵函數究竟能表達多少種類型的任務?即獎勵函數的表達力是否有限?如果有限,那這種限制來自於何處?

傳統強化學習多假設獎勵可直接對應目標行為,然而任務本質通常更複雜,可能包含多種行為偏好、優先順序,甚至是對整段軌跡的相對評價,而非單一狀態或行動所能捕捉。為此,本論文提出了三種抽象化的任務表示觀點:一是「接受行為集」(acceptable behaviors)—即哪些行為被視為合格;二是「行為的偏序」(partial ordering over behaviors)—對行為之間存在偏好關係;三是「軌跡的偏序」(partial ordering over trajectories)—不僅單一行為,且包括整段狀態與行為的軌跡排序。

核心方法與創新

本論文的最大貢獻在於嚴謹定義並探討上述三種任務表示的內涵,並對馬可夫獎勵函數在其中的表達力進行理論分析。具體來說,作者首先定義了三種任務類型,接著以形式化證明顯示:

  • 雖然馬可夫獎勵函數能夠表達大量任務,但對於每種任務類型,都存在無法被任何馬可夫獎勵函數完美捕捉的「例外」,即存在本質上的限制。
  • 這些限制反映了馬可夫獎勵的記憶限制(reward是基於目前狀態及行動決定),無法完美嵌入所有更複雜的行為偏好與軌跡排序。

在理論界定之後,另一個關鍵技術貢獻是作者提出了一套多項式時間複雜度的演算法,用來建造可對任務做優化的馬可夫獎勵函數,且在不能建造時正確判定不存在此一函數。這不僅為獎勵設計提供了系統化工具,也為未來獎勵學習領域提供了重要理論基礎。

簡要來說,論文展現三個步驟:

  1. 定義明確的任務概念並形式化偏好與接受行為的結構。
  2. 以數學嚴謹的方式分析並證明馬可夫獎勵函數的內在表達限制。
  3. 設計演算法,透過多項式時間完成給定任務類型的馬可夫獎勵函數建構,並判斷其可行性。

主要實驗與驗證

為了支持理論結果,作者透過一系列實驗於模擬環境中驗證所提出方法的有效性與限制。這些實驗涵蓋了:

  • 利用已知理論任務生成對比實驗,觀察智能體是否能透過所建構的馬可夫獎勵函數成功優化任務目標。
  • 針對不能被獎勵函數表達的任務,展示演算法正確判斷無法構造有效馬可夫獎勵,凸顯了理論一致性。
  • 提供部分情境下,建構出的獎勵函數如何引導策略學習,並與基線方法比較,闡明方法實用性。

這些實驗不僅佐證了論文的嚴謹理論框架,也展現實務應用潛力。

對 AI 領域的深遠影響

這篇論文的理論貢獻及實驗成果對強化學習以及更廣泛的AI開發流程產生重大啟示:

  1. 揭示獎勵設計的根本限制:過去強化學習往往預設「獎勵足以表達任務目標」,本論文證明該命題並非普遍成立,提供了設計獎勵時必須正視的理論框架。
  2. 推動獎勵學習與逆向強化學習理論基礎:理解獎勵函數表達力之限制,對於如何從行為數據中逆推獎勵函數,以及如何在複雜設定下學習合理目標,都具有重要參考價值。
  3. 為更複雜任務偏好建模提供新視角:提出的三種任務抽象(接受行為集、行為偏序、軌跡偏序),為任務規格化帶來更細緻與彈性的理論工具,推動更豐富行為偏好及倫理價值在強化學習中的整合。
  4. 提升獎勵設計自動化程度:多項式演算法讓獎勵創造從直覺與經驗轉向理論驅動,未來可能減輕人為設計負擔,促使強化學習應用更廣泛、健壯。
  5. 強化理解馬可夫性限制:馬可夫假設雖為方法論基石,但也限制了能夠捕捉的任務類型。此論文強調未來可能需探討非馬可夫獎勵設計來應對某些復雜任務。

總結而言,《On the Expressivity of Markov Reward》透過紮實的理論分析與實驗驗證,深化了我們對強化學習中獎勵設計能力的認識,為獎勵函數的合理構造以及智能體目標設定提供了一個全新且關鍵的視角。對研究人員與工程師而言,這不僅是一份理論盛宴,也為實務中如何設計更健全的獎勵機制指明了方向,在推動AI走向更可控與可信的未來上,扮演了重要的里程碑角色。


論文資訊
📄 On the Expressivity of Markov Reward
👥 Abel, Dabney, Harutyunyan, Ho, Littman, Precup, Singh
🏆 NeurIPS 2021 · Outstanding Paper
🔗 arxiv.org/abs/2111.00876

沒有留言:

張貼留言