在強化學習(Reinforcement Learning,RL)領域中,「獎勵(Reward)」扮演著極為關鍵的角色,因為它決定了智能體(agent)學習的目標以及行為策略的方向。傳統的強化學習假設,智能體透過最大化由馬可夫決策過程(Markov Decision Process, MDP)中的獎勵函數定義的累積回報,來完成特定任務。然而,真實世界中多樣且複雜的任務需求往往不易被一個簡單的、標準的馬可夫獎勵函數(Markov Reward Function)完整且精確地表達。Abel等人於2021年NeurIPS發表的論文《On the Expressivity of Markov Reward》正是在這樣的背景下誕生,並獲得了Outstanding Paper獎項的肯定。
研究背景與動機
強化學習的核心挑戰之一,就是如何以獎勵函數來明確地定義任務目標。傳統的獎勵函數設計通常假設存在一個「馬可夫獎勵」,即獎勵僅依賴於當前狀態與行動,而不考慮過去的歷史或者更複雜的偏好結構。然而,許多任務的成功標準並不能簡單地用即時、狀態基的獎勵函數完全描述。例如某些任務更注重整體行為的「接受度」(behaviors),或是一些行為之間的偏好關係(partial ordering),且這些偏好可能涉及整條軌跡(trajectories),超出馬可夫假設的範圍。
而對於獎勵函數「表現力」(expressivity)本身的系統性研究,在該論文提出前並不多見。換言之,我們對於「馬可夫獎勵函數到底能表達哪些形式的任務?」這個核心問題缺乏理論明確的界定。了解這些限制和可能性,不只是理論上的興趣,更關係到強化學習在複雜真實場景下的應用效果—尤其是在如何設計合理的獎勵或任務規範以引導智能體行為方面。
核心方法與創新
本論文從抽象且理論性的角度重新定義「任務(task)」的概念,提出三種「理想化的任務表述」:
- 一組可接受的行為集合 (a set of acceptable behaviors)。簡單來說,任務定義為智能體需展現出屬於該集合中的行為。
- 行為之間的偏序關係 (a partial ordering over behaviors)。即存在部分排序的優劣關係,智能體的任務是學習找到較好的行為。
- 軌跡上的偏序關係 (a partial ordering over trajectories)。這裡將偏序關係直接加諸於完整決策軌跡,反映更複雜的任務偏好結構。
這三種抽象定義逐步增加了任務的複雜性和表現力維度,覆蓋了從二元接受/拒絕,到多維排序偏好,乃至涉及整條行為路徑的偏好等多種情況。
針對這三種定義,作者理論上嚴謹地分析了馬可夫獎勵函數的表達能力,並證明雖然馬可夫獎勵函數能夠表達許多任務,但仍然存在一定類型的任務,它們無法用任何馬可夫獎勵函數來完整描繪。簡言之,存在「不可表達」的任務類型,這挑戰了以馬可夫獎勵為唯一框架的強化學習設計。
更具體而言,作者證明了:
- 對於每一種抽象任務定義,都能找出一本質上無法被馬可夫獎勵函數捕捉的例子。
- 設計了一組多項式時間的構造演算法,能判斷對於特定任務是否存在對應的馬可夫獎勵函數,若存在則能藉此演算法產生出該獎勵函數。
這不僅理論上彌補了表達力定量分析的空白,也在實務上提供了評判和設計獎勵函數的新工具。
主要實驗結果
在理論證明之外,論文還進行了實證實驗,試圖以數值模擬驗證與展示理論結果的合理性和實際意涵。實驗部分:
- 利用簡化的環境設置,展示不同任務類型的問題,驗證所設計的演算法能夠識別是否存在對應的馬可夫獎勵函數。
- 在不可表達的任務設定中,實驗結果證實標準的馬可夫獎勵強化學習無法達成預期任務,凸顯理論上的限制並非純粹形式問題。
- 對能表達的任務,則展示演算法產生的獎勵函數成功引導智能體完成任務,提高學習效率與效果。
這些實驗不僅支撐了理論貢獻,也對獎勵設計提供了直觀的指引,顯示強化學習開發者應考慮任務本質的可表達性,避免陷入「錯誤獎勵」的陷阱。
對 AI 領域的深遠影響
此篇論文在強化學習理論與實務層面皆有重大影響。首先,從理論層面出發,它明確界定了馬可夫獎勵函數的表達能力和限制,這對於理解強化學習的本質乃至設計更合理的學習架構有指標意義。過去強化學習幾乎默認馬可夫獎勵足夠表達任務,該研究則提醒我們思考何種任務結構是無法單靠獎勵實現的。
其次,對於實踐者來說,它提供了判斷一個任務是否能被馬可夫獎勵函數表達的工具與方法。這在設計智能體的獎勵系統時,有助於提前避免設計陷阱,釐清任務需求和學習目標的匹配程度,導致更高效及更可靠的強化學習應用。
再者,從更寬的視角來看,該論文推動了獎勵設計理論的發展,啟發未來研究在非馬可夫性、復雜偏好與多目標優化等領域的探索。它也對於解決如價值對齊(value alignment)、人類偏好學習及複雜任務規範具有啟示意義。
總結而言,《On the Expressivity of Markov Reward》以嚴謹的數理理論和實證驗證,揭示強化學習中獎勵函數的潛力與局限,推動 AI 社群更深刻理解「任務表述」與「獎勵設計」的核心關係,為未來強化學習與智能體設計奠定了堅實基礎。
論文資訊
📄 On the Expressivity of Markov Reward
👥 Abel, Dabney, Harutyunyan, Ho, Littman, Precup, Singh
🏆 NeurIPS 2021 · Outstanding Paper
🔗 arxiv.org/abs/2111.00876
