研究背景與動機
強化學習(Reinforcement Learning, RL)以獎勵信號(Reward Signal)作為智能體學習策略的核心指導依據。經典強化學習框架中,獎勵函數通常被假設為馬可夫(Markovian)的,也就是說,當前的獎勵只依賴於目前的狀態和動作,而與過往歷史無關。這種馬可夫獎勵函數(Markov Reward)的假設,簡化了RL問題的數學表述和算法設計,是眾多經典理論的基礎。 然而,現實中的許多任務呈現出非馬可夫性的獎勵結構,例如需要考慮歷史行為累積影響的情況,或長期依賴的目標問題。在此背景下,本論文《On the Expressivity of Markov Reward》由Abel等人發表於NeurIPS 2021,探索了一個重要且根本性的問題:「馬可夫獎勵函數的表達能力(Expressivity)究竟有多強?」換言之,馬可夫獎勵是否足夠描述所有可考慮的獎勵機制,或者非馬可夫獎勵是否能被馬可夫獎勵有效近似。 本研究的動機在於填補強化學習理論與實務中,對獎勵函數本質的理解空白,特別關注不同型態的獎勵結構如何影響策略學習、問題建模與算法可行性,有助於鞏固RL理論基礎並引導未來獎勵設計。核心方法與創新
論文中,作者首先形式化了「馬可夫獎勵函數」的概念,將獎勵看作是一個映射,輸入為當前狀態和動作,輸出為實值獎勵。為了探討其表達能力,作者引入了「非馬可夫獎勵函數」的概念,此類獎勵可能依賴於整個歷史序列(即過去狀態與動作的軌跡),使問題更具挑戰性。 研究核心聚焦於比較這兩種獎勵函數在描述不同強化學習任務中的能力差異,以及馬可夫獎勵是否可以「模擬」或逼近非馬可夫獎勵。具體來說,作者闡明了在多大程度上,透過擴展狀態空間(例如引入狀態的歷史摘要或可觀測狀態擴增),馬可夫獎勵模型可以實現非馬可夫獎勵的等價表達。 在理論方面,本論文提出了數個重要的定理和證明,證明在某些情況下非馬可夫獎勵可被某些擴展後的馬可夫獎勵函數所近似,尤其當擴展狀態空間能充分封裝歷史資訊時。此外,作者分析了「記憶狀態」的複雜度,展示了如何在不同假設下構造有限維度的馬可夫獎勵系統以模擬非馬可夫獎勵。 同時,論文也探討了獎勵表達能力的限制,展現存在某些非馬可夫獎勵結構,即使擴展狀態空間也難以由馬可夫獎勵完全精確表達。這表明了在設計強化學習系統或智能體時,獎勵函數的馬可夫性假設具有根本性限制。主要實驗結果
為了驗證理論分析,作者設計了一系列合成及實務任務實驗。在合成任務中,作者構造了具有明顯非馬可夫獎勵特性的環境,並比較在不同狀態空間擴充下基於馬可夫獎勵的策略學習效果。 實驗結果顯示,當狀態空間被充分豐富以捕捉歷史訊息時,基於馬可夫獎勵的模型能顯著逼近非馬可夫獎勵系統的性能,證明了理論上的可行性。此外,分析了不同擴展方式對學習效率及數據需求的影響,展現了狀態擴展與模型複雜度間的取捨。 針對真實世界應用案例,作者針對部分典型問題(如部分可觀測環境和多階段任務)進行測試,觀察馬可夫獎勵下智能體的表現,同時探討在部分非馬可夫獎勵場景下引入額外記憶機制帶來的提升效果。 這些實驗結果不僅強化了理論結論,還為未來設計實際強化學習系統提出了具體指導,指出了何時需要進行狀態擴展,何時非馬可夫獎勵必須被明確建模。對 AI 領域的深遠影響
本論文在強化學習領域具有重要理論和實務的雙重價值。首先,它以嚴謹的數理方法揭示了馬可夫獎勵函數的本質潛力與侷限,挑戰了多數RL算法隱含的馬可夫獎勵假設,從理論層面精確定義了獎勵函數的表達能力問題。這是強化學習理論中一個長久未被充分探討的議題。 其次,論文提出透過狀態擴展方法來模擬非馬可夫獎勵的創新方案,為設計具備長期依賴性及歷史依賴任務的智能體提供了規範化路徑,減少需專門設計非馬可夫獎勵的困難,促進了更廣泛且靈活的獎勵建模。這對複雜任務,如多階段決策、部分可觀測環境及元強化學習等領域,具有極大啟示。 此外,揭示出馬可夫獎勵在某些情況下的表達極限,提醒AI研究者在面對高度非馬可夫的現實世界問題時,必須尋求新的獎勵表徵或學習框架,重新思考獎勵函數設計的基本假設,推動強化學習方法在更廣泛應用場景下的適應性和效能。 綜上所述,《On the Expressivity of Markov Reward》以其深入且創新的理論貢獻,以及扎實的實驗支持,促進了強化學習領域對獎勵函數本質的深入理解,並為未來智能體設計與獎勵機制創新奠定了堅實基礎。這也是該論文榮獲NeurIPS 2021「Outstanding Paper」獎項的最佳體現,對AI理論和應用發展皆有深遠影響。論文資訊
📄 On the Expressivity of Markov Reward
👥 Abel, Dabney, Harutyunyan, Ho, Littman, Precup, Singh
🏆 NeurIPS 2021 · Outstanding Paper
🔗 arxiv.org/abs/2111.00876

沒有留言:
張貼留言