在人工智慧領域中,不完美資訊遊戲(Imperfect-Information Games)因其複雜的策略互動與隱藏資訊結構,一直是挑戰性極高的研究題目。尤其像是德州撲克這種類似真實世界決策場景的不完美資訊遊戲,更是AI跨足博弈決策的代表性典範。2017年NeurIPS大會中,由Michael Bowling與Noam Brown提出並獲得最佳論文獎的《Safe and Nested Subgame Solving for Imperfect-Information Games》一文,針對以往不完美資訊遊戲中子遊戲求解(subgame solving)方法的不足,提出了全新且具安全性保證的子遊戲求解技術,有效提升了演算法的可用性與決策質量,成為促使首個擊敗頂尖人類職業玩家的AI「Libratus」誕生的關鍵技術之一。
研究背景與動機
不完美資訊遊戲的挑戰,源自於遊戲中玩家無法觀察對手的全部行動或持有的資訊,這使得傳統以子遊戲獨立求解的直覺策略無法直接套用。與完全資訊遊戲不同,例如西洋棋或圍棋,子遊戲的最佳策略可獨立求解,因為子遊戲不受其他尚未發生的變化影響;但在不完美資訊遊戲中,子遊戲的策略必須與整場遊戲的整體策略相容,否則會導致策略漏洞,降低AI對手的覆蓋率及抗攻擊能力。
過去的理論與實務嘗試,都強調先對完整遊戲模型進行抽象化求解(抽象策略生成),然後於遊戲進行中,利用子遊戲求解進行局部調整。問題在於如何讓子遊戲求解既能提升策略質量,又不會因局部改動造成整體策略的「不安全」—也就是無法保證不會被對手剝削(exploit)。此外,如何處理對手可能採取的原遊戲模型外的行為,也是一大技術難點。
核心方法與創新
本論文提出一套被稱為「Safe and Nested Subgame Solving」的求解框架,兼具理論嚴謹性與實務可行性,主要創新點分述如下:
1. 安全子遊戲求解(Safe Subgame Solving)
作者首先定義何謂「安全」的子遊戲求解:在修正子遊戲策略後,新的玩家策略不會導致該玩家的整體策略在理論上更容易被對手剝削。為此,他們引入了所謂“改良策略的上界保證”,確保子遊戲內策略替換所帶來的收益增強,能合理反映至整體策略,在理論上維持甚至降低遊戲的可剝削性。
此安全保證基於將子遊戲與母遊戲的策略價值函數巧妙融合,透過修正子遊戲中可觀察到的對手策略與潛在資訊結構,使得子遊戲解算結果不會對母遊戲策略產生負面反饋。
2. 巢狀子遊戲求解(Nested Subgame Solving)
另一個重要貢獻為將子遊戲求解拓展為多層巢狀結構,意味著在遊戲過程中,每當狀態進入下一子遊戲階段時,演算法可以依照當下所處遊戲狀況持續執行子遊戲求解。這種動態重疊式的求解方式不僅使得策略能隨實際對手行動進行更細緻的調整,也提升了遊戲決策的彈性與策略深度。
由於子遊戲求解不再是一次性的靜態修正,而是可以多階段遞迴執行,演算法得以逐步消減可剝削性,最終形成一套自適應、動態強化的策略組合。
3. 動態行動空間擴展與行動翻譯改進
對手可能採取未包含於初始抽象策略空間中的行動,是不完美資訊遊戲中常見的變數。先前方法多半利用「行動翻譯」(action translation)技巧嘗試映射未見過的行動至已知行動空間,卻難以保證策略安全與效能。
本論文提出利用安全子遊戲求解框架,在考慮對手新行動(即「超出原行動抽象」的行動)時,動態擴充限制模型,並透過求解子遊戲反覆計算,較過去方法能更精確且安全地回應對手多樣化策略,顯著提升AI面對未知行動的適應與抗剝削能力。
主要實驗結果
作者以Heads-up No-limit Texas Hold’em(無限注德州撲克)為測試場域,該遊戲具有極大的策略空間與複雜度,是挑戰代表不完美資訊遊戲的典型案例。透過與先前最先進的子遊戲求解技術比較,實驗證明:
- 所提出的安全子遊戲求解方法在理論上可保證整體策略的可剝削性不會惡化,實務中亦明顯降低策略漏洞。
- 巢狀子遊戲求解能持續改善策略,並隨遊戲進程遞迴執行,最終生成策略的被剝削率遠低於傳統一次性子遊戲求解。
- 在處理對手行動空間外的新行動方面,動態擴展子遊戲求解明顯優於行動翻譯,能更有效且穩健地調整應對策略。
這些技術是賦能「Libratus」AI系統擊敗多位人類頂尖職業德州撲克玩家的核心方法,展現了技術的巨大實戰價值。
對AI領域的深遠影響
《Safe and Nested Subgame Solving for Imperfect-Information Games》不僅促成德州撲克AI的重大突破,更在以下層面對AI研究領域帶來啟發與影響:
- 策略遊戲決策理論推進:破解了不完美資訊遊戲子遊戲獨立求解的理論難題,提出安全性的嚴格定義及實作機制,使得子遊戲求解成為一種有理論保證且實際有效的技術路徑。
- 強化學習與博弈論結合:論文中所開發的巢狀子遊戲求解方法,提供了一種分布式迭代優化策略的新思路,對強化學習中處理部分可觀察環境(POMDP)的策略優化策略具有啟示作用。
- 應對模型不確定性的策略調整:攻克了對手未知行動的動態適應問題,這是許多現實決策場景中面對模型外行為的重要挑戰,為往後AI在金融、談判、網路安全等需抗噪聲與不確定外部挑戰的領域奠定基礎。
- 實戰落地的成功典範:技術從理論到實作的跨越,促進了AI系統如Libratus在真實人機對戰中達成歷史性突破,也為AI在不完美資訊環境中的應用打開了新的局面。
總結來說,Brown與Sandholm的這篇論文以嚴謹的理論分析和創新演算法設計,成功解決了不完美資訊遊戲中子遊戲求解的核心難題,不僅推動了不完美資訊博弈論研究,也大幅提升了AI決策系統的實用性和抗剝削能力,成為人工智慧在複雜策略環境中邁向人類級別智慧的里程碑。
論文資訊
📄 Safe and Nested Subgame Solving for Imperfect-Information Games
👥 Brown, Sandholm
🏆 NeurIPS 2017 · Best Paper
🔗 arxiv.org/abs/1705.02955

沒有留言:
張貼留言