行有餘力則以學文: OAK 架構：從經驗中成長的開放式強化學習代理願景

2025年9月14日星期日

OAK 架構：從經驗中成長的開放式強化學習代理願景

講者核心主張：提出「OAK（Options And Knowledge）」代理架構，主張要建構能從線上經驗成長、支援開放式抽象並具領域無關性的人工智慧，強調路徑應以強化學習與可延展的選項（options）為中心，而非僅靠靜態設計階段或離線大規模資料。

三大設計目標：域通用（domain-general）、經驗式（experiential，所有重要能力在執行時學習）與抽象開放式（open-ended，能逐步形成任意抽象，受計算資源限制）。

大世界假說（Big World）：實際世界遠大於代理，環境複雜、非固定且近似非平穩。因而設計階段無法預先內建所有細節，所有重要學習、建模與抽象化必須在執行時(runtime)進行，且值函數、策略與模型都會是近似與動態調整的。

獎勵假說與簡潔性偏好：以單一標量獎勵（reward）作為目標規範（reward hypothesis），作者偏好簡潔原則，認為不需要以多目標或複雜約束替代單純累積報酬的框架。

OAK 的構成與運作循環（高階概念）：OAK 將代理分為感知（perception）、主問題的策略/價值學習、以及大量從特徵衍生出的子問題（subproblems/auxiliary tasks）。關鍵循環：

感知負責建構狀態特徵（feature）。
以高排名（有用性）的特徵生成子問題──每個特徵形成一個「達成特徵的子問題（feature-attainment subproblem）」。
為每個子問題學習選項（option：政策+終止準則）與對應價值函數。
為選項學習高階（跳躍式）轉移模型，並以選項級模型進行規劃（planning）。
模型與規劃的成效反饋回特徵選取，驅動新的特徵與子問題生成，形成開放式的發現—解決—再發現循環。

子問題的具體形式：從某特徵 i 與強度 κ 出發，構造一個選項，使得在終止時該特徵值高，同時「尊重」主獎勵（不要為求該特徵而大幅損失主要任務的累積獎勵）。這樣得到的工具即是可被建模與規劃的選項。

規劃與選項模型：以選項為基本「行動單元」的模型（返回期望累積獎勵、終止後的狀態分布與持續時間）可直接套用類似價值迭代的規劃更新。選項級模型能在大世界情況下，使模型學習比直接學值函數來得更容易且更穩健。

可用方法與現有困難：許多子構件可用現有技術（離線或離散情況）：通用價值函數（GVFs）、離策略預測演算法（GTD、Retrace、ABQ 等）、以及以選項模型做的規劃方法。但在深度、連續、不斷學習（continual deep learning）情境下，仍有重大挑戰：災難性遺忘、可塑性喪失、以及如何有效地在線產生與測試新特徵／表示（representation discovery / meta-learning）。

動機與生物啟發：以動物與嬰兒的「遊戲」為例，強調自發的子目標（玩耍、復現刺激）是形成抽象與技能的來源，OAK 將遊戲/好奇視為系統自發生成子問題並逐步提升能力的機制。

研究與工程影響：OAK 提供一套整合性的思路：把感知、選項發現、子問題求解、選項建模與選項級規劃串成閉環，作為實現從經驗中成長的開放式智慧的可行藍圖。主要未解問題集中在：如何可靠地做深度持續學習（continual DL）、如何有效生成並評估新特徵（meta-learning / generate-and-test 機制）。

總結句：OAK 是一個以選項為核心、強調執行時經驗、並透過子問題循環逐步生成高階抽象的代理架構，提供對人類心智能力形成的機械化答案，也是邁向可擴展、開放式超級智能的路徑式願景，儘管仍須克服持續學習與表示發現等關鍵技術挑戰。