2025年9月14日 星期日

OAK 架構:從經驗中成長的開放式強化學習代理願景

講者核心主張:提出「OAK(Options And Knowledge)」代理架構,主張要建構能從線上經驗成長、支援開放式抽象並具領域無關性的人工智慧,強調路徑應以強化學習與可延展的選項(options)為中心,而非僅靠靜態設計階段或離線大規模資料。

三大設計目標:域通用(domain-general)、經驗式(experiential,所有重要能力在執行時學習)與抽象開放式(open-ended,能逐步形成任意抽象,受計算資源限制)。

大世界假說(Big World):實際世界遠大於代理,環境複雜、非固定且近似非平穩。因而設計階段無法預先內建所有細節,所有重要學習、建模與抽象化必須在執行時(runtime)進行,且值函數、策略與模型都會是近似與動態調整的。

獎勵假說與簡潔性偏好:以單一標量獎勵(reward)作為目標規範(reward hypothesis),作者偏好簡潔原則,認為不需要以多目標或複雜約束替代單純累積報酬的框架。

OAK 的構成與運作循環(高階概念):OAK 將代理分為感知(perception)、主問題的策略/價值學習、以及大量從特徵衍生出的子問題(subproblems/auxiliary tasks)。關鍵循環:

  • 感知負責建構狀態特徵(feature)。
  • 以高排名(有用性)的特徵生成子問題──每個特徵形成一個「達成特徵的子問題(feature-attainment subproblem)」。
  • 為每個子問題學習選項(option:政策+終止準則)與對應價值函數。
  • 為選項學習高階(跳躍式)轉移模型,並以選項級模型進行規劃(planning)。
  • 模型與規劃的成效反饋回特徵選取,驅動新的特徵與子問題生成,形成開放式的發現—解決—再發現循環。

子問題的具體形式:從某特徵 i 與強度 κ 出發,構造一個選項,使得在終止時該特徵值高,同時「尊重」主獎勵(不要為求該特徵而大幅損失主要任務的累積獎勵)。這樣得到的工具即是可被建模與規劃的選項。

規劃與選項模型:以選項為基本「行動單元」的模型(返回期望累積獎勵、終止後的狀態分布與持續時間)可直接套用類似價值迭代的規劃更新。選項級模型能在大世界情況下,使模型學習比直接學值函數來得更容易且更穩健。

可用方法與現有困難:許多子構件可用現有技術(離線或離散情況):通用價值函數(GVFs)、離策略預測演算法(GTD、Retrace、ABQ 等)、以及以選項模型做的規劃方法。但在深度、連續、不斷學習(continual deep learning)情境下,仍有重大挑戰:災難性遺忘、可塑性喪失、以及如何有效地在線產生與測試新特徵/表示(representation discovery / meta-learning)。

動機與生物啟發:以動物與嬰兒的「遊戲」為例,強調自發的子目標(玩耍、復現刺激)是形成抽象與技能的來源,OAK 將遊戲/好奇視為系統自發生成子問題並逐步提升能力的機制。

研究與工程影響:OAK 提供一套整合性的思路:把感知、選項發現、子問題求解、選項建模與選項級規劃串成閉環,作為實現從經驗中成長的開放式智慧的可行藍圖。主要未解問題集中在:如何可靠地做深度持續學習(continual DL)、如何有效生成並評估新特徵(meta-learning / generate-and-test 機制)。

總結句:OAK 是一個以選項為核心、強調執行時經驗、並透過子問題循環逐步生成高階抽象的代理架構,提供對人類心智能力形成的機械化答案,也是邁向可擴展、開放式超級智能的路徑式願景,儘管仍須克服持續學習與表示發現等關鍵技術挑戰。



沒有留言:

張貼留言