常用資訊速查

2026年6月1日 星期一

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

在過去的幾年裡,自監督學習(Self-Supervised Learning, SSL)在語言和視覺領域帶來了革命性的突破,如 GPT、BERT、Vision Transformers 等大型深度模型的成功。然而,在強化學習(Reinforcement Learning, RL)上,尤其是無監督且目標導向的強化學習領域,類似的規模擴展帶來突破的嘗試與成果卻較為稀缺。由此,Wang 等人在 NeurIPS 2025 發表的論文“1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities”帶來了一個激動人心的進展:藉由大幅增加網路深度至多達 1000 層以上,在無需範例示範或外部回饋的自監督強化學習設定中,顯著提升了演算法的目標達成能力。

研究背景與動機

強化學習的一大瓶頸在於對獎勵信號的強烈依賴,尤其在無人類標註或沒有明確獎勵的情境下,演算法往往難以有效探索與學習。為此,目標導向的自監督強化學習逐漸興起,演算法由環境狀態出發,以「能否抵達特定目標」本身作為指標,重點放在自主探索與目標達成。過去主流的強化學習模型多採用相對淺層(約 2 至 5 層)的神經網路結構,出於計算資源限制與訓練穩定性的考量。

然而,參考語言與視覺模型在擴大深度(層數)後帶來表現躍升,作者團隊提出一個關鍵問題:深層網絡的規模增長是否也能同樣為自監督強化學習注入全新的能力?這個假設引導他們深入研究如何透過極端擴展深度,改變 RL 代理人在無獎勵環境中的行為學習與目標達成表現。

核心方法與創新

本論文的核心貢獻是提出並驗證了在自監督情境下,將原本淺層的 RL 網絡架構擴展至多達 1024 層深的巨大網路,能在無需額外監督的前提下大幅提升目標達成率。這裡的自監督強化學習,主要是基於 對比學習(contrastive learning) 來最大化達成目標的似然或概率,代理人必須從零開始,循環實驗、學習如何達到指令下達的目標狀態。

為了緩解超深網路訓練中的梯度消失、爆炸與收斂困難,作者引入多項關鍵技術:

  • 殘差連接(Residual Connections):帶領訊息可以跨層流動,避免消失。
  • 分層正規化(Layer Normalization):確保激活分布穩定,促進深層訓練。
  • 梯度剪裁與學習率調度:防止梯度爆炸與過快收斂。

此外,論文還強化了目標條件式神經網路架構的設計,使模型能有效整合當前狀態與目標表示。改變深度不只是疊加層數,而是打通了網絡的「感知深度」,讓模型能從抽象概念到細節執行都更具表現力和靈活性。

主要實驗結果

作者在多個經典的模擬環境中驗證了其方法,涵蓋機器人行走(locomotion)及操作(manipulation)任務,且明確採用無外部回饋的目標導向學習設定。實驗結果震撼:

  • 深度增加帶來的效益呈現指數級成長,成功率較原本淺層基線方案提升 2 倍至最高 50 倍以上。
  • 模型深層數量遠超過以往強化學習文獻中常見的 2 至 5 層,接近 1000 層,卻沒有觀察到訓練崩潰,充分展示了方法的穩定性與可行性。
  • 行為質量有顯著提升:深層模型學習到更為細膩、多樣且策略性高的行動策略,遠非淺層模型能達成。例如在達成複雜操控目標時,深度網絡能規劃多步驟路徑,而非一味追求局部最優的動作。

另外,論文也跟其他現有目標導向強化學習基線方法進行對比,結果顯示無論是成功率還是行為多樣性,本方法都具備明顯優勢。這點尤其重要,因為自監督強化學習核心挑戰在於無目標或回饋設計的限制,能藉由更深模型學習出有效策略,是一大突破。

對 AI 領域的深遠影響

此論文挑戰了過去強化學習領域中關於網絡架構深度的慣例,證明即便在高度不穩定與非結構化的自監督環境中,極深網絡仍然可行且帶來巨大性能躍升。此發現意味著:

  1. 自監督強化學習具備更大潛力: 隨著計算硬體與訓練技術進步,未來可開發更深更複雜的 RL 模型,突破目前目標探索與策略學習的瓶頸。
  2. 網絡深度成為 RL 根本影響因素之一: 過去除非研究結構改進或獎勵設計,少有研究專注通過大幅增加深度來提升性能。本論文為 RL 界開闢了一條新的設計思路。
  3. 跨領域模型設計融合趨勢: 強化學習與自監督學習、深層網絡設計等多個領域的交叉革新,將推動機器學習理論與應用更緊密結合。
  4. 助力開發通用智能代理人: 在無監督或極少監督的環境中,自主學習達成複雜目標的能力,是建立類人智能或通用人工智能(AGI)關鍵基石。

總結來說,Wang 等人提出的「千層網路」自監督強化學習架構,昭示了超深層次結構在 RL 領域的嶄新應用街道,擴展了工程師與研究者對模型架構規模和訓練策略的想像空間。未來若能結合更高效的訓練方法和大規模計算資源,其在機器人學習、自動駕駛、遊戲 AI 乃至自主代理系統等方面的潛力將更為廣闊。

最後,論文的開源程式碼與詳盡實驗設定,使得其他研究者可直接重現與延伸這項研究,促進了學術與產業社群的合作與交流。這對於推動整個 AI 強化學習生態系統健康發展,具有相當重要的意義。


論文資訊
📄 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
👥 Wang, Javali, Bortkiewicz, Trzcinski, Eysenbach
🏆 NeurIPS 2025 · Best Paper
🔗 arxiv.org/abs/2503.14858

沒有留言:

張貼留言