本文總結一次YouTube訪談,重點討論特斯拉於當日發布的Optimus(Gen 2.5)示範影片及在NeurIPS會場的演示,並整理受訪者Dr. Scott Walter對影片中機器人速度、步態、手部結構、充電與訓練模擬的專業觀察與推論。
1) 速度與「跑步」判定
- 特斯拉公開的實驗室影片顯示Optim us具備短暫「飛行相」(兩腳離地),技術上屬於跑步而非快走。
- Dr. Scott 根據畫面測量(以骨盆/軀幹為基準、逐格計時)估得約4公尺行程耗時1.71秒,換算約2.34 m/s、8.4 km/h,約5.2 mph(接近Elon早前承諾的5 mph 範圍)。
2) 步態與鞋頭(toe box)問題
- 影片慢動作可見鞋頭在腳趾離地時明顯彎折/打開,屬結構性關節位置導致的「翻起/張開」現象,而非單純落地反彈。
- 這種開口若在真實環境遇到砂石等異物,可能卡住或導致破損;Dr. Scott 推測未來版本會把底板做成連續、減少此縫隙以降低風險。
3) 手部結構與現有限制
- 特寫顯示機械手已裝上保護手套(glove),手掌有掌節彎折的設計。內部結構推估為22個手指關節(不含腕),但實際致動器只有17個(+腕部2個),部分伸展回復靠彈簧/彈性材料(ligament)被動完成。
- 因為缺少部分主動回拉致動器,手指的精準控制與回位力有限,長期摩耗會使手套與關節處易損。Dr. Scott 預期後續版本會加入更多致動器(例如在前臂增加數個致動器),以把被動回復改為主動控制,並改善拇指CMC等較「鬆」的結構以提升抓握穩定性與力量。
4) 充電與展示場定位
- 會場與先前影片可見Optimus靠背後插座或站位充電(有掛牆或支架定位的可能),展示機可能固定在某種支撐架上以維持站姿與續航。
5) 模擬訓練與NeurIPS演示(世界模型)
- Tesla 在NeurIPS示範其「神經網路即時生成世界」的能力:利用大量真實影片資料生成外觀與物理逼真的即時模擬場景(示例為車輛駕駛),可用於強化學習和大量合成訓練資料。
- 這些方法可直接移植到Optimus訓練流程,讓機器人在高保真合成環境反覆學習複雜場景與邊界條件,快速擴增訓練數據集與情境多樣性。
6) 產品世代、量產與供應鏈考量
- 影片為Gen 2.5(仍在用作訓練與驗證硬體),Elon 先前表示Gen 3預計在明年第二季發表(可能3月)。Dr. Scott 推測2.5將作為訓練與測試平台,同時替下一代硬體累積大量RL訓練經驗。
- 有關量產(Gigafactory 與每年大量產能)的傳聞與供應商訊息(例如中國供應商與外包廠檢)似有其真實性,但大規模零件與致動器供給、製程設備與產線建置需大量時間與資本,完整生產化通常需數年達到高量產率;即便廠房搭建快,內部自動化與關鍵零組件的產能爬升仍會慢慢放量。
7) 觀察結論與意義
- 此次展示具代表性意義:Optimus已達到可被稱為「跑步」的步態速度(約5 mph),手部機構已顯著進化且有可見的工程實作,但仍存在設計可改進之處(致動器數量、掌部縫隙與耐久等)。
- 更重要的是,Tesla 正在把在自駕(FSD)上累積的世界模型與模擬訓練能力運用到人形機器人領域,這會大幅提升在模擬中訓練稀有或危險情境的能力,縮短學習週期。
- 總體來說:進展明顯且值得肯定,但仍屬開發與驗證階段,量產與穩定可靠性尚需時間、供應鏈協同與更多硬體改良。

沒有留言:
張貼留言