2018 年 NIPS (Neural Information Processing Systems) 最佳論文的四篇中,陳天琦的這篇"Neural Ordinary Differential Equation"雖然放在第四篇,但是至今一年不到的時間,已經得到超過200篇的引用,遠超過其它三篇。作為曾經的工程學科學生,昨天看到一場 meetup 對此文的現場推導,我當場就能理解背後的數學直覺,而且不禁拍案叫絕。
這個理論來自於對 RNN 網路的觀察,因為 RNN 常以等時距的狀態作為網路層,當時距趨近於 0 時,這個動作可以類比為微分,而得到(對時間微分的)常微分方程組。也就是說, RNN 可以類比為 ODE ,因此 RNN 的訓練/建模可以類比為 ODE 的求解,而且時距可以有彈性的調整,網路層可以抽換為已知的(物理定律)公式。
附上網紅 Siraj Raval 的解說影片,有些工數基礎就能了解。實際上的確曾有研究嘗試以 RNN 來對 ODE 建模/求解,不過顯然不符經濟效益。
其它討論可參考 https://kknews.cc/zh-tw/other/mjjejy6.html , https://kknews.cc/code/k2eyj4q.html
沒有留言:
張貼留言