2025年9月18日 星期四

弗朗索瓦·肖萊(Francois Chollet)談:從好奇孩童到打造 Keras 與看清 LLM 本質

本次訪談主角為 Google 工程師兼 AI 研究者 Francois Chollet,創立者與主要維護者之一的深度學習函式庫 Keras。節目涵蓋他的成長背景、早期求學與研究路徑、Keras 的誕生與演進、以及他對大型語言模型(LLM)與通用人工智慧(AGI)的觀點。

早期歷程與研究興趣
Chollet 自小對電腦著迷,青年時期受科幻與神經科學啟發,期望理解並重現智慧。他透過線上課程學習神經心理學,發現觀察與資料不足以產生可操作的認知模型,於是轉向以工程/演算法實作來驗證想法。後來從事認知發展機器人(cognitive developmental robotics)與以身體化(embodiment)觀點研究學習,再到東京大學做非監督式影像/影片表徵的研究(以矩陣分解為主、非以梯度下降為核心)。

Keras 的誕生與演進
因為當時缺乏好用的 RNN/LSTM 工具,Chollet 在 2015 年以 Theano 為基底開發並開源 Keras,後來隨著 TensorFlow 與社群成長,他加入 Google 並協助將 Keras 與 TensorFlow 結合。近期推出的 Keras 3 為重寫版本,回到 multi-backend 設計,支援 TensorFlow、PyTorch、JAX 等後端,讓使用者可在不同框架間切換以取得最佳效能並擴展生態系統(例如 TFJS、TFLite 等)。Keras 團隊強調社群參與與教學、與 Kaggle 的整合,提供競賽 starter notebooks 及模型分享機制,降低入門門檻。

與大型模型、Gemma 的整合
Chollet 與 Keras 團隊為 Google 的 Gemma LLM 提供 Keras 3 實作與整合(multi-backend 支援),且在 KerasNLP 中加入便於微調的功能(如 LoRA、模型並行訓練支援、只儲存 LoRA 權重差異等),以利於在真實生產或研究情境中使用與微調大型模型。

對 LLM 與 AGI 的觀點
Chollet 明確區別 LLM 與「智慧/通用智能」:他認為 LLM 本質上是大規模的曲線擬合與記憶庫,類似「可插值的向量化程式庫」,能在訓練分布內回放或插值出有用的程式(這也解釋了 prompt engineering),但缺乏真正的「在未知情境中合成新策略」的能力。以 Monty Hall 的變體與 ARC(類 IQ 題)為例,LLM 在未見過或需即時演繹的題目表現薄弱,顯示其泛化能力與「臨場智慧」仍遠低於人類。

變革、限制與風險
他認同 LLM 與相關技術有巨大實用價值(自動化、工具化許多任務),但對於將其等同為即將到來的 AGI 或存在性風險持懷疑態度,認為當前技術不可能短期內自發成為超級自主智慧。真正需要關注的,是大規模部署對社會、文化與就業的影響,以及如何負責任地應用與治理。

其他重點
Chollet 正在撰寫新書(延續其《Deep Learning with Python》風格,強調建立可操作的直觀心智模型),預計在訪談中提及的時間點為 2024 年中。他也強調學習與研究必須結合「實作—實驗—迭代」的回饋環,並持續深耕開源社群與教學工作。

總結來說,訪談呈現一位既重視理論思辨、又強調工程實作的研究者視角:尊重現有 LLM 的實用性,同時保持對「真正的智能」何以成立與如何達成的清晰、批判性思考。



沒有留言:

張貼留言