2025年9月4日 星期四

如何以多感官視角將 AI 應用到「幾乎任何事物」上

這段講座是 MIT Media Lab 的 Paul 介紹新開課程「How to AI Almost Anything」。課程旨在教導學生如何設計能處理各種感官訊息(語言、視覺、聲音、觸覺、氣味等)與跨模態資料的多感官 AI 系統,並強調實務部署、可用性、社會影響與安全性。

課程核心主題

  • AI for new modalities:將 AI 應用到尚未主流的感官資料(如嗅覺晶片、觸覺、穿戴式生理感測、味覺、藝術、音樂等)。
  • Multimodal AI:學習如何連結並融合多種感官或資料模態(語言+手勢、感測+致動等)、以及跨模態遷移的策略。
  • Large models & generative AI:介紹大型預訓練模型的微調、跨模態大模型、以及能產生影像、影像對應音軌、感測資料等的生成式模型。
  • Interactive & embodied AI:多步推理的代理(agents)、實體/具體化的 AI 系統、以及人機互動與安全性議題。

教學方式與節奏

  • 上課時間:每週二、四 13:00–14:00。週二主要講授,週四以討論、實作或讀書會為主。
  • 形式:半為講座、半為獨立研究與討論。強調閱讀當代重要論文、批判性閱讀、發展研究構想並實作。
  • 先修建議:具備程式(Python 優先)與基本現代 AI 能力認識;若缺乏也可補學。

評分與作業

  • 總分:40% 閱讀與討論;60% 研究專案。
  • 閱讀討論(40%):包含七次閱讀作業,每次指定 2 篇必讀與多篇選讀;個人作業(15%)、課堂參與討論(15%)、擔任閱讀領導或綜述領導(10%)。
  • 研究專案(60%):小組或個人專案。10% 提案、15% 期中報告/實作、25% 最終報告、10% 雙週進度更新(導師會以 bi-weekly 會議協助指導)。
  • 彈性:閱讀作業有兩次 24 小時延長(wild card),專案中期與期末各有團隊可用的延長機會。

討論與分工角色

  • Reading Lead(閱讀領導):課前準備並在週四做短報告,協助整理同學找的資源與問題釐清。
  • Synopsis Lead(綜述領導):會後整合討論紀要,撰寫並公開分享討論報告。
  • 其他角色(視情況):peer reviewer、archaeologist、industry practitioner、hacker、private investigator、social impact assessor 等,用以從不同角度批判或延伸論文。

課程大綱(四大模組,約 12–13 堂課)

  1. 基礎 AI(第1–4 週):資料思維、資料蒐集、常見模型架構、訓練與泛化評估。
  2. 多模態基礎(約 3–4 週):模態間連結、融合方法、跨模態遷移。
  3. 大型模型與現代 AI(春假後):預訓練、微調、大規模多模態模型與生成式系統實務。
  4. 互動 AI(最後模組):多步推理、具體化/實體 AI、以及人機互動與安全性。

研究專案流程(重要里程碑)

  • Week 2:提交短版 pre-proposal(模態、任務、團隊)。
  • Week 3:分組發表提案;Week 4:提交報告版提案。
  • Week 6:期中前要有初步實作樣態可展示。
  • 春假後:期中報告(含初步結果)。
  • Week 11、13:持續改進,做深入實驗或使用者研究(如需)。
  • Week 14:期末簡報;Week 16:最終報告繳交。

可探索的研究方向範例

  • 新模態(嗅覺、味覺、觸覺、穿戴式生理資料、時間序列與表格資料)之資料蒐集、標註、模型設計與評估。
  • 多模態融合、跨模態遷移、在資料稀缺情境下的學習策略。
  • 具體化/邊緣運算:在實體裝置上執行、能效與延遲的限制。
  • 互動代理、跨步驟推理與控制系統,結合感測→決策→致動的迴路。
  • 社會智能、人機互動、信任與不確定性呈現、倫理與安全性研究。

其他補充與行政事項

  • 所有教材(投影片、錄影、討論紀要)會公開上網;Canvas 用於作業提交。
  • 課程歡迎旁聽或正式登記;若登記請盡量出席以維持小組討論品質。
  • 本週無閱讀作業;請開始思考專案題目並在下週二前填寫專案偏好表單。

總結:本課偏重「原則與實作」,目標是培養學生把 AI 應用到多樣且新穎的感官與跨模態問題上,並實際完成一個從提案到可評估結果的研究專案,同時涵蓋安全、倫理與部署考量。



沒有留言:

張貼留言