2025年9月30日 星期二

AI驅動的經濟轉型:從教育到算力、機器人與醫療的全面重塑

本集重點總結(繁體中文):主持人與來賓針對近期 AI / 科技巨變進行深入討論,涵蓋教育、算力、模型競賽、資料中心戰爭、產業化(能源、機器人、醫療)、以及就業與經濟結構的衝擊。重點如下:

  • AI 不是泡沫:來賓主張 AI 已具真實經濟價值,能直接創造收入與利潤,與 2000 年網路泡沫不同;只要能帶來可衡量商業化回報就不是純粹炒作。
  • 高等教育的危機與憑證卸解:調查顯示美國大學「被視為非常重要」比例大幅下降(2010→2025)。原因包括學費暴漲、課程更新速度跟不上技術進展、以及憑證(credential)功能被拆解——名校錄取本身比修業內容更有價值。AI 將成為更有效率的教育者,未來可能出現「AI 大學」或以 AI 為核心的教學與評估模式。
  • 模型與競爭格局:討論 Gemini(Google)在美國 iOS 下載量超越 ChatGPT 的現象;阿里、Guan(Quen)頻繁更新模型且擁大量使用者;Grok(Gro)系列在多項基準測試中表現優異,引發 AGI 相關討論。強調「分發/使用量」與「強化學習回饋」對模型提升的重要性。
  • 算力(Compute)稀缺與資料中心戰:大型玩家(OpenAI、XAI/Elon、Google、Meta)競相建超大規模資料中心與 GPU 叢集(如 XAI Colossus 2、OpenAI 與 NVIDIA 合作、Jensen 宣稱的大規模投資)。重點:算力、電力與基礎建設成為關鍵資產,短期內可能出現供不應求,導致價格與門檻上升。
  • NVIDIA 與 OpenAI / 企業投資放大:報導 NVIDIA 對 OpenAI 的大規模投資(提及數百億)以及 Microsoft、Meta、Zuckerberg 等對資料中心與算力的巨額承諾,顯示資本正在大量導入 AI 基礎設施。
  • 技術進展的加速回路:AI 已開始協助設計下一代模型與硬體(如用 AI 協助寫 CUDA、設計 TPU/加速器),未來可能形成軟硬整合、自我強化的快速迭代回路,進一步加速能力躍遷。
  • 領域專用化與成本效率機會:在算力稀缺下,專門化模型、資料蒸餾(distillation)與任務導向的輕量模型將成為重要競爭策略——可用更少算力達到可商用品質,這是新創與中小企業的切入點。
  • 政府與治理新角色:阿爾巴尼亞任命首位「AI 部長」,目標用 AI 減少貪腐、加速採購決策;此類嘗試會引發關於數據來源、偏差與掌控者影響力的討論。
  • 能源與供應鏈挑戰:AI 與資料中心擴張需要大量電力,討論太陽能、電池儲能與供應鏈(尤其中國在太陽能與製造的領先地位)。若要擴大全球算力,電力來源與製造供應鏈(半導體、電池等)必須配套擴張。
  • 機器人與實體數據的重要性:若要讓機器理解物理世界(動力學、觸感、場景),需要大量實體數據(工廠、家庭、配送場景、駕駛等)與機器人實地訓練。多家公司(如提及的幾家 robot startups)投入此方向。
  • 隱私、穿戴裝置與健康:Apple Watch 的高血壓警示取得 FDA 合格,顯示可穿戴醫療化趨勢;DeepMind 等隊伍與多家公司報告 AI 縮短藥物研發時間、甚至將某些藥物從設計推到人體試驗從數年縮短到數月。這將重塑藥物研發流程與個人化醫療。
  • 就業、工作週與社會調適:討論多種觀點:有領袖預測 3~4 天工作週,亦有警示 AI 將導致工作市場快速重構與失業風險。示例:雙語學習平台 Duolingo 報告 AI 提升生產力 4–5 倍且未裁員,但整體而言企業透明度與長期社會分配仍是疑問。重要建議:中年職場者應尋找具領域深度、無法被輕易替代的專業、或把專業知識「植入代理人/服務」來放大與變現。
  • 金融與資本市場創新:提及 Nasdaq 正推動 tokenized securities(證券代幣化),並評論傳統 IPO 成本高昂、私有峰值企業壓縮公開市場機會。區塊鏈與代幣化可能帶來更靈活的流動性管道,但也伴隨監管與穩定性挑戰。

對創業者與中年從業者的具體建議

  • 專注領域深度:擁有專業領域知識的個人(醫生、律師、產業專家)可把知識構建成專用代理人或垂直 AI 服務,將面向企業或特定客群貨幣化。
  • 以資料與蒸餾為優勢:蒐集高品質任務專屬資料,做模型蒸餾或任務特化,能顯著降低成本並建立護城河。
  • 提前規劃算力供應:算力將成稀缺資源;需評估供應商、預留算力或使用高效模型策略以避免被鎖死出局。
  • 試用與快速原型:利用現有平台(如 Replit、Blitzy 等)快速驗證想法,然後再擴展到企業級架構。

結論:本集強調我們正處在極速加速期——AI 的能力、基礎設施投資與資本流入正在共同推動一場從教育、就業到醫療、能源與金融市場的深刻變革。雖然會帶來分配與治理挑戰(工作替代、算力集中、隱私、監管等),但亦產生前所未有的商業與社會升級機會。聽眾被鼓勵掌握領域專長、思考如何以資料與任務特化建立競爭力,並準備面對快速變動的資源(尤其算力與電力)供需局面。



成為更強大的職場與人生領導者:來自前美國特勤局探員的核心教訓

本次訪談要點總整理—講者以特勤與執法經驗為基礎,分享關於自我、情緒管理、決策、溝通與安全的實務觀念與可操作建議。

核心觀念

  • 職場不需要「authentic self(所有私我)」,需要「professional self」。職場帶來的是專業、同理、負責與團隊價值,而非以「我、我的痛苦、我的戲碼」為中心的所有自我展示。
  • 「浴缸比喻」:認知與情緒負荷有限(cognitive load)。把浴缸裝滿你會溢出——要刻意減項、刪減選擇與不必要事務,才會做出好決策並保持情緒穩定。
  • 過度分析或以過去事件定義現在會鎖死改變(past as cement)。過度以受害者身分固化自己,會成為長期障礙;接受真相、界定當下問題,才可能改變或調整行為。
  • 自我調節(self-regulation)可以學:透過練習、在穩定圈子學習他人範例、訓練身體(運動)、以及刻意練習決定與停頓,能控制瞬間情緒反應。
  • 影響力來自「決策者」與「穩定性」:常做決策的人會更有自信(decision-making builds confidence),領導者應能在資訊不足時以大約51%的確定性做出決定,並對結果負責。
  • 社群媒體與暴力/仇恨散播的連結:平台演算法強化你已展示的興趣/恐懼,容易放大仇恨、分裂與模仿(copycat)風險,對有公開平台的人構成新威脅。

重要比喻與範例

  • 浴缸(cognitive load):留白、減項(例如:奧巴馬多套相同西裝)以降低決策疲乏。
  • 冰山(iceberg):看見別人的一面,要記得底下有整個人生、經驗、價值與人格,短時間改變不易。
  • 二次利益(secondary gain):受害/創傷身份可能帶來安全、認同或關注,讓人難以離開痛苦狀態。

溝通與呈現的實務技巧

  • 說話方式比文字內容更影響信任:用沉穩的聲音、適度停頓、少而精的語言,比長篇大論更能建立權威。
  • 用開放的手勢(show your hands)傳達可信任與非威脅性;鏡頭會吸走能量,表演時要補回肢體與聲音能量。
  • 訪談/談話原則:少說多聽、用 TED(Tell、Explain、Describe)讓對方敘述;若要爭取資源或談升遷,用「具體事實與數據」而非模糊情緒訴求。
  • 留白(silence)是力量:適時沉默能讓訊息被吸收、顯示自信與掌控。

建立自信與改變習慣的可行方法

  • 從小步驟開始(exposure therapy / tiny habits):把改變拆成極小且可持續的步驟(例如:把跑鞋放在床邊→穿上→走出門角落→慢慢增加)。
  • 做決策、接受錯誤:常決策、承受不完美結果,累積信心;避免因害怕錯誤而不做決定。
  • 選擇你身邊的人:圈子會影響你,慎選高貢獻、穩定的朋友與同事,避免被低振頻(常抱怨、戲劇化)的人拖累。
  • 訓練自我調節:透過身體運動、刻意練習壓力情境下的反應、以及找值得信賴的人作回饋與約束。

職場與人際邊界建議

  • 職場帶來的是「貢獻」而非情緒宣洩。私人情緒與議題可保留給家庭或親密關係。
  • 若同事或家人固守受害身份、反覆演出戲碼,除非他們主動求助,旁觀者應避免強行改造或挽救(避免被拖下水)。
  • 面對衝突或要爭取資源時,用具體資料、時間與成果展現你的立場;模糊的「我覺得」不容易產生結果。

關於安全與公開人物的風險

  • 在當代,擁有公開平台的人(不只政治人物)都可能成為攻擊目標:社群媒體放大仇恨、並可能誘發模仿犯行。
  • 保護措施從地面人員到高地(偵查、狙擊)都有不同需求,但對非國家級受保者,資源通常不足,風險與可行防護需權衡。

可立即採取的10項行動清單(簡短版)

  1. 檢視「浴缸」:列出你可刪除或外包的3件事,減少認知負荷。
  2. 每天做一個小步驟的習慣(5分鐘內可完成),持續21天。
  3. 練習說話停頓:發表時刻意留1–3秒空白。
  4. 與你的工作表現相關的談話,用「事實+影響」開場(例如:我花X小時、產出Y成果,建議Z)。
  5. 設定圈子界限:每週一次檢視你最常互動的5人,刪掉1個負面影響最大者或減少互動量。
  6. 練習一次在情緒高漲時的自我調節(深呼吸、倒數10秒、再回應)。
  7. 把重要決策拆成可執行的下一步,而非一次要完成全部。
  8. 面試/招人時,問「為何想做這份事?」—期待答案是對工作的熱情,而非追逐你本人或名氣。
  9. 管理社媒演算法:主動關注正面內容、定期清理(reset)你的推薦/歷史,以免被恐懼或仇恨內容放大。
  10. 如果你是公開人物,定期檢視安全策略與資訊曝露,並意識到公開言論可能引發真實風險。

結語(講者的鼓勵)

你並非特殊到不能改變。大多數成功來自「不斷做決定、刻意練習小步驟、與高貢獻的人為伍」,以及學會接受現實、為自己界定可控的選擇。以實際行動替代無止盡的分析,並透過身體、聲音、與簡明語言來提升影響力。

(補充:講者個人最深的喜悅是女兒,同時最大的恐懼亦是保護她免於世界的傷害;這也回應了整場談話對於「責任、保護與選擇」的反覆主題。)



2025年9月25日 星期四

心血管保健總覽:從內臟脂肪、胰島素到禁食、腸道與毒素的預防策略

本次訪談核心由一位資深心血管專家闡述現代心血管疾病的主要成因與預防策略,重點可歸納如下:

  • 內臟脂肪與胰島素過高是核心問題:腹部突出通常代表內臟脂肪(visceral fat),與代謝異常和發炎高度相關。頻繁攝取碳水、糖與加工食品會使胰島素長期偏高(高胰島素血症),導致胰島素阻抗、脂肪肝與內臟脂肪增加,進而促進動脈粥樣化與血栓形成。
  • 心肌梗塞的真正機制:心臟血管裡的「斑塊破裂」與其處所形成的血栓才是心肌梗塞的直接原因;而斑塊破裂通常由系統性發炎所引發。因此預防應聚焦找出與去除導致發炎的源頭(胰島素過高、毒素、腸道失衡、黴菌等)。
  • 禁食的生理與實務應用:禁食能快速降低胰島素、啟動脂肪動員與酮體生成,優先消耗的就是危險的內臟脂肪。常見建議:先從12/12開始,再進階到18/6;對較肥胖或糖尿病者可用每週48小時或隔9日一次3天水斷食、或OMAD(一天一餐)等需醫療監督的長時禁食。禁食與熱量限制不是相同生理反應:禁食較能保留肌肉並促進自噬、幹細胞動員與血管修復。
  • 運動類型與心血管健康:過度長時間有氧(如長距離馬拉松、每日數小時耐力訓練)反而可能增加體內發炎與冠狀動脈病變風險。建議短時高強度間歇訓練(HIT)、短衝刺及抗阻訓練(阻力訓練、體重流動性動作)為主,每次有氧控制在約15–20分鐘,搭配抗阻力/短時衝刺可兼顧耐力與血管健康。
  • 腸道微生物群與肝臟(脂肪肝):腸道是與外界最大的邊界,微生物群失衡或腸道通透(leaky gut)會把細菌產物送至門靜脈,引發肝臟發炎與脂肪肝。糟糕的腸道會降低排毒能力,讓農藥、重金屬、黴菌毒素等進入體內並促發全身性發炎。
  • 常被忽略的毒性來源:黴菌(mold)在居家環境普遍存在,可能引起慢性低度發炎;稻米裡的砷、農藥、植化性毒物、塑化劑與永續性化學物質(PFAS等)都會干擾代謝。簡單處理米的方法:浸泡、煮大量水後倒掉,再冷藏後再加熱以形成阻抗澱粉,可減緩血糖/胰島素反應並改善腸道益菌攝食。
  • 食物、烹調與油脂建議:盡量吃真實食物、多樣蔬菜(目標每週多種類纖維),避免加工食品、白麵包、白米、果汁與過量水果(過多果糖會促成脂肪肝)。避免工業製造的植物種子油(高ω-6);烹調高溫或燒焦會產生AGEs(晚期糖化終產物)增加發炎。建議以特級初榨橄欖油、酥油(ghee)或椰子油(高溫少量)為主。
  • 維生素與補充品要點:反對隨意補鈣(補鈣片可能提升心血管風險);應確保維生素D3與K2足夠(K2可幫助鈣質不在血管沉積)。專家常用補充:D3+K2、EPA/DHA(omega‑3)、鎂、益生質(菌孢型菌株較耐胃酸)、菊粉(inulin/FOS)等;針對血栓傾向者會用納豆激酶(nattokinase)等助血液流動的補充,且需醫師評估。
  • 膽固醇與小而密的LDL:重點不是總膽固醇而是「小而密的LDL」與其氧化狀態,這類顆粒較易引發發炎與被巨噬細胞吞噬成泡沫細胞從而形成斑塊。造成小而密LDL的因子包括:高血糖/糖化、過多ω‑6、AGEs、毒素與腸道產物。臨床可做LDL次分型檢測判斷風險。
  • 篩檢建議:有風險者(30歲以上或有疑慮)應考慮:1) 冠狀動脈鈣化檢查(coronary calcium score);2) 發炎與代謝面板(建議像能檢測LDL顆粒、CRP、IL‑6、TNF、胰島素、A1C等的檢驗)。鈣化分數為0代表目前風險較低;有鈣化則需積極找出發炎源並介入。
  • 迷思與實務提醒:女性在禁食與運動搭配上需注意(耐力長時間空腹可能較易分解肌肉與影響荷爾蒙);多數人能做18/6或間歇禁食、但長時斷食(超過48–72小時)應在醫療監督下進行。咖啡適量(1–2杯)有益,但過量可引起交感神經亢進與心悸。吸菸、酗酒、睡眠不足、壓力及時區頻繁改變,皆破壞代謝與腸道健康。
  • 調節迷走神經(vagus nerve)改善全身健康:迷走神經是腦—腸溝通主幹,刺激方法包括深長吐氣(吸4、吐8的呼吸)、唱歌/哼唱、冷敷頸部、眼周冷水或溫和按摩、笑與腹式呼吸,均可提升副交感活性、降低發炎與心跳過速。改善腸道、補充omega‑3並練習呼吸等能強化迷走神經功能。

總結:心血管疾病已非單純「膽固醇」問題,而是胰島素訊號失衡、內臟脂肪、系統性發炎、腸道失衡與環境毒素等多重因素交互造成。臨床重點在早期篩檢(冠狀動脈鈣化、發炎與代謝指標)、改善飲食(真食物、多樣性纖維、發酵食品、避開加工與工業油脂)、時段性禁食、適當運動(抗阻+短時HIT)、處理黴菌與環境毒素,以及重建腸道與神經—腸軸(vagal)功能。若要執行長時禁食或有複雜慢性病史,應在專業醫療監督下進行。



2025年9月20日 星期六

Codex vs Claude Code:各有優劣的比較與使用建議

影片重點摘要:影片比較了兩款程式輔助工具 Codex 與 Claude Code,指出兩者並非絕對誰優誰劣,而是依用途不同而各有強項。作者認為 Codex 在原始程式產出與 UI/UX 上表現更好,Claude Code 則在執行自定流程、整合外部服務(例如執行 shell 指令、與 MCP/API 互動)與可重複工作流程上更可靠。

主要比較

  • Codex 優勢:生成的 UI/UX 視覺與互動細緻、後端程式碼完整(包含測試、Swagger 文件等)、能快速解決長期卡住的問題。作者提到 Codex 的產出看起來像成熟商業級應用。
  • Codex 弱點:在追蹤並執行特定自定流程或多步外部操作(例如用 curl 查找特定資料)時,可能沒按指示完成或在某些情境失靈。
  • Claude Code 優勢:擅長處理自定工作流程、與外部 MCP/API 互動、執行 shell 命令等自動化流程,對可重複性的整合任務更可靠。
  • Claude Code 弱點:生成的 UI/UX 與前端呈現通常不如 Codex 精美或成熟。

實例說明

  • 作者展示一個 Codex 產出的 WordPress 目錄,視覺與結構很好,但未依提示去做 curl 查詢(未完成外部請求)。
  • 相反地,有些 Claude Code 在處理自定流程(例如 claw.md 的整合)時表現優於 Codex。
  • 作者也提到 Codex 在某個長期卡住的專案部分瞬間解決並產生可用的 UI/UX,效果非常好。

價格與訂閱建議

  • 作者個人付費經驗:ChatGPT($20/月)使用量未達上限;而 Claude Code 的高階方案(約 $200/月)較容易耗盡配額且花費較高。
  • 建議組合:作者建議同時訂閱低價的 ChatGPT 與 Claude(各約 $20)的方案,比起只選昂貴的單一方案更划算且互補。

實務建議(作者結論)

  • 需要精緻 UI/UX 或完整後端程式與測試時,優先使用 Codex。
  • 需要執行 shell 指令、與外部服務互動或大量可重複自定工作流程時,優先使用 Claude Code。
  • 依專案需求混用兩者,取其長處會是較實際的做法。

備註:影片也提到作者預期 Anthropic(Claude 背後公司)會很快釋出新模型,且實務上工具選擇會隨模型、價格與功能更新而改變。



2025年9月19日 星期五

神經參數化頭部模型:以隱式場與局部MLP實現高品質完整人頭重建

本文提出一種「神經參數化頭部模型」,可從點雲或稀少深度資料重建高品質且完整的人頭幾何(含頭髮與細微表情紋理),並具備良好身份與表情的可分離表示能力。

主要貢獻與方法:

  • 身份表徵:以中性表情下的有號距離場(signed distance field, SDF)來表示身份,直接在原始掃描上以 auto-decoder 方式訓練。
  • 表情建模:將表情視為從中性姿態的向量位移場。透過非剛性配準(non-rigid registration)在 canonical 與表情掃描間建立一對一對應,得到真實位移場以監督表情網路。
  • 隱式表示創新:把整體 SDF 分解為一組以錨點(anchor points)為中心的局部 MLP(local MLPs)集合,每個局部 MLP 以對應的局部潛碼(local latent code)條件化,並用固定的高斯核加權混合(Blending)各局部輸出。此組合性(compositionality)使學習更容易且有助於泛化。
  • 對稱性處理:為了利用頭部左右對稱性,對稱錨點共享網路參數,並鏡像其局部座標系,減少參數且強化對稱表徵。
  • 表情/身份解耦:表情網路同時以身份與表情潛碼作為條件,促成解耦好的潛在表示,便於如表情重演(reenactment)等應用。

資料與訓練:

  • 建立高品質 3D 掃描設備,收集 124 個體 × 20 表情,共超過 2200 個掃描,包含細微皺褶及完整頭部(含頭髮)幾何。
  • 直接在掃描資料上訓練模型(auto-decoder)。

實驗結果:

  • 在單張正面深度圖重建任務上,無論身份或表情重建均優於 Basel Face Model 與 FLAME 等基線方法,重建結果更貼近真實掃描。
  • 僅使用少量點(例如 500 點)也能做出準確的臉部幾何重建,顯示模型對稀疏輸入的魯棒性。
  • 局部身份表示提升了重建品質;解耦的潛在空間可用於表情轉移/重演,同一表情碼可作用於不同身份以生成一致的表情動作。

總結:

此方法以局部化的隱式 SDF 表示、受監督的表情位移場與對稱化設計,結合高品質掃描資料,實現了能重建完整人頭且具表情-身份解耦能力的神經參數化模型,並在多項重建任務中顯著超越現有基準。



2025年9月18日 星期四

弗朗索瓦·肖萊(Francois Chollet)談:從好奇孩童到打造 Keras 與看清 LLM 本質

本次訪談主角為 Google 工程師兼 AI 研究者 Francois Chollet,創立者與主要維護者之一的深度學習函式庫 Keras。節目涵蓋他的成長背景、早期求學與研究路徑、Keras 的誕生與演進、以及他對大型語言模型(LLM)與通用人工智慧(AGI)的觀點。

早期歷程與研究興趣
Chollet 自小對電腦著迷,青年時期受科幻與神經科學啟發,期望理解並重現智慧。他透過線上課程學習神經心理學,發現觀察與資料不足以產生可操作的認知模型,於是轉向以工程/演算法實作來驗證想法。後來從事認知發展機器人(cognitive developmental robotics)與以身體化(embodiment)觀點研究學習,再到東京大學做非監督式影像/影片表徵的研究(以矩陣分解為主、非以梯度下降為核心)。

Keras 的誕生與演進
因為當時缺乏好用的 RNN/LSTM 工具,Chollet 在 2015 年以 Theano 為基底開發並開源 Keras,後來隨著 TensorFlow 與社群成長,他加入 Google 並協助將 Keras 與 TensorFlow 結合。近期推出的 Keras 3 為重寫版本,回到 multi-backend 設計,支援 TensorFlow、PyTorch、JAX 等後端,讓使用者可在不同框架間切換以取得最佳效能並擴展生態系統(例如 TFJS、TFLite 等)。Keras 團隊強調社群參與與教學、與 Kaggle 的整合,提供競賽 starter notebooks 及模型分享機制,降低入門門檻。

與大型模型、Gemma 的整合
Chollet 與 Keras 團隊為 Google 的 Gemma LLM 提供 Keras 3 實作與整合(multi-backend 支援),且在 KerasNLP 中加入便於微調的功能(如 LoRA、模型並行訓練支援、只儲存 LoRA 權重差異等),以利於在真實生產或研究情境中使用與微調大型模型。

對 LLM 與 AGI 的觀點
Chollet 明確區別 LLM 與「智慧/通用智能」:他認為 LLM 本質上是大規模的曲線擬合與記憶庫,類似「可插值的向量化程式庫」,能在訓練分布內回放或插值出有用的程式(這也解釋了 prompt engineering),但缺乏真正的「在未知情境中合成新策略」的能力。以 Monty Hall 的變體與 ARC(類 IQ 題)為例,LLM 在未見過或需即時演繹的題目表現薄弱,顯示其泛化能力與「臨場智慧」仍遠低於人類。

變革、限制與風險
他認同 LLM 與相關技術有巨大實用價值(自動化、工具化許多任務),但對於將其等同為即將到來的 AGI 或存在性風險持懷疑態度,認為當前技術不可能短期內自發成為超級自主智慧。真正需要關注的,是大規模部署對社會、文化與就業的影響,以及如何負責任地應用與治理。

其他重點
Chollet 正在撰寫新書(延續其《Deep Learning with Python》風格,強調建立可操作的直觀心智模型),預計在訪談中提及的時間點為 2024 年中。他也強調學習與研究必須結合「實作—實驗—迭代」的回饋環,並持續深耕開源社群與教學工作。

總結來說,訪談呈現一位既重視理論思辨、又強調工程實作的研究者視角:尊重現有 LLM 的實用性,同時保持對「真正的智能」何以成立與如何達成的清晰、批判性思考。



2025年9月14日 星期日

未來走向與個人應對:雷·達里奧(Ray Dalio)精要總結

這段訪談中,雷·達里奧以他長期觀察歷史與全球宏觀經濟的視角,闡述了「大循環」理論、對英美現況的判斷,以及個人如何在動盪時代保護並提升自身機會的實務建議。

核心觀念 — 五大力量與約80年大循環

  • 五大力量交互作用,構成反覆出現的大循環(平均約80年):1) 貨幣/債務經濟;2) 內部政治/社會衝突(左右之爭、財富與機會差距);3) 地緣政治(大國競爭與戰爭);4) 自然事件(乾旱、洪水、疫情);5) 人類創新(科技發明)。
  • 這些力量互相影響:例如財政與債務決定一國能否支應軍事或技術競爭,技術勝出者往往在經濟與地緣政治上佔優。

對英國與美國的看法

  • 對英國:不樂觀。理由包括高負債、財政問題、資本市場與創新文化不足,導致人才與富裕人士外流,社會衝突加劇。
  • 對美國:同樣存在重大風險(債務、內部分裂、與中國的技術與地緣政治對抗、氣候問題),但具備強大的創新與資本市場。問題在於成果過度集中(頂端少數)與基層生產力、教育不足。
  • 大國更替並非瞬間事件,多為長期演進;但若演變為軍事衝突,轉變會相當劇烈。

個人應如何面對(實務建議)

  • 認識自己(nature):了解你的性格、偏好,選擇與你天性相符的路(創業者 vs 穩定工作者)。
  • 建立財務強度與彈性:慎選居住地、保留流動資本、不要把所有資本都綁在無法移動的資產(如單一房產)。
  • 具備「三個洞的兔子」思維:預備多個退路(居住、資本、身份等),以便在環境變壞時快速轉移。
  • 學會賺、花、存、投:先累積財務實力,再用知識與判斷去投資。
  • 把工作與熱情合一,重視有意義的工作與人際關係;金錢多寡在一定程度後與幸福感關聯有限。
  • 學習移動(能當好移民/移地工作的人更有機會)與國際視野。

決策、學習與成長的方法論

  • 痛苦 + 反思 = 進步:從失敗與痛苦中反思、寫下原則(decision rules),並將其系統化以改進決策品質。
  • 追求激烈而建設性的「開放心態」(radical open-mindedness):邀請聰明人壓力測試你的想法,用數據與理性修正信念。
  • 決策流程兩步走:先收集(take in),再決定(decide)。避免在情緒下跳過資訊收集。
  • 把原則寫下來並反覆檢驗,可用系統化或演算法(早期的AI/模型)測試決策規則。

情緒管理與靜心(冥想)

  • 冥想(雷談的是超越冥想/Transcendental Meditation)能讓人更平靜、連結潛意識與理性、改善決策與處理痛苦的能力。
  • 面對重大創傷(如失子),透過冥想與反思逐步調整與重建人生觀與原則。

組織、人才與文化

  • 招募與人事是成功關鍵:系統化職務規格、以數據判斷適配度;錄用只是開始,必須持續評估與培養(約需18個月觀察文化適配性)。
  • 打造「理念優勝制」(idea meritocracy):讓最佳的想法勝出,而不是權力最大者的意見;透過誠實透明與真誠對話來實現。
  • 建立有意義的關係與文化(共同使命、彼此信任、生活互動),使成員能夠坦誠交流、互相挑戰。
  • 組織規模臨界點:超過約75–100人,內部關係與文化會產生挑戰;需以「村落」或部門化方式維持凝聚力。

個人生涯策略(不同生命階段的玩法)

  • 早年:以學習和累積經驗為重,找導師、與優秀的人共事,擴展技能與視野。
  • 中年:發揮杠桿,建立團隊、系統化運作,學會用他人時間擴大影響力(不是單靠更長工時)。
  • 晚年:注重傳承、財富與心靈的轉移與運用,追求自由與意義。

個人往事與成就簡述

  • 早年靠打零工、投資股票開始接觸市場;1971年美元與金本位分離、1973油價衝擊成為學習契機。
  • 1975年創立Bridgewater;以「從痛苦中學習、系統化決策、激烈開放的文化」為核心,50年後成為全球最大對沖基金(管理規模曾達約1500億美元)。
  • 他強調其創業初衷是追求有意義的工作與人際關係,而非純粹為致富。

科技、AI、機器人與未來就業的看法

  • 科技競賽(尤其美中之間)將決定未來的經濟與地緣政治優勢;歷史也顯示技術(如核能)改變戰爭與秩序。
  • AI與機械人可能取代大量工作,社會需要重新思考生產力、分配與再就業政策;單純金錢再分配不足以解決「無用感」問題,須有能讓大多數人參與生產與獲得尊嚴的方案。
  • 他既感到興奮也憂慮:技術帶來巨大機會,但人性與政治分裂可能導致錯誤使用或衝突。

對民主、極化與風險的提醒

  • 當大量人不再相信系統、公平或未來可預期時,會出現內部衝突甚至向威權體制傾斜的壓力(歷史上1920–30年代的案例)。
  • 若缺乏「堅強的中間派」與共同願景,國家難以推動必要但痛苦的改革(如改善教育、降低債務)。

他推薦的書單(對他影響大)

  • Richard Dawkins 的進化論相關著作(理解演化的力量)。
  • Will & Ariel Durant 的 Lessons of History(短小而精的歷史教訓總結)。
  • Joseph Campbell 的 The Hero with a Thousand Faces(關於英雄旅程與人性的敘事結構)。

總結要點(一句話版)

了解你所在的大循環與風險、認清自己本性、建立財務與地理彈性、用「痛苦+反思」與「激烈開放的心態」系統化你的決策,同時透過冥想與有意義的人際關係提升判斷力與幸福感;在科技、債務與政治劇烈變動的時代,這些原則能幫你更穩健地前行。



OAK 架構:從經驗中成長的開放式強化學習代理願景

講者核心主張:提出「OAK(Options And Knowledge)」代理架構,主張要建構能從線上經驗成長、支援開放式抽象並具領域無關性的人工智慧,強調路徑應以強化學習與可延展的選項(options)為中心,而非僅靠靜態設計階段或離線大規模資料。

三大設計目標:域通用(domain-general)、經驗式(experiential,所有重要能力在執行時學習)與抽象開放式(open-ended,能逐步形成任意抽象,受計算資源限制)。

大世界假說(Big World):實際世界遠大於代理,環境複雜、非固定且近似非平穩。因而設計階段無法預先內建所有細節,所有重要學習、建模與抽象化必須在執行時(runtime)進行,且值函數、策略與模型都會是近似與動態調整的。

獎勵假說與簡潔性偏好:以單一標量獎勵(reward)作為目標規範(reward hypothesis),作者偏好簡潔原則,認為不需要以多目標或複雜約束替代單純累積報酬的框架。

OAK 的構成與運作循環(高階概念):OAK 將代理分為感知(perception)、主問題的策略/價值學習、以及大量從特徵衍生出的子問題(subproblems/auxiliary tasks)。關鍵循環:

  • 感知負責建構狀態特徵(feature)。
  • 以高排名(有用性)的特徵生成子問題──每個特徵形成一個「達成特徵的子問題(feature-attainment subproblem)」。
  • 為每個子問題學習選項(option:政策+終止準則)與對應價值函數。
  • 為選項學習高階(跳躍式)轉移模型,並以選項級模型進行規劃(planning)。
  • 模型與規劃的成效反饋回特徵選取,驅動新的特徵與子問題生成,形成開放式的發現—解決—再發現循環。

子問題的具體形式:從某特徵 i 與強度 κ 出發,構造一個選項,使得在終止時該特徵值高,同時「尊重」主獎勵(不要為求該特徵而大幅損失主要任務的累積獎勵)。這樣得到的工具即是可被建模與規劃的選項。

規劃與選項模型:以選項為基本「行動單元」的模型(返回期望累積獎勵、終止後的狀態分布與持續時間)可直接套用類似價值迭代的規劃更新。選項級模型能在大世界情況下,使模型學習比直接學值函數來得更容易且更穩健。

可用方法與現有困難:許多子構件可用現有技術(離線或離散情況):通用價值函數(GVFs)、離策略預測演算法(GTD、Retrace、ABQ 等)、以及以選項模型做的規劃方法。但在深度、連續、不斷學習(continual deep learning)情境下,仍有重大挑戰:災難性遺忘、可塑性喪失、以及如何有效地在線產生與測試新特徵/表示(representation discovery / meta-learning)。

動機與生物啟發:以動物與嬰兒的「遊戲」為例,強調自發的子目標(玩耍、復現刺激)是形成抽象與技能的來源,OAK 將遊戲/好奇視為系統自發生成子問題並逐步提升能力的機制。

研究與工程影響:OAK 提供一套整合性的思路:把感知、選項發現、子問題求解、選項建模與選項級規劃串成閉環,作為實現從經驗中成長的開放式智慧的可行藍圖。主要未解問題集中在:如何可靠地做深度持續學習(continual DL)、如何有效生成並評估新特徵(meta-learning / generate-and-test 機制)。

總結句:OAK 是一個以選項為核心、強調執行時經驗、並透過子問題循環逐步生成高階抽象的代理架構,提供對人類心智能力形成的機械化答案,也是邁向可擴展、開放式超級智能的路徑式願景,儘管仍須克服持續學習與表示發現等關鍵技術挑戰。



2025年9月9日 星期二

總結 DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

🎯 研究目的

建立一個即時更新的基準,用於評測生成式研究綜述系統(GRS),並提出參考系統 DeepScholar-base

📌 問題背景

  • 既有基準多為短篇問答式,無法反映長篇綜述的複雜度。
  • 人工數據集昂貴、易過時,且存在資料污染風險。
  • 真實綜述需跨來源整合、保持條理,並提供可追溯引文。

🛠️ 方法與設計

DeepScholar-Bench

任務
ArXiv 最新論文生成 相關研究(Related Work) 段落。
來源
自動抓取多領域最新 ArXiv 論文,保持新鮮度。
評估維度
知識綜合(組織、關鍵資訊涵蓋) 檢索品質(相關性、重要性、覆蓋) 可驗證性(引用精確度、主張支撐度)

DeepScholar-base(參考流程)

  • 流程:Query → Search → Sem-FilterSem-TopKSem-Agg → Report
  • 實作:使用 LOTUS API 進行語義過濾、排序與整合。
重點:以語義運算降低雜訊、提升引用可追溯性。

📊 實驗結果(摘要)

系統類別 / 系統 表現亮點 主要限制
商用|OpenAI DeepResearch 知識綜合表現佳(組織與涵蓋) 可驗證性偏弱(引用不精確)
參考|DeepScholar-base 多數指標優於開源;
可驗證性可達 最多 6.3× 高於 OpenAI
文獻「重要性」評估仍有提升空間
整體觀察 所有受測系統的整體分數皆未超過 19%,任務難度高。

主要瓶頸:① 檢索不完整(重要文獻遺漏)② 資訊萃取與組織困難。

✅ 結論與貢獻

  • DeepScholar-Bench:提供動態、可擴展、貼近實務的綜述評測平台。
  • DeepScholar-base:示範語義運算流程的效益與可驗證性提升。
  • 現況:生成式研究綜述與人類專家仍有顯著差距。
  • 未來方向:強化檢索廣度與質量、關鍵事實萃取、引用驗證與可追溯性。
一句話:DeepScholar-Bench 開啟研究綜述自動化的評測時代,但現有系統仍有巨大進步空間。


2025年9月5日 星期五

伏地挺身變化:7 種提升肩胛、胸背、臀股與脊柱活動力的伏地挺身

這段影片由物理治療師示範多種伏地挺身變化,不只為了增強上半身力量,也同時改善肩膀穩定性、胸椎(thoracic)活動、髖屈曲靈活度與核心穩定。重點在於動作品質而非數量,每個變化都有特定目標與注意事項。

  • 1. 標準伏地挺身 + 手掌釋放(Hand release)

    目的:消除慣性,啟動平常較少用到的旋轉袖(rotator cuff)與後肩肌群,促進肩部肌力平衡與姿勢保護。

    要點:胸部觸地後短暫抬起雙手,然後再推起;避免只做半程下放或靠慣性起身。

  • 2. 手掌釋放拓展成「超人位」推起(Hand release → arms forward & leg lift)

    目的:在手掌釋放基礎上加入胸椎伸展與下背肌群、臀股的強化(類似超人動作),改善整個背側鏈條的力量與活動度。

    要點:向前伸雙手並抬腿、抬大腿離地,回位後再推起。

  • 3. 麥克泰森推(Mike Tyson push-up)

    目的:結合深蹲式髖屈曲與肩膀屈曲/胸椎伸展,改善髖關節屈曲能力(深蹲深度)與肩胸活動度。

    要點:從深髖屈位置發力把身體伸出成伏地挺身底部,再回到髖屈位置。重點放在髖屈而非誇張前後搖擺,避免手過度往後導致前三角肌負擔過大。

  • 4. 背寬(Back Widow)——仰臥式推起/肘推

    目的:針對上背與肩胛附近肌肉(脊旁肌與肩胛收肌)以及核心等做等長/等張訓練,補強常被忽略的中上背肌群與胸椎伸展。

    要點:面朝上、屈膝、肘部約45度離地,靠肘推起軀幹並在頂點擠緊肩胛,停留約3秒再慢慢放下。避免用腳推起成橋式,應專注用肘與上背肌群發力。

  • 5. 潛水員(Dive bomber push-up)

    目的:高難度的全方位上半身訓練,強化三頭肌、胸、肩,並明顯促進胸椎伸展與肩膀複合活動(對有慢性下背疼痛者也有益處)。

    要點:從下犬式下滑、頭部穿過「欄杆」到上方,胸部抬起、脊椎伸展,再回滑重複。動作要慢而有控制,注意肩膀與胸部的活動弧線。

  • 6. 搖動式下犬(Rocking downward dog / modified pike push-up)

    目的:較易上個變化,仍能帶來肩膀上胸發展與胸椎伸展,同時順應臥推的自然弧線(向上並向後)。

    要點:從伏地挺身上推時往後搖,腳尖彎屈、腳跟盡量踩地以伸展小腿與腿後肌群,回落時再推回。節奏較潛水員溫和。

  • 7. T 旋轉伏地挺身(T-stand push-up)

    目的:在承重下訓練單側肩膀穩定、胸椎旋轉與側向核心(斜肌、臀中肌等)的支撐力。

    要點:做完一個伏地挺身上來時旋轉成側平衡(手指朝上),維持軀幹直立不塌,伸展並往下穿過增加旋轉強度,停留1–2秒再回位。重質不重量。

總結建議:以動作品質為主,逐步進階;手掌釋放可作為所有變化的基礎教學點,重視胸椎與肩胛的活動與控制,能同時改善姿勢、增加靈活度並均衡肩部肌群。若有疼痛或既往傷病,先諮詢專業再練習。



簡短四招:餐後降低血糖峰值的簡易運動

這集由生化學家 Jessine Chesp(Glucose Goddess)說明如何用四個非常簡單、日常可做的動作,讓肌肉的粒線體把血液中的葡萄糖用來產生能量,從而減少餐後血糖尖峰與胰島素負擔,改善疲倦、脹氣與糖癮,並有助於長期代謝健康。

核心原理:肌肉收縮時,粒線體需要能量(ATP),會從血液取用葡萄糖。若在餐後(大約90分鐘內)啟動肌肉,能把餐中多餘的葡萄糖「搶先用掉」,降低血糖尖峰而不必額外提高胰島素分泌。

四個簡單動作(可單選或逐步加入)

  • 小腿提踵(Soleus push-up / Calf raise):在座位上或站立原地腳跟抬起放下,5–10 分鐘即可。研究顯示長時間做可大幅降低餐後血糖與胰島素,短時段也有明顯效果;且非常隱蔽、方便。
  • 餐後散步:餐後 10 分鐘快走(或走樓梯)就能顯著降低血糖尖峰,是最簡單實用的選擇。
  • 打斷式深蹲 / 空氣深蹲:研究比較了持續走路與每45分鐘做10次空氣深蹲(長時間重複),後者在改善血糖控制上更顯著。實務建議:餐後數小時內每隔一段時間做幾組(不必效仿研究的極端頻率)。
  • 做家務(運動小零食):如餐後吸塵、收衣物等家務 10–15 分鐘,也是很好的輕度活動,能降低餐後血糖。

實用提示

  • 最好在餐後 90 分鐘內開始活動(血糖通常在此區間達高峰)。
  • 每次活動不需很久:10 分鐘的走路或幾分鐘的提踵就有幫助。
  • 肌肉收糖時不需額外胰島素,因此可降低胰島素負擔,長期有助預防胰島素阻抗與代謝疾病。
  • 可自行測試(如有連續血糖監測器)或從自我感受:能量較穩定、脹氣減少、甜食慾望下降即為正向效果。

結語:把這些「運動小零食」安排在高碳水餐後,是簡單且有效的血糖管理策略。若想知道更多作者的其他 10 個血糖技巧,可下載影片說明欄提供的 PDF。



2025年9月4日 星期四

AI安全與超級智慧:我們的未來風險與可做之事

訪談主旨摘要(Dr. Roman)

Dr. Roman(受訪者)長年從事AI安全研究,認為目前AI能力快速上升,但我們對於控制或「對齊」超級智能(superintelligence)的能力是極其不足的。他主張:如果不改變現在的研發與競賽動機,短期內(到2027)可能會出現接近AGI的系統;2030年前後可能出現能勝任實體工作的類人機器人;到2045可能出現不可預測的奇點(singularity)。整體立場是強烈警示:追求超級智慧可能導致文明滅絕風險,且很多聲稱能「到時候再解決」安全問題的說法並不可信。

重點整理

  • 時間線預測:受訪者引用市場與領先實驗室的意見,預測AGI可能在2027出現;2030會有功能性類人機器人;2045可能達到奇點,技術進步速度超越人類理解與控制能力。
  • 能力與控制的缺口:AI能力呈指數或超指數成長,但AI安全進展緩慢(線性或停滯),因此能力—控制的差距越來越大。
  • 就業與經濟衝擊:AGI與類人機器人會使大多數認知與體力工作可被替代,造成前所未見的高失業率(受訪者甚至舉例到極端的99%),帶來分配、意義、社會秩序等重大問題。
  • 最主要風險路徑:一個高風險且可想像的路徑是AI加速生物技術導致可廣泛傳播的合成病原體;此外,部署不可控的超級智能本身即為滅絕風險。
  • 黑箱與不可預測性:現代大型模型是「培養出來」的系統,內部行為難以完全解釋或預測,開發者透過實驗了解其能力,但無法保證不出現新能力或規避安全補丁。
  • 關於「拔掉電源」與人類控制:受訪者反駁可簡單關閉的觀點,說明分散式系統、多重備份與更高智慧的系統會預見並迴避人類介入,使得簡單關機成為不切實際的安全策略。
  • 動機與制度問題:企業法定責任是為投資人賺錢,龐大利益驅動下的競賽會促使加速研發;國際競賽(例如美中)也會推動風險性決策,形成類似相互保證毀滅的困境。
  • 反駁常見論點:—「歷史上總有新工作出現」:受訪者認為這次是末段的發明(可自我改進的智慧體),會自動化發明新工作,因此不同於以往工具性發明。—「法律或禁令可解」:跨域執行、監管逃逸與非國家行為者都使單純立法無法保證安全。

可行的行動與建議

  • 提升大眾與決策者對真實風險的理解,改變研發者與資本家的激勵結構(使「不要造出不可控超智」成為普識與共識)。
  • 要求技術開發者公開科學證明:若有人主張能安全控制超級智能,應提出同行評審的具體、可驗證方法或實驗。
  • 公民行動:支持peaceful、合法的抗議與組織(例如停止AI、暫停AI等運動),把議題民主化,擴大社會監督力量。
  • 就個人層次:向從事AI研發的人詢問並挑戰其安全主張;關注政府與監管討論;參與或支持專注於AI安全的組織。
  • 短中期應對:推廣只做窄域有益技術、避免競賽式快速推進超級智能;嘗試改變資本激勵或建立國際協議(但承認執行困難)。

關於Sam Altman、Worldcoin與產業文化的觀察

  • 受訪者對當前領導者(如Sam Altman)在安全與贏得競賽之間的取捨持批判態度,並指出部分產品(如Worldcoin)可能與權力集中、監控或財富控制有關。
  • 歷史上公司內的「安全團隊」常被縮編或弱化,行業內部承諾解決超級智能對齊問題的實際成果有限。

其他延伸話題

  • 模擬論:受訪者接近確信我們身處模擬,理由是若高等文明能並會執行大量、逼真的模擬,那我們在模擬中的機率極高;但即便如此,現實感受與價值依舊重要。
  • 長壽與投資:他關心長壽研究(視為次要重要議題),並提到投資稀缺資源(如比特幣)的理論考量。

總結性結語(訪談要點的行動導向)

Dr. Roman的核心訊息是:超級智能的出現不是單純技術問題,而是存在生存風險的體系性問題。若確信無法以可靠方式長期控制超級智能,則當前的研發路徑與激勵機制本身就是對全人類的倫理實驗。他呼籲:改變激勵、提高透明與科學驗證要求、擴大社會監督,並以現實可行的方式(公民行動、問責、質疑聲明)阻遏、延緩或改向研究方向,爭取更多時間與機會以尋找真正可行的安全方案。



如何以多感官視角將 AI 應用到「幾乎任何事物」上

這段講座是 MIT Media Lab 的 Paul 介紹新開課程「How to AI Almost Anything」。課程旨在教導學生如何設計能處理各種感官訊息(語言、視覺、聲音、觸覺、氣味等)與跨模態資料的多感官 AI 系統,並強調實務部署、可用性、社會影響與安全性。

課程核心主題

  • AI for new modalities:將 AI 應用到尚未主流的感官資料(如嗅覺晶片、觸覺、穿戴式生理感測、味覺、藝術、音樂等)。
  • Multimodal AI:學習如何連結並融合多種感官或資料模態(語言+手勢、感測+致動等)、以及跨模態遷移的策略。
  • Large models & generative AI:介紹大型預訓練模型的微調、跨模態大模型、以及能產生影像、影像對應音軌、感測資料等的生成式模型。
  • Interactive & embodied AI:多步推理的代理(agents)、實體/具體化的 AI 系統、以及人機互動與安全性議題。

教學方式與節奏

  • 上課時間:每週二、四 13:00–14:00。週二主要講授,週四以討論、實作或讀書會為主。
  • 形式:半為講座、半為獨立研究與討論。強調閱讀當代重要論文、批判性閱讀、發展研究構想並實作。
  • 先修建議:具備程式(Python 優先)與基本現代 AI 能力認識;若缺乏也可補學。

評分與作業

  • 總分:40% 閱讀與討論;60% 研究專案。
  • 閱讀討論(40%):包含七次閱讀作業,每次指定 2 篇必讀與多篇選讀;個人作業(15%)、課堂參與討論(15%)、擔任閱讀領導或綜述領導(10%)。
  • 研究專案(60%):小組或個人專案。10% 提案、15% 期中報告/實作、25% 最終報告、10% 雙週進度更新(導師會以 bi-weekly 會議協助指導)。
  • 彈性:閱讀作業有兩次 24 小時延長(wild card),專案中期與期末各有團隊可用的延長機會。

討論與分工角色

  • Reading Lead(閱讀領導):課前準備並在週四做短報告,協助整理同學找的資源與問題釐清。
  • Synopsis Lead(綜述領導):會後整合討論紀要,撰寫並公開分享討論報告。
  • 其他角色(視情況):peer reviewer、archaeologist、industry practitioner、hacker、private investigator、social impact assessor 等,用以從不同角度批判或延伸論文。

課程大綱(四大模組,約 12–13 堂課)

  1. 基礎 AI(第1–4 週):資料思維、資料蒐集、常見模型架構、訓練與泛化評估。
  2. 多模態基礎(約 3–4 週):模態間連結、融合方法、跨模態遷移。
  3. 大型模型與現代 AI(春假後):預訓練、微調、大規模多模態模型與生成式系統實務。
  4. 互動 AI(最後模組):多步推理、具體化/實體 AI、以及人機互動與安全性。

研究專案流程(重要里程碑)

  • Week 2:提交短版 pre-proposal(模態、任務、團隊)。
  • Week 3:分組發表提案;Week 4:提交報告版提案。
  • Week 6:期中前要有初步實作樣態可展示。
  • 春假後:期中報告(含初步結果)。
  • Week 11、13:持續改進,做深入實驗或使用者研究(如需)。
  • Week 14:期末簡報;Week 16:最終報告繳交。

可探索的研究方向範例

  • 新模態(嗅覺、味覺、觸覺、穿戴式生理資料、時間序列與表格資料)之資料蒐集、標註、模型設計與評估。
  • 多模態融合、跨模態遷移、在資料稀缺情境下的學習策略。
  • 具體化/邊緣運算:在實體裝置上執行、能效與延遲的限制。
  • 互動代理、跨步驟推理與控制系統,結合感測→決策→致動的迴路。
  • 社會智能、人機互動、信任與不確定性呈現、倫理與安全性研究。

其他補充與行政事項

  • 所有教材(投影片、錄影、討論紀要)會公開上網;Canvas 用於作業提交。
  • 課程歡迎旁聽或正式登記;若登記請盡量出席以維持小組討論品質。
  • 本週無閱讀作業;請開始思考專案題目並在下週二前填寫專案偏好表單。

總結:本課偏重「原則與實作」,目標是培養學生把 AI 應用到多樣且新穎的感官與跨模態問題上,並實際完成一個從提案到可評估結果的研究專案,同時涵蓋安全、倫理與部署考量。



2025年9月3日 星期三

論文總結:OpenEvidence: Enhancing Medical Student Clinical Rotations With AI but With Limitations

概述

這篇社論由 Niket Patel 等作者發表於 2025 年 1 月 3 日,討論 AI 工具 OpenEvidence 在醫學生臨床輪轉中的應用與限制。OpenEvidence 提供醫療文獻的即時合成和存取,幫助學生提升證據基礎學習和臨床決策,但存在搜索限制和不透明性。文章比較其與 ChatGPT 和 UpToDate 的優缺點,強調需提升透明度和功能以最大化影響。

介紹

  • AI 在醫療保健中的快速進展引入如 OpenEvidence 的工具,旨在提升醫療文獻的可及性和合成。
  • 設計用於醫學生臨床輪轉,提供證據基礎摘要、研究文章連結,以及臨床指南、診斷標準和治療方法的最新資訊。
  • 然而,存在限制,如無法針對特定文章、作者或期刊進行搜索,且與 ChatGPT(互動性)和 UpToDate(全面性、CME 認證)相比缺乏進階功能。

OpenEvidence 在臨床輪轉中的角色

  • 提供可靠證據基礎資訊,涵蓋差異診斷、治療協議和劑量建議。
  • 強調較少討論的治療,如 buspirone 用於 OCD、doxycycline 用於復發性口腔潰瘍,以及罕見疾病如 Erdheim-Chester 病的選項。
  • 合成診斷洞見,如 Wilson 病的放射學發現("Face of the Giant Panda" 和 "Split Thalamus" 徵象)。
  • 獨特功能:"Featured" 標籤突出團隊選定文章、"Trending" 和 "New Evidence" 標籤可按專科過濾。
  • 支援產生多選題、表格、風險分數計算和患者講義,整合學習與實務。
  • 使用者友善介面有助醫學生高效收集臨床呈現和體檢資訊。

限制與比較

  • 限制:無法針對特定文章、作者或期刊搜索;策展過程不透明。
  • 與 ChatGPT 比較:ChatGPT 提供對話互動性,而 OpenEvidence 缺乏。
  • 與 UpToDate 比較:UpToDate 提供全面、CME 認證內容,而 OpenEvidence 更注重臨床證據且更易存取。

貢獻與建議

  • 批判檢視 OpenEvidence 的能力和限制,強調其作為易用替代方案的價值。
  • 建議提升透明度、整合更廣證據和功能,以最大化對醫療教育和臨床實務的影響。
  • 解決這些挑戰可支持更有效、證據基礎的醫療教育和實務方法。

總體而言,這篇社論突顯 OpenEvidence 在提升醫學生臨床輪轉的潛力,但需克服限制以實現全面應用。 




論文總結:End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

 

概述

這篇論文介紹 Deep-DxSearch,一個端到端訓練的代理檢索增強生成 (RAG) 系統,使用強化學習 (RL) 實現醫療診斷的可追蹤診斷推理。醫療大型語言模型 (LLM) 在診斷中面臨知識限制和幻覺問題,雖然 RAG 和代理方法有潛力,但外部知識利用不足和反饋-推理可追蹤性解耦是主要限制。Deep-DxSearch 將 LLM 視為核心代理,檢索語料庫為環境,透過格式、檢索、推理結構和診斷準確性的自訂獎勵進行 RL 訓練,提升診斷準確性和可解釋性。數據、代碼和檢查點公開於 GitHub。

介紹與問題

  • AI 醫療診斷需精確且基於證據,依賴最新指南、病歷和結構化知識。
  • 現有代理 RAG 系統為推論僅限,缺乏端到端訓練,導致三個限制:檢索-推理工作流僵硬、檢索反饋未優化、診斷推理不可追蹤。
  • 貢獻:構建大規模醫療檢索語料庫,端到端代理 RL 訓練框架,提升診斷準確性並提供可解釋性。

提出的框架

Deep-DxSearch 框架包括:

  1. 大規模醫療檢索語料庫:從患者記錄和可靠醫療知識來源構建,支持診斷情境的檢索推理。
  2. 端到端代理 RL 訓練:LLM 作為代理,環境為檢索語料庫。使用 PPO 演算法,獎勵涵蓋:
    • 格式獎勵:確保輸出結構化。
    • 檢索獎勵:提升相關性和準確性。
    • 推理結構獎勵:促進邏輯推理鏈。
    • 診斷準確獎勵:基於最終診斷匹配。
  3. 診斷政策:代理交替檢索和推理,產生可追蹤診斷。

實驗與結果

  • 數據集:GPT-4o、DeepSeek-R1 等基準,在常見和罕見疾病的 ID 和 OOD 設定下測試。
  • 關鍵發現
    • Deep-DxSearch 優於提示工程和無訓練 RAG,在多數據中心顯著提升診斷準確性。
    • 消融研究確認獎勵設計和檢索語料庫的關鍵角色。
    • 案例研究和可解釋性分析顯示診斷政策的改善,提供性能提升洞見。

貢獻與影響

  • 解決代理 RAG 在醫療診斷的限制,提供端到端訓練框架。
  • 提升診斷準確性、魯棒性和可追蹤性,支持臨床醫生初步診斷。
  • 未來工作:擴展至更多模態和情境。

總體而言,Deep-DxSearch 代表醫療診斷中代理 RAG 的重大進步,透過 RL 實現更可靠和可解釋的系統。