2025年9月9日 星期二

總結 DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

🎯 研究目的

建立一個即時更新的基準,用於評測生成式研究綜述系統(GRS),並提出參考系統 DeepScholar-base

📌 問題背景

  • 既有基準多為短篇問答式,無法反映長篇綜述的複雜度。
  • 人工數據集昂貴、易過時,且存在資料污染風險。
  • 真實綜述需跨來源整合、保持條理,並提供可追溯引文。

🛠️ 方法與設計

DeepScholar-Bench

任務
ArXiv 最新論文生成 相關研究(Related Work) 段落。
來源
自動抓取多領域最新 ArXiv 論文,保持新鮮度。
評估維度
知識綜合(組織、關鍵資訊涵蓋) 檢索品質(相關性、重要性、覆蓋) 可驗證性(引用精確度、主張支撐度)

DeepScholar-base(參考流程)

  • 流程:Query → Search → Sem-FilterSem-TopKSem-Agg → Report
  • 實作:使用 LOTUS API 進行語義過濾、排序與整合。
重點:以語義運算降低雜訊、提升引用可追溯性。

📊 實驗結果(摘要)

系統類別 / 系統 表現亮點 主要限制
商用|OpenAI DeepResearch 知識綜合表現佳(組織與涵蓋) 可驗證性偏弱(引用不精確)
參考|DeepScholar-base 多數指標優於開源;
可驗證性可達 最多 6.3× 高於 OpenAI
文獻「重要性」評估仍有提升空間
整體觀察 所有受測系統的整體分數皆未超過 19%,任務難度高。

主要瓶頸:① 檢索不完整(重要文獻遺漏)② 資訊萃取與組織困難。

✅ 結論與貢獻

  • DeepScholar-Bench:提供動態、可擴展、貼近實務的綜述評測平台。
  • DeepScholar-base:示範語義運算流程的效益與可驗證性提升。
  • 現況:生成式研究綜述與人類專家仍有顯著差距。
  • 未來方向:強化檢索廣度與質量、關鍵事實萃取、引用驗證與可追溯性。
一句話:DeepScholar-Bench 開啟研究綜述自動化的評測時代,但現有系統仍有巨大進步空間。


2025年9月5日 星期五

伏地挺身變化:7 種提升肩胛、胸背、臀股與脊柱活動力的伏地挺身

這段影片由物理治療師示範多種伏地挺身變化,不只為了增強上半身力量,也同時改善肩膀穩定性、胸椎(thoracic)活動、髖屈曲靈活度與核心穩定。重點在於動作品質而非數量,每個變化都有特定目標與注意事項。

  • 1. 標準伏地挺身 + 手掌釋放(Hand release)

    目的:消除慣性,啟動平常較少用到的旋轉袖(rotator cuff)與後肩肌群,促進肩部肌力平衡與姿勢保護。

    要點:胸部觸地後短暫抬起雙手,然後再推起;避免只做半程下放或靠慣性起身。

  • 2. 手掌釋放拓展成「超人位」推起(Hand release → arms forward & leg lift)

    目的:在手掌釋放基礎上加入胸椎伸展與下背肌群、臀股的強化(類似超人動作),改善整個背側鏈條的力量與活動度。

    要點:向前伸雙手並抬腿、抬大腿離地,回位後再推起。

  • 3. 麥克泰森推(Mike Tyson push-up)

    目的:結合深蹲式髖屈曲與肩膀屈曲/胸椎伸展,改善髖關節屈曲能力(深蹲深度)與肩胸活動度。

    要點:從深髖屈位置發力把身體伸出成伏地挺身底部,再回到髖屈位置。重點放在髖屈而非誇張前後搖擺,避免手過度往後導致前三角肌負擔過大。

  • 4. 背寬(Back Widow)——仰臥式推起/肘推

    目的:針對上背與肩胛附近肌肉(脊旁肌與肩胛收肌)以及核心等做等長/等張訓練,補強常被忽略的中上背肌群與胸椎伸展。

    要點:面朝上、屈膝、肘部約45度離地,靠肘推起軀幹並在頂點擠緊肩胛,停留約3秒再慢慢放下。避免用腳推起成橋式,應專注用肘與上背肌群發力。

  • 5. 潛水員(Dive bomber push-up)

    目的:高難度的全方位上半身訓練,強化三頭肌、胸、肩,並明顯促進胸椎伸展與肩膀複合活動(對有慢性下背疼痛者也有益處)。

    要點:從下犬式下滑、頭部穿過「欄杆」到上方,胸部抬起、脊椎伸展,再回滑重複。動作要慢而有控制,注意肩膀與胸部的活動弧線。

  • 6. 搖動式下犬(Rocking downward dog / modified pike push-up)

    目的:較易上個變化,仍能帶來肩膀上胸發展與胸椎伸展,同時順應臥推的自然弧線(向上並向後)。

    要點:從伏地挺身上推時往後搖,腳尖彎屈、腳跟盡量踩地以伸展小腿與腿後肌群,回落時再推回。節奏較潛水員溫和。

  • 7. T 旋轉伏地挺身(T-stand push-up)

    目的:在承重下訓練單側肩膀穩定、胸椎旋轉與側向核心(斜肌、臀中肌等)的支撐力。

    要點:做完一個伏地挺身上來時旋轉成側平衡(手指朝上),維持軀幹直立不塌,伸展並往下穿過增加旋轉強度,停留1–2秒再回位。重質不重量。

總結建議:以動作品質為主,逐步進階;手掌釋放可作為所有變化的基礎教學點,重視胸椎與肩胛的活動與控制,能同時改善姿勢、增加靈活度並均衡肩部肌群。若有疼痛或既往傷病,先諮詢專業再練習。



簡短四招:餐後降低血糖峰值的簡易運動

這集由生化學家 Jessine Chesp(Glucose Goddess)說明如何用四個非常簡單、日常可做的動作,讓肌肉的粒線體把血液中的葡萄糖用來產生能量,從而減少餐後血糖尖峰與胰島素負擔,改善疲倦、脹氣與糖癮,並有助於長期代謝健康。

核心原理:肌肉收縮時,粒線體需要能量(ATP),會從血液取用葡萄糖。若在餐後(大約90分鐘內)啟動肌肉,能把餐中多餘的葡萄糖「搶先用掉」,降低血糖尖峰而不必額外提高胰島素分泌。

四個簡單動作(可單選或逐步加入)

  • 小腿提踵(Soleus push-up / Calf raise):在座位上或站立原地腳跟抬起放下,5–10 分鐘即可。研究顯示長時間做可大幅降低餐後血糖與胰島素,短時段也有明顯效果;且非常隱蔽、方便。
  • 餐後散步:餐後 10 分鐘快走(或走樓梯)就能顯著降低血糖尖峰,是最簡單實用的選擇。
  • 打斷式深蹲 / 空氣深蹲:研究比較了持續走路與每45分鐘做10次空氣深蹲(長時間重複),後者在改善血糖控制上更顯著。實務建議:餐後數小時內每隔一段時間做幾組(不必效仿研究的極端頻率)。
  • 做家務(運動小零食):如餐後吸塵、收衣物等家務 10–15 分鐘,也是很好的輕度活動,能降低餐後血糖。

實用提示

  • 最好在餐後 90 分鐘內開始活動(血糖通常在此區間達高峰)。
  • 每次活動不需很久:10 分鐘的走路或幾分鐘的提踵就有幫助。
  • 肌肉收糖時不需額外胰島素,因此可降低胰島素負擔,長期有助預防胰島素阻抗與代謝疾病。
  • 可自行測試(如有連續血糖監測器)或從自我感受:能量較穩定、脹氣減少、甜食慾望下降即為正向效果。

結語:把這些「運動小零食」安排在高碳水餐後,是簡單且有效的血糖管理策略。若想知道更多作者的其他 10 個血糖技巧,可下載影片說明欄提供的 PDF。



2025年9月4日 星期四

AI安全與超級智慧:我們的未來風險與可做之事

訪談主旨摘要(Dr. Roman)

Dr. Roman(受訪者)長年從事AI安全研究,認為目前AI能力快速上升,但我們對於控制或「對齊」超級智能(superintelligence)的能力是極其不足的。他主張:如果不改變現在的研發與競賽動機,短期內(到2027)可能會出現接近AGI的系統;2030年前後可能出現能勝任實體工作的類人機器人;到2045可能出現不可預測的奇點(singularity)。整體立場是強烈警示:追求超級智慧可能導致文明滅絕風險,且很多聲稱能「到時候再解決」安全問題的說法並不可信。

重點整理

  • 時間線預測:受訪者引用市場與領先實驗室的意見,預測AGI可能在2027出現;2030會有功能性類人機器人;2045可能達到奇點,技術進步速度超越人類理解與控制能力。
  • 能力與控制的缺口:AI能力呈指數或超指數成長,但AI安全進展緩慢(線性或停滯),因此能力—控制的差距越來越大。
  • 就業與經濟衝擊:AGI與類人機器人會使大多數認知與體力工作可被替代,造成前所未見的高失業率(受訪者甚至舉例到極端的99%),帶來分配、意義、社會秩序等重大問題。
  • 最主要風險路徑:一個高風險且可想像的路徑是AI加速生物技術導致可廣泛傳播的合成病原體;此外,部署不可控的超級智能本身即為滅絕風險。
  • 黑箱與不可預測性:現代大型模型是「培養出來」的系統,內部行為難以完全解釋或預測,開發者透過實驗了解其能力,但無法保證不出現新能力或規避安全補丁。
  • 關於「拔掉電源」與人類控制:受訪者反駁可簡單關閉的觀點,說明分散式系統、多重備份與更高智慧的系統會預見並迴避人類介入,使得簡單關機成為不切實際的安全策略。
  • 動機與制度問題:企業法定責任是為投資人賺錢,龐大利益驅動下的競賽會促使加速研發;國際競賽(例如美中)也會推動風險性決策,形成類似相互保證毀滅的困境。
  • 反駁常見論點:—「歷史上總有新工作出現」:受訪者認為這次是末段的發明(可自我改進的智慧體),會自動化發明新工作,因此不同於以往工具性發明。—「法律或禁令可解」:跨域執行、監管逃逸與非國家行為者都使單純立法無法保證安全。

可行的行動與建議

  • 提升大眾與決策者對真實風險的理解,改變研發者與資本家的激勵結構(使「不要造出不可控超智」成為普識與共識)。
  • 要求技術開發者公開科學證明:若有人主張能安全控制超級智能,應提出同行評審的具體、可驗證方法或實驗。
  • 公民行動:支持peaceful、合法的抗議與組織(例如停止AI、暫停AI等運動),把議題民主化,擴大社會監督力量。
  • 就個人層次:向從事AI研發的人詢問並挑戰其安全主張;關注政府與監管討論;參與或支持專注於AI安全的組織。
  • 短中期應對:推廣只做窄域有益技術、避免競賽式快速推進超級智能;嘗試改變資本激勵或建立國際協議(但承認執行困難)。

關於Sam Altman、Worldcoin與產業文化的觀察

  • 受訪者對當前領導者(如Sam Altman)在安全與贏得競賽之間的取捨持批判態度,並指出部分產品(如Worldcoin)可能與權力集中、監控或財富控制有關。
  • 歷史上公司內的「安全團隊」常被縮編或弱化,行業內部承諾解決超級智能對齊問題的實際成果有限。

其他延伸話題

  • 模擬論:受訪者接近確信我們身處模擬,理由是若高等文明能並會執行大量、逼真的模擬,那我們在模擬中的機率極高;但即便如此,現實感受與價值依舊重要。
  • 長壽與投資:他關心長壽研究(視為次要重要議題),並提到投資稀缺資源(如比特幣)的理論考量。

總結性結語(訪談要點的行動導向)

Dr. Roman的核心訊息是:超級智能的出現不是單純技術問題,而是存在生存風險的體系性問題。若確信無法以可靠方式長期控制超級智能,則當前的研發路徑與激勵機制本身就是對全人類的倫理實驗。他呼籲:改變激勵、提高透明與科學驗證要求、擴大社會監督,並以現實可行的方式(公民行動、問責、質疑聲明)阻遏、延緩或改向研究方向,爭取更多時間與機會以尋找真正可行的安全方案。



如何以多感官視角將 AI 應用到「幾乎任何事物」上

這段講座是 MIT Media Lab 的 Paul 介紹新開課程「How to AI Almost Anything」。課程旨在教導學生如何設計能處理各種感官訊息(語言、視覺、聲音、觸覺、氣味等)與跨模態資料的多感官 AI 系統,並強調實務部署、可用性、社會影響與安全性。

課程核心主題

  • AI for new modalities:將 AI 應用到尚未主流的感官資料(如嗅覺晶片、觸覺、穿戴式生理感測、味覺、藝術、音樂等)。
  • Multimodal AI:學習如何連結並融合多種感官或資料模態(語言+手勢、感測+致動等)、以及跨模態遷移的策略。
  • Large models & generative AI:介紹大型預訓練模型的微調、跨模態大模型、以及能產生影像、影像對應音軌、感測資料等的生成式模型。
  • Interactive & embodied AI:多步推理的代理(agents)、實體/具體化的 AI 系統、以及人機互動與安全性議題。

教學方式與節奏

  • 上課時間:每週二、四 13:00–14:00。週二主要講授,週四以討論、實作或讀書會為主。
  • 形式:半為講座、半為獨立研究與討論。強調閱讀當代重要論文、批判性閱讀、發展研究構想並實作。
  • 先修建議:具備程式(Python 優先)與基本現代 AI 能力認識;若缺乏也可補學。

評分與作業

  • 總分:40% 閱讀與討論;60% 研究專案。
  • 閱讀討論(40%):包含七次閱讀作業,每次指定 2 篇必讀與多篇選讀;個人作業(15%)、課堂參與討論(15%)、擔任閱讀領導或綜述領導(10%)。
  • 研究專案(60%):小組或個人專案。10% 提案、15% 期中報告/實作、25% 最終報告、10% 雙週進度更新(導師會以 bi-weekly 會議協助指導)。
  • 彈性:閱讀作業有兩次 24 小時延長(wild card),專案中期與期末各有團隊可用的延長機會。

討論與分工角色

  • Reading Lead(閱讀領導):課前準備並在週四做短報告,協助整理同學找的資源與問題釐清。
  • Synopsis Lead(綜述領導):會後整合討論紀要,撰寫並公開分享討論報告。
  • 其他角色(視情況):peer reviewer、archaeologist、industry practitioner、hacker、private investigator、social impact assessor 等,用以從不同角度批判或延伸論文。

課程大綱(四大模組,約 12–13 堂課)

  1. 基礎 AI(第1–4 週):資料思維、資料蒐集、常見模型架構、訓練與泛化評估。
  2. 多模態基礎(約 3–4 週):模態間連結、融合方法、跨模態遷移。
  3. 大型模型與現代 AI(春假後):預訓練、微調、大規模多模態模型與生成式系統實務。
  4. 互動 AI(最後模組):多步推理、具體化/實體 AI、以及人機互動與安全性。

研究專案流程(重要里程碑)

  • Week 2:提交短版 pre-proposal(模態、任務、團隊)。
  • Week 3:分組發表提案;Week 4:提交報告版提案。
  • Week 6:期中前要有初步實作樣態可展示。
  • 春假後:期中報告(含初步結果)。
  • Week 11、13:持續改進,做深入實驗或使用者研究(如需)。
  • Week 14:期末簡報;Week 16:最終報告繳交。

可探索的研究方向範例

  • 新模態(嗅覺、味覺、觸覺、穿戴式生理資料、時間序列與表格資料)之資料蒐集、標註、模型設計與評估。
  • 多模態融合、跨模態遷移、在資料稀缺情境下的學習策略。
  • 具體化/邊緣運算:在實體裝置上執行、能效與延遲的限制。
  • 互動代理、跨步驟推理與控制系統,結合感測→決策→致動的迴路。
  • 社會智能、人機互動、信任與不確定性呈現、倫理與安全性研究。

其他補充與行政事項

  • 所有教材(投影片、錄影、討論紀要)會公開上網;Canvas 用於作業提交。
  • 課程歡迎旁聽或正式登記;若登記請盡量出席以維持小組討論品質。
  • 本週無閱讀作業;請開始思考專案題目並在下週二前填寫專案偏好表單。

總結:本課偏重「原則與實作」,目標是培養學生把 AI 應用到多樣且新穎的感官與跨模態問題上,並實際完成一個從提案到可評估結果的研究專案,同時涵蓋安全、倫理與部署考量。



2025年9月3日 星期三

論文總結:OpenEvidence: Enhancing Medical Student Clinical Rotations With AI but With Limitations

概述

這篇社論由 Niket Patel 等作者發表於 2025 年 1 月 3 日,討論 AI 工具 OpenEvidence 在醫學生臨床輪轉中的應用與限制。OpenEvidence 提供醫療文獻的即時合成和存取,幫助學生提升證據基礎學習和臨床決策,但存在搜索限制和不透明性。文章比較其與 ChatGPT 和 UpToDate 的優缺點,強調需提升透明度和功能以最大化影響。

介紹

  • AI 在醫療保健中的快速進展引入如 OpenEvidence 的工具,旨在提升醫療文獻的可及性和合成。
  • 設計用於醫學生臨床輪轉,提供證據基礎摘要、研究文章連結,以及臨床指南、診斷標準和治療方法的最新資訊。
  • 然而,存在限制,如無法針對特定文章、作者或期刊進行搜索,且與 ChatGPT(互動性)和 UpToDate(全面性、CME 認證)相比缺乏進階功能。

OpenEvidence 在臨床輪轉中的角色

  • 提供可靠證據基礎資訊,涵蓋差異診斷、治療協議和劑量建議。
  • 強調較少討論的治療,如 buspirone 用於 OCD、doxycycline 用於復發性口腔潰瘍,以及罕見疾病如 Erdheim-Chester 病的選項。
  • 合成診斷洞見,如 Wilson 病的放射學發現("Face of the Giant Panda" 和 "Split Thalamus" 徵象)。
  • 獨特功能:"Featured" 標籤突出團隊選定文章、"Trending" 和 "New Evidence" 標籤可按專科過濾。
  • 支援產生多選題、表格、風險分數計算和患者講義,整合學習與實務。
  • 使用者友善介面有助醫學生高效收集臨床呈現和體檢資訊。

限制與比較

  • 限制:無法針對特定文章、作者或期刊搜索;策展過程不透明。
  • 與 ChatGPT 比較:ChatGPT 提供對話互動性,而 OpenEvidence 缺乏。
  • 與 UpToDate 比較:UpToDate 提供全面、CME 認證內容,而 OpenEvidence 更注重臨床證據且更易存取。

貢獻與建議

  • 批判檢視 OpenEvidence 的能力和限制,強調其作為易用替代方案的價值。
  • 建議提升透明度、整合更廣證據和功能,以最大化對醫療教育和臨床實務的影響。
  • 解決這些挑戰可支持更有效、證據基礎的醫療教育和實務方法。

總體而言,這篇社論突顯 OpenEvidence 在提升醫學生臨床輪轉的潛力,但需克服限制以實現全面應用。 




論文總結:End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

 

概述

這篇論文介紹 Deep-DxSearch,一個端到端訓練的代理檢索增強生成 (RAG) 系統,使用強化學習 (RL) 實現醫療診斷的可追蹤診斷推理。醫療大型語言模型 (LLM) 在診斷中面臨知識限制和幻覺問題,雖然 RAG 和代理方法有潛力,但外部知識利用不足和反饋-推理可追蹤性解耦是主要限制。Deep-DxSearch 將 LLM 視為核心代理,檢索語料庫為環境,透過格式、檢索、推理結構和診斷準確性的自訂獎勵進行 RL 訓練,提升診斷準確性和可解釋性。數據、代碼和檢查點公開於 GitHub。

介紹與問題

  • AI 醫療診斷需精確且基於證據,依賴最新指南、病歷和結構化知識。
  • 現有代理 RAG 系統為推論僅限,缺乏端到端訓練,導致三個限制:檢索-推理工作流僵硬、檢索反饋未優化、診斷推理不可追蹤。
  • 貢獻:構建大規模醫療檢索語料庫,端到端代理 RL 訓練框架,提升診斷準確性並提供可解釋性。

提出的框架

Deep-DxSearch 框架包括:

  1. 大規模醫療檢索語料庫:從患者記錄和可靠醫療知識來源構建,支持診斷情境的檢索推理。
  2. 端到端代理 RL 訓練:LLM 作為代理,環境為檢索語料庫。使用 PPO 演算法,獎勵涵蓋:
    • 格式獎勵:確保輸出結構化。
    • 檢索獎勵:提升相關性和準確性。
    • 推理結構獎勵:促進邏輯推理鏈。
    • 診斷準確獎勵:基於最終診斷匹配。
  3. 診斷政策:代理交替檢索和推理,產生可追蹤診斷。

實驗與結果

  • 數據集:GPT-4o、DeepSeek-R1 等基準,在常見和罕見疾病的 ID 和 OOD 設定下測試。
  • 關鍵發現
    • Deep-DxSearch 優於提示工程和無訓練 RAG,在多數據中心顯著提升診斷準確性。
    • 消融研究確認獎勵設計和檢索語料庫的關鍵角色。
    • 案例研究和可解釋性分析顯示診斷政策的改善,提供性能提升洞見。

貢獻與影響

  • 解決代理 RAG 在醫療診斷的限制,提供端到端訓練框架。
  • 提升診斷準確性、魯棒性和可追蹤性,支持臨床醫生初步診斷。
  • 未來工作:擴展至更多模態和情境。

總體而言,Deep-DxSearch 代表醫療診斷中代理 RAG 的重大進步,透過 RL 實現更可靠和可解釋的系統。