2025年9月9日 星期二

總結 DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

🎯 研究目的

建立一個即時更新的基準,用於評測生成式研究綜述系統(GRS),並提出參考系統 DeepScholar-base

📌 問題背景

  • 既有基準多為短篇問答式,無法反映長篇綜述的複雜度。
  • 人工數據集昂貴、易過時,且存在資料污染風險。
  • 真實綜述需跨來源整合、保持條理,並提供可追溯引文。

🛠️ 方法與設計

DeepScholar-Bench

任務
ArXiv 最新論文生成 相關研究(Related Work) 段落。
來源
自動抓取多領域最新 ArXiv 論文,保持新鮮度。
評估維度
知識綜合(組織、關鍵資訊涵蓋) 檢索品質(相關性、重要性、覆蓋) 可驗證性(引用精確度、主張支撐度)

DeepScholar-base(參考流程)

  • 流程:Query → Search → Sem-FilterSem-TopKSem-Agg → Report
  • 實作:使用 LOTUS API 進行語義過濾、排序與整合。
重點:以語義運算降低雜訊、提升引用可追溯性。

📊 實驗結果(摘要)

系統類別 / 系統 表現亮點 主要限制
商用|OpenAI DeepResearch 知識綜合表現佳(組織與涵蓋) 可驗證性偏弱(引用不精確)
參考|DeepScholar-base 多數指標優於開源;
可驗證性可達 最多 6.3× 高於 OpenAI
文獻「重要性」評估仍有提升空間
整體觀察 所有受測系統的整體分數皆未超過 19%,任務難度高。

主要瓶頸:① 檢索不完整(重要文獻遺漏)② 資訊萃取與組織困難。

✅ 結論與貢獻

  • DeepScholar-Bench:提供動態、可擴展、貼近實務的綜述評測平台。
  • DeepScholar-base:示範語義運算流程的效益與可驗證性提升。
  • 現況:生成式研究綜述與人類專家仍有顯著差距。
  • 未來方向:強化檢索廣度與質量、關鍵事實萃取、引用驗證與可追溯性。
一句話:DeepScholar-Bench 開啟研究綜述自動化的評測時代,但現有系統仍有巨大進步空間。


沒有留言:

張貼留言