🎯 研究目的
建立一個即時更新的基準,用於評測生成式研究綜述系統(GRS),並提出參考系統 DeepScholar-base。
📌 問題背景
- 既有基準多為短篇問答式,無法反映長篇綜述的複雜度。
- 人工數據集昂貴、易過時,且存在資料污染風險。
- 真實綜述需跨來源整合、保持條理,並提供可追溯引文。
🛠️ 方法與設計
DeepScholar-Bench
任務
為 ArXiv 最新論文生成 相關研究(Related Work) 段落。
來源
自動抓取多領域最新 ArXiv 論文,保持新鮮度。
評估維度
知識綜合(組織、關鍵資訊涵蓋)
檢索品質(相關性、重要性、覆蓋)
可驗證性(引用精確度、主張支撐度)
DeepScholar-base(參考流程)
- 流程:Query → Search → Sem-Filter → Sem-TopK → Sem-Agg → Report
- 實作:使用 LOTUS API 進行語義過濾、排序與整合。
重點:以語義運算降低雜訊、提升引用可追溯性。
📊 實驗結果(摘要)
系統類別 / 系統 | 表現亮點 | 主要限制 |
---|---|---|
商用|OpenAI DeepResearch | 知識綜合表現佳(組織與涵蓋) | 可驗證性偏弱(引用不精確) |
參考|DeepScholar-base | 多數指標優於開源; 可驗證性可達 最多 6.3× 高於 OpenAI |
文獻「重要性」評估仍有提升空間 |
整體觀察 | 所有受測系統的整體分數皆未超過 19%,任務難度高。 |
主要瓶頸:① 檢索不完整(重要文獻遺漏)② 資訊萃取與組織困難。
✅ 結論與貢獻
- DeepScholar-Bench:提供動態、可擴展、貼近實務的綜述評測平台。
- DeepScholar-base:示範語義運算流程的效益與可驗證性提升。
- 現況:生成式研究綜述與人類專家仍有顯著差距。
- 未來方向:強化檢索廣度與質量、關鍵事實萃取、引用驗證與可追溯性。
一句話:DeepScholar-Bench 開啟研究綜述自動化的評測時代,但現有系統仍有巨大進步空間。
沒有留言:
張貼留言