2025年9月3日 星期三

論文總結:End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

 

概述

這篇論文介紹 Deep-DxSearch,一個端到端訓練的代理檢索增強生成 (RAG) 系統,使用強化學習 (RL) 實現醫療診斷的可追蹤診斷推理。醫療大型語言模型 (LLM) 在診斷中面臨知識限制和幻覺問題,雖然 RAG 和代理方法有潛力,但外部知識利用不足和反饋-推理可追蹤性解耦是主要限制。Deep-DxSearch 將 LLM 視為核心代理,檢索語料庫為環境,透過格式、檢索、推理結構和診斷準確性的自訂獎勵進行 RL 訓練,提升診斷準確性和可解釋性。數據、代碼和檢查點公開於 GitHub。

介紹與問題

  • AI 醫療診斷需精確且基於證據,依賴最新指南、病歷和結構化知識。
  • 現有代理 RAG 系統為推論僅限,缺乏端到端訓練,導致三個限制:檢索-推理工作流僵硬、檢索反饋未優化、診斷推理不可追蹤。
  • 貢獻:構建大規模醫療檢索語料庫,端到端代理 RL 訓練框架,提升診斷準確性並提供可解釋性。

提出的框架

Deep-DxSearch 框架包括:

  1. 大規模醫療檢索語料庫:從患者記錄和可靠醫療知識來源構建,支持診斷情境的檢索推理。
  2. 端到端代理 RL 訓練:LLM 作為代理,環境為檢索語料庫。使用 PPO 演算法,獎勵涵蓋:
    • 格式獎勵:確保輸出結構化。
    • 檢索獎勵:提升相關性和準確性。
    • 推理結構獎勵:促進邏輯推理鏈。
    • 診斷準確獎勵:基於最終診斷匹配。
  3. 診斷政策:代理交替檢索和推理,產生可追蹤診斷。

實驗與結果

  • 數據集:GPT-4o、DeepSeek-R1 等基準,在常見和罕見疾病的 ID 和 OOD 設定下測試。
  • 關鍵發現
    • Deep-DxSearch 優於提示工程和無訓練 RAG,在多數據中心顯著提升診斷準確性。
    • 消融研究確認獎勵設計和檢索語料庫的關鍵角色。
    • 案例研究和可解釋性分析顯示診斷政策的改善,提供性能提升洞見。

貢獻與影響

  • 解決代理 RAG 在醫療診斷的限制,提供端到端訓練框架。
  • 提升診斷準確性、魯棒性和可追蹤性,支持臨床醫生初步診斷。
  • 未來工作:擴展至更多模態和情境。

總體而言,Deep-DxSearch 代表醫療診斷中代理 RAG 的重大進步,透過 RL 實現更可靠和可解釋的系統。



沒有留言:

張貼留言