概述
這篇論文介紹了 RCR-Router,一個用於多代理大型語言模型 (Multi-Agent LLM) 系統的模組化、角色感知上下文路由框架,結合結構化記憶。該框架動態選擇語義相關的記憶子集,根據代理角色和任務階段進行路由,同時遵守嚴格的令牌預算。論文提出了一個答案品質分數 (Answer Quality Score) 指標,用於評估LLM生成的解釋,而非僅限於標準QA準確率。實驗顯示RCR-Router可減少令牌使用高達30%,同時改善或維持答案品質,強調結構化記憶路由在可擴展多代理系統中的重要性。
解決的關鍵問題
- 現有多代理LLM系統多採用靜態路由 (固定輸入模板) 或全上下文路由 (完整記憶歷史),導致過多令牌消耗、無關資訊處理,以及對任務演進的適應性差。
- 這些問題在複雜推理和協作決策中加劇,影響系統效率和協調品質。
提出的框架
RCR-Router採用推理優先的路由機制,包含以下組件:
- 共享記憶儲存 (Mt):儲存代理互動歷史、任務相關知識和結構化狀態表示 (如YAML、圖形、表格)。
- RCR-Router核心:
- 令牌預算分配器:根據角色和任務優先級分配代理特定令牌預算 (Bi)。
- 重要性評分器:計算每個記憶項目的重要性分數 (α),結合角色相關性、任務階段優先級和最近性。
- 語義過濾與路由:貪婪選擇最高分數的記憶項目,直到達到預算,形成代理特定上下文 (Ci^t)。
- 迭代路由與反饋:多輪互動中,代理輸出迭代整合到更新記憶 (Mt+1),實現漸進上下文精煉。
- 記憶更新:提取輸出、過濾相關性、結構化並解決衝突,確保記憶緊湊且一致。
此框架支援啟發式或學習型路由策略,平衡效能與效率。
實驗與結果
- 數據集:HotPotQA、MuSiQue、2WikiMultihop (多跳QA);ALFWorld (具身環境);WebShop (電子商務)。
- 基準:Full-Context路由 (完整記憶);Static路由 (固定模板)。
- 指標:總任務延遲、每輪運行時間、總令牌消耗、答案品質分數、Precision/Recall/F1。
- 關鍵發現:
- RCR-Router在所有數據集上優於基準,例如在HotPotQA上答案品質為4.91 (相較Full-Context的4.17),令牌減少26%;在MuSiQue上減少11%,品質提升11%。
- 整體減少令牌25-47%,運行時間縮短20-40%,F1提升5-10%。
- 消融研究:令牌預算增加改善品質但邊際遞減 (最佳為2048);迭代次數3次達到峰值 (品質4.91)。
- 計算開銷:RCR-Router每輪開銷適中,但總效率更高。
- 理論分析:證明最優路由為NP-hard,使用貪婪啟發式;迭代反饋確保上下文品質漸進提升。
貢獻與影響
- 提出動態、角色感知的路由策略,提升多代理系統的效率和適應性,提供輕量級模組化替代方案。
- 應用於ALFWorld (具身任務,如規劃、導航、互動) 和WebShop (購物,如查詢分解、檢索、推薦),證明廣泛適用性。
- 未來工作:探索學習型路由、自適應記憶更新;擴展到工具使用、檢索增強生成或對話規劃;整合擴散模型生成樣本,用於醫療保健等領域的多模態代理研究;基準壓縮技術以支援邊緣部署。
- 限制:依賴啟發式評分,可能需調優;未探討極端大規模系統。
總體而言,RCR-Router從全上下文轉向結構化路由,透過嚴謹實驗和理論驗證,推進多代理LLM系統的發展。
沒有留言:
張貼留言