2025-11-16T09:46:12.577001

ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

He, Jia, Jia et al.
Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge, have shown remarkable performance in medical domains, including clinical diagnosis. However, existing RAG methods often struggle to tailor retrieval strategies to diagnostic difficulty and input sample informativeness. This limitation leads to excessive and often unnecessary retrieval, impairing computational efficiency and increasing the risk of introducing noise that can degrade diagnostic accuracy. To address this, we propose ICA-RAG (\textbf{I}nformation \textbf{C}ompleteness Guided \textbf{A}daptive \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration), a novel framework for enhancing RAG reliability in disease diagnosis. ICA-RAG utilizes an adaptive control module to assess the necessity of retrieval based on the input's information completeness. By optimizing retrieval and incorporating knowledge filtering, ICA-RAG better aligns retrieval operations with clinical requirements. Experiments on three Chinese electronic medical record datasets demonstrate that ICA-RAG significantly outperforms baseline methods, highlighting its effectiveness in clinical diagnosis.
academic

ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

基本信息

  • 论文ID: 2502.14614
  • 标题: ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis
  • 作者: Jiawei He, Mingyi Jia, Zhihao Jia, Junwen Duan, Yan Song, Jianxin Wang
  • 分类: cs.CL (Computation and Language)
  • 发表时间: arXiv preprint (2025年10月15日最新版本)
  • 论文链接: https://arxiv.org/abs/2502.14614

摘要

检索增强大语言模型(RAG-LLMs)通过整合外部知识在医疗领域展现出卓越性能,特别是在临床诊断方面。然而,现有RAG方法难以根据诊断难度和输入样本信息量来定制检索策略,导致过度且不必要的检索,损害计算效率并增加引入噪声的风险,从而降低诊断准确性。为解决这一问题,本文提出ICA-RAG(信息完整性引导的自适应检索增强生成),这是一个增强RAG在疾病诊断中可靠性的新框架。ICA-RAG利用自适应控制模块基于输入的信息完整性评估检索必要性,通过优化检索和知识过滤,更好地将检索操作与临床需求对齐。在三个中文电子病历数据集上的实验表明,ICA-RAG显著优于基线方法,突出了其在临床诊断中的有效性。

研究背景与动机

问题背景

大语言模型在医疗任务中面临两大挑战:

  1. 幻觉问题:生成看似合理但实际错误的信息
  2. 知识更新成本:保持医疗知识最新的资源密集性

现有RAG方法的局限性

  1. 缺乏选择性检索逻辑:对所有查询无差别执行检索,增加计算和时间成本
  2. 引入低质量检索:可能通过不相关信息降低而非提升性能
  3. 医疗领域特殊性:许多常见疾病或症状轻微且诊断明确的病例无需检索即可准确诊断

现有自适应RAG的不足

  1. 基于LLM输出分布的方法:LLM倾向于过度自信,即使缺乏相关知识也会生成高置信度分布
  2. 基于分类模型的方法:在医疗领域,输入文本通常不具备明显的结构模式,小型语言模型难以理解答题难度

核心贡献

  1. 提出ICA-RAG框架:一个无需调优骨干LLM的自适应检索增强疾病诊断框架
  2. 创新数据标注方法:设计基于掩码操作的标注策略,通过引发LLM的不同响应来获取标签信息
  3. 优化检索过程:针对复杂上下文的临床场景优化检索流程
  4. 实验验证:在三个中文EMR数据集上进行广泛实验,证明框架有效性

方法详解

任务定义

直接疾病诊断:给定表示输入文本的标记序列 x=[x1,x2,...,xn]x = [x_1, x_2, ..., x_n],LLM文本生成可形式化为: D^=LLM(Q,prompt)\hat{D} = \text{LLM}(Q, \text{prompt})

RAG疾病诊断:从外部知识源检索相关知识并整合: D^=LLM(Q,d,prompt)\hat{D} = \text{LLM}(Q, d, \text{prompt}) 其中 d=Retriever(K,Q)d = \text{Retriever}(K, Q)

自适应RAG疾病诊断:引入控制函数F评估输入Q:

\text{LLM}(Q, \text{prompt}), & \text{if } F(Q) = \langle\text{Activate}\rangle \\ \text{LLM}(Q, d, \text{prompt}), & \text{otherwise} \end{cases}$$ ### 模型架构 ICA-RAG框架包含三个主要阶段: #### 阶段(a):基于输入信息完整性的检索决策优化 1. **文本分割**:将输入Q分割为文本单元(默认为句子):$Q = \{s_i\}_{i=1}^n$ 2. **重要性分类**:训练分类器预测每个单元的重要性: $$l_i = \text{Classifier}(s_i) \quad \forall i \in \{1, 2, ..., n\}$$ 标签分为三类: - A:诊断决策关键信息 - B:对检索有积极贡献但不能直接推断结果的信息 - C:相对不重要的信息 3. **信息完整性计算**: $$I_{\text{norm}}(Q) = \frac{1}{\alpha \cdot n} \sum_{i=1}^n (\alpha \cdot I(l_i = A) + \beta \cdot I(l_i = B) + \gamma \cdot I(l_i = C))$$ #### 阶段(b):基于文档分割和映射的检索 1. **句子级检索**:每个句子作为查询检索top-m相关文本块 2. **文档级重排序**:统计每个文档被检索到的块数量进行重排序 3. **映射策略**:将文本块映射回原始文档并基于块计数重排序 #### 阶段(c):基于提示引导的知识过滤和诊断生成 使用差异诊断提示模板过滤不相关文档,模拟医生的鉴别诊断过程。 ### 技术创新点 1. **信息完整性评估**:将复杂文档理解转化为简单的句子级任务 2. **掩码标注策略**:通过序列掩码操作自动获取训练标签 3. **块-文档映射重排序**:仅基于检索结果数值计算,减少内存开销 4. **差异诊断过滤**:模拟临床鉴别诊断过程过滤无关信息 ## 实验设置 ### 数据集 - **CMEMR**:中文电子病历数据集 - **ClinicalBench**:临床基准数据集 - **CMB-Clin**:中文医学基准临床数据集 所有数据集配置为端到端诊断任务,以患者信息为输入,医生诊断结论为真实标签。 ### 评价指标 使用国际疾病分类(ICD-10)标准化疾病术语,采用模糊匹配(阈值0.5)计算集合级别的Precision、Recall和F1-score。 ### 对比方法 1. **非检索方法**:CoT、SC-CoT、ATP 2. **标准检索方法**:RAG2、LongRAG 3. **自适应检索方法**:Adaptive-RAG、DRAGIN、SEAKR ### 实现细节 - **骨干模型**:qwen2.5-7B-instruct - **分类器**:BERT-base-Chinese - **检索器**:BM25 - **外部知识库**:CMKD临床医学知识数据库 ## 实验结果 ### 主要结果 | 方法 | CMEMR F1(%) | ClinicalBench F1(%) | CMB-Clin F1(%) | |------|-------------|---------------------|-----------------| | CoT | 48.82 | 38.46 | 52.14 | | LongRAG | 49.07 | 39.25 | 51.81 | | Adaptive-RAG | 49.27 | 38.04 | 53.44 | | **ICA-RAG** | **50.88** | **40.79** | **53.53** | 关键发现: 1. ICA-RAG在所有数据集上达到最优或接近最优F1分数 2. 相比LongRAG,F1值分别提升1.81%、1.54%、1.72% 3. 显著优于其他自适应RAG方法 ### 消融实验 在CMEMR数据集上的消融结果: | 变体 | F1(%) | 下降幅度 | |------|-------|----------| | ICA-RAG | 50.88 | - | | w/o Decision | 48.07 | -2.81% | | w/o Chunk | 49.78 | -1.10% | | w/o M-rerank | 49.59 | -1.29% | | w/o Diff | 49.85 | -1.03% | ### 效率分析 - **时间效率**:相比非自适应RAG方法显著提升 - **参数效率**:BERT-Base分类器(110M参数)比Adaptive-RAG的T5-Large(770M参数)更轻量 - **适用性**:无需访问LLM输出概率分布,适用于闭源模型和API部署 ## 相关工作 ### RAG在临床疾病诊断中的应用 - 大多数研究使用基础检索方法,通过嵌入模型编码外部知识和任务查询 - 知识图谱也被广泛采用 - 缺乏针对医疗领域特殊性的优化 ### 自适应RAG - **FLARE和DRAGIN**:当LLM生成低置信度令牌时激活搜索 - **Self-RAG**:训练模型动态检索、批评和生成文本 - **Adaptive-RAG**:评估查询复杂性确定检索必要性 - 现有方法主要针对问答任务,难以直接迁移到医疗诊断 ## 结论与讨论 ### 主要结论 ICA-RAG通过基于输入信息完整性的自适应检索决策优化,有效解决了传统检索增强方法中的刚性检索策略问题,在复杂临床场景中展现出强适应性。 ### 局限性 1. **标注策略限制**:由于患者信息中可能存在重复内容,掩码关键句子后LLM仍可能得出正确诊断,导致标注标签不准确 2. **医疗文本复杂性**:临床医疗文本包含缩写、同义词和别名,不同医生记录方式差异显著,影响检索准确性 3. **人工检查需求**:自动标注策略仍需人工检查和修正 ### 未来方向 1. 探索更有效的医疗文本预处理策略以提升检索质量 2. 将ICA-RAG应用到其他医疗任务 3. 进一步优化检索过程 ## 深度评价 ### 优点 1. **创新性强**:首次提出基于信息完整性的自适应检索决策机制 2. **实用性高**:无需调优骨干LLM,适用性强 3. **实验充分**:在多个数据集上进行了全面评估和消融实验 4. **效率提升**:在保持性能的同时显著提升计算效率 ### 不足 1. **数据集限制**:仅在中文EMR数据集上验证,缺乏跨语言和跨领域验证 2. **标注质量**:自动标注策略存在噪声,需要人工干预 3. **阈值设定**:信息完整性阈值θ₁和θ₂的设定缺乏理论指导 4. **知识库依赖**:性能很大程度上依赖外部知识库质量 ### 影响力 1. **学术贡献**:为医疗AI领域的RAG应用提供了新思路 2. **实用价值**:可直接应用于临床决策支持系统 3. **可复现性**:方法描述详细,实验设置清晰 ### 适用场景 1. **临床诊断**:特别适用于症状复杂、需要鉴别诊断的病例 2. **医疗问答系统**:可提升医疗咨询系统的准确性和效率 3. **医学教育**:可作为医学生学习的辅助工具 ## 参考文献 论文引用了41篇相关文献,涵盖了大语言模型、检索增强生成、医疗AI等多个领域的重要工作,为研究提供了坚实的理论基础。 --- **总体评价**:这是一篇在医疗AI领域具有重要贡献的高质量论文。作者针对现有RAG方法在医疗诊断中的局限性,提出了创新的解决方案,并通过充分的实验验证了方法的有效性。虽然存在一些局限性,但其创新性和实用性使其成为该领域的重要进展。