Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge, have shown remarkable performance in medical domains, including clinical diagnosis. However, existing RAG methods often struggle to tailor retrieval strategies to diagnostic difficulty and input sample informativeness. This limitation leads to excessive and often unnecessary retrieval, impairing computational efficiency and increasing the risk of introducing noise that can degrade diagnostic accuracy. To address this, we propose ICA-RAG (\textbf{I}nformation \textbf{C}ompleteness Guided \textbf{A}daptive \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration), a novel framework for enhancing RAG reliability in disease diagnosis. ICA-RAG utilizes an adaptive control module to assess the necessity of retrieval based on the input's information completeness. By optimizing retrieval and incorporating knowledge filtering, ICA-RAG better aligns retrieval operations with clinical requirements. Experiments on three Chinese electronic medical record datasets demonstrate that ICA-RAG significantly outperforms baseline methods, highlighting its effectiveness in clinical diagnosis.
- ID de l'article : 2502.14614
- Titre : ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis
- Auteurs : Jiawei He, Mingyi Jia, Zhihao Jia, Junwen Duan, Yan Song, Jianxin Wang
- Classification : cs.CL (Calcul et Langage)
- Date de publication : Prépublication arXiv (version la plus récente du 15 octobre 2025)
- Lien de l'article : https://arxiv.org/abs/2502.14614
Les modèles de langage volumineux augmentés par récupération (RAG-LLMs) démontrent des performances exceptionnelles dans le domaine médical en intégrant des connaissances externes, particulièrement pour le diagnostic clinique. Cependant, les méthodes RAG existantes ont du mal à adapter les stratégies de récupération en fonction de la difficulté diagnostique et de la complétude informationnelle des échantillons d'entrée, ce qui entraîne une récupération excessive et inutile, compromettant l'efficacité computationnelle et augmentant le risque d'introduction de bruit, réduisant ainsi la précision diagnostique. Pour résoudre ce problème, cet article propose ICA-RAG (Génération Augmentée par Récupération Adaptative Guidée par l'Exhaustivité de l'Information), un nouveau cadre renforçant la fiabilité du RAG dans le diagnostic de maladies. ICA-RAG utilise un module de contrôle adaptatif pour évaluer la nécessité de récupération basée sur l'exhaustivité informationnelle de l'entrée, en optimisant la récupération et le filtrage des connaissances pour mieux aligner les opérations de récupération avec les besoins cliniques. Les expériences menées sur trois ensembles de données de dossiers médicaux électroniques chinois démontrent que ICA-RAG surpasse significativement les méthodes de base, soulignant son efficacité dans le diagnostic clinique.
Les modèles de langage volumineux font face à deux défis majeurs dans les tâches médicales :
- Problème d'hallucination : génération d'informations apparemment plausibles mais réellement erronées
- Coût de mise à jour des connaissances : nature gourmande en ressources du maintien des connaissances médicales à jour
- Absence de logique de récupération sélective : exécution indifférenciée de la récupération pour toutes les requêtes, augmentant les coûts computationnels et temporels
- Introduction de récupérations de faible qualité : risque de dégrader plutôt que d'améliorer les performances par l'introduction d'informations non pertinentes
- Spécificité du domaine médical : de nombreux cas de maladies courantes ou de symptômes légers avec diagnostic évident ne nécessitent pas de récupération pour un diagnostic précis
- Méthodes basées sur la distribution de sortie du LLM : les LLMs tendent à être excessivement confiants, générant des distributions de confiance élevée même en l'absence de connaissances pertinentes
- Méthodes basées sur des modèles de classification : dans le domaine médical, les textes d'entrée manquent généralement de motifs structurels évidents, et les petits modèles de langage ont du mal à comprendre la difficulté des tâches
- Proposition du cadre ICA-RAG : un cadre de diagnostic de maladies augmenté par récupération adaptative sans nécessité d'ajustement du LLM principal
- Méthode innovante d'annotation de données : conception d'une stratégie d'annotation basée sur des opérations de masquage, obtenant des informations d'étiquettes en provoquant différentes réponses du LLM
- Optimisation du processus de récupération : optimisation du flux de récupération pour les scénarios cliniques complexes
- Validation expérimentale : expériences étendues sur trois ensembles de données EMR chinois, démontrant l'efficacité du cadre
Diagnostic de maladie direct : étant donné une séquence de jetons représentant le texte d'entrée x=[x1,x2,...,xn], la génération de texte par LLM peut être formalisée comme :
D^=LLM(Q,prompt)
Diagnostic de maladie par RAG : récupération de connaissances pertinentes d'une source de connaissances externe et intégration :
D^=LLM(Q,d,prompt)
où d=Retriever(K,Q)
Diagnostic de maladie par RAG adaptatif : introduction d'une fonction de contrôle F pour évaluer l'entrée Q :
D^={LLM(Q,prompt),LLM(Q,d,prompt),si F(Q)=⟨Activer⟩sinon
Le cadre ICA-RAG comprend trois phases principales :
- Segmentation de texte : division de l'entrée Q en unités textuelles (par défaut, des phrases) : Q={si}i=1n
- Classification d'importance : entraînement d'un classificateur pour prédire l'importance de chaque unité :
li=Classificateur(si)∀i∈{1,2,...,n}
Les étiquettes sont classées en trois catégories :- A : informations critiques pour la décision diagnostique
- B : informations contribuant positivement à la récupération mais ne pouvant pas directement inférer le résultat
- C : informations relativement peu importantes
- Calcul de l'exhaustivité informationnelle :
Inorm(Q)=α⋅n1∑i=1n(α⋅I(li=A)+β⋅I(li=B)+γ⋅I(li=C))
- Récupération au niveau des phrases : chaque phrase sert de requête pour récupérer les m blocs de texte les plus pertinents
- Réclassement au niveau des documents : statistique du nombre de blocs récupérés pour chaque document pour effectuer un réclassement
- Stratégie de cartographie : cartographie des blocs de texte vers les documents originaux et réclassement basé sur le nombre de blocs
Utilisation d'un modèle d'invite de diagnostic différentiel pour filtrer les documents non pertinents, simulant le processus de diagnostic différentiel du médecin.
- Évaluation de l'exhaustivité informationnelle : transformation de la compréhension complexe de documents en tâche simple au niveau des phrases
- Stratégie d'annotation par masquage : obtention automatique des étiquettes d'entraînement par opérations de masquage de séquence
- Réclassement de cartographie bloc-document : calcul basé uniquement sur les valeurs des résultats de récupération, réduisant la surcharge mémoire
- Filtrage par diagnostic différentiel : simulation du processus de diagnostic différentiel clinique pour filtrer les informations non pertinentes
- CMEMR : ensemble de données de dossiers médicaux électroniques chinois
- ClinicalBench : ensemble de données de référence clinique
- CMB-Clin : ensemble de données de référence médicale chinoise clinique
Tous les ensembles de données sont configurés comme tâches de diagnostic de bout en bout, avec les informations du patient comme entrée et la conclusion diagnostique du médecin comme étiquette de vérité.
Utilisation de la Classification Internationale des Maladies (CIM-10) pour normaliser la terminologie des maladies, avec correspondance floue (seuil 0,5) pour calculer la Précision, le Rappel et le F1-score au niveau de l'ensemble.
- Méthodes sans récupération : CoT, SC-CoT, ATP
- Méthodes de récupération standard : RAG2, LongRAG
- Méthodes de récupération adaptative : Adaptive-RAG, DRAGIN, SEAKR
- Modèle principal : qwen2.5-7B-instruct
- Classificateur : BERT-base-Chinese
- Récupérateur : BM25
- Base de connaissances externe : base de données de connaissances médicales cliniques CMKD
| Méthode | CMEMR F1(%) | ClinicalBench F1(%) | CMB-Clin F1(%) |
|---|
| CoT | 48,82 | 38,46 | 52,14 |
| LongRAG | 49,07 | 39,25 | 51,81 |
| Adaptive-RAG | 49,27 | 38,04 | 53,44 |
| ICA-RAG | 50,88 | 40,79 | 53,53 |
Découvertes clés :
- ICA-RAG atteint les scores F1 optimaux ou proches de l'optimal sur tous les ensembles de données
- Par rapport à LongRAG, les valeurs F1 augmentent respectivement de 1,81 %, 1,54 % et 1,72 %
- Surpasse significativement les autres méthodes RAG adaptatives
Résultats d'ablation sur l'ensemble de données CMEMR :
| Variante | F1(%) | Ampleur de la Baisse |
|---|
| ICA-RAG | 50,88 | - |
| s/o Décision | 48,07 | -2,81% |
| s/o Bloc | 49,78 | -1,10% |
| s/o M-rerank | 49,59 | -1,29% |
| s/o Diff | 49,85 | -1,03% |
- Efficacité temporelle : amélioration significative par rapport aux méthodes RAG non adaptatives
- Efficacité paramétrique : classificateur BERT-Base (110M paramètres) plus léger que T5-Large (770M paramètres) d'Adaptive-RAG
- Applicabilité : pas besoin d'accès aux distributions de probabilité de sortie du LLM, applicable aux modèles fermés et aux déploiements d'API
- La plupart des recherches utilisent des méthodes de récupération de base, codant les connaissances externes et les requêtes de tâches via des modèles d'intégration
- Les graphes de connaissances sont également largement adoptés
- Absence d'optimisation pour les spécificités du domaine médical
- FLARE et DRAGIN : activation de la recherche lorsque le LLM génère des jetons de faible confiance
- Self-RAG : entraînement du modèle pour récupérer, critiquer et générer dynamiquement du texte
- Adaptive-RAG : évaluation de la complexité des requêtes pour déterminer la nécessité de récupération
- Les méthodes existantes ciblent principalement les tâches de questions-réponses, difficiles à transférer directement au diagnostic médical
ICA-RAG résout efficacement le problème des stratégies de récupération rigides des méthodes d'augmentation par récupération traditionnelles en optimisant les décisions de récupération adaptatives basées sur l'exhaustivité informationnelle de l'entrée, démontrant une forte adaptabilité dans les scénarios cliniques complexes.
- Limitations de la stratégie d'annotation : en raison de la possible redondance du contenu dans les informations du patient, le LLM peut toujours déduire le diagnostic correct après masquage de phrases clés, entraînant une imprécision des étiquettes d'annotation
- Complexité du texte médical : les textes médicaux cliniques contiennent des abréviations, des synonymes et des alias, avec des variations significatives dans les méthodes d'enregistrement entre médecins, affectant la précision de la récupération
- Besoin de vérification manuelle : la stratégie d'annotation automatique nécessite toujours une vérification et une correction manuelles
- Exploration de stratégies de prétraitement de texte médical plus efficaces pour améliorer la qualité de la récupération
- Application d'ICA-RAG à d'autres tâches médicales
- Optimisation supplémentaire du processus de récupération
- Innovation forte : première proposition d'un mécanisme de décision de récupération adaptative basé sur l'exhaustivité informationnelle
- Haute praticité : sans nécessité d'ajustement du LLM principal, forte applicabilité
- Expériences complètes : évaluation complète et expériences d'ablation sur plusieurs ensembles de données
- Amélioration de l'efficacité : amélioration significative de l'efficacité computationnelle tout en maintenant les performances
- Limitation des ensembles de données : validation uniquement sur des ensembles de données EMR chinois, manque de validation multilingue et multidisciplinaire
- Qualité d'annotation : la stratégie d'annotation automatique contient du bruit, nécessitant une intervention manuelle
- Définition des seuils : la définition des seuils d'exhaustivité informationnelle θ₁ et θ₂ manque de guidance théorique
- Dépendance à la base de connaissances : les performances dépendent largement de la qualité de la base de connaissances externe
- Contribution académique : fournit de nouvelles perspectives pour l'application du RAG dans le domaine de l'IA médicale
- Valeur pratique : applicable directement aux systèmes d'aide à la décision clinique
- Reproductibilité : description détaillée de la méthode, configuration expérimentale claire
- Diagnostic clinique : particulièrement adapté aux cas de symptômes complexes nécessitant un diagnostic différentiel
- Systèmes de questions-réponses médicales : peut améliorer la précision et l'efficacité des systèmes de consultation médicale
- Éducation médicale : peut servir d'outil d'assistance à l'apprentissage pour les étudiants en médecine
L'article cite 41 références connexes, couvrant plusieurs domaines importants incluant les modèles de langage volumineux, la génération augmentée par récupération, et l'IA médicale, fournissant une base théorique solide pour la recherche.
Évaluation Globale : Ceci est un article de haute qualité avec des contributions importantes dans le domaine de l'IA médicale. Les auteurs, face aux limitations des méthodes RAG existantes dans le diagnostic médical, proposent une solution innovante et valident l'efficacité de la méthode par des expériences complètes. Bien que présentant certaines limitations, son innovation et sa praticité en font un progrès important dans ce domaine.