2025-11-16T09:46:12.577001

ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

He, Jia, Jia et al.

Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge, have shown remarkable performance in medical domains, including clinical diagnosis. However, existing RAG methods often struggle to tailor retrieval strategies to diagnostic difficulty and input sample informativeness. This limitation leads to excessive and often unnecessary retrieval, impairing computational efficiency and increasing the risk of introducing noise that can degrade diagnostic accuracy. To address this, we propose ICA-RAG (\textbf{I}nformation \textbf{C}ompleteness Guided \textbf{A}daptive \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration), a novel framework for enhancing RAG reliability in disease diagnosis. ICA-RAG utilizes an adaptive control module to assess the necessity of retrieval based on the input's information completeness. By optimizing retrieval and incorporating knowledge filtering, ICA-RAG better aligns retrieval operations with clinical requirements. Experiments on three Chinese electronic medical record datasets demonstrate that ICA-RAG significantly outperforms baseline methods, highlighting its effectiveness in clinical diagnosis.

academic

ICA-RAG: Generazione Aumentata da Recupero Adattivo Guidata dalla Completezza Informativa per la Diagnosi di Malattie

Informazioni Fondamentali

ID Articolo: 2502.14614
Titolo: ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis
Autori: Jiawei He, Mingyi Jia, Zhihao Jia, Junwen Duan, Yan Song, Jianxin Wang
Classificazione: cs.CL (Computazione e Linguaggio)
Data di Pubblicazione: Preprint arXiv (versione più recente del 15 ottobre 2025)
Link Articolo: https://arxiv.org/abs/2502.14614

Riassunto

I modelli linguistici di grandi dimensioni potenziati dal recupero (RAG-LLMs) hanno dimostrato prestazioni eccellenti nel settore medico integrando conoscenze esterne, in particolare nella diagnosi clinica. Tuttavia, i metodi RAG esistenti faticano ad adattare le strategie di recupero in base alla difficoltà diagnostica e alla quantità di informazioni nell'input, causando recuperi eccessivi e non necessari che compromettono l'efficienza computazionale e aumentano il rischio di introdurre rumore, riducendo così l'accuratezza diagnostica. Per affrontare questo problema, il presente articolo propone ICA-RAG (Generazione Aumentata da Recupero Adattivo Guidata dalla Completezza Informativa), un nuovo framework per migliorare l'affidabilità della RAG nella diagnosi di malattie. ICA-RAG utilizza un modulo di controllo adattivo per valutare la necessità di recupero in base alla completezza informativa dell'input, allineando meglio le operazioni di recupero alle esigenze cliniche attraverso l'ottimizzazione del recupero e il filtraggio della conoscenza. Gli esperimenti su tre dataset di cartelle cliniche elettroniche in cinese dimostrano che ICA-RAG supera significativamente i metodi di base, evidenziando la sua efficacia nella diagnosi clinica.

Contesto di Ricerca e Motivazione

Contesto del Problema

I modelli linguistici di grandi dimensioni affrontano due sfide principali nei compiti medici:

Problema delle allucinazioni: generazione di informazioni apparentemente plausibili ma effettivamente errate
Costo dell'aggiornamento della conoscenza: intensità di risorse nel mantenere la conoscenza medica aggiornata

Limitazioni dei Metodi RAG Esistenti

Mancanza di logica di recupero selettiva: esecuzione indiscriminata del recupero per tutte le query, aumentando i costi computazionali e temporali
Introduzione di recuperi di bassa qualità: possibilità di degradare piuttosto che migliorare le prestazioni attraverso informazioni irrilevanti
Specificità del dominio medico: molti casi di malattie comuni o sintomi lievi con diagnosi chiara non richiedono recupero per una diagnosi accurata

Insufficienze della RAG Adattiva Esistente

Metodi basati sulla distribuzione dell'output dell'LLM: gli LLM tendono ad essere eccessivamente fiduciosi, generando distribuzioni ad alta confidenza anche in assenza di conoscenza rilevante
Metodi basati su modelli di classificazione: nel dominio medico, il testo di input generalmente non presenta pattern strutturali evidenti, e i modelli linguistici di piccole dimensioni faticano a comprendere la difficoltà dei compiti

Contributi Principali

Proposta del framework ICA-RAG: un framework di diagnosi di malattie con recupero aumentato adattivo che non richiede l'ottimizzazione del modello linguistico di base
Metodo innovativo di annotazione dei dati: progettazione di una strategia di annotazione basata su operazioni di mascheramento per ottenere informazioni di etichettatura attraverso risposte diverse dell'LLM
Ottimizzazione del processo di recupero: ottimizzazione del flusso di recupero per scenari clinici con contesto complesso
Verifica sperimentale: esperimenti estesi su tre dataset di cartelle cliniche elettroniche in cinese per dimostrare l'efficacia del framework

Spiegazione Dettagliata del Metodo

Definizione del Compito

Diagnosi Diretta di Malattie: dato una sequenza di token che rappresenta il testo di input $x = [x_1, x_2, ..., x_n]$ , la generazione di testo dell'LLM può essere formalizzata come: $\hat{D} = \text{LLM}(Q, \text{prompt})$

Diagnosi di Malattie con RAG: recupero di conoscenze rilevanti da fonti di conoscenza esterne e integrazione: $\hat{D} = \text{LLM}(Q, d, \text{prompt})$ dove $d = \text{Retriever}(K, Q)$

Diagnosi di Malattie con RAG Adattiva: introduzione di una funzione di controllo F per valutare l'input Q: $\hat{D} = \begin{cases} \text{LLM}(Q, \text{prompt}), & \text{se } F(Q) = \langle\text{Activate}\rangle \\ \text{LLM}(Q, d, \text{prompt}), & \text{altrimenti} \end{cases}$

Architettura del Modello

Il framework ICA-RAG comprende tre fasi principali:

Fase (a): Ottimizzazione della Decisione di Recupero Basata sulla Completezza Informativa dell'Input

Segmentazione del Testo: divisione dell'input Q in unità di testo (per impostazione predefinita frasi): $Q = \{s_i\}_{i=1}^n$
Classificazione dell'Importanza: addestramento di un classificatore per prevedere l'importanza di ogni unità: $l_i = \text{Classifier}(s_i) \quad \forall i \in \{1, 2, ..., n\}$ $l_{i} = Classifier (s_{i}) \forall i \in {1, 2, ..., n}$
Le etichette sono divise in tre categorie:
- A: informazioni critiche per la decisione diagnostica
- B: informazioni che contribuiscono positivamente al recupero ma non possono inferire direttamente il risultato
- C: informazioni relativamente non importanti
Calcolo della Completezza Informativa: $I_{\text{norm}}(Q) = \frac{1}{\alpha \cdot n} \sum_{i=1}^n (\alpha \cdot I(l_i = A) + \beta \cdot I(l_i = B) + \gamma \cdot I(l_i = C))$

Fase (b): Recupero Basato su Segmentazione di Documenti e Mappatura

Recupero a Livello di Frase: ogni frase come query per recuperare i top-m blocchi di testo correlati
Rirrangiamento a Livello di Documento: conteggio dei blocchi recuperati per ogni documento per il rirrangiamento
Strategia di Mappatura: mappatura dei blocchi di testo ai documenti originali e rirrangiamento basato sul conteggio dei blocchi

Fase (c): Filtraggio della Conoscenza Guidato da Prompt e Generazione della Diagnosi

Utilizzo di un template di prompt di diagnosi differenziale per filtrare documenti non rilevanti, simulando il processo di diagnosi differenziale del medico.

Punti di Innovazione Tecnica

Valutazione della Completezza Informativa: trasformazione della comprensione complessa di documenti in compiti semplici a livello di frase
Strategia di Annotazione con Mascheramento: acquisizione automatica di etichette di addestramento attraverso operazioni di mascheramento di sequenze
Rirrangiamento di Mappatura Blocco-Documento: calcolo basato solo su valori numerici dei risultati di recupero, riducendo il sovraccarico di memoria
Filtraggio di Diagnosi Differenziale: simulazione del processo clinico di diagnosi differenziale per filtrare informazioni irrilevanti

Configurazione Sperimentale

Dataset

CMEMR: dataset di cartelle cliniche elettroniche in cinese
ClinicalBench: dataset di benchmark clinico
CMB-Clin: dataset di benchmark medico cinese clinico

Tutti i dataset sono configurati come compiti di diagnosi end-to-end, con informazioni del paziente come input e conclusioni diagnostiche del medico come etichette di verità.

Metriche di Valutazione

Utilizzo della Classificazione Internazionale delle Malattie (ICD-10) per standardizzare la terminologia delle malattie, con calcolo di Precision, Recall e F1-score a livello di insieme utilizzando corrispondenza fuzzy (soglia 0,5).

Metodi di Confronto

Metodi non basati su recupero: CoT, SC-CoT, ATP
Metodi di recupero standard: RAG2, LongRAG
Metodi di recupero adattivo: Adaptive-RAG, DRAGIN, SEAKR

Dettagli di Implementazione

Modello di Base: qwen2.5-7B-instruct
Classificatore: BERT-base-Chinese
Recuperatore: BM25
Base di Conoscenza Esterna: database di conoscenza medica clinica CMKD

Risultati Sperimentali

Risultati Principali

Metodo	CMEMR F1(%)	ClinicalBench F1(%)	CMB-Clin F1(%)
CoT	48,82	38,46	52,14
LongRAG	49,07	39,25	51,81
Adaptive-RAG	49,27	38,04	53,44
ICA-RAG	50,88	40,79	53,53

Scoperte Chiave:

ICA-RAG raggiunge il punteggio F1 ottimale o quasi ottimale su tutti i dataset
Rispetto a LongRAG, i valori F1 aumentano rispettivamente dell'1,81%, 1,54% e 1,72%
Significativamente superiore ad altri metodi RAG adattivi

Esperimenti di Ablazione

Risultati di ablazione sul dataset CMEMR:

Variante	F1(%)	Diminuzione
ICA-RAG	50,88	-
w/o Decision	48,07	-2,81%
w/o Chunk	49,78	-1,10%
w/o M-rerank	49,59	-1,29%
w/o Diff	49,85	-1,03%

Analisi di Efficienza

Efficienza Temporale: miglioramento significativo rispetto ai metodi RAG non adattivi
Efficienza dei Parametri: classificatore BERT-Base (110M parametri) più leggero rispetto a T5-Large di Adaptive-RAG (770M parametri)
Applicabilità: non richiede accesso alla distribuzione di probabilità dell'output dell'LLM, applicabile a modelli closed-source e distribuzioni API

Lavori Correlati

Applicazione della RAG nella Diagnosi Clinica di Malattie

La maggior parte della ricerca utilizza metodi di recupero di base, codificando la conoscenza esterna e le query di compiti tramite modelli di embedding
I grafi di conoscenza sono ampiamente adottati
Mancanza di ottimizzazioni specifiche per le caratteristiche del dominio medico

RAG Adattiva

FLARE e DRAGIN: attivazione della ricerca quando l'LLM genera token a bassa confidenza
Self-RAG: addestramento del modello per recuperare, criticare e generare testo dinamicamente
Adaptive-RAG: valutazione della complessità della query per determinare la necessità di recupero
I metodi esistenti sono principalmente orientati ai compiti di question-answering e difficili da trasferire direttamente alla diagnosi medica

Conclusioni e Discussione

Conclusioni Principali

ICA-RAG affronta efficacemente il problema delle strategie di recupero rigide nei metodi tradizionali di recupero aumentato, ottimizzando le decisioni di recupero adattivo basate sulla completezza informativa dell'input, dimostrando forte adattabilità in scenari clinici complessi.

Limitazioni

Limitazioni della Strategia di Annotazione: a causa della possibile presenza di contenuti ripetitivi nelle informazioni del paziente, l'LLM potrebbe comunque trarre la diagnosi corretta dopo il mascheramento di frasi chiave, causando imprecisioni nelle etichette di annotazione
Complessità del Testo Medico: il testo medico clinico contiene abbreviazioni, sinonimi e alias, con differenze significative nei metodi di registrazione tra diversi medici, influenzando l'accuratezza del recupero
Necessità di Verifica Umana: la strategia di annotazione automatica richiede comunque verifica e correzione umana

Direzioni Future

Esplorazione di strategie di pre-elaborazione del testo medico più efficaci per migliorare la qualità del recupero
Applicazione di ICA-RAG ad altri compiti medici
Ulteriore ottimizzazione del processo di recupero

Valutazione Approfondita

Punti di Forza

Forte Innovatività: primo a proporre un meccanismo di decisione di recupero adattivo basato sulla completezza informativa
Alta Praticità: non richiede l'ottimizzazione del modello linguistico di base, forte applicabilità
Esperimenti Completi: valutazione completa e esperimenti di ablazione su più dataset
Miglioramento dell'Efficienza: miglioramento significativo dell'efficienza computazionale mantenendo le prestazioni

Insufficienze

Limitazioni dei Dataset: verifica solo su dataset di cartelle cliniche elettroniche in cinese, mancanza di verifica cross-linguistica e cross-dominio
Qualità dell'Annotazione: la strategia di annotazione automatica presenta rumore, richiedendo intervento umano
Impostazione della Soglia: l'impostazione delle soglie di completezza informativa θ₁ e θ₂ manca di guida teorica
Dipendenza dalla Base di Conoscenza: le prestazioni dipendono in larga misura dalla qualità della base di conoscenza esterna

Impatto

Contributo Accademico: fornisce nuove prospettive per l'applicazione della RAG nel campo dell'IA medica
Valore Pratico: applicabile direttamente ai sistemi di supporto alle decisioni cliniche
Riproducibilità: descrizione del metodo dettagliata, configurazione sperimentale chiara

Scenari Applicabili

Diagnosi Clinica: particolarmente adatto a casi con sintomi complessi che richiedono diagnosi differenziale
Sistemi di Domande e Risposte Mediche: può migliorare l'accuratezza e l'efficienza dei sistemi di consulenza medica
Educazione Medica: può servire come strumento di supporto all'apprendimento per gli studenti di medicina

Riferimenti Bibliografici

L'articolo cita 41 lavori correlati, coprendo importanti ricerche in più campi inclusi modelli linguistici di grandi dimensioni, generazione aumentata da recupero, IA medica, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: questo è un articolo di alta qualità con importanti contributi nel campo dell'IA medica. Gli autori, affrontando le limitazioni dei metodi RAG esistenti nella diagnosi medica, propongono una soluzione innovativa e verificano l'efficacia del metodo attraverso esperimenti sufficienti. Sebbene presenti alcune limitazioni, la sua innovatività e praticità lo rendono un progresso importante in questo campo.