2025-11-16T09:46:12.577001

ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

He, Jia, Jia et al.

Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge, have shown remarkable performance in medical domains, including clinical diagnosis. However, existing RAG methods often struggle to tailor retrieval strategies to diagnostic difficulty and input sample informativeness. This limitation leads to excessive and often unnecessary retrieval, impairing computational efficiency and increasing the risk of introducing noise that can degrade diagnostic accuracy. To address this, we propose ICA-RAG (\textbf{I}nformation \textbf{C}ompleteness Guided \textbf{A}daptive \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration), a novel framework for enhancing RAG reliability in disease diagnosis. ICA-RAG utilizes an adaptive control module to assess the necessity of retrieval based on the input's information completeness. By optimizing retrieval and incorporating knowledge filtering, ICA-RAG better aligns retrieval operations with clinical requirements. Experiments on three Chinese electronic medical record datasets demonstrate that ICA-RAG significantly outperforms baseline methods, highlighting its effectiveness in clinical diagnosis.

academic

ICA-RAG: 정보 완전성 기반 적응형 검색-증강 생성을 이용한 질병 진단

기본 정보

논문 ID: 2502.14614
제목: ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis
저자: Jiawei He, Mingyi Jia, Zhihao Jia, Junwen Duan, Yan Song, Jianxin Wang
분류: cs.CL (계산 언어학)
발표 시간: arXiv 사전인쇄 (2025년 10월 15일 최신 버전)
논문 링크: https://arxiv.org/abs/2502.14614

초록

검색-증강 대규모 언어모델(RAG-LLMs)은 외부 지식을 통합하여 의료 분야, 특히 임상 진단에서 우수한 성능을 보여주고 있습니다. 그러나 기존 RAG 방법은 진단 난이도와 입력 샘플의 정보량에 따라 검색 전략을 맞춤화하기 어려워 과도하고 불필요한 검색으로 인해 계산 효율성이 저하되고 노이즈 도입 위험이 증가하여 진단 정확도가 감소합니다. 이 문제를 해결하기 위해 본 논문은 ICA-RAG(정보 완전성 기반 적응형 검색-증강 생성)를 제안하며, 이는 질병 진단에서 RAG의 신뢰성을 강화하는 새로운 프레임워크입니다. ICA-RAG는 적응형 제어 모듈을 활용하여 입력의 정보 완전성을 평가하고 검색 필요성을 판단하며, 검색 최적화 및 지식 필터링을 통해 검색 작업을 임상 요구사항과 더 잘 정렬합니다. 세 개의 중국어 전자의료기록 데이터셋에 대한 실험은 ICA-RAG가 기준 방법을 크게 능가하며 임상 진단에서의 효과성을 강조함을 보여줍니다.

연구 배경 및 동기

문제 배경

대규모 언어모델은 의료 작업에서 두 가지 주요 과제에 직면합니다:

환각 문제: 그럴듯하지만 실제로는 오류인 정보 생성
지식 업데이트 비용: 의료 지식을 최신 상태로 유지하는 자원 집약적 특성

기존 RAG 방법의 한계

선택적 검색 로직 부재: 모든 쿼리에 대해 무차별적으로 검색 실행, 계산 및 시간 비용 증가
저품질 검색 도입: 무관한 정보로 인해 성능 저하 가능성
의료 분야의 특수성: 많은 일반적인 질병이나 경미한 증상의 경우 검색 없이도 정확한 진단 가능

기존 적응형 RAG의 부족함

LLM 출력 분포 기반 방법: LLM은 관련 지식이 부족해도 높은 신뢰도 분포를 생성하는 경향
분류 모델 기반 방법: 의료 분야에서 입력 텍스트는 명확한 구조 패턴을 갖지 않으며, 소규모 언어모델은 문제 난이도를 파악하기 어려움

핵심 기여

ICA-RAG 프레임워크 제안: 백본 LLM 미세조정 없이 적응형 검색-증강 질병 진단 프레임워크 개발
혁신적 데이터 주석 방법: 마스킹 작업 기반 주석 전략 설계로 LLM의 다양한 응답을 유도하여 레이블 정보 획득
검색 프로세스 최적화: 복잡한 임상 맥락에 맞춘 검색 프로세스 최적화
실험 검증: 세 개의 중국어 EMR 데이터셋에서 광범위한 실험 수행으로 프레임워크 효과성 증명

방법 상세 설명

작업 정의

직접 질병 진단: 입력 텍스트를 나타내는 토큰 시퀀스 $x = [x_1, x_2, ..., x_n]$ 이 주어졌을 때, LLM 텍스트 생성은 다음과 같이 형식화됩니다: $\hat{D} = \text{LLM}(Q, \text{prompt})$

RAG 질병 진단: 외부 지식 소스에서 관련 지식을 검색하고 통합: $\hat{D} = \text{LLM}(Q, d, \text{prompt})$ 여기서 $d = \text{Retriever}(K, Q)$

적응형 RAG 질병 진단: 입력 Q를 평가하는 제어 함수 F 도입: $\hat{D} = \begin{cases} \text{LLM}(Q, \text{prompt}), & \text{if } F(Q) = \langle\text{Activate}\rangle \\ \text{LLM}(Q, d, \text{prompt}), & \text{otherwise} \end{cases}$

모델 아키텍처

ICA-RAG 프레임워크는 세 가지 주요 단계로 구성됩니다:

단계(a): 입력 정보 완전성 기반 검색 결정 최적화

텍스트 분할: 입력 Q를 텍스트 단위(기본값: 문장)로 분할: $Q = \{s_i\}_{i=1}^n$
중요도 분류: 각 단위의 중요도를 예측하는 분류기 훈련: $l_i = \text{Classifier}(s_i) \quad \forall i \in \{1, 2, ..., n\}$ $l_{i} = Classifier (s_{i}) \forall i \in {1, 2, ..., n}$
레이블은 세 가지 범주로 분류됩니다:
- A: 진단 결정에 필수적인 정보
- B: 검색에 긍정적으로 기여하지만 결과를 직접 추론할 수 없는 정보
- C: 상대적으로 중요하지 않은 정보
정보 완전성 계산: $I_{\text{norm}}(Q) = \frac{1}{\alpha \cdot n} \sum_{i=1}^n (\alpha \cdot I(l_i = A) + \beta \cdot I(l_i = B) + \gamma \cdot I(l_i = C))$

단계(b): 문서 분할 및 매핑 기반 검색

문장 수준 검색: 각 문장을 쿼리로 사용하여 상위 m개의 관련 텍스트 청크 검색
문서 수준 재순위화: 각 문서에서 검색된 청크 수량을 통계하여 재순위화
매핑 전략: 텍스트 청크를 원본 문서로 매핑하고 청크 수에 기반하여 재순위화

단계(c): 프롬프트 기반 지식 필터링 및 진단 생성

차등 진단 프롬프트 템플릿을 사용하여 무관한 문서를 필터링하고 의사의 감별 진단 프로세스를 모방합니다.

기술 혁신 포인트

정보 완전성 평가: 복잡한 문서 이해를 단순한 문장 수준 작업으로 변환
마스킹 주석 전략: 시퀀스 마스킹 작업을 통해 자동으로 훈련 레이블 획득
청크-문서 매핑 재순위화: 검색 결과 수치만을 기반으로 계산하여 메모리 오버헤드 감소
차등 진단 필터링: 임상 감별 진단 프로세스를 모방하여 무관한 정보 필터링

실험 설정

데이터셋

CMEMR: 중국어 전자의료기록 데이터셋
ClinicalBench: 임상 벤치마크 데이터셋
CMB-Clin: 중국어 의학 벤치마크 임상 데이터셋

모든 데이터셋은 환자 정보를 입력으로, 의사 진단 결론을 참값 레이블로 하는 엔드-투-엔드 진단 작업으로 구성됩니다.

평가 지표

국제질병분류(ICD-10) 표준화 질병 용어를 사용하며, 퍼지 매칭(임계값 0.5)을 적용하여 집합 수준의 Precision, Recall 및 F1-score를 계산합니다.

비교 방법

비검색 방법: CoT, SC-CoT, ATP
표준 검색 방법: RAG2, LongRAG
적응형 검색 방법: Adaptive-RAG, DRAGIN, SEAKR

구현 세부사항

백본 모델: qwen2.5-7B-instruct
분류기: BERT-base-Chinese
검색기: BM25
외부 지식 베이스: CMKD 임상 의학 지식 데이터베이스

실험 결과

주요 결과

방법	CMEMR F1(%)	ClinicalBench F1(%)	CMB-Clin F1(%)
CoT	48.82	38.46	52.14
LongRAG	49.07	39.25	51.81
Adaptive-RAG	49.27	38.04	53.44
ICA-RAG	50.88	40.79	53.53

주요 발견:

ICA-RAG는 모든 데이터셋에서 최적 또는 최적에 가까운 F1 점수 달성
LongRAG 대비 F1값이 각각 1.81%, 1.54%, 1.72% 향상
다른 적응형 RAG 방법보다 현저히 우수

소거 실험

CMEMR 데이터셋에서의 소거 결과:

변형	F1(%)	감소폭
ICA-RAG	50.88	-
w/o Decision	48.07	-2.81%
w/o Chunk	49.78	-1.10%
w/o M-rerank	49.59	-1.29%
w/o Diff	49.85	-1.03%

효율성 분석

시간 효율성: 비적응형 RAG 방법 대비 현저한 향상
매개변수 효율성: BERT-Base 분류기(1억 1천만 매개변수)는 Adaptive-RAG의 T5-Large(7억 7천만 매개변수)보다 경량
적용성: LLM 출력 확률 분포 접근 불필요로 폐쇄형 모델 및 API 배포에 적합

결론 및 논의

주요 결론

ICA-RAG는 입력 정보 완전성 기반의 적응형 검색 결정 최적화를 통해 전통적 검색-증강 방법의 경직된 검색 전략 문제를 효과적으로 해결하며, 복잡한 임상 시나리오에서 강한 적응성을 보여줍니다.

한계

주석 전략 제한: 환자 정보에 반복 내용이 있을 수 있어 핵심 문장을 마스킹한 후에도 LLM이 올바른 진단을 도출할 수 있어 주석 레이블 부정확성 야기
의료 텍스트 복잡성: 임상 의료 텍스트는 약자, 동의어 및 별칭을 포함하며, 의사마다 기록 방식이 상이하여 검색 정확성에 영향
인적 검토 필요: 자동 주석 전략도 인적 검토 및 수정 필요

향후 방향

검색 품질 향상을 위한 더 효과적인 의료 텍스트 전처리 전략 탐색
ICA-RAG를 다른 의료 작업에 적용
검색 프로세스 추가 최적화

심층 평가

장점

높은 혁신성: 정보 완전성 기반 적응형 검색 결정 메커니즘 최초 제안
높은 실용성: 백본 LLM 미세조정 불필요로 적용성 우수
충분한 실험: 다중 데이터셋에서의 포괄적 평가 및 소거 실험 수행
효율성 향상: 성능 유지 동시에 계산 효율성 현저히 향상

부족함

데이터셋 제한: 중국어 EMR 데이터셋에서만 검증으로 교차 언어 및 교차 도메인 검증 부재
주석 품질: 자동 주석 전략에 노이즈 존재로 인적 개입 필요
임계값 설정: 정보 완전성 임계값 θ₁ 및 θ₂의 설정에 이론적 지침 부족
지식 베이스 의존성: 성능이 외부 지식 베이스 품질에 크게 의존

영향력

학술적 기여: 의료 AI 분야의 RAG 응용에 새로운 관점 제공
실용적 가치: 임상 의사결정 지원 시스템에 직접 적용 가능
재현성: 방법 설명이 상세하고 실험 설정이 명확

적용 시나리오

임상 진단: 특히 증상이 복잡하고 감별 진단이 필요한 사례에 적합
의료 질문-답변 시스템: 의료 상담 시스템의 정확성 및 효율성 향상 가능
의학 교육: 의학생 학습의 보조 도구로 활용 가능

참고문헌

본 논문은 41편의 관련 문헌을 인용하며, 대규모 언어모델, 검색-증강 생성, 의료 AI 등 다양한 분야의 중요 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 의료 AI 분야에서 중요한 기여를 하는 고품질 논문입니다. 저자들은 기존 RAG 방법의 의료 진단 적용 시 한계를 지적하고 혁신적인 해결책을 제안하며, 충분한 실험을 통해 방법의 효과성을 검증했습니다. 몇 가지 한계가 있지만, 혁신성과 실용성으로 인해 해당 분야의 중요한 진전이 됩니다.