2025-11-16T09:46:12.577001

ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

He, Jia, Jia et al.

Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge, have shown remarkable performance in medical domains, including clinical diagnosis. However, existing RAG methods often struggle to tailor retrieval strategies to diagnostic difficulty and input sample informativeness. This limitation leads to excessive and often unnecessary retrieval, impairing computational efficiency and increasing the risk of introducing noise that can degrade diagnostic accuracy. To address this, we propose ICA-RAG (\textbf{I}nformation \textbf{C}ompleteness Guided \textbf{A}daptive \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration), a novel framework for enhancing RAG reliability in disease diagnosis. ICA-RAG utilizes an adaptive control module to assess the necessity of retrieval based on the input's information completeness. By optimizing retrieval and incorporating knowledge filtering, ICA-RAG better aligns retrieval operations with clinical requirements. Experiments on three Chinese electronic medical record datasets demonstrate that ICA-RAG significantly outperforms baseline methods, highlighting its effectiveness in clinical diagnosis.

academic

ICA-RAG: रोग निदान के लिए सूचना पूर्णता निर्देशित अनुकूली पुनर्प्राप्ति-संवर्धित पीढ़ी

मूल जानकारी

पेपर ID: 2502.14614
शीर्षक: ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis
लेखक: Jiawei He, Mingyi Jia, Zhihao Jia, Junwen Duan, Yan Song, Jianxin Wang
वर्गीकरण: cs.CL (कम्प्यूटेशन और भाषा)
प्रकाशन समय: arXiv प्रीप्रिंट (25 अक्टूबर 2025 का नवीनतम संस्करण)
पेपर लिंक: https://arxiv.org/abs/2502.14614

सारांश

पुनर्प्राप्ति-संवर्धित बड़े भाषा मॉडल (RAG-LLMs) बाहरी ज्ञान को एकीकृत करके चिकित्सा क्षेत्र में असाधारण प्रदर्शन प्रदर्शित करते हैं, विशेष रूप से नैदानिक निदान में। हालांकि, मौजूदा RAG विधियां निदान की कठिनाई और इनपुट नमूने की सूचना मात्रा के अनुसार पुनर्प्राप्ति रणनीति को अनुकूलित करने में विफल रहती हैं, जिससे अत्यधिक और अनावश्यक पुनर्प्राप्ति होती है, जो कम्प्यूटेशनल दक्षता को नुकसान पहुंचाती है और शोर परिचय का जोखिम बढ़ाती है, जिससे निदान सटीकता में कमी आती है। इस समस्या को हल करने के लिए, यह पेपर ICA-RAG (सूचना पूर्णता निर्देशित अनुकूली पुनर्प्राप्ति-संवर्धित पीढ़ी) प्रस्तावित करता है, जो रोग निदान में RAG की विश्वसनीयता को बढ़ाने के लिए एक नया ढांचा है। ICA-RAG इनपुट की सूचना पूर्णता के आधार पर पुनर्प्राप्ति की आवश्यकता का मूल्यांकन करने के लिए अनुकूली नियंत्रण मॉड्यूल का उपयोग करता है, पुनर्प्राप्ति और ज्ञान फ़िल्टरिंग को अनुकूलित करके, पुनर्प्राप्ति संचालन को नैदानिक आवश्यकताओं के साथ बेहतर ढंग से संरेखित करता है। तीन चीनी इलेक्ट्रॉनिक चिकित्सा रिकॉर्ड डेटासेट पर प्रयोग दर्शाते हैं कि ICA-RAG आधारभूत विधियों से काफी बेहतर है, जो नैदानिक निदान में इसकी प्रभावशीलता को उजागर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

बड़े भाषा मॉडल चिकित्सा कार्यों में दो प्रमुख चुनौतियों का सामना करते हैं:

भ्रम समस्या: ऐसी जानकारी उत्पन्न करना जो उचित लगे लेकिन वास्तव में गलत हो
ज्ञान अद्यतन लागत: चिकित्सा ज्ञान को वर्तमान रखने की संसाधन-गहन प्रकृति

मौजूदा RAG विधियों की सीमाएं

चयनात्मक पुनर्प्राप्ति तर्क की कमी: सभी प्रश्नों के लिए भेदभाव रहित पुनर्प्राप्ति, कम्प्यूटेशनल और समय लागत में वृद्धि
निम्न गुणवत्ता की पुनर्प्राप्ति का परिचय: असंबंधित जानकारी के माध्यम से प्रदर्शन को कम करने की संभावना
चिकित्सा क्षेत्र की विशेषता: कई सामान्य रोग या हल्के लक्षण वाले मामले स्पष्ट निदान के साथ पुनर्प्राप्ति के बिना सटीक निदान के लिए

मौजूदा अनुकूली RAG की कमियां

LLM आउटपुट वितरण पर आधारित विधियां: LLM अत्यधिक आत्मविश्वास प्रदर्शित करते हैं, संबंधित ज्ञान की कमी के बावजूद उच्च आत्मविश्वास वितरण उत्पन्न करते हैं
वर्गीकरण मॉडल पर आधारित विधियां: चिकित्सा क्षेत्र में, इनपुट पाठ आमतौर पर स्पष्ट संरचनात्मक पैटर्न नहीं रखते हैं, छोटे भाषा मॉडल प्रश्न कठिनाई को समझने में विफल रहते हैं

मुख्य योगदान

ICA-RAG ढांचा प्रस्तावित करना: एक अनुकूली पुनर्प्राप्ति-संवर्धित रोग निदान ढांचा जिसमें बैकबोन LLM को ट्यून करने की आवश्यकता नहीं है
नवीन डेटा एनोटेशन विधि: मास्किंग संचालन पर आधारित एनोटेशन रणनीति डिजाइन करना, LLM की विभिन्न प्रतिक्रियाओं को प्रेरित करके लेबल जानकारी प्राप्त करना
पुनर्प्राप्ति प्रक्रिया को अनुकूलित करना: जटिल संदर्भ वाले नैदानिक परिदृश्यों के लिए पुनर्प्राप्ति प्रवाह को अनुकूलित करना
प्रायोगिक सत्यापन: तीन चीनी EMR डेटासेट पर व्यापक प्रयोग, ढांचे की प्रभावशीलता को साबित करना

विधि विवरण

कार्य परिभाषा

प्रत्यक्ष रोग निदान: इनपुट पाठ का प्रतिनिधित्व करने वाले टोकन अनुक्रम $x = [x_1, x_2, ..., x_n]$ दिया गया है, LLM पाठ पीढ़ी को निम्नानुसार औपचारिक किया जा सकता है: $\hat{D} = \text{LLM}(Q, \text{prompt})$

RAG रोग निदान: बाहरी ज्ञान स्रोत से संबंधित ज्ञान पुनर्प्राप्त करना और एकीकृत करना: $\hat{D} = \text{LLM}(Q, d, \text{prompt})$ जहां $d = \text{Retriever}(K, Q)$

अनुकूली RAG रोग निदान: इनपुट Q का मूल्यांकन करने के लिए नियंत्रण फ़ंक्शन F का परिचय: $\hat{D} = \begin{cases} \text{LLM}(Q, \text{prompt}), & \text{if } F(Q) = \langle\text{Activate}\rangle \\ \text{LLM}(Q, d, \text{prompt}), & \text{otherwise} \end{cases}$

मॉडल आर्किटेक्चर

ICA-RAG ढांचे में तीन मुख्य चरण हैं:

चरण (a): इनपुट सूचना पूर्णता पर आधारित पुनर्प्राप्ति निर्णय अनुकूलन

पाठ विभाजन: इनपुट Q को पाठ इकाइयों में विभाजित करना (डिफ़ॉल्ट रूप से वाक्य): $Q = \{s_i\}_{i=1}^n$
महत्व वर्गीकरण: प्रत्येक इकाई की महत्व की भविष्यवाणी करने के लिए वर्गीकरणकर्ता को प्रशिक्षित करना: $l_i = \text{Classifier}(s_i) \quad \forall i \in \{1, 2, ..., n\}$ $l_{i} = Classifier (s_{i}) \forall i \in {1, 2, ..., n}$
लेबल तीन श्रेणियों में विभाजित हैं:
- A: निदान निर्णय के लिए महत्वपूर्ण जानकारी
- B: पुनर्प्राप्ति में सकारात्मक योगदान लेकिन सीधे परिणाम का अनुमान नहीं लगा सकते
- C: अपेक्षाकृत महत्वहीन जानकारी
सूचना पूर्णता गणना: $I_{\text{norm}}(Q) = \frac{1}{\alpha \cdot n} \sum_{i=1}^n (\alpha \cdot I(l_i = A) + \beta \cdot I(l_i = B) + \gamma \cdot I(l_i = C))$

चरण (b): दस्तावेज़ विभाजन और मैपिंग पर आधारित पुनर्प्राप्ति

वाक्य-स्तरीय पुनर्प्राप्ति: प्रत्येक वाक्य को शीर्ष-m संबंधित पाठ ब्लॉक पुनर्प्राप्त करने के लिए क्वेरी के रूप में उपयोग करना
दस्तावेज़-स्तरीय पुनः रैंकिंग: प्रत्येक दस्तावेज़ के लिए पुनर्प्राप्त ब्लॉक की संख्या की गणना करके पुनः रैंकिंग करना
मैपिंग रणनीति: पाठ ब्लॉक को मूल दस्तावेज़ में वापस मैप करना और ब्लॉक गणना के आधार पर पुनः रैंकिंग करना

चरण (c): प्रॉम्प्ट-निर्देशित ज्ञान फ़िल्टरिंग और निदान पीढ़ी

असंबंधित दस्तावेज़ों को फ़िल्टर करने के लिए विभेदक निदान प्रॉम्प्ट टेम्पलेट का उपयोग करना, चिकित्सक की विभेदक निदान प्रक्रिया का अनुकरण करना।

तकनीकी नवाचार बिंदु

सूचना पूर्णता मूल्यांकन: जटिल दस्तावेज़ समझ को सरल वाक्य-स्तरीय कार्य में परिवर्तित करना
मास्क एनोटेशन रणनीति: अनुक्रम मास्किंग संचालन के माध्यम से स्वचालित रूप से प्रशिक्षण लेबल प्राप्त करना
ब्लॉक-दस्तावेज़ मैपिंग पुनः रैंकिंग: केवल पुनर्प्राप्ति परिणाम संख्याओं के आधार पर गणना, मेमोरी ओवरहेड को कम करना
विभेदक निदान फ़िल्टरिंग: नैदानिक विभेदक निदान प्रक्रिया का अनुकरण करके असंबंधित जानकारी को फ़िल्टर करना

प्रायोगिक सेटअप

डेटासेट

CMEMR: चीनी इलेक्ट्रॉनिक चिकित्सा रिकॉर्ड डेटासेट
ClinicalBench: नैदानिक बेंचमार्क डेटासेट
CMB-Clin: चीनी चिकित्सा बेंचमार्क नैदानिक डेटासेट

सभी डेटासेट एंड-टू-एंड निदान कार्य के रूप में कॉन्फ़िगर किए गए हैं, रोगी की जानकारी को इनपुट के रूप में और चिकित्सक के निदान निष्कर्ष को सत्य लेबल के रूप में।

मूल्यांकन मेट्रिक्स

अंतर्राष्ट्रीय रोग वर्गीकरण (ICD-10) मानकीकृत रोग शब्दावली का उपयोग करना, फ़ज़ी मिलान (थ्रेसहोल्ड 0.5) का उपयोग करके सेट-स्तरीय Precision, Recall और F1-score की गणना करना।

तुलनात्मक विधियां

गैर-पुनर्प्राप्ति विधियां: CoT, SC-CoT, ATP
मानक पुनर्प्राप्ति विधियां: RAG2, LongRAG
अनुकूली पुनर्प्राप्ति विधियां: Adaptive-RAG, DRAGIN, SEAKR

कार्यान्वयन विवरण

बैकबोन मॉडल: qwen2.5-7B-instruct
वर्गीकरणकर्ता: BERT-base-Chinese
पुनर्प्राप्तिकर्ता: BM25
बाहरी ज्ञान आधार: CMKD नैदानिक चिकित्सा ज्ञान डेटाबेस

प्रायोगिक परिणाम

मुख्य परिणाम

विधि	CMEMR F1(%)	ClinicalBench F1(%)	CMB-Clin F1(%)
CoT	48.82	38.46	52.14
LongRAG	49.07	39.25	51.81
Adaptive-RAG	49.27	38.04	53.44
ICA-RAG	50.88	40.79	53.53

मुख्य निष्कर्ष:

ICA-RAG सभी डेटासेट पर इष्टतम या निकट-इष्टतम F1 स्कोर प्राप्त करता है
LongRAG की तुलना में, F1 मान क्रमशः 1.81%, 1.54%, 1.72% में सुधार
अन्य अनुकूली RAG विधियों से काफी बेहतर

विलोपन प्रयोग

CMEMR डेटासेट पर विलोपन परिणाम:

वेरिएंट	F1(%)	कमी
ICA-RAG	50.88	-
w/o Decision	48.07	-2.81%
w/o Chunk	49.78	-1.10%
w/o M-rerank	49.59	-1.29%
w/o Diff	49.85	-1.03%

दक्षता विश्लेषण

समय दक्षता: गैर-अनुकूली RAG विधियों की तुलना में महत्वपूर्ण सुधार
पैरामीटर दक्षता: BERT-Base वर्गीकरणकर्ता (110M पैरामीटर) Adaptive-RAG के T5-Large (770M पैरामीटर) की तुलना में अधिक हल्का
प्रयोज्यता: LLM आउटपुट संभाव्यता वितरण तक पहुंच की आवश्यकता नहीं, बंद-स्रोत मॉडल और API तैनाती के लिए उपयुक्त

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ICA-RAG इनपुट सूचना पूर्णता के आधार पर अनुकूली पुनर्प्राप्ति निर्णय अनुकूलन के माध्यम से, पारंपरिक पुनर्प्राप्ति-संवर्धित विधियों में कठोर पुनर्प्राप्ति रणनीति की समस्या को प्रभावी ढंग से हल करता है, जटिल नैदानिक परिदृश्यों में मजबूत अनुकूलन क्षमता प्रदर्शित करता है।

सीमाएं

एनोटेशन रणनीति सीमाएं: रोगी की जानकारी में दोहराई गई सामग्री हो सकती है, मुख्य वाक्य को मास्क करने के बाद LLM अभी भी सही निदान पर पहुंच सकता है, जिससे एनोटेशन लेबल अशुद्धि होती है
चिकित्सा पाठ जटिलता: नैदानिक चिकित्सा पाठ में संक्षिप्त रूप, समानार्थी शब्द और वैकल्पिक नाम होते हैं, विभिन्न चिकित्सकों द्वारा रिकॉर्डिंग विधि में महत्वपूर्ण अंतर, पुनर्प्राप्ति सटीकता को प्रभावित करता है
मानव जांच की आवश्यकता: स्वचालित एनोटेशन रणनीति को अभी भी मानव जांच और सुधार की आवश्यकता है

भविष्य की दिशाएं

चिकित्सा पाठ प्रीप्रोसेसिंग की अधिक प्रभावी रणनीतियों की खोज करना ताकि पुनर्प्राप्ति गुणवत्ता में सुधार हो
ICA-RAG को अन्य चिकित्सा कार्यों में लागू करना
पुनर्प्राप्ति प्रक्रिया को और अनुकूलित करना

गहन मूल्यांकन

लाभ

मजबूत नवाचार: सूचना पूर्णता के आधार पर अनुकूली पुनर्प्राप्ति निर्णय तंत्र प्रस्तावित करने वाला पहला
उच्च व्यावहारिकता: बैकबोन LLM को ट्यून करने की आवश्यकता नहीं, मजबूत प्रयोज्यता
पर्याप्त प्रयोग: कई डेटासेट पर व्यापक मूल्यांकन और विलोपन प्रयोग
दक्षता में सुधार: प्रदर्शन बनाए रखते हुए कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार

कमियां

डेटासेट सीमाएं: केवल चीनी EMR डेटासेट पर सत्यापित, क्रॉस-भाषा और क्रॉस-डोमेन सत्यापन की कमी
एनोटेशन गुणवत्ता: स्वचालित एनोटेशन रणनीति में शोर है, मानव हस्तक्षेप की आवश्यकता है
थ्रेसहोल्ड सेटिंग: सूचना पूर्णता थ्रेसहोल्ड θ₁ और θ₂ की सेटिंग में सैद्धांतिक मार्गदर्शन की कमी है
ज्ञान आधार निर्भरता: प्रदर्शन बाहरी ज्ञान आधार की गुणवत्ता पर बहुत अधिक निर्भर है

प्रभाव

शैक्षणिक योगदान: चिकित्सा AI क्षेत्र में RAG अनुप्रयोग के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: नैदानिक निर्णय समर्थन प्रणालियों में सीधे लागू किया जा सकता है
पुनरुत्पादनीयता: विधि विवरण विस्तृत, प्रायोगिक सेटअप स्पष्ट

लागू परिदृश्य

नैदानिक निदान: विशेष रूप से जटिल लक्षण वाले मामलों के लिए उपयुक्त, विभेदक निदान की आवश्यकता
चिकित्सा प्रश्नोत्तर प्रणाली: चिकित्सा परामर्श प्रणाली की सटीकता और दक्षता में सुधार कर सकता है
चिकित्सा शिक्षा: चिकित्सा छात्रों के सीखने के लिए सहायक उपकरण के रूप में काम कर सकता है

संदर्भ

पेपर ने 41 संबंधित संदर्भों का हवाला दिया है, जो बड़े भाषा मॉडल, पुनर्प्राप्ति-संवर्धित पीढ़ी, चिकित्सा AI और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह चिकित्सा AI क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च गुणवत्ता वाला पेपर है। लेखकों ने चिकित्सा निदान में मौजूदा RAG विधियों की सीमाओं के लिए एक नवीन समाधान प्रस्तावित किया है, और पर्याप्त प्रयोगों के माध्यम से विधि की प्रभावशीलता को सत्यापित किया है। हालांकि कुछ सीमाएं हैं, इसकी नवाचार और व्यावहारिकता इसे इस क्षेत्र में एक महत्वपूर्ण प्रगति बनाती है।