2025-11-16T09:46:12.577001

ICA-RAG: Information Completeness Guided Adaptive Retrieval-Augmented Generation for Disease Diagnosis

He, Jia, Jia et al.

Retrieval-Augmented Large Language Models (LLMs), which integrate external knowledge, have shown remarkable performance in medical domains, including clinical diagnosis. However, existing RAG methods often struggle to tailor retrieval strategies to diagnostic difficulty and input sample informativeness. This limitation leads to excessive and often unnecessary retrieval, impairing computational efficiency and increasing the risk of introducing noise that can degrade diagnostic accuracy. To address this, we propose ICA-RAG (\textbf{I}nformation \textbf{C}ompleteness Guided \textbf{A}daptive \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration), a novel framework for enhancing RAG reliability in disease diagnosis. ICA-RAG utilizes an adaptive control module to assess the necessity of retrieval based on the input's information completeness. By optimizing retrieval and incorporating knowledge filtering, ICA-RAG better aligns retrieval operations with clinical requirements. Experiments on three Chinese electronic medical record datasets demonstrate that ICA-RAG significantly outperforms baseline methods, highlighting its effectiveness in clinical diagnosis.

academic

ICA-RAG: الاسترجاع المعزز التكيفي الموجه بإكمال المعلومات لتشخيص الأمراض

المعلومات الأساسية

معرّف الورقة: 2502.14614
العنوان: ICA-RAG: الاسترجاع المعزز التكيفي الموجه بإكمال المعلومات لتشخيص الأمراض
المؤلفون: Jiawei He, Mingyi Jia, Zhihao Jia, Junwen Duan, Yan Song, Jianxin Wang
التصنيف: cs.CL (الحوسبة واللغة)
وقت النشر: طبعة arXiv (النسخة الأحدث في 15 أكتوبر 2025)
رابط الورقة: https://arxiv.org/abs/2502.14614

الملخص

تُظهر نماذج اللغة الكبيرة المعززة بالاسترجاع (RAG-LLMs) أداءً متفوقاً في المجال الطبي من خلال دمج المعرفة الخارجية، خاصة في التشخيص السريري. ومع ذلك، تواجه طرق RAG الحالية صعوبة في تخصيص استراتيجيات الاسترجاع وفقاً لصعوبة التشخيص وكمية المعلومات في العينات المدخلة، مما يؤدي إلى استرجاع مفرط وغير ضروري يضر بالكفاءة الحسابية ويزيد من خطر إدخال الضوضاء، وبالتالي يقلل من دقة التشخيص. لمعالجة هذه المشكلة، نقترح ICA-RAG (الاسترجاع المعزز التكيفي الموجه بإكمال المعلومات)، وهو إطار عمل جديد لتعزيز موثوقية RAG في تشخيص الأمراض. يستفيد ICA-RAG من وحدة تحكم تكيفية لتقييم ضرورة الاسترجاع بناءً على إكمال المعلومات للمدخلات، من خلال تحسين الاسترجاع وتصفية المعرفة، ما يحقق محاذاة أفضل بين عمليات الاسترجاع والاحتياجات السريرية. تُظهر التجارب على ثلاث مجموعات بيانات للسجلات الطبية الإلكترونية الصينية أن ICA-RAG يتفوق بشكل ملحوظ على الطرق الأساسية، مما يبرز فعاليته في التشخيص السريري.

الخلفية البحثية والدافع

خلفية المشكلة

تواجه نماذج اللغة الكبيرة تحديين رئيسيين في المهام الطبية:

مشكلة الهلوسة: توليد معلومات تبدو معقولة لكنها خاطئة فعلياً
تكلفة تحديث المعرفة: الطبيعة كثيفة الموارد للحفاظ على تحديث المعرفة الطبية

حدود طرق RAG الحالية

افتقار المنطق الانتقائي للاسترجاع: تنفيذ الاسترجاع بدون تمييز لجميع الاستعلامات، مما يزيد من التكاليف الحسابية والزمنية
إدخال استرجاعات منخفضة الجودة: قد تقلل الأداء بدلاً من تحسينها من خلال معلومات غير ذات صلة
خصوصية المجال الطبي: العديد من الأمراض الشائعة أو الحالات ذات الأعراض الخفيفة والتشخيص الواضح لا تتطلب استرجاعاً للتشخيص الدقيق

قصور RAG التكيفي الحالي

الطرق المستندة إلى توزيع مخرجات LLM: تميل نماذج اللغة الكبيرة إلى الثقة المفرطة، وتولد توزيعات ثقة عالية حتى في غياب المعرفة ذات الصلة
الطرق المستندة إلى نماذج التصنيف: في المجال الطبي، عادة ما تفتقر النصوص المدخلة إلى أنماط هيكلية واضحة، وتواجه نماذج اللغة الصغيرة صعوبة في فهم صعوبة الإجابة

المساهمات الأساسية

اقتراح إطار عمل ICA-RAG: إطار استرجاع معزز تكيفي لتشخيص الأمراض بدون الحاجة إلى ضبط نموذج LLM الأساسي
طريقة تسمية البيانات المبتكرة: تصميم استراتيجية تسمية قائمة على عمليات الإخفاء، من خلال استحضار استجابات مختلفة من LLM للحصول على معلومات التسمية
تحسين عملية الاسترجاع: تحسين عملية الاسترجاع للسيناريوهات السريرية ذات السياق المعقد
التحقق التجريبي: إجراء تجارب واسعة النطاق على ثلاث مجموعات بيانات للسجلات الطبية الإلكترونية الصينية لإثبات فعالية الإطار

شرح الطريقة

تعريف المهمة

التشخيص المباشر للمرض: بالنظر إلى تسلسل الرموز الذي يمثل النص المدخل $x = [x_1, x_2, ..., x_n]$ ، يمكن صياغة توليد النصوص بواسطة LLM على النحو التالي: $\hat{D} = \text{LLM}(Q, \text{prompt})$

تشخيص المرض بـ RAG: استرجاع المعرفة ذات الصلة من مصادر المعرفة الخارجية ودمجها: $\hat{D} = \text{LLM}(Q, d, \text{prompt})$ حيث $d = \text{Retriever}(K, Q)$

تشخيص المرض بـ RAG التكيفي: إدخال دالة تحكم F لتقييم المدخل Q: $\hat{D} = \begin{cases} \text{LLM}(Q, \text{prompt}), & \text{if } F(Q) = \langle\text{Activate}\rangle \\ \text{LLM}(Q, d, \text{prompt}), & \text{otherwise} \end{cases}$

معمارية النموذج

يتضمن إطار عمل ICA-RAG ثلاث مراحل رئيسية:

المرحلة (أ): تحسين قرار الاسترجاع بناءً على إكمال المعلومات للمدخل

تقسيم النص: تقسيم المدخل Q إلى وحدات نصية (الجملة بشكل افتراضي): $Q = \{s_i\}_{i=1}^n$
تصنيف الأهمية: تدريب مصنف للتنبؤ بأهمية كل وحدة: $l_i = \text{Classifier}(s_i) \quad \forall i \in \{1, 2, ..., n\}$ $l_{i} = Classifier (s_{i}) \forall i \in {1, 2, ..., n}$
تنقسم التسميات إلى ثلاث فئات:
- A: معلومات حاسمة لقرار التشخيص
- B: معلومات تساهم بشكل إيجابي في الاسترجاع لكن لا يمكن استنتاج النتيجة مباشرة منها
- C: معلومات نسبياً غير مهمة
حساب إكمال المعلومات: $I_{\text{norm}}(Q) = \frac{1}{\alpha \cdot n} \sum_{i=1}^n (\alpha \cdot I(l_i = A) + \beta \cdot I(l_i = B) + \gamma \cdot I(l_i = C))$

المرحلة (ب): الاسترجاع بناءً على تقسيم الوثائق والتعيين

الاسترجاع على مستوى الجملة: استرجاع أفضل m كتل نصية ذات صلة لكل جملة
إعادة ترتيب على مستوى الوثيقة: إحصاء عدد الكتل المسترجعة من كل وثيقة وإعادة ترتيبها
استراتيجية التعيين: تعيين كتل النصوص مرة أخرى إلى الوثائق الأصلية وإعادة ترتيبها بناءً على عدد الكتل

المرحلة (ج): تصفية المعرفة والتشخيص بناءً على الموجهات الموجهة

استخدام قالب موجه التشخيص التفاضلي لتصفية الوثائق غير ذات الصلة، محاكاة عملية التشخيص التفاضلي للطبيب.

نقاط الابتكار التقني

تقييم إكمال المعلومات: تحويل فهم الوثائق المعقد إلى مهمة بسيطة على مستوى الجملة
استراتيجية التسمية بالإخفاء: الحصول التلقائي على تسميات التدريب من خلال عمليات إخفاء التسلسل
إعادة ترتيب تعيين الكتلة والوثيقة: الحساب بناءً فقط على القيم الرقمية للنتائج المسترجعة، مما يقلل من استهلاك الذاكرة
تصفية التشخيص التفاضلي: محاكاة عملية التشخيص التفاضلي السريري لتصفية المعلومات غير ذات الصلة

إعداد التجارب

مجموعات البيانات

CMEMR: مجموعة بيانات السجلات الطبية الإلكترونية الصينية
ClinicalBench: مجموعة البيانات الأساسية السريرية
CMB-Clin: مجموعة البيانات الطبية الصينية الأساسية السريرية

تم تكوين جميع مجموعات البيانات كمهام تشخيص من النهاية إلى النهاية، مع معلومات المريض كمدخل وخلاصة التشخيص من الطبيب كتسمية حقيقية.

مقاييس التقييم

استخدام التصنيف الدولي للأمراض (ICD-10) لتوحيد مصطلحات الأمراض، مع حساب الدقة والاستدعاء و F1-score على مستوى المجموعة باستخدام المطابقة الضبابية (حد 0.5).

الطرق المقارنة

الطرق غير المستندة إلى الاسترجاع: CoT, SC-CoT, ATP
طرق الاسترجاع القياسية: RAG2, LongRAG
طرق الاسترجاع التكيفي: Adaptive-RAG, DRAGIN, SEAKR

تفاصيل التنفيذ

النموذج الأساسي: qwen2.5-7B-instruct
المصنف: BERT-base-Chinese
المسترجع: BM25
قاعدة المعرفة الخارجية: قاعدة بيانات المعرفة الطبية السريرية CMKD

نتائج التجارب

النتائج الرئيسية

الطريقة	CMEMR F1(%)	ClinicalBench F1(%)	CMB-Clin F1(%)
CoT	48.82	38.46	52.14
LongRAG	49.07	39.25	51.81
Adaptive-RAG	49.27	38.04	53.44
ICA-RAG	50.88	40.79	53.53

النتائج الرئيسية:

يحقق ICA-RAG أفضل أو قريب من أفضل درجات F1 على جميع مجموعات البيانات
مقارنة بـ LongRAG، تحسنت قيم F1 بنسبة 1.81% و 1.54% و 1.72% على التوالي
يتفوق بشكل ملحوظ على طرق RAG التكيفي الأخرى

تجارب الاستئصال

نتائج الاستئصال على مجموعة بيانات CMEMR:

المتغير	F1(%)	حجم الانخفاض
ICA-RAG	50.88	-
بدون قرار	48.07	-2.81%
بدون كتلة	49.78	-1.10%
بدون إعادة ترتيب M	49.59	-1.29%
بدون تفاضل	49.85	-1.03%

تحليل الكفاءة

الكفاءة الزمنية: تحسن ملحوظ مقارنة بطرق RAG غير التكيفية
كفاءة المعاملات: مصنف BERT-Base (110M معامل) أخف وزناً من T5-Large (770M معامل) المستخدم في Adaptive-RAG
القابلية للتطبيق: لا تتطلب الوصول إلى توزيع احتمالات مخرجات LLM، مما يجعلها مناسبة للنماذج المغلقة والنشر عبر API

الأعمال ذات الصلة

تطبيق RAG في التشخيص السريري للأمراض

تستخدم معظم الدراسات طرق استرجاع أساسية، من خلال ترميز المعرفة الخارجية والاستعلامات المتعلقة بالمهام باستخدام نماذج التضمين
تُستخدم الرسوم البيانية للمعرفة على نطاق واسع أيضاً
يفتقر إلى التحسينات المخصصة لخصوصية المجال الطبي

RAG التكيفي

FLARE و DRAGIN: تفعيل البحث عندما يولد LLM رموز ثقة منخفضة
Self-RAG: تدريب النموذج على الاسترجاع والنقد والتوليد الديناميكي للنصوص
Adaptive-RAG: تقييم تعقيد الاستعلام لتحديد ضرورة الاسترجاع
تركز الطرق الحالية بشكل أساسي على مهام الإجابة على الأسئلة، وتواجه صعوبة في الانتقال المباشر إلى التشخيص الطبي

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يعالج ICA-RAG بشكل فعال مشكلة استراتيجيات الاسترجاع الجامدة في الطرق التقليدية المعززة بالاسترجاع من خلال تحسين قرارات الاسترجاع التكيفي بناءً على إكمال المعلومات للمدخل، مما يُظهر قدرة تكيف قوية في السيناريوهات السريرية المعقدة.

القيود

قيود استراتيجية التسمية: نظراً لأن معلومات المريض قد تحتوي على محتوى متكرر، قد يتمكن LLM من الوصول إلى التشخيص الصحيح حتى بعد إخفاء الجمل الرئيسية، مما يؤدي إلى عدم دقة تسميات التسمية
تعقيد النصوص الطبية: تحتوي النصوص الطبية السريرية على اختصارات ومرادفات وأسماء بديلة، وتختلف طرق التسجيل بشكل كبير بين الأطباء المختلفين، مما يؤثر على دقة الاسترجاع
الحاجة إلى الفحص اليدوي: لا تزال استراتيجية التسمية التلقائية تتطلب فحصاً يدوياً وتصحيحاً

الاتجاهات المستقبلية

استكشاف استراتيجيات معالجة مسبقة أكثر فعالية للنصوص الطبية لتحسين جودة الاسترجاع
تطبيق ICA-RAG على مهام طبية أخرى
تحسين عملية الاسترجاع بشكل أكبر

التقييم المتعمق

المميزات

ابتكار قوي: أول من يقترح آلية قرار استرجاع تكيفي قائمة على إكمال المعلومات
قابلية عملية عالية: لا تتطلب ضبط نموذج LLM الأساسي، مع قابلية تطبيق قوية
تجارب شاملة: تقييم شامل وتجارب استئصال على عدة مجموعات بيانات
تحسن الكفاءة: تحسن ملحوظ في الكفاءة الحسابية مع الحفاظ على الأداء

أوجه القصور

قيود مجموعة البيانات: التحقق فقط على مجموعات بيانات السجلات الطبية الإلكترونية الصينية، مع افتقار التحقق عبر اللغات والمجالات
جودة التسمية: استراتيجية التسمية التلقائية تحتوي على ضوضاء، وتتطلب تدخلاً يدوياً
تحديد الحد الأدنى: تحديد حدود إكمال المعلومات θ₁ و θ₂ يفتقر إلى التوجيه النظري
الاعتماد على قاعدة المعرفة: يعتمد الأداء بشكل كبير على جودة قاعدة المعرفة الخارجية

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لتطبيق RAG في مجال الذكاء الاصطناعي الطبي
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة دعم القرار السريري
قابلية إعادة الإنتاج: وصف الطريقة مفصل، وإعداد التجارب واضح

السيناريوهات المعمول بها

التشخيص السريري: مناسب بشكل خاص للحالات ذات الأعراض المعقدة التي تتطلب تشخيصاً تفاضلياً
أنظمة الإجابة على الأسئلة الطبية: يمكن تحسين دقة وكفاءة أنظمة الاستشارات الطبية
التعليم الطبي: يمكن استخدامه كأداة مساعدة لتعلم الطلاب الطبيين

المراجع

تستشهد الورقة بـ 41 مرجعاً ذا صلة، تغطي أعمالاً مهمة في عدة مجالات بما في ذلك نماذج اللغة الكبيرة والاسترجاع المعزز والذكاء الاصطناعي الطبي، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمة مهمة في مجال الذكاء الاصطناعي الطبي. يعالج المؤلفون القيود في طرق RAG الحالية في التشخيص الطبي بحل مبتكر، ويتحققون من فعالية الطريقة من خلال تجارب شاملة. على الرغم من وجود بعض القيود، فإن ابتكارها وقابليتها العملية تجعلها تقدماً مهماً في هذا المجال.