2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.

Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.

academic

التعلم الموجه بالتفسيرات الهجينة لتشخيص الأشعات السينية للصدر القائم على المحولات

المعلومات الأساسية

معرّف الورقة: 2510.12704
العنوان: التعلم الموجه بالتفسيرات الهجينة لتشخيص الأشعات السينية للصدر القائم على المحولات
المؤلفون: شيلي زيكسين شو، هاوتشه لو، ألكسندر بويلينجر، موريسيو رييس
التصنيف: cs.CV cs.AI
تاريخ النشر: 14 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.12704v1

الملخص

أظهرت نماذج التعلم العميق القائمة على المحولات قدرات تمثيل ممتازة وقابلية تفسير من خلال آليات الانتباه في التصوير الطبي. ومع ذلك، فإن هذه النماذج عرضة لتعلم الارتباطات الزائفة، مما يؤدي إلى التحيز والقدرة المحدودة على التعميم. بينما يمكن لمحاذاة الانتباه بين الإنسان والآلة أن تخفف من هذه المشاكل، إلا أنها غالباً ما تعتمد على إشراف يدوي مكلف. تقترح هذه الدراسة إطار عمل التعلم الموجه بالتفسيرات الهجينة (H-EGL)، الذي يجمع بين القيود ذاتية الإشراف والموجهة من قبل الإنسان لتحسين محاذاة الانتباه وتحسين القدرة على التعميم. يستخدم المكون ذاتي الإشراف في H-EGL الانتباه المميز للفئات، دون الاعتماد على أولويات مقيدة، مما يعزز الاستتباعية والمرونة. تم التحقق من الطريقة على مهام تصنيف الأشعات السينية للصدر باستخدام محول الرؤية (ViT)، حيث تفوق H-EGL على طريقتي التعلم الموجه بالتفسيرات الحديثة، مما أظهر دقة تصنيف متفوقة وقدرة تعميم، مع إنتاج خرائط انتباه متوافقة بشكل أفضل مع خبراء الإنسان.

خلفية البحث والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي يسعى هذا البحث إلى حلها حول تعلم الارتباطات الزائفة ومشاكل محاذاة الانتباه في نماذج التصوير الطبي القائمة على المحولات. وتشمل بشكل محدد:

مشكلة الارتباطات الزائفة: تميل الشبكات العصبية العميقة إلى تعلم الارتباطات الزائفة في البيانات، مما يؤدي إلى تعلم الاختصارات والتحيز ومشاكل الإنصاف
تحديات محاذاة الانتباه: بينما يمكن لمحاذاة الانتباه بين الإنسان والآلة أن تحسن متانة النموذج، إلا أنها تتطلب تعليقات يدوية مكلفة
قيود الطرق الموجودة: قد تعزز الطرق ذاتية الإشراف البحتة التفسيرات الخاطئة، بينما تفتقر طرق التعلم المقارن إلى طرق موحدة لتوليد العينات الموجبة والسالبة

أهمية البحث

في تشخيص التصوير الطبي، تعتبر قابلية التفسير والموثوقية حاسمة للنموذج. قد تؤدي أنماط الانتباه الخاطئة إلى:

أخطاء في القرارات السريرية
تفويت الميزات المرضية الحرجة
فشل النموذج في التعميم على توزيعات بيانات مختلفة

قيود الطرق الموجودة

الطرق الموجهة بالإشراف البحت: تعتمد على تعليقات الخبراء المكلفة، بتكلفة عالية
الطرق ذاتية الإشراف البحت: قد تعزز التفسيرات الزائفة أو المحاذاة الخاطئة
طرق القيود التقليدية: تعتمد على أولويات صارمة مثل الندرة والسلاسة، والتي قد تثبط تعلم الميزات المعقدة

المساهمات الأساسية

اقتراح إطار عمل H-EGL: تطبيق أول لطريقة التعلم الموجه بالتفسيرات الهجينة على بنية المحول، وتقييم وتحسين محاذاة الانتباه بين الإنسان والآلة
تصميم مكون DAL: اقتراح التعلم الانتباهي المميز (Discriminative Attention Learning)، الذي يستخدم خرائط الانتباه المميزة للفئات للتعلم ذاتي الإشراف
تحقيق تحسينات الأداء: تفوق على أحدث الطرق في مهام تصنيف الأشعات السينية للصدر، بمعدل AUC يصل إلى 89.3%
تعزيز القابلية للتفسير: إنتاج خرائط انتباه متوافقة بشكل أفضل مع المعرفة الخبيرة، مع الحفاظ على أداء التصنيف

شرح الطريقة

تعريف المهمة

الإدخال: صور الأشعات السينية للصدر ونصوص تسميات الأمراض الإخراج: تنبؤات تصنيف الأمراض متعددة التسميات وخرائط انتباه خاصة بالفئات الهدف: تحسين دقة التصنيف مع إنتاج خرائط انتباه متوافقة مع المناطق المشروحة من قبل خبراء الإنسان

معمارية النموذج

الإطار العام

يتم بناء H-EGL على بنية DWARF، باستخدام بنية محول الرؤية (ViT) للمشفر-فك التشفير:

مشفر النص: Med-KEBERT المجمد، معالجة تسميات الأمراض
مشفر الرؤية: ViT-B القابل للتدريب، معالجة صور الإدخال بحجم 224×224
فك تشفير الانتباه المتقاطع: دمج ميزات الرؤية والنصوص

المكونات الأساسية

1. وحدة محاذاة الإنسان والآلة استخدام خسارة Dice المعاقبة لمحاذاة خرائط الانتباه مع التعليقات التوضيحية للخبراء:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

حيث A_i هي خريطة الانتباه التي ينتجها النموذج، و M_i هي قناع الخبير.

2. التعلم الانتباهي المميز (DAL) تعزيز التمييز بين الفئات من خلال تقليل التشابه بين خرائط الانتباه للفئات المختلفة:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

حيث S(A_i, A_j) هي تشابه جيب التمام بين خرائط الانتباه A_i و A_j.

دالة الخسارة الموحدة

L_H-EGL = L_CE + α×L_HA + β×L_DAL

نقاط الابتكار التقني

عدم الحاجة لتوليد عينات سالبة: يتجنب DAL مشكلة بناء العينات السالبة المعقدة في التعلم المقارن التقليدي
الأولويات الاستقرائية المرنة: لا يعتمد على قيود صارمة مثل الندرة، مما يحافظ على قدرة النموذج على تعلم الميزات المعقدة
الاستفادة المباشرة من انتباه ViT: يستفيد بالكامل من آلية الانتباه الكامنة في المحول، بدلاً من أدوات التفسير اللاحقة
استراتيجية إشراف هجينة: توازن بين التوجيه البشري والتعلم المستقل، لتحقيق التوازن الأمثل بين فعالية التكلفة والأداء

إعداد التجارب

مجموعة البيانات

مجموعة بيانات ChestXDet: مجموعة فرعية من NIH ChestX-ray14
الحجم: 3,578 مريضاً، 3,025 عينة تدريب، 553 عينة اختبار
التعليقات التوضيحية: تتضمن صناديق محيطة وتعليقات توضيحية متعددة الأضلاع لأربعة أمراض صدرية (انهيار الرئة، توسع القلب، التوحيد، الانصباب)
التحقق: تم التحقق من جودة التعليقات التوضيحية من قبل ثلاثة أطباء أشعة
التقسيم: تقسيم التدريب والتحقق 80-20

مقاييس التقييم

مقاييس التصنيف: AUC، درجة F1، MCC (معامل ارتباط ماثيوز)
القدرة على التعميم: الفجوة في الأداء بين مجموعات التحقق والاختبار
المتانة: أداء الأداء عند مستويات الضوضاء المختلفة

طرق المقارنة

KAD: إطار عمل الكشف الذي يدرك المعرفة، يستخدم الرسوم البيانية للمعرفة لتعزيز الاستدلال البصري
GAIN: شبكة الانتباه القائمة على التدرج، تحسن القابلية للتفسير من خلال آليات الانتباه المكررة
DWARF* (β=0): التعلم الموجه بالتفسيرات باستخدام التوجيه اليدوي فقط
DAL* (α=0): التعلم الموجه بالتفسيرات ذاتي الإشراف البحت

تفاصيل التنفيذ

المحسّن: AdamW، معدل التعلم 1e-5
استراتيجية التدريب: 1000 جولة تدريب، صبر التوقف المبكر 50، إحماء 20 جولة
حجم الدفعة: 32
الأجهزة: RTX 4090 GPU، CUDA v12.2
المعاملات الفائقة: α=1.0، β=1.0، w_FP=1

نتائج التجارب

النتائج الرئيسية

الطريقة	AUC_test(%)	AUC_gap(%)	F1_test(%)	F1_gap(%)	MCC_test(%)	MCC_gap(%)
KAD	88.1±0.3	2.5	68.2±2.5	1.8	57.5±2.3	4.8
GAIN	88.0±0.4	2.7	67.8±2.2	2.4	57.2±2.0	5.6
H-EGL	89.3±0.7	1.5	69.4±1.9	0.5	58.3±2.5	3.8

الاكتشافات الرئيسية:

حقق H-EGL أفضل أداء في جميع المقاييس
انخفاض ملحوظ في فجوة التعميم، مما يشير إلى متانة أفضل
تباين منخفض (0.7%)، مما يظهر أداء مستقرة

تجارب الاستئصال

H-EGL(α=0): AUC 89.3±1.0%، يتحقق من فعالية DAL
H-EGL(β=0): AUC 88.4±0.2%، يظهر مساهمة المحاذاة اليدوية
الطريقة الهجينة تتفوق على أي مكون واحد

تحليل المتانة

الاختبار عند مستويات ضوضاء مختلفة (σ=0, 0.03, 0.05, 0.1) يظهر:

انخفاض الأداء لجميع الطرق مع زيادة الضوضاء
يحافظ H-EGL على أفضل أداء عند جميع مستويات الضوضاء
يظهر متانة متفوقة

التحليل النوعي

تصور خرائط الانتباه يظهر:

KAD الأساسي: بينما يغطي المناطق المشروحة يدويًا، يخطئ في تسليط الضوء على الفصوص السفلية للرئتين
DWARF: يقلل الإيجابيات الكاذبة السفلية، لكنه يركز بشكل خاطئ على الرئة اليسرى
H-EGL و DAL: يحددان بشكل أكثر دقة المناطق المرضية، مما يقلل بشكل كبير من الإيجابيات الكاذبة

الأعمال ذات الصلة

اتجاهات البحث الرئيسية

التعلم الموجه بالتفسيرات (EGL): استخدام معلومات التفسير لتوجيه تعلم النموذج
محاذاة الانتباه بين الإنسان والآلة: دمج المعرفة البشرية لتحسين قابلية التفسير
تطبيق المحولات في التصوير الطبي: استخدام آليات الانتباه لتشخيص الأمراض

مزايا هذه الورقة

أول تطبيق لطريقة التعلم الموجه بالتفسيرات الهجينة في محولات التصوير الطبي
اقتراح استراتيجية تعلم انتباهي ذاتي الإشراف بدون الحاجة لعينات سالبة
تحقيق تحسن مزدوج في الأداء والقابلية للتفسير

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يجمع H-EGL بفعالية بين الإشراف الذاتي والموجه من قبل الإنسان، مما يحقق أداء تصنيف متفوقة ومحاذاة انتباه
يوفر مكون DAL أولويات استقرائية مرنة، مما يتجنب الإفراط في التنظيم
تحقق الاستراتيجية الهجينة توازناً جيداً بين فعالية التكلفة والأداء

القيود

حجم مجموعة البيانات: تم التحقق فقط على مجموعة بيانات ChestXDet الصغيرة نسبياً
فئات الأمراض: تم تقييم أربعة أمراض صدرية فقط
اعتماد البنية: مصممة بشكل أساسي لبنية ViT
حساسية المعاملات الفائقة: قد تختلف الإعدادات المثلى لمعاملات α و β حسب المهمة

الاتجاهات المستقبلية

آليات المحاذاة الديناميكية: استكشاف التعديل التكيفي لدرجات الإشراف الذاتي والموجه أثناء التدريب
التحقق على نطاق واسع: التحقق على مجموعات بيانات أكبر وفئات أمراض أكثر
التوسع متعدد الأنماط: التوسع إلى أنماط تصوير طبية أخرى
النشر السريري: دراسة تأثيرات التطبيق في بيئات سريرية حقيقية

التقييم المتعمق

المزايا

الابتكار في الطريقة: أول تطبيق للتعلم الموجه بالتفسيرات الهجينة على محولات التصوير الطبي
المعقولية التقنية: تصميم DAL ذكي، يتجنب تعقيد التعلم المقارن التقليدي
شمولية التجارب: تتضمن تجارب مقارنة شاملة وتجارب استئصال وتحليل متانة
القيمة العملية: تحسين كبير في القابلية للتفسير مع الحفاظ على الأداء

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب فعالية الطريقة الهجينة
التعقيد الحسابي: لم يتم تحليل تأثير شروط الخسارة الإضافية على كفاءة التدريب بالتفصيل
حساسية المعاملات الفائقة: إرشادات غير كافية لاختيار معاملات α و β
غياب التحقق السريري: لم تتضمن تقييماً من قبل خبراء في بيئة سريرية حقيقية

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لأبحاث القابلية للتفسير في التصوير الطبي
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة تشخيص التصوير الطبي الموجودة
إمكانية التكرار: توفير تفاصيل تنفيذ مفصلة لتسهيل التكرار

السيناريوهات المناسبة

تشخيص التصوير الطبي: مناسبة بشكل خاص للتطبيقات السريرية التي تتطلب قابلية تفسير عالية
مهام التصنيف متعددة التسميات: يمكن توسيعها إلى مشاكل تصنيف أخرى تتطلب محاذاة انتباه
البيئات ذات الموارد المحدودة: استراتيجية الإشراف الهجينة مناسبة للسيناريوهات ذات موارد التعليق المحدودة

المراجع

تستشهد الورقة بأعمال ذات صلة متعددة مهمة، بما في ذلك:

ورقة Vision Transformer (ViT) الأصلية 3
أبحاث الارتباطات الزائفة في التصوير الطبي 2,5,6
مسح التعلم الموجه بالتفسيرات 4
طريقة DWARF 11 وطريقة KAD 19

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات ذات مغزى في مجال القابلية للتفسير في التصوير الطبي. يتمتع إطار عمل التعلم الموجه بالتفسيرات الهجينة بتصميم معقول، والتحقق التجريبي شامل، والنتائج مقنعة. على الرغم من وجود بعض القيود، إلا أنها توفر أساساً جيداً واتجاهات للأبحاث المستقبلية.