Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
أظهرت نماذج التعلم العميق القائمة على المحولات قدرات تمثيل ممتازة وقابلية تفسير من خلال آليات الانتباه في التصوير الطبي. ومع ذلك، فإن هذه النماذج عرضة لتعلم الارتباطات الزائفة، مما يؤدي إلى التحيز والقدرة المحدودة على التعميم. بينما يمكن لمحاذاة الانتباه بين الإنسان والآلة أن تخفف من هذه المشاكل، إلا أنها غالباً ما تعتمد على إشراف يدوي مكلف. تقترح هذه الدراسة إطار عمل التعلم الموجه بالتفسيرات الهجينة (H-EGL)، الذي يجمع بين القيود ذاتية الإشراف والموجهة من قبل الإنسان لتحسين محاذاة الانتباه وتحسين القدرة على التعميم. يستخدم المكون ذاتي الإشراف في H-EGL الانتباه المميز للفئات، دون الاعتماد على أولويات مقيدة، مما يعزز الاستتباعية والمرونة. تم التحقق من الطريقة على مهام تصنيف الأشعات السينية للصدر باستخدام محول الرؤية (ViT)، حيث تفوق H-EGL على طريقتي التعلم الموجه بالتفسيرات الحديثة، مما أظهر دقة تصنيف متفوقة وقدرة تعميم، مع إنتاج خرائط انتباه متوافقة بشكل أفضل مع خبراء الإنسان.
تتمحور المشكلة الأساسية التي يسعى هذا البحث إلى حلها حول تعلم الارتباطات الزائفة ومشاكل محاذاة الانتباه في نماذج التصوير الطبي القائمة على المحولات. وتشمل بشكل محدد:
مشكلة الارتباطات الزائفة: تميل الشبكات العصبية العميقة إلى تعلم الارتباطات الزائفة في البيانات، مما يؤدي إلى تعلم الاختصارات والتحيز ومشاكل الإنصاف
تحديات محاذاة الانتباه: بينما يمكن لمحاذاة الانتباه بين الإنسان والآلة أن تحسن متانة النموذج، إلا أنها تتطلب تعليقات يدوية مكلفة
قيود الطرق الموجودة: قد تعزز الطرق ذاتية الإشراف البحتة التفسيرات الخاطئة، بينما تفتقر طرق التعلم المقارن إلى طرق موحدة لتوليد العينات الموجبة والسالبة
الإدخال: صور الأشعات السينية للصدر ونصوص تسميات الأمراض
الإخراج: تنبؤات تصنيف الأمراض متعددة التسميات وخرائط انتباه خاصة بالفئات
الهدف: تحسين دقة التصنيف مع إنتاج خرائط انتباه متوافقة مع المناطق المشروحة من قبل خبراء الإنسان
تستشهد الورقة بأعمال ذات صلة متعددة مهمة، بما في ذلك:
ورقة Vision Transformer (ViT) الأصلية 3
أبحاث الارتباطات الزائفة في التصوير الطبي 2,5,6
مسح التعلم الموجه بالتفسيرات 4
طريقة DWARF 11 وطريقة KAD 19
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات ذات مغزى في مجال القابلية للتفسير في التصوير الطبي. يتمتع إطار عمل التعلم الموجه بالتفسيرات الهجينة بتصميم معقول، والتحقق التجريبي شامل، والنتائج مقنعة. على الرغم من وجود بعض القيود، إلا أنها توفر أساساً جيداً واتجاهات للأبحاث المستقبلية.