Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
academic
Гибридное объяснение-ориентированное обучение для диагностики рентгенограмм грудной клетки на основе Transformer
Модели глубокого обучения на основе Transformer демонстрируют превосходные возможности представления признаков и интерпретируемости в медицинской визуализации благодаря механизмам внимания. Однако эти модели склонны к обучению ложным корреляциям, что приводит к смещениям и ограниченной способности к обобщению. Хотя выравнивание внимания человека и машины может смягчить эти проблемы, оно часто зависит от дорогостоящего ручного контроля. В данной работе предлагается фреймворк гибридного объяснение-ориентированного обучения (H-EGL), объединяющий самоконтролируемые и человеческие ограничения для улучшения выравнивания внимания и повышения способности к обобщению. Компонент самоконтроля H-EGL использует дискриминативное внимание класса без зависимости от ограничивающих априорных предположений, способствуя робастности и гибкости. Метод был проверен на задаче классификации рентгенограмм грудной клетки с использованием Vision Transformer (ViT). H-EGL превосходит два современных метода объяснение-ориентированного обучения, демонстрируя превосходную точность классификации и способность к обобщению, одновременно создавая карты внимания, лучше согласованные с экспертами-людьми.
Основная проблема, которую решает данное исследование, — это обучение ложным корреляциям и выравнивание внимания в моделях медицинской визуализации на основе Transformer. Конкретно:
Проблема ложных корреляций: Глубокие нейронные сети склонны к обучению ложным корреляциям в данных, что приводит к ярлыковому обучению, смещениям и проблемам справедливости
Вызовы выравнивания внимания: Хотя выравнивание внимания человека и машины может улучшить робастность модели, оно требует дорогостоящей ручной аннотации
Ограничения существующих методов: Чистые самоконтролируемые методы могут усилить ошибочные интерпретации, а методы контрастного обучения не имеют стандартизированных способов генерации положительных и отрицательных примеров
В диагностике медицинской визуализации интерпретируемость и надежность модели имеют критическое значение. Ошибочные паттерны внимания могут привести к:
Ошибкам в клинических решениях
Пропуску критических патологических признаков
Отказу модели при обобщении на различные распределения данных
Чистые контролируемые методы: Зависят от дорогостоящих экспертных аннотаций, высокие затраты
Чистые самоконтролируемые методы: Могут усилить ложные или неправильно выровненные интерпретации
Традиционные методы ограничений: Зависят от жестких априорных предположений (разреженность, гладкость), которые могут подавлять обучение сложным признакам
Предложение фреймворка H-EGL: Первое применение гибридного объяснение-ориентированного метода к архитектуре Transformer с оценкой и улучшением выравнивания внимания человека и машины
Разработка компонента DAL: Предложено дискриминативное обучение внимания (Discriminative Attention Learning), использующее дискриминативные карты внимания класса для самоконтролируемого обучения
Повышение производительности: Превосходство существующих современных методов на задаче классификации рентгенограмм грудной клетки с AUC 89,3%
Улучшение интерпретируемости: Создание карт внимания, лучше согласованных с экспертными знаниями, при сохранении производительности классификации
Входные данные: Рентгенограммы грудной клетки и текстовые метки заболеваний
Выходные данные: Прогнозы многоклассовой классификации заболеваний и карты внимания, специфичные для класса
Цель: Повышение точности классификации при одновременном создании карт внимания, согласованных с аннотированными областями экспертов-людей
Отсутствие необходимости в генерации отрицательных примеров: DAL избегает сложной конструкции отрицательных примеров в традиционном контрастном обучении
Гибкие индуктивные смещения: Не зависит от жестких ограничений типа разреженности, сохраняя способность модели обучаться сложным признакам
Прямое использование внимания ViT: Полное использование встроенного механизма внимания Transformer вместо апостериорных инструментов интерпретации
Гибридная стратегия контроля: Баланс между человеческим руководством и автономным обучением для оптимального соотношения затрат и производительности
H-EGL эффективно объединяет самоконтролируемое и человеческое контролируемое обучение, достигая превосходной производительности классификации и выравнивания внимания
Компонент DAL обеспечивает гибкие индуктивные смещения, избегая чрезмерной регуляризации
Гибридная стратегия достигает хорошего баланса между соотношением затрат и производительности
Статья ссылается на множество важных связанных работ, включая:
Исходную статью Vision Transformer (ViT)3
Исследования ложных корреляций в медицинской визуализации2,5,6
Обзоры объяснение-ориентированного обучения4
Методы DWARF11 и KAD19
Общая оценка: Это высококачественная исследовательская статья, которая вносит значимый вклад в область интерпретируемости медицинской визуализации. Фреймворк гибридного объяснение-ориентированного обучения хорошо разработан, экспериментальная валидация полна, результаты убедительны. Несмотря на некоторые ограничения, работа обеспечивает хорошую основу и направления для будущих исследований.