Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
論文ID : 2510.12704タイトル : Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis著者 : Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes分類 : cs.CV cs.AI発表日 : 2025年10月14日論文リンク : https://arxiv.org/abs/2510.12704v1 Transformerベースの深層学習モデルは、注意機構を通じて医学画像における優れた特徴表現と解釈可能性を実現しています。しかし、これらのモデルは虚偽の相関関係を学習しやすく、バイアスと限定的な汎化能力をもたらします。人間-機械注意アライメントはこれらの問題を緩和できますが、しばしば高価な手動監督に依存しています。本研究は、ハイブリッド説明ガイド学習(H-EGL)フレームワークを提案し、自己監督と人間ガイド制約を組み合わせて注意アライメントを強化し、汎化能力を改善します。H-EGLの自己監督成分は、制限的な事前知識に依存することなく、クラス判別的注意を活用し、ロバスト性と柔軟性を促進します。Vision Transformer(ViT)を用いた胸部X線分類タスクで検証した結果、H-EGLは2つの最先端の説明ガイド学習手法を上回り、優れた分類精度と汎化能力を示しながら、人間の専門家とより良くアライメントされた注意マップを生成しました。
本研究が解決する核心的な問題は、Transformerベースの医学画像モデルにおける虚偽の相関関係学習 と注意アライメント の問題です。具体的には以下を含みます:
虚偽の相関関係問題 :深層ニューラルネットワークはデータ内の虚偽の相関関係を学習しやすく、ショートカット学習、バイアス、および公平性の問題をもたらします注意アライメントの課題 :人間-機械注意アライメントはモデルのロバスト性を改善できますが、高価な人間によるアノテーションが必要です既存手法の限界 :純粋な自己監督手法は誤った解釈を強化する可能性があり、対比学習手法は標準化された正負サンプル生成方法を欠いています医学画像診断において、モデルの解釈可能性と信頼性は極めて重要です。誤った注意パターンは以下をもたらす可能性があります:
臨床的意思決定の誤り 重要な病理学的特徴の見落とし 異なるデータ分布に対するモデルの汎化失敗 純監督手法 :高価な専門家アノテーションに依存し、コストが高い純自己監督手法 :虚偽または誤ってアライメントされた解釈を強化する可能性がある従来の制約手法 :スパース性や平滑性などの厳密な事前知識に依存し、複雑な特徴学習を抑制する可能性がありますH-EGLフレームワークの提案 :ハイブリッド説明ガイド手法をTransformerアーキテクチャに初めて適用し、人間-機械注意アライメントを評価・強化DALコンポーネントの設計 :判別的注意学習(Discriminative Attention Learning)を提案し、クラス判別的注意マップを利用した自己監督学習を実現性能向上の実現 :胸部X線分類タスクで既存の最先端手法を上回り、AUCは89.3%に達成解釈可能性の強化 :専門家知識とより良くアライメントされた注意マップを生成しながら、分類性能を維持入力 :胸部X線画像と疾患ラベルテキスト
出力 :多ラベル疾患分類予測とクラス特異的注意マップ
目標 :分類精度を向上させながら、人間の専門家によるアノテーション領域とアライメントされた注意マップを生成
H-EGLはDWARFアーキテクチャに基づいており、ViTエンコーダ-デコーダ構造を採用しています:
テキストエンコーダ :凍結されたMed-KEBERT、疾患ラベルを処理視覚エンコーダ :訓練可能なViT-B、224×224入力画像を処理クロスアテンション デコーダ :視覚とテキスト特徴を融合1. 人間-機械アライメントモジュール
ペナルティ付きDice損失を使用して注意マップと専門家マスクのアライメントを実現:
L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)
ここでA_iはモデルが生成した注意マップ、M_iは専門家マスクです。
2. 判別的注意学習(DAL)
異なるクラスの注意マップ間の類似性を最小化することでクラス判別性を強化:
L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|
ここでS(A_i, A_j)は注意マップA_iとA_j間のコサイン類似度です。
L_H-EGL = L_CE + α×L_HA + β×L_DAL
負サンプル生成不要 :DALは従来の対比学習における複雑な負サンプル構築の問題を回避柔軟な帰納的バイアス :スパース性などの厳密な制約に依存せず、モデルが複雑な特徴を学習する能力を維持ViT注意の直接利用 :事後的解釈ツールではなく、Transformerの固有の注意機構を十分に活用混合監督戦略 :人間ガイダンスと自律学習のバランスを取り、コスト効率と性能の最適なバランスを実現ChestXDetデータセット :NIH ChestX-ray14のサブセット規模 :3,578患者、訓練セット3,025サンプル、テストセット553サンプルアノテーション :4種類の胸部病理(無気肺、心臓拡大、実変、胸水)のバウンディングボックスとポリゴンアノテーションを含む検証 :3人の放射線科医によるアノテーション品質検証分割 :80-20訓練検証分割分類指標 :AUC、F1スコア、MCC(Matthews相関係数)汎化能力 :検証セットとテストセット性能の差ロバスト性 :異なるノイズレベル下での性能表現KAD :知識認識検出フレームワーク、知識グラフを活用した視覚推論の強化GAIN :勾配ベースの注意ネットワーク、精密な注意機構を通じた解釈可能性の向上DWARF (β=0):人間アノテーションガイドのみを使用した説明学習DAL (α=0):純粋な自己監督説明ガイド学習最適化器 :AdamW、学習率1e-5訓練戦略 :1000エポック訓練、早期停止耐性値50、20エポックウォームアップバッチサイズ :32ハードウェア :RTX 4090 GPU、CUDA v12.2ハイパーパラメータ :α=1.0、β=1.0、w_FP=1手法 AUC_test(%) AUC_gap(%) F1_test(%) F1_gap(%) MCC_test(%) MCC_gap(%) KAD 88.1±0.3 2.5 68.2±2.5 1.8 57.5±2.3 4.8 GAIN 88.0±0.4 2.7 67.8±2.2 2.4 57.2±2.0 5.6 H-EGL 89.3±0.7 1.5 69.4±1.9 0.5 58.3±2.5 3.8
主要な知見 :
H-EGLはすべての指標で最高性能を達成 汎化ギャップを大幅に削減し、より優れたロバスト性を示唆 分散が低い(0.7%)で、安定した性能を示す H-EGL(α=0) :AUC 89.3±1.0%、DALの有効性を検証H-EGL(β=0) :AUC 88.4±0.2%、人間アライメントの貢献を示す混合手法は単一コンポーネントより優れている 異なるノイズレベル(σ=0, 0.03, 0.05, 0.1)下でのテストは以下を示しています:
すべての手法はノイズ増加時に性能低下 H-EGLは各ノイズレベルで最適性能を維持 優れたロバスト性を示す 注意マップの可視化は以下を示しています:
ベースラインKAD :人間アノテーション領域をカバーしていますが、両肺下葉を誤って強調DWARF :下部の偽陽性を削減しますが、左肺に誤った焦点H-EGLとDAL :病理領域をより正確に識別し、偽陽性を大幅に削減説明ガイド学習(EGL) :解釈情報を活用したモデル学習ガイダンス人間-機械注意アライメント :人間知識を統合したモデル解釈可能性の改善医学画像におけるTransformer応用 :注意機構を活用した疾患診断医学画像Transformerにおいて混合説明ガイド手法を初めて適用 負サンプル不要の自己監督注意学習戦略を提案 性能と解釈可能性の二重向上を実現 H-EGLは自己監督と人間監督を効果的に組み合わせ、優れた分類性能と注意アライメントを実現 DALコンポーネントは柔軟な帰納的バイアスを提供し、過度な正則化を回避 混合戦略はコスト効率と性能の間で良好なバランスを達成 データセット規模 :比較的小規模なChestXDetデータセットでのみ検証疾患カテゴリ :4種類の胸部疾患のみを評価アーキテクチャ依存性 :主にViTアーキテクチャ向けに設計ハイパーパラメータ感度 :αとβパラメータの最適設定はタスクによって異なる可能性動的アライメント機構 :訓練過程中に自己監督と人間アライメント程度を適応的に調整する探索大規模検証 :より大規模なデータセットと多数の疾患カテゴリでの検証クロスモダリティ拡張 :他の医学画像モダリティへの拡張臨床展開 :実際の臨床環境での応用効果の研究手法の革新性 :医学画像Transformerに混合説明ガイド学習を初めて適用技術的妥当性 :DAL設計は巧妙で、従来の対比学習の複雑性を回避実験の充実性 :包括的な比較実験、アブレーション実験、ロバスト性分析を含む実用的価値 :性能を維持しながら解釈可能性を大幅に改善理論分析の不足 :混合手法が有効である理由についての深い理論的説明が不足計算複雑性 :追加損失項が訓練効率に与える影響の詳細分析が不足ハイパーパラメータ感度 :αとβパラメータ選択に対する指導が不十分臨床検証の欠落 :実際の臨床環境での専門家評価を含まない学術的貢献 :医学画像解釈可能性研究に新しい視点を提供実用的価値 :既存の医学画像診断システムに直接適用可能再現性 :詳細な実装詳細を提供し、再現を容易にする医学画像診断 :特に高い解釈可能性が必要な臨床応用に適切多ラベル分類タスク :注意アライメントが必要な他の分類問題に拡張可能リソース制限環境 :混合監督戦略はアノテーションリソースが限定的なシーンに適切論文は複数の重要な関連研究を引用しており、以下を含みます:
Vision Transformer(ViT)原論文3 医学画像における虚偽相関研究2,5,6 説明ガイド学習サーベイ4 DWARF手法11 とKAD手法19 総合評価 :これは医学画像解釈可能性分野における意義のある貢献をした高品質の研究論文です。ハイブリッド説明ガイド学習フレームワークは合理的に設計され、実験検証は充分で、結果は説得力があります。いくつかの限界がありますが、今後の研究に良好な基礎と方向性を提供しています。