2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic

nnY-Net : Swin-NeXt avec Attention Croisée pour la Segmentation d'Images Médicales 3D

Informations Fondamentales

  • ID de l'article : 2501.01406
  • Titre : nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
  • Auteurs : Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
  • Institutions : ¹Université de Sydney, ²Université Chinoise de Hong Kong
  • Classification : cs.CV (Vision par Ordinateur)
  • Lien de l'article : https://arxiv.org/abs/2501.01406

Résumé

Cet article propose une nouvelle architecture de modèle de segmentation d'images médicales 3D appelée nnY-Net. Le modèle tire son nom de sa structure en forme de Y, formée par l'ajout d'un module d'attention croisée au bas de la structure U-Net. Les auteurs intègrent les avantages de deux modèles SOTA récents, MedNeXt et SwinUNETR, en utilisant Swin Transformer comme encodeur et ConvNeXt comme décodeur, créant ainsi une architecture innovante appelée Swin-NeXt. Le modèle utilise les cartes de caractéristiques de la couche la plus basse de l'encodeur comme Clé et Valeur, tandis que les caractéristiques des patients (informations pathologiques et thérapeutiques) servent de Requête pour calculer les poids d'attention croisée. De plus, basé sur les cadres dynUnet et nnU-Net, les auteurs ont simplifié les méthodes de prétraitement et post-traitement pour la segmentation d'images 3D, et ont construit une fonction de perte DiceFocalCELoss pour améliorer l'efficacité d'entraînement dans la classification de voxels déséquilibrés.

Contexte de Recherche et Motivation

Définition du Problème

La segmentation d'images CT 3D de tumeurs hépatiques est une tâche importante en segmentation d'images médicales. Une segmentation précise des images CT peut aider les médecins à estimer le volume de la tumeur et à élaborer des plans de traitement appropriés.

Limitations des Méthodes Existantes

  1. Limitations des méthodes traditionnelles : Avant 2016, les algorithmes non supervisés tels que la croissance de régions étaient principalement utilisés, avec une précision limitée
  2. Défauts d'architecture unique : Les méthodes existantes sont soit basées sur des convolutions pures (comme nnU-Net), soit sur des Transformers purs (comme SwinUNETR), sans combiner pleinement les avantages des deux
  3. Fusion multimodale insuffisante : Les méthodes existantes traitent principalement les informations d'image, sans utiliser efficacement les informations pathologiques et thérapeutiques des patients
  4. Problème de déséquilibre des classes : L'étiquette de fond occupe plus de 90 % des pixels, ce qui rend l'entraînement difficile

Motivation de la Recherche

Cet article vise à concevoir un modèle de segmentation multimodale capable de traiter à la fois les images 3D et les informations cliniques des patients, en fusionnant les avantages des Transformers et des réseaux de neurones convolutifs, afin d'améliorer la précision et l'utilité pratique de la segmentation d'images médicales.

Contributions Principales

  1. Proposition de l'architecture Swin-NeXt : Combine innovamment l'encodeur de SwinUNETR avec le décodeur de MedNeXt, exploitant pleinement les avantages des Transformers dans l'extraction de caractéristiques et des convolutions dans le décodage au niveau des pixels
  2. Conception d'un mécanisme de fusion par attention croisée : Propose trois méthodes de fusion de caractéristiques, découvrant que le mécanisme d'attention croisée fonctionne le mieux dans la fusion multimodale et améliore de manière stable les performances du modèle
  3. Construction de la fonction de perte DiceFocalCELoss : Combine DiceLoss, FocalLoss et la perte d'entropie croisée, résolvant efficacement le problème de déséquilibre des classes dans la classification de voxels
  4. Simplification du pipeline de prétraitement : Basée sur les cadres dynUnet et nnU-Net, simplifie et optimise les méthodes de prétraitement et post-traitement pour la segmentation d'images 3D

Détails de la Méthode

Définition de la Tâche

Entrées :

  • Images de balayage CT 3D χ ∈ R^(H×W×D×C)
  • Informations cliniques des patients (informations pathologiques, thérapeutiques, etc.)

Sorties : Masques de segmentation multi-classe, incluant le foie, la tumeur, les vaisseaux sanguins, l'aorte et autres structures

Contraintes : Traitement des limitations de mémoire pour les images 3D haute résolution, tâche de segmentation avec déséquilibre extrême des classes

Architecture du Modèle

1. Encodeur Swin Transformer 3D

Utilise Swin Transformer 3D comme encodeur, avec l'implémentation spécifique suivante :

  • Partitionnement en patchs : Divise l'image d'entrée en fenêtres 3D de taille M×M×M
  • Mécanisme d'attention par fenêtre :
    z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
    z^l = MLP(LN(z^l)) + z^l
    z^(l+1) = SW-MSA(LN(z^l)) + z^l
    z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
    
  • Calcul de l'attention :
    Attention(Q,K,V) = Softmax(QK^T/√d + B)V
    

2. Décodeur ConvNeXt

Utilise la structure de décodeur de MedNeXt :

  • Sur-échantillonnage par convolution transposée :
    Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
    
  • Fonction d'activation GELU :
    GELU(x) = x/2[1 + erf(x/√2)]
    

3. Module de Fusion par Attention Croisée

Intègre les informations multimodales au niveau du goulot d'étranglement de l'encodeur :

  • Clé et Valeur : Cartes de caractéristiques de la couche la plus basse de l'encodeur
  • Requête : Vecteur de caractéristiques cliniques du patient
  • Stratégie de fusion : Mappe les caractéristiques cliniques à une dimension appropriée via une couche entièrement connectée, puis effectue le calcul d'attention croisée

Points d'Innovation Technique

  1. Conception d'architecture hybride : Première combinaison d'un encodeur Swin Transformer avec un décodeur ConvNeXt, exploitant les avantages respectifs
  2. Attention croisée multimodale : Utilise innovamment le mécanisme d'attention croisée pour fusionner les caractéristiques d'image et les informations cliniques
  3. Fonction de perte composite : Conçoit DiceFocalCELoss pour résoudre le problème de déséquilibre des classes en segmentation d'images médicales

Configuration Expérimentale

Ensemble de Données

  • Données d'image : 110 images de balayage CT hépatique, provenant de 98 patients
  • Données cliniques : 56 variables d'informations pathologiques et thérapeutiques des patients
  • Nettoyage des données : Suppression de 4 ensembles de données problématiques (HCC 017, 008, 025, 009)
  • Traitement des valeurs manquantes : Utilisation de modèles d'apprentissage automatique pour l'imputation des valeurs manquantes

Métriques d'Évaluation

  1. Coefficient Dice : Dice = 2×|X∩Y|/(|X|+|Y|)
  2. IoU Moyen : MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
  3. Distance de Hausdorff (HD95) : Distance de Hausdorff au 95e percentile
  4. Précision, Rappel, Exactitude : Métriques de classification standard

Méthodes de Comparaison

  • U-Net
  • UNETR
  • SwinUNETR
  • MedNeXt
  • Swin-NeXt proposé et ses variantes

Détails d'Implémentation

  • Cadre : Développé sur la base de MONAI, compatible avec Jupyter Notebook
  • Prétraitement : Recadrage d'image, normalisation, rééchantillonnage, augmentation de données
  • Stratégie d'entraînement : Stratégie de fenêtre glissante, traitement par blocs pour éviter le débordement de mémoire

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances sur la tâche de segmentation de tumeurs hépatiques :

ModèleClasseDiceMIoUHD95PrécisionRappelExactitude
U-NetGlobal0.7090.61416.8470.9910.7700.704
SwinUNETRGlobal0.6560.5537.30.9830.7330.64
MedNeXtGlobal0.6830.58321.60.990.7520.674
Swin-NeXtGlobal0.6620.56914.6140.9920.7140.684

Études d'Ablation

Comparaison des méthodes de fusion de caractéristiques :

Méthode de FusionModèleDiceMIoUHD95
AddSwinUNETR0.6620.56226.956
ConcatSwinUNETR0.6410.53739.197
Attention CroiséeSwinUNETR0.6660.56432.883
Attention CroiséeMedNeXt0.6830.58926.428
Attention CroiséeSwin-NeXt0.6570.56511.28

Découvertes Clés :

  1. Le mécanisme d'attention croisée fournit une amélioration stable des performances sur tous les modèles
  2. Les méthodes Add et Concat ne convergent pas sur les modèles utilisant des convolutions transposées (MedNeXt, Swin-NeXt)
  3. Le mécanisme d'attention croisée offre une meilleure compatibilité avec la structure de convolution transposée

Analyse de Cas

La visualisation des résultats sur les coupes CT du patient HCC066 montre que, bien que Swin-NeXt n'atteigne pas les métriques numériques optimales, il se rapproche le plus de l'étiquette réelle en termes de forme et de taille de segmentation, offrant une meilleure valeur clinique pratique.

Travaux Connexes

Évolution de la Segmentation d'Images Médicales 3D

  1. Méthodes traditionnelles : Méthodes non supervisées telles que la croissance de régions
  2. Ère de l'apprentissage profond : 3D U-Net pose les fondations
  3. Cadres automatisés : nnU-Net intègre le prétraitement automatisé et la sélection de paramètres
  4. Applications Transformer : UNETR introduit ViT, SwinUNETR utilise Swin Transformer
  5. Convolutions modernes : MedNeXt conçu sur la base de ConvNeXt

Positionnement de la Contribution de cet Article

Cet article est la première méthode de segmentation d'images médicales 3D combinant systématiquement un encodeur Transformer et un décodeur de convolution moderne, tout en introduisant un mécanisme d'attention croisée multimodale.

Conclusion et Discussion

Conclusions Principales

  1. Fusion d'architecture efficace : La combinaison de l'encodeur Swin Transformer et du décodeur ConvNeXt est efficace
  2. Supériorité de l'attention croisée : Dans la fusion multimodale, le mécanisme d'attention croisée surpasse significativement les simples méthodes d'addition et de concaténation
  3. Efficacité de la fonction de perte composite : DiceFocalCELoss peut améliorer la convergence d'entraînement du problème de déséquilibre des classes

Limitations

  1. Paramètres conservateurs : Réduction de la quantité de paramètres pour une comparaison équitable, sans utiliser le ratio optimal de blocs d'extraction de caractéristiques 1:1:3:1
  2. Limitations des ressources informatiques : En raison de facteurs tels que la mise en file d'attente des serveurs, tous les expériences prévues n'ont pas pu être complétées
  3. Taille de l'ensemble de données : Un ensemble de données relativement petit peut limiter la capacité de généralisation du modèle

Directions Futures

  1. Explorer des conceptions de proportions d'architecture réseau plus optimales
  2. Valider l'efficacité de la méthode sur des ensembles de données plus volumineux
  3. Étudier l'applicabilité à d'autres tâches de segmentation d'images médicales

Évaluation Approfondie

Avantages

  1. Innovation forte : Première combinaison systématique des avantages de Swin Transformer et ConvNeXt
  2. Fusion multimodale : Utilise efficacement les informations cliniques pour assister la segmentation d'image
  3. Expériences complètes : Inclut des études d'ablation détaillées et des analyses comparatives
  4. Valeur pratique élevée : Conçu selon les besoins réels de la segmentation d'images médicales

Insuffisances

  1. Amélioration de performance limitée : L'amélioration numérique par rapport aux méthodes de base n'est pas suffisamment significative
  2. Conditions expérimentales incohérentes : Différences dans les temps d'entraînement et les conditions entre les différents modèles
  3. Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons pour lesquelles l'attention croisée est plus efficace
  4. Généralisation inconnue : Validée uniquement sur la segmentation de tumeurs hépatiques, les performances sur d'autres tâches restent inconnues

Impact

  1. Contribution méthodologique : Fournit de nouvelles idées de conception d'architecture pour la segmentation d'images médicales 3D
  2. Fusion multimodale : Propose une solution efficace pour la fusion d'informations multimodales en analyse d'images médicales
  3. Valeur pratique : Les méthodes de segmentation considérant les informations cliniques correspondent mieux aux besoins médicaux réels

Scénarios d'Application

  1. Segmentation d'images médicales 3D : Particulièrement dans les scénarios nécessitant la combinaison d'informations cliniques
  2. Analyse médicale multimodale : Tâches combinant images et données structurées
  3. Segmentation avec déséquilibre des classes : Tâches où le fond est dominant

Références

L'article cite les travaux importants du domaine, notamment :

  • 3D U-Net : Travail fondateur en segmentation d'images médicales 3D
  • nnU-Net : Cadre de segmentation d'images médicales automatisé
  • SwinUNETR : Application de Swin Transformer en segmentation d'images médicales
  • MedNeXt : Méthode de segmentation d'images médicales basée sur ConvNeXt

Évaluation Globale : Ceci est un travail présentant une certaine innovation dans le domaine de la segmentation d'images médicales 3D, particulièrement en termes de fusion multimodale et de conception d'architecture. Bien que l'amélioration de performance soit relativement limitée, la praticité de la méthode et sa contribution au domaine méritent reconnaissance.