2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

academic

nnY-Net : Swin-NeXt avec Attention Croisée pour la Segmentation d'Images Médicales 3D

Informations Fondamentales

ID de l'article : 2501.01406
Titre : nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Auteurs : Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
Institutions : ¹Université de Sydney, ²Université Chinoise de Hong Kong
Classification : cs.CV (Vision par Ordinateur)
Lien de l'article : https://arxiv.org/abs/2501.01406

Résumé

Cet article propose une nouvelle architecture de modèle de segmentation d'images médicales 3D appelée nnY-Net. Le modèle tire son nom de sa structure en forme de Y, formée par l'ajout d'un module d'attention croisée au bas de la structure U-Net. Les auteurs intègrent les avantages de deux modèles SOTA récents, MedNeXt et SwinUNETR, en utilisant Swin Transformer comme encodeur et ConvNeXt comme décodeur, créant ainsi une architecture innovante appelée Swin-NeXt. Le modèle utilise les cartes de caractéristiques de la couche la plus basse de l'encodeur comme Clé et Valeur, tandis que les caractéristiques des patients (informations pathologiques et thérapeutiques) servent de Requête pour calculer les poids d'attention croisée. De plus, basé sur les cadres dynUnet et nnU-Net, les auteurs ont simplifié les méthodes de prétraitement et post-traitement pour la segmentation d'images 3D, et ont construit une fonction de perte DiceFocalCELoss pour améliorer l'efficacité d'entraînement dans la classification de voxels déséquilibrés.

Contexte de Recherche et Motivation

Définition du Problème

La segmentation d'images CT 3D de tumeurs hépatiques est une tâche importante en segmentation d'images médicales. Une segmentation précise des images CT peut aider les médecins à estimer le volume de la tumeur et à élaborer des plans de traitement appropriés.

Limitations des Méthodes Existantes

Limitations des méthodes traditionnelles : Avant 2016, les algorithmes non supervisés tels que la croissance de régions étaient principalement utilisés, avec une précision limitée
Défauts d'architecture unique : Les méthodes existantes sont soit basées sur des convolutions pures (comme nnU-Net), soit sur des Transformers purs (comme SwinUNETR), sans combiner pleinement les avantages des deux
Fusion multimodale insuffisante : Les méthodes existantes traitent principalement les informations d'image, sans utiliser efficacement les informations pathologiques et thérapeutiques des patients
Problème de déséquilibre des classes : L'étiquette de fond occupe plus de 90 % des pixels, ce qui rend l'entraînement difficile

Motivation de la Recherche

Cet article vise à concevoir un modèle de segmentation multimodale capable de traiter à la fois les images 3D et les informations cliniques des patients, en fusionnant les avantages des Transformers et des réseaux de neurones convolutifs, afin d'améliorer la précision et l'utilité pratique de la segmentation d'images médicales.

Contributions Principales

Proposition de l'architecture Swin-NeXt : Combine innovamment l'encodeur de SwinUNETR avec le décodeur de MedNeXt, exploitant pleinement les avantages des Transformers dans l'extraction de caractéristiques et des convolutions dans le décodage au niveau des pixels
Conception d'un mécanisme de fusion par attention croisée : Propose trois méthodes de fusion de caractéristiques, découvrant que le mécanisme d'attention croisée fonctionne le mieux dans la fusion multimodale et améliore de manière stable les performances du modèle
Construction de la fonction de perte DiceFocalCELoss : Combine DiceLoss, FocalLoss et la perte d'entropie croisée, résolvant efficacement le problème de déséquilibre des classes dans la classification de voxels
Simplification du pipeline de prétraitement : Basée sur les cadres dynUnet et nnU-Net, simplifie et optimise les méthodes de prétraitement et post-traitement pour la segmentation d'images 3D

Détails de la Méthode

Définition de la Tâche

Entrées :

Images de balayage CT 3D χ ∈ R^(H×W×D×C)
Informations cliniques des patients (informations pathologiques, thérapeutiques, etc.)

Sorties : Masques de segmentation multi-classe, incluant le foie, la tumeur, les vaisseaux sanguins, l'aorte et autres structures

Contraintes : Traitement des limitations de mémoire pour les images 3D haute résolution, tâche de segmentation avec déséquilibre extrême des classes

Architecture du Modèle

1. Encodeur Swin Transformer 3D

Utilise Swin Transformer 3D comme encodeur, avec l'implémentation spécifique suivante :

Partitionnement en patchs : Divise l'image d'entrée en fenêtres 3D de taille M×M×M

Mécanisme d'attention par fenêtre :

z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)

Calcul de l'attention :

Attention(Q,K,V) = Softmax(QK^T/√d + B)V

2. Décodeur ConvNeXt

Utilise la structure de décodeur de MedNeXt :

Sur-échantillonnage par convolution transposée :

Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}

Fonction d'activation GELU :
```
GELU(x) = x/2[1 + erf(x/√2)]
```

3. Module de Fusion par Attention Croisée

Intègre les informations multimodales au niveau du goulot d'étranglement de l'encodeur :

Clé et Valeur : Cartes de caractéristiques de la couche la plus basse de l'encodeur
Requête : Vecteur de caractéristiques cliniques du patient
Stratégie de fusion : Mappe les caractéristiques cliniques à une dimension appropriée via une couche entièrement connectée, puis effectue le calcul d'attention croisée

Points d'Innovation Technique

Conception d'architecture hybride : Première combinaison d'un encodeur Swin Transformer avec un décodeur ConvNeXt, exploitant les avantages respectifs
Attention croisée multimodale : Utilise innovamment le mécanisme d'attention croisée pour fusionner les caractéristiques d'image et les informations cliniques
Fonction de perte composite : Conçoit DiceFocalCELoss pour résoudre le problème de déséquilibre des classes en segmentation d'images médicales

Configuration Expérimentale

Ensemble de Données

Données d'image : 110 images de balayage CT hépatique, provenant de 98 patients
Données cliniques : 56 variables d'informations pathologiques et thérapeutiques des patients
Nettoyage des données : Suppression de 4 ensembles de données problématiques (HCC 017, 008, 025, 009)
Traitement des valeurs manquantes : Utilisation de modèles d'apprentissage automatique pour l'imputation des valeurs manquantes

Métriques d'Évaluation

Coefficient Dice : Dice = 2×|X∩Y|/(|X|+|Y|)
IoU Moyen : MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
Distance de Hausdorff (HD95) : Distance de Hausdorff au 95e percentile
Précision, Rappel, Exactitude : Métriques de classification standard

Méthodes de Comparaison

U-Net
UNETR
SwinUNETR
MedNeXt
Swin-NeXt proposé et ses variantes

Détails d'Implémentation

Cadre : Développé sur la base de MONAI, compatible avec Jupyter Notebook
Prétraitement : Recadrage d'image, normalisation, rééchantillonnage, augmentation de données
Stratégie d'entraînement : Stratégie de fenêtre glissante, traitement par blocs pour éviter le débordement de mémoire

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances sur la tâche de segmentation de tumeurs hépatiques :

Modèle	Classe	Dice	MIoU	HD95	Précision	Rappel	Exactitude
U-Net	Global	0.709	0.614	16.847	0.991	0.770	0.704
SwinUNETR	Global	0.656	0.55	37.3	0.983	0.733	0.64
MedNeXt	Global	0.683	0.583	21.6	0.99	0.752	0.674
Swin-NeXt	Global	0.662	0.569	14.614	0.992	0.714	0.684

Études d'Ablation

Comparaison des méthodes de fusion de caractéristiques :

Méthode de Fusion	Modèle	Dice	MIoU	HD95
Add	SwinUNETR	0.662	0.562	26.956
Concat	SwinUNETR	0.641	0.537	39.197
Attention Croisée	SwinUNETR	0.666	0.564	32.883
Attention Croisée	MedNeXt	0.683	0.589	26.428
Attention Croisée	Swin-NeXt	0.657	0.565	11.28

Découvertes Clés :

Le mécanisme d'attention croisée fournit une amélioration stable des performances sur tous les modèles
Les méthodes Add et Concat ne convergent pas sur les modèles utilisant des convolutions transposées (MedNeXt, Swin-NeXt)
Le mécanisme d'attention croisée offre une meilleure compatibilité avec la structure de convolution transposée

Analyse de Cas

La visualisation des résultats sur les coupes CT du patient HCC066 montre que, bien que Swin-NeXt n'atteigne pas les métriques numériques optimales, il se rapproche le plus de l'étiquette réelle en termes de forme et de taille de segmentation, offrant une meilleure valeur clinique pratique.

Travaux Connexes

Évolution de la Segmentation d'Images Médicales 3D

Méthodes traditionnelles : Méthodes non supervisées telles que la croissance de régions
Ère de l'apprentissage profond : 3D U-Net pose les fondations
Cadres automatisés : nnU-Net intègre le prétraitement automatisé et la sélection de paramètres
Applications Transformer : UNETR introduit ViT, SwinUNETR utilise Swin Transformer
Convolutions modernes : MedNeXt conçu sur la base de ConvNeXt

Positionnement de la Contribution de cet Article

Cet article est la première méthode de segmentation d'images médicales 3D combinant systématiquement un encodeur Transformer et un décodeur de convolution moderne, tout en introduisant un mécanisme d'attention croisée multimodale.

Conclusion et Discussion

Conclusions Principales

Fusion d'architecture efficace : La combinaison de l'encodeur Swin Transformer et du décodeur ConvNeXt est efficace
Supériorité de l'attention croisée : Dans la fusion multimodale, le mécanisme d'attention croisée surpasse significativement les simples méthodes d'addition et de concaténation
Efficacité de la fonction de perte composite : DiceFocalCELoss peut améliorer la convergence d'entraînement du problème de déséquilibre des classes

Limitations

Paramètres conservateurs : Réduction de la quantité de paramètres pour une comparaison équitable, sans utiliser le ratio optimal de blocs d'extraction de caractéristiques 1:1:3:1
Limitations des ressources informatiques : En raison de facteurs tels que la mise en file d'attente des serveurs, tous les expériences prévues n'ont pas pu être complétées
Taille de l'ensemble de données : Un ensemble de données relativement petit peut limiter la capacité de généralisation du modèle

Directions Futures

Explorer des conceptions de proportions d'architecture réseau plus optimales
Valider l'efficacité de la méthode sur des ensembles de données plus volumineux
Étudier l'applicabilité à d'autres tâches de segmentation d'images médicales

Évaluation Approfondie

Avantages

Innovation forte : Première combinaison systématique des avantages de Swin Transformer et ConvNeXt
Fusion multimodale : Utilise efficacement les informations cliniques pour assister la segmentation d'image
Expériences complètes : Inclut des études d'ablation détaillées et des analyses comparatives
Valeur pratique élevée : Conçu selon les besoins réels de la segmentation d'images médicales

Insuffisances

Amélioration de performance limitée : L'amélioration numérique par rapport aux méthodes de base n'est pas suffisamment significative
Conditions expérimentales incohérentes : Différences dans les temps d'entraînement et les conditions entre les différents modèles
Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons pour lesquelles l'attention croisée est plus efficace
Généralisation inconnue : Validée uniquement sur la segmentation de tumeurs hépatiques, les performances sur d'autres tâches restent inconnues

Impact

Contribution méthodologique : Fournit de nouvelles idées de conception d'architecture pour la segmentation d'images médicales 3D
Fusion multimodale : Propose une solution efficace pour la fusion d'informations multimodales en analyse d'images médicales
Valeur pratique : Les méthodes de segmentation considérant les informations cliniques correspondent mieux aux besoins médicaux réels

Scénarios d'Application

Segmentation d'images médicales 3D : Particulièrement dans les scénarios nécessitant la combinaison d'informations cliniques
Analyse médicale multimodale : Tâches combinant images et données structurées
Segmentation avec déséquilibre des classes : Tâches où le fond est dominant

Références

L'article cite les travaux importants du domaine, notamment :

3D U-Net : Travail fondateur en segmentation d'images médicales 3D
nnU-Net : Cadre de segmentation d'images médicales automatisé
SwinUNETR : Application de Swin Transformer en segmentation d'images médicales
MedNeXt : Méthode de segmentation d'images médicales basée sur ConvNeXt

Évaluation Globale : Ceci est un travail présentant une certaine innovation dans le domaine de la segmentation d'images médicales 3D, particulièrement en termes de fusion multimodale et de conception d'architecture. Bien que l'amélioration de performance soit relativement limitée, la praticité de la méthode et sa contribution au domaine méritent reconnaissance.