nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic
nnY-Net : Swin-NeXt avec Attention Croisée pour la Segmentation d'Images Médicales 3D
Cet article propose une nouvelle architecture de modèle de segmentation d'images médicales 3D appelée nnY-Net. Le modèle tire son nom de sa structure en forme de Y, formée par l'ajout d'un module d'attention croisée au bas de la structure U-Net. Les auteurs intègrent les avantages de deux modèles SOTA récents, MedNeXt et SwinUNETR, en utilisant Swin Transformer comme encodeur et ConvNeXt comme décodeur, créant ainsi une architecture innovante appelée Swin-NeXt. Le modèle utilise les cartes de caractéristiques de la couche la plus basse de l'encodeur comme Clé et Valeur, tandis que les caractéristiques des patients (informations pathologiques et thérapeutiques) servent de Requête pour calculer les poids d'attention croisée. De plus, basé sur les cadres dynUnet et nnU-Net, les auteurs ont simplifié les méthodes de prétraitement et post-traitement pour la segmentation d'images 3D, et ont construit une fonction de perte DiceFocalCELoss pour améliorer l'efficacité d'entraînement dans la classification de voxels déséquilibrés.
La segmentation d'images CT 3D de tumeurs hépatiques est une tâche importante en segmentation d'images médicales. Une segmentation précise des images CT peut aider les médecins à estimer le volume de la tumeur et à élaborer des plans de traitement appropriés.
Limitations des méthodes traditionnelles : Avant 2016, les algorithmes non supervisés tels que la croissance de régions étaient principalement utilisés, avec une précision limitée
Défauts d'architecture unique : Les méthodes existantes sont soit basées sur des convolutions pures (comme nnU-Net), soit sur des Transformers purs (comme SwinUNETR), sans combiner pleinement les avantages des deux
Fusion multimodale insuffisante : Les méthodes existantes traitent principalement les informations d'image, sans utiliser efficacement les informations pathologiques et thérapeutiques des patients
Problème de déséquilibre des classes : L'étiquette de fond occupe plus de 90 % des pixels, ce qui rend l'entraînement difficile
Cet article vise à concevoir un modèle de segmentation multimodale capable de traiter à la fois les images 3D et les informations cliniques des patients, en fusionnant les avantages des Transformers et des réseaux de neurones convolutifs, afin d'améliorer la précision et l'utilité pratique de la segmentation d'images médicales.
Proposition de l'architecture Swin-NeXt : Combine innovamment l'encodeur de SwinUNETR avec le décodeur de MedNeXt, exploitant pleinement les avantages des Transformers dans l'extraction de caractéristiques et des convolutions dans le décodage au niveau des pixels
Conception d'un mécanisme de fusion par attention croisée : Propose trois méthodes de fusion de caractéristiques, découvrant que le mécanisme d'attention croisée fonctionne le mieux dans la fusion multimodale et améliore de manière stable les performances du modèle
Construction de la fonction de perte DiceFocalCELoss : Combine DiceLoss, FocalLoss et la perte d'entropie croisée, résolvant efficacement le problème de déséquilibre des classes dans la classification de voxels
Simplification du pipeline de prétraitement : Basée sur les cadres dynUnet et nnU-Net, simplifie et optimise les méthodes de prétraitement et post-traitement pour la segmentation d'images 3D
Intègre les informations multimodales au niveau du goulot d'étranglement de l'encodeur :
Clé et Valeur : Cartes de caractéristiques de la couche la plus basse de l'encodeur
Requête : Vecteur de caractéristiques cliniques du patient
Stratégie de fusion : Mappe les caractéristiques cliniques à une dimension appropriée via une couche entièrement connectée, puis effectue le calcul d'attention croisée
Conception d'architecture hybride : Première combinaison d'un encodeur Swin Transformer avec un décodeur ConvNeXt, exploitant les avantages respectifs
Attention croisée multimodale : Utilise innovamment le mécanisme d'attention croisée pour fusionner les caractéristiques d'image et les informations cliniques
Fonction de perte composite : Conçoit DiceFocalCELoss pour résoudre le problème de déséquilibre des classes en segmentation d'images médicales
La visualisation des résultats sur les coupes CT du patient HCC066 montre que, bien que Swin-NeXt n'atteigne pas les métriques numériques optimales, il se rapproche le plus de l'étiquette réelle en termes de forme et de taille de segmentation, offrant une meilleure valeur clinique pratique.
Cet article est la première méthode de segmentation d'images médicales 3D combinant systématiquement un encodeur Transformer et un décodeur de convolution moderne, tout en introduisant un mécanisme d'attention croisée multimodale.
Fusion d'architecture efficace : La combinaison de l'encodeur Swin Transformer et du décodeur ConvNeXt est efficace
Supériorité de l'attention croisée : Dans la fusion multimodale, le mécanisme d'attention croisée surpasse significativement les simples méthodes d'addition et de concaténation
Efficacité de la fonction de perte composite : DiceFocalCELoss peut améliorer la convergence d'entraînement du problème de déséquilibre des classes
Paramètres conservateurs : Réduction de la quantité de paramètres pour une comparaison équitable, sans utiliser le ratio optimal de blocs d'extraction de caractéristiques 1:1:3:1
Limitations des ressources informatiques : En raison de facteurs tels que la mise en file d'attente des serveurs, tous les expériences prévues n'ont pas pu être complétées
Taille de l'ensemble de données : Un ensemble de données relativement petit peut limiter la capacité de généralisation du modèle
L'article cite les travaux importants du domaine, notamment :
3D U-Net : Travail fondateur en segmentation d'images médicales 3D
nnU-Net : Cadre de segmentation d'images médicales automatisé
SwinUNETR : Application de Swin Transformer en segmentation d'images médicales
MedNeXt : Méthode de segmentation d'images médicales basée sur ConvNeXt
Évaluation Globale : Ceci est un travail présentant une certaine innovation dans le domaine de la segmentation d'images médicales 3D, particulièrement en termes de fusion multimodale et de conception d'architecture. Bien que l'amélioration de performance soit relativement limitée, la praticité de la méthode et sa contribution au domaine méritent reconnaissance.