nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic
nnY-Net: Swin-NeXt con Cross-Attention per la Segmentazione di Immagini Mediche 3D
Questo articolo propone una nuova architettura di modello denominata nnY-Net per la segmentazione di immagini mediche 3D. Il modello prende il nome dalla struttura a forma di Y, ottenuta aggiungendo un modulo di cross-attention alla base della struttura U-Net. Gli autori integrano i vantaggi di due modelli SOTA recenti, MedNeXt e SwinUNETR, utilizzando Swin Transformer come encoder e ConvNeXt come decoder, progettando innovativamente l'architettura Swin-NeXt. Il modello utilizza le mappe di caratteristiche dello strato più basso dell'encoder come Key e Value, mentre le caratteristiche del paziente come informazioni patologiche e terapeutiche fungono da Query per calcolare i pesi di cross-attention. Inoltre, basandosi sui framework dynUnet e nnU-Net, il metodo semplifica la pre-elaborazione e la post-elaborazione della segmentazione di immagini 3D, e costruisce una DiceFocalCELoss per migliorare l'efficienza di addestramento nella classificazione di voxel sbilanciati.
La segmentazione di immagini TC 3D di tumori epatici è un compito importante nella segmentazione di immagini mediche. Una segmentazione accurata delle immagini TC può aiutare i medici a stimare il volume del tumore e formulare piani terapeutici appropriati.
Limitazioni dei metodi tradizionali: Prima del 2016, i metodi principali utilizzavano algoritmi non supervisionati come la crescita per regioni, con precisione limitata
Difetti dell'architettura singola: I metodi esistenti si basano o su convoluzione pura (come nnU-Net) o su Transformer puro (come SwinUNETR), senza sfruttare pienamente i vantaggi di entrambi
Fusione multimodale insufficiente: I metodi esistenti elaborano principalmente informazioni di immagini, senza utilizzare efficacemente le informazioni patologiche e terapeutiche del paziente
Problema dello squilibrio di classe: L'etichetta di sfondo occupa oltre il 90% dei pixel, causando difficoltà di addestramento
Questo articolo mira a progettare un modello di segmentazione multimodale che possa elaborare simultaneamente immagini 3D e informazioni cliniche dei pazienti, fondendo i vantaggi delle reti neurali Transformer e convoluzionali, per migliorare l'accuratezza e l'applicabilità pratica della segmentazione di immagini mediche.
Propone l'architettura Swin-NeXt: Combina innovativamente l'encoder di SwinUNETR con il decoder di MedNeXt, sfruttando pienamente i vantaggi del Transformer nell'estrazione di caratteristiche e della convoluzione nella decodifica a livello di pixel
Progetta il meccanismo di fusione con cross-attention: Propone tre metodi di fusione di caratteristiche, scoprendo che il meccanismo di cross-attention è il più efficace nella fusione multimodale, fornendo un miglioramento stabile delle prestazioni del modello
Costruisce la funzione di perdita DiceFocalCELoss: Combina DiceLoss, FocalLoss e perdita di entropia incrociata, risolvendo efficacemente il problema dello squilibrio di classe nella classificazione di voxel
Semplifica il flusso di pre-elaborazione: Basandosi sui framework dynUnet e nnU-Net, semplifica e ottimizza la pre-elaborazione e la post-elaborazione della segmentazione di immagini 3D
Integra informazioni multimodali nello strato inferiore dell'encoder (Bottleneck):
Key & Value: Mappe di caratteristiche dello strato più basso dell'encoder
Query: Vettore di caratteristiche cliniche del paziente
Strategia di fusione: Mappa le caratteristiche cliniche a una dimensione appropriata attraverso strati completamente connessi, quindi esegue il calcolo di cross-attention
La visualizzazione dei risultati su fette TC del paziente HCC066 mostra che, sebbene Swin-NeXt non raggiunga il valore ottimale nelle metriche numeriche, è il più vicino all'etichetta reale in termini di forma e dimensione della segmentazione, con maggiore valore clinico pratico.
Questo articolo è il primo a combinare sistematicamente un encoder Transformer e un decoder di convoluzione moderna per la segmentazione di immagini mediche 3D, introducendo anche un meccanismo di cross-attention multimodale.
Fusione di architetture efficace: La combinazione dell'encoder Swin Transformer e del decoder ConvNeXt è efficace
Superiorità della cross-attention: Nel contesto della fusione multimodale, il meccanismo di cross-attention è significativamente superiore ai semplici metodi di addizione e concatenazione
Efficacia della funzione di perdita composita: DiceFocalCELoss può migliorare la convergenza dell'addestramento nel problema dello squilibrio di classe
Impostazioni dei parametri conservative: Riduzione della quantità di parametri per un confronto equo, senza utilizzare il rapporto ottimale di blocchi di estrazione di caratteristiche 1:1:3:1
Limitazioni delle risorse computazionali: A causa di fattori come l'accodamento del server, non tutti gli esperimenti programmati sono stati completati
Dimensione del dataset: Il dataset relativamente piccolo potrebbe limitare la capacità di generalizzazione del modello
L'articolo cita importanti lavori in questo campo, inclusi:
3D U-Net: Lavoro fondamentale nella segmentazione di immagini mediche 3D
nnU-Net: Framework automatizzato per la segmentazione di immagini mediche
SwinUNETR: Applicazione di Swin Transformer nella segmentazione di immagini mediche
MedNeXt: Metodo di segmentazione di immagini mediche basato su ConvNeXt
Valutazione Complessiva: Questo è un lavoro con una certa innovatività nel campo della segmentazione di immagini mediche 3D, particolarmente nella fusione multimodale e nella progettazione di architetture. Sebbene il miglioramento delle prestazioni sia relativamente limitato, la praticità del metodo e il contributo al campo meritano riconoscimento.