2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic

nnY-Net: Swin-NeXt con Cross-Attention per la Segmentazione di Immagini Mediche 3D

Informazioni Fondamentali

  • ID Articolo: 2501.01406
  • Titolo: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
  • Autori: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
  • Istituzioni: ¹Università di Sydney, ²Università Cinese di Hong Kong
  • Classificazione: cs.CV (Visione Artificiale)
  • Link Articolo: https://arxiv.org/abs/2501.01406

Riassunto

Questo articolo propone una nuova architettura di modello denominata nnY-Net per la segmentazione di immagini mediche 3D. Il modello prende il nome dalla struttura a forma di Y, ottenuta aggiungendo un modulo di cross-attention alla base della struttura U-Net. Gli autori integrano i vantaggi di due modelli SOTA recenti, MedNeXt e SwinUNETR, utilizzando Swin Transformer come encoder e ConvNeXt come decoder, progettando innovativamente l'architettura Swin-NeXt. Il modello utilizza le mappe di caratteristiche dello strato più basso dell'encoder come Key e Value, mentre le caratteristiche del paziente come informazioni patologiche e terapeutiche fungono da Query per calcolare i pesi di cross-attention. Inoltre, basandosi sui framework dynUnet e nnU-Net, il metodo semplifica la pre-elaborazione e la post-elaborazione della segmentazione di immagini 3D, e costruisce una DiceFocalCELoss per migliorare l'efficienza di addestramento nella classificazione di voxel sbilanciati.

Contesto di Ricerca e Motivazione

Definizione del Problema

La segmentazione di immagini TC 3D di tumori epatici è un compito importante nella segmentazione di immagini mediche. Una segmentazione accurata delle immagini TC può aiutare i medici a stimare il volume del tumore e formulare piani terapeutici appropriati.

Limitazioni dei Metodi Esistenti

  1. Limitazioni dei metodi tradizionali: Prima del 2016, i metodi principali utilizzavano algoritmi non supervisionati come la crescita per regioni, con precisione limitata
  2. Difetti dell'architettura singola: I metodi esistenti si basano o su convoluzione pura (come nnU-Net) o su Transformer puro (come SwinUNETR), senza sfruttare pienamente i vantaggi di entrambi
  3. Fusione multimodale insufficiente: I metodi esistenti elaborano principalmente informazioni di immagini, senza utilizzare efficacemente le informazioni patologiche e terapeutiche del paziente
  4. Problema dello squilibrio di classe: L'etichetta di sfondo occupa oltre il 90% dei pixel, causando difficoltà di addestramento

Motivazione della Ricerca

Questo articolo mira a progettare un modello di segmentazione multimodale che possa elaborare simultaneamente immagini 3D e informazioni cliniche dei pazienti, fondendo i vantaggi delle reti neurali Transformer e convoluzionali, per migliorare l'accuratezza e l'applicabilità pratica della segmentazione di immagini mediche.

Contributi Principali

  1. Propone l'architettura Swin-NeXt: Combina innovativamente l'encoder di SwinUNETR con il decoder di MedNeXt, sfruttando pienamente i vantaggi del Transformer nell'estrazione di caratteristiche e della convoluzione nella decodifica a livello di pixel
  2. Progetta il meccanismo di fusione con cross-attention: Propone tre metodi di fusione di caratteristiche, scoprendo che il meccanismo di cross-attention è il più efficace nella fusione multimodale, fornendo un miglioramento stabile delle prestazioni del modello
  3. Costruisce la funzione di perdita DiceFocalCELoss: Combina DiceLoss, FocalLoss e perdita di entropia incrociata, risolvendo efficacemente il problema dello squilibrio di classe nella classificazione di voxel
  4. Semplifica il flusso di pre-elaborazione: Basandosi sui framework dynUnet e nnU-Net, semplifica e ottimizza la pre-elaborazione e la post-elaborazione della segmentazione di immagini 3D

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input:

  • Scansione TC 3D χ ∈ R^(H×W×D×C)
  • Informazioni cliniche del paziente (informazioni patologiche, terapeutiche, ecc.)

Output: Maschera di segmentazione multiclasse, includendo strutture come fegato, tumore, vasi sanguigni, aorta, ecc.

Vincoli: Gestione dei limiti di memoria per immagini 3D ad alta risoluzione, compito di segmentazione con squilibrio di classe estremo

Architettura del Modello

1. Encoder Swin Transformer

Utilizza Swin Transformer 3D come encoder, con implementazione specifica:

  • Divisione in patch: Divide l'immagine di input in finestre 3D di dimensione M×M×M
  • Meccanismo di attenzione con finestra:
    z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
    z^l = MLP(LN(z^l)) + z^l
    z^(l+1) = SW-MSA(LN(z^l)) + z^l
    z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
    
  • Calcolo dell'attenzione:
    Attention(Q,K,V) = Softmax(QK^T/√d + B)V
    

2. Decoder ConvNeXt

Utilizza la struttura del decoder di MedNeXt:

  • Sovracampionamento con convoluzione trasposta:
    Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
    
  • Funzione di attivazione GELU:
    GELU(x) = x/2[1 + erf(x/√2)]
    

3. Modulo di Fusione con Cross-Attention

Integra informazioni multimodali nello strato inferiore dell'encoder (Bottleneck):

  • Key & Value: Mappe di caratteristiche dello strato più basso dell'encoder
  • Query: Vettore di caratteristiche cliniche del paziente
  • Strategia di fusione: Mappa le caratteristiche cliniche a una dimensione appropriata attraverso strati completamente connessi, quindi esegue il calcolo di cross-attention

Punti di Innovazione Tecnica

  1. Progettazione di architettura ibrida: Primo a combinare l'encoder Swin Transformer con il decoder ConvNeXt, sfruttando i vantaggi reciproci
  2. Cross-attention multimodale: Utilizza innovativamente il meccanismo di cross-attention per fondere caratteristiche di immagini e informazioni cliniche
  3. Funzione di perdita composita: Progetta DiceFocalCELoss per affrontare il problema dello squilibrio di classe nella segmentazione di immagini mediche

Configurazione Sperimentale

Dataset

  • Dati di immagine: 110 scansioni TC epatiche da 98 pazienti
  • Dati clinici: 56 variabili di informazioni patologiche e terapeutiche del paziente
  • Pulizia dei dati: Eliminazione di 4 set di dati problematici (HCC 017, 008, 025, 009)
  • Gestione dei valori mancanti: Utilizzo di modelli di machine learning per l'imputazione dei valori mancanti

Metriche di Valutazione

  1. Coefficiente Dice: Dice = 2×|X∩Y|/(|X|+|Y|)
  2. IoU medio: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
  3. Distanza di Hausdorff (HD95): Distanza di Hausdorff al 95° percentile
  4. Accuratezza, Recall, Precisione: Metriche di classificazione standard

Metodi di Confronto

  • U-Net
  • UNETR
  • SwinUNETR
  • MedNeXt
  • Swin-NeXt proposto e sue varianti

Dettagli di Implementazione

  • Framework: Sviluppato su MONAI, compatibile con Jupyter Notebook
  • Pre-elaborazione: Ritaglio di immagini, normalizzazione, ricampionamento, aumento dei dati
  • Strategia di addestramento: Strategia di finestra scorrevole, elaborazione in blocchi per evitare overflow di memoria

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni nel compito di segmentazione di tumori epatici:

ModelloClasseDiceMIoUHD95AccuratezzaRecallPrecisione
U-NetTotale0.7090.61416.8470.9910.7700.704
SwinUNETRTotale0.6560.5537.30.9830.7330.64
MedNeXtTotale0.6830.58321.60.990.7520.674
Swin-NeXtTotale0.6620.56914.6140.9920.7140.684

Esperimenti di Ablazione

Confronto dei metodi di fusione di caratteristiche:

Metodo di FusioneModelloDiceMIoUHD95
AddSwinUNETR0.6620.56226.956
ConcatSwinUNETR0.6410.53739.197
Cross AttentionSwinUNETR0.6660.56432.883
Cross AttentionMedNeXt0.6830.58926.428
Cross AttentionSwin-NeXt0.6570.56511.28

Scoperte Chiave:

  1. Il meccanismo di cross-attention fornisce miglioramenti stabili delle prestazioni su tutti i modelli
  2. I metodi Add e Concat non convergono nei modelli che utilizzano convoluzione trasposta (MedNeXt, Swin-NeXt)
  3. Il meccanismo di cross-attention ha una migliore compatibilità con la struttura di convoluzione trasposta

Analisi di Casi

La visualizzazione dei risultati su fette TC del paziente HCC066 mostra che, sebbene Swin-NeXt non raggiunga il valore ottimale nelle metriche numeriche, è il più vicino all'etichetta reale in termini di forma e dimensione della segmentazione, con maggiore valore clinico pratico.

Lavori Correlati

Sviluppo della Segmentazione di Immagini Mediche 3D

  1. Metodi tradizionali: Metodi non supervisionati come la crescita per regioni
  2. Era dell'apprendimento profondo: 3D U-Net pone le fondamenta
  3. Framework automatizzati: nnU-Net integra pre-elaborazione automatica e selezione dei parametri
  4. Applicazione di Transformer: UNETR introduce ViT, SwinUNETR utilizza Swin Transformer
  5. Convoluzione moderna: MedNeXt progettato basato su ConvNeXt

Posizionamento del Contributo di questo Articolo

Questo articolo è il primo a combinare sistematicamente un encoder Transformer e un decoder di convoluzione moderna per la segmentazione di immagini mediche 3D, introducendo anche un meccanismo di cross-attention multimodale.

Conclusioni e Discussione

Conclusioni Principali

  1. Fusione di architetture efficace: La combinazione dell'encoder Swin Transformer e del decoder ConvNeXt è efficace
  2. Superiorità della cross-attention: Nel contesto della fusione multimodale, il meccanismo di cross-attention è significativamente superiore ai semplici metodi di addizione e concatenazione
  3. Efficacia della funzione di perdita composita: DiceFocalCELoss può migliorare la convergenza dell'addestramento nel problema dello squilibrio di classe

Limitazioni

  1. Impostazioni dei parametri conservative: Riduzione della quantità di parametri per un confronto equo, senza utilizzare il rapporto ottimale di blocchi di estrazione di caratteristiche 1:1:3:1
  2. Limitazioni delle risorse computazionali: A causa di fattori come l'accodamento del server, non tutti gli esperimenti programmati sono stati completati
  3. Dimensione del dataset: Il dataset relativamente piccolo potrebbe limitare la capacità di generalizzazione del modello

Direzioni Future

  1. Esplorare progettazioni di proporzioni di architetture di rete più ottimali
  2. Validare l'efficacia del metodo su dataset di dimensioni maggiori
  3. Investigare l'applicabilità del metodo ad altri compiti di segmentazione di immagini mediche

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Primo a combinare sistematicamente i vantaggi di Swin Transformer e ConvNeXt
  2. Fusione multimodale: Utilizza efficacemente le informazioni cliniche per assistere la segmentazione di immagini
  3. Esperimenti completi: Include esperimenti di ablazione dettagliati e analisi comparative
  4. Alto valore pratico: Progettato in base alle esigenze pratiche della segmentazione di immagini mediche

Insufficienze

  1. Miglioramento delle prestazioni limitato: Il miglioramento numerico rispetto ai metodi di base non è sufficientemente significativo
  2. Incoerenza delle condizioni sperimentali: Esistono differenze nei tempi di addestramento e nelle condizioni tra diversi modelli
  3. Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché la cross-attention sia più efficace
  4. Generalizzabilità sconosciuta: Validato solo sulla segmentazione di tumori epatici, le prestazioni su altri compiti rimangono sconosciute

Impatto

  1. Contributo metodologico: Fornisce nuove idee di progettazione di architetture per la segmentazione di immagini mediche 3D
  2. Fusione multimodale: Fornisce una soluzione efficace per la fusione di informazioni multimodali nell'analisi di immagini mediche
  3. Valore pratico: Un metodo di segmentazione che considera le informazioni cliniche è più conforme alle esigenze mediche reali

Scenari Applicabili

  1. Segmentazione di immagini mediche 3D: Specialmente in scenari che richiedono la combinazione di informazioni cliniche
  2. Analisi medica multimodale: Compiti che combinano immagini e dati strutturati
  3. Segmentazione con squilibrio di classe: Compiti di segmentazione dove lo sfondo è dominante

Riferimenti Bibliografici

L'articolo cita importanti lavori in questo campo, inclusi:

  • 3D U-Net: Lavoro fondamentale nella segmentazione di immagini mediche 3D
  • nnU-Net: Framework automatizzato per la segmentazione di immagini mediche
  • SwinUNETR: Applicazione di Swin Transformer nella segmentazione di immagini mediche
  • MedNeXt: Metodo di segmentazione di immagini mediche basato su ConvNeXt

Valutazione Complessiva: Questo è un lavoro con una certa innovatività nel campo della segmentazione di immagini mediche 3D, particolarmente nella fusione multimodale e nella progettazione di architetture. Sebbene il miglioramento delle prestazioni sia relativamente limitato, la praticità del metodo e il contributo al campo meritano riconoscimento.