2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

academic

nnY-Net: Swin-NeXt mit Cross-Attention für 3D-Medizinbildsegmentierung

Grundlegende Informationen

Paper-ID: 2501.01406
Titel: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Autoren: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
Institutionen: ¹Universität Sydney, ²Chinesische Universität Hongkong
Klassifizierung: cs.CV (Computervision)
Paper-Link: https://arxiv.org/abs/2501.01406

Zusammenfassung

In diesem Artikel wird eine neue Modellarchitektur namens nnY-Net für die 3D-Medizinbildsegmentierung vorgestellt. Das Modell erhält seinen Namen durch die Y-förmige Struktur, die durch das Hinzufügen eines Cross-Attention-Moduls am Boden der U-Net-Struktur entsteht. Die Autoren integrieren die Vorteile zweier neuester SOTA-Modelle – MedNeXt und SwinUNETR – indem sie Swin Transformer als Encoder und ConvNeXt als Decoder verwenden und innovativ die Swin-NeXt-Struktur entwerfen. Das Modell nutzt Feature-Maps der niedrigsten Encoder-Schicht als Key und Value und verwendet Patienteneigenschaften wie pathologische und therapeutische Informationen als Query zur Berechnung von Cross-Attention-Gewichten. Darüber hinaus werden basierend auf den Frameworks dynUnet und nnU-Net die Vorverarbeitung und Nachverarbeitung für die 3D-Bildsegmentierung vereinfacht, und eine DiceFocalCELoss-Funktion wird konstruiert, um die Trainingseffizienz bei unausgewogener Voxel-Klassifizierung zu verbessern.

Forschungshintergrund und Motivation

Problemdefinition

Die Segmentierung von 3D-CT-Bildern von Lebertumoren ist eine wichtige Aufgabe in der medizinischen Bildsegmentierung. Eine genaue CT-Bildsegmentierung kann Ärzten helfen, das Tumorvolumen zu schätzen und angemessene Behandlungspläne zu entwickeln.

Einschränkungen bestehender Methoden

Einschränkungen traditioneller Methoden: Vor 2016 wurden hauptsächlich unüberwachte Algorithmen wie Regionenwachstum verwendet, mit begrenzter Genauigkeit
Mängel einzelner Architekturen: Bestehende Methoden basieren entweder auf reinen Faltungen (wie nnU-Net) oder reinen Transformern (wie SwinUNETR) und nutzen nicht vollständig die Vorteile beider Ansätze
Unzureichende Multimodalfusion: Bestehende Methoden verarbeiten hauptsächlich Bildinformationen und nutzen nicht effektiv die pathologischen und therapeutischen Informationen von Patienten
Klassenungleichgewichtsproblem: Das Hintergrund-Label nimmt über 90% der Pixel ein, was zu Trainingsschwierigkeiten führt

Forschungsmotivation

Dieser Artikel zielt darauf ab, durch die Fusion der Vorteile von Transformer und Faltungs-Neuronalen Netzen ein Multimodal-Segmentierungsmodell zu entwerfen, das gleichzeitig 3D-Bilder und klinische Patienteninformationen verarbeiten kann, um die Genauigkeit und Praktikabilität der medizinischen Bildsegmentierung zu verbessern.

Kernbeiträge

Vorschlag der Swin-NeXt-Architektur: Innovativ werden der Encoder von SwinUNETR und der Decoder von MedNeXt kombiniert, um vollständig die Vorteile von Transformer bei der Merkmalsextraktion und Faltung bei der Pixel-Level-Dekodierung zu nutzen
Entwurf eines Cross-Attention-Fusionsmechanismus: Es werden drei Merkmalsfusionsmethoden vorgeschlagen, wobei festgestellt wird, dass der Cross-Attention-Mechanismus bei der Multimodalfusion am besten abschneidet und die Modellleistung stabil verbessert
Konstruktion der DiceFocalCELoss-Verlustfunktion: Durch die Kombination von DiceLoss, FocalLoss und Cross-Entropy-Loss wird das Klassenungleichgewichtsproblem bei der Voxel-Klassifizierung effektiv gelöst
Vereinfachung des Vorverarbeitungsprozesses: Basierend auf den Frameworks dynUnet und nnU-Net werden die Vorverarbeitung und Nachverarbeitung für die 3D-Bildsegmentierung vereinfacht und optimiert

Methodische Details

Aufgabendefinition

Eingabe:

3D-CT-Scan-Bild χ ∈ R^(H×W×D×C)
Klinische Patienteninformationen (pathologische, therapeutische Informationen usw.)

Ausgabe: Mehrklassen-Segmentierungsmaske, einschließlich Leber, Tumor, Blutgefäße, Aorta und andere Strukturen

Einschränkungen: Speicherbegrenzungen bei der Verarbeitung hochauflösender 3D-Bilder, Segmentierungsaufgaben mit extremem Klassenungleichgewicht

Modellarchitektur

1. Swin Transformer Encoder

Verwendet 3D Swin Transformer als Encoder mit folgender spezifischer Implementierung:

Patch-Partitionierung: Teilt das Eingabebild in 3D-Fenster der Größe M×M×M auf

Fenster-Aufmerksamkeitsmechanismus:

z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)

Aufmerksamkeitsberechnung:

Attention(Q,K,V) = Softmax(QK^T/√d + B)V

2. ConvNeXt Decoder

Verwendet die Decoder-Struktur von MedNeXt:

Transponierte Faltungs-Upsampling:

Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}

GELU-Aktivierungsfunktion:
```
GELU(x) = x/2[1 + erf(x/√2)]
```

3. Cross-Attention-Fusionsmodul

Integriert Multimodalinformationen in der Encoder-Bottleneck-Schicht:

Key & Value: Feature-Maps der niedrigsten Encoder-Schicht
Query: Klinischer Merkmalvektor des Patienten
Fusionsstrategie: Durch vollständig verbundene Schichten werden klinische Merkmale auf die geeignete Dimension abgebildet, gefolgt von Cross-Attention-Berechnung

Technische Innovationen

Hybrid-Architektur-Design: Erstmalige Kombination von Swin Transformer Encoder mit ConvNeXt Decoder, um die jeweiligen Vorteile zu nutzen
Multimodale Cross-Attention: Innovativer Einsatz des Cross-Attention-Mechanismus zur Fusion von Bildmerkmalen und klinischen Informationen
Kombinierte Verlustfunktion: Entwurf von DiceFocalCELoss zur Lösung des Klassenungleichgewichtsproblems in der medizinischen Bildsegmentierung

Experimentelle Einrichtung

Datensätze

Bilddaten: 110 Lebertomographie-Scans von 98 Patienten
Klinische Daten: 56 Variablen pathologischer und therapeutischer Patienteninformationen
Datenbereinigung: 4 problematische Datensätze wurden gelöscht (HCC 017, 008, 025, 009)
Behandlung fehlender Werte: Verwendung von Machine-Learning-Modellen zur Imputation fehlender Werte

Bewertungsmetriken

Dice-Koeffizient: Dice = 2×|X∩Y|/(|X|+|Y|)
Durchschnittliche IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
Hausdorff-Distanz (HD95): 95. Perzentil der Hausdorff-Distanz
Genauigkeit, Recall, Präzision: Standard-Klassifizierungsmetriken

Vergleichsmethoden

U-Net
UNETR
SwinUNETR
MedNeXt
Vorgeschlagenes Swin-NeXt und seine Varianten

Implementierungsdetails

Framework: Basierend auf MONAI, kompatibel mit Jupyter Notebook
Vorverarbeitung: Bildausschnitt, Normalisierung, Resampling, Datenerweiterung
Trainingsstrategie: Sliding-Window-Strategie, blockweise Verarbeitung zur Vermeidung von Speicherüberlauf

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich bei der Lebertumor-Segmentierungsaufgabe:

Modell	Klasse	Dice	MIoU	HD95	Genauigkeit	Recall	Präzision
U-Net	Gesamt	0.709	0.614	16.847	0.991	0.770	0.704
SwinUNETR	Gesamt	0.656	0.55	37.3	0.983	0.733	0.64
MedNeXt	Gesamt	0.683	0.583	21.6	0.99	0.752	0.674
Swin-NeXt	Gesamt	0.662	0.569	14.614	0.992	0.714	0.684

Ablationsstudien

Vergleich der Merkmalsfusionsmethoden:

Fusionsmethode	Modell	Dice	MIoU	HD95
Add	SwinUNETR	0.662	0.562	26.956
Concat	SwinUNETR	0.641	0.537	39.197
Cross Attention	SwinUNETR	0.666	0.564	32.883
Cross Attention	MedNeXt	0.683	0.589	26.428
Cross Attention	Swin-NeXt	0.657	0.565	11.28

Wichtigste Erkenntnisse:

Der Cross-Attention-Mechanismus bietet bei allen Modellen stabile Leistungsverbesserungen
Add- und Concat-Methoden können bei Modellen mit transponierter Faltung (MedNeXt, Swin-NeXt) nicht konvergieren
Der Cross-Attention-Mechanismus hat bessere Kompatibilität mit der Struktur der transponierten Faltung

Fallanalyse

Die Visualisierung der CT-Schnitte des Patienten HCC066 zeigt, dass Swin-NeXt zwar bei numerischen Metriken nicht optimal abschneidet, aber in Bezug auf Segmentierungsform und -größe dem echten Label am nächsten kommt und einen besseren klinischen Praktikabilitätswert hat.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Architektur-Fusion ist wirksam: Die Kombination von Swin Transformer Encoder und ConvNeXt Decoder ist wirksam
Cross-Attention ist überlegen: Bei der Multimodalfusion ist der Cross-Attention-Mechanismus deutlich überlegen gegenüber einfachen Additions- und Verkettungsmethoden
Kombinierte Verlustfunktion ist wirksam: DiceFocalCELoss kann die Trainingskonvergenz bei Klassenungleichgewichtsproblemen verbessern

Einschränkungen

Konservative Parametereinstellung: Zur fairen Vergleichbarkeit wurden Parameter reduziert, das optimale Verhältnis von 1:1:3:1 für Merkmalextraktionsblöcke wurde nicht verwendet
Rechnerische Ressourcenbegrenzungen: Aufgrund von Warteschlangen auf Servern usw. konnten nicht alle geplanten Experimente abgeschlossen werden
Datensatzgröße: Der relativ kleine Datensatz kann die Generalisierungsfähigkeit des Modells einschränken

Zukünftige Richtungen

Erforschung optimaler Netzwerkarchitektur-Verhältnisse
Validierung der Methodeneffektivität auf größeren Datensätzen
Untersuchung der Anwendbarkeit auf andere Medizinbildsegmentierungsaufgaben

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige systematische Kombination der Vorteile von Swin Transformer und ConvNeXt
Multimodalfusion: Effektive Nutzung klinischer Informationen zur Unterstützung der Bildsegmentierung
Umfangreiche Experimente: Detaillierte Ablationsstudien und Vergleichsanalysen
Hoher praktischer Wert: Auf die tatsächlichen Anforderungen der medizinischen Bildsegmentierung zugeschnitten

Schwächen

Begrenzte Leistungsverbesserung: Numerische Verbesserungen gegenüber Baseline-Methoden sind nicht signifikant
Inkonsistente Experimentalbedingungen: Unterschiede in Trainingszeit und Bedingungen zwischen verschiedenen Modellen
Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum Cross-Attention effektiver ist
Unbekannte Generalisierbarkeit: Validierung nur bei Lebertumor-Segmentierung, Leistung bei anderen Aufgaben unbekannt

Auswirkungen

Methodologischer Beitrag: Bietet neue Architektur-Designideen für die 3D-Medizinbildsegmentierung
Multimodalfusion: Bietet effektive Lösungen für die Multimodal-Informationsfusion in der medizinischen Bildanalyse
Praktischer Wert: Segmentierungsmethoden, die klinische Informationen berücksichtigen, entsprechen besser den tatsächlichen medizinischen Anforderungen

Anwendungsszenarien

3D-Medizinbildsegmentierung: Besonders Szenarien, die klinische Informationen erfordern
Multimodale medizinische Analyse: Aufgaben, die Bilder und strukturierte Daten kombinieren
Segmentierung mit Klassenungleichgewicht: Segmentierungsaufgaben, bei denen der Hintergrund dominiert

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

3D U-Net: Grundlegende Arbeit zur 3D-Medizinbildsegmentierung
nnU-Net: Automatisiertes Framework für medizinische Bildsegmentierung
SwinUNETR: Anwendung von Swin Transformer in der medizinischen Bildsegmentierung
MedNeXt: Medizinische Bildsegmentierungsmethode basierend auf ConvNeXt

Gesamtbewertung: Dies ist eine Arbeit mit gewisser Innovativität im Bereich der 3D-Medizinbildsegmentierung, besonders in Bezug auf Multimodalfusion und Architektur-Design. Obwohl die Leistungsverbesserungen relativ begrenzt sind, verdienen die Praktikabilität der Methode und der Beitrag zum Bereich Anerkennung.