2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic

nnY-Net: Swin-NeXt mit Cross-Attention für 3D-Medizinbildsegmentierung

Grundlegende Informationen

  • Paper-ID: 2501.01406
  • Titel: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
  • Autoren: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
  • Institutionen: ¹Universität Sydney, ²Chinesische Universität Hongkong
  • Klassifizierung: cs.CV (Computervision)
  • Paper-Link: https://arxiv.org/abs/2501.01406

Zusammenfassung

In diesem Artikel wird eine neue Modellarchitektur namens nnY-Net für die 3D-Medizinbildsegmentierung vorgestellt. Das Modell erhält seinen Namen durch die Y-förmige Struktur, die durch das Hinzufügen eines Cross-Attention-Moduls am Boden der U-Net-Struktur entsteht. Die Autoren integrieren die Vorteile zweier neuester SOTA-Modelle – MedNeXt und SwinUNETR – indem sie Swin Transformer als Encoder und ConvNeXt als Decoder verwenden und innovativ die Swin-NeXt-Struktur entwerfen. Das Modell nutzt Feature-Maps der niedrigsten Encoder-Schicht als Key und Value und verwendet Patienteneigenschaften wie pathologische und therapeutische Informationen als Query zur Berechnung von Cross-Attention-Gewichten. Darüber hinaus werden basierend auf den Frameworks dynUnet und nnU-Net die Vorverarbeitung und Nachverarbeitung für die 3D-Bildsegmentierung vereinfacht, und eine DiceFocalCELoss-Funktion wird konstruiert, um die Trainingseffizienz bei unausgewogener Voxel-Klassifizierung zu verbessern.

Forschungshintergrund und Motivation

Problemdefinition

Die Segmentierung von 3D-CT-Bildern von Lebertumoren ist eine wichtige Aufgabe in der medizinischen Bildsegmentierung. Eine genaue CT-Bildsegmentierung kann Ärzten helfen, das Tumorvolumen zu schätzen und angemessene Behandlungspläne zu entwickeln.

Einschränkungen bestehender Methoden

  1. Einschränkungen traditioneller Methoden: Vor 2016 wurden hauptsächlich unüberwachte Algorithmen wie Regionenwachstum verwendet, mit begrenzter Genauigkeit
  2. Mängel einzelner Architekturen: Bestehende Methoden basieren entweder auf reinen Faltungen (wie nnU-Net) oder reinen Transformern (wie SwinUNETR) und nutzen nicht vollständig die Vorteile beider Ansätze
  3. Unzureichende Multimodalfusion: Bestehende Methoden verarbeiten hauptsächlich Bildinformationen und nutzen nicht effektiv die pathologischen und therapeutischen Informationen von Patienten
  4. Klassenungleichgewichtsproblem: Das Hintergrund-Label nimmt über 90% der Pixel ein, was zu Trainingsschwierigkeiten führt

Forschungsmotivation

Dieser Artikel zielt darauf ab, durch die Fusion der Vorteile von Transformer und Faltungs-Neuronalen Netzen ein Multimodal-Segmentierungsmodell zu entwerfen, das gleichzeitig 3D-Bilder und klinische Patienteninformationen verarbeiten kann, um die Genauigkeit und Praktikabilität der medizinischen Bildsegmentierung zu verbessern.

Kernbeiträge

  1. Vorschlag der Swin-NeXt-Architektur: Innovativ werden der Encoder von SwinUNETR und der Decoder von MedNeXt kombiniert, um vollständig die Vorteile von Transformer bei der Merkmalsextraktion und Faltung bei der Pixel-Level-Dekodierung zu nutzen
  2. Entwurf eines Cross-Attention-Fusionsmechanismus: Es werden drei Merkmalsfusionsmethoden vorgeschlagen, wobei festgestellt wird, dass der Cross-Attention-Mechanismus bei der Multimodalfusion am besten abschneidet und die Modellleistung stabil verbessert
  3. Konstruktion der DiceFocalCELoss-Verlustfunktion: Durch die Kombination von DiceLoss, FocalLoss und Cross-Entropy-Loss wird das Klassenungleichgewichtsproblem bei der Voxel-Klassifizierung effektiv gelöst
  4. Vereinfachung des Vorverarbeitungsprozesses: Basierend auf den Frameworks dynUnet und nnU-Net werden die Vorverarbeitung und Nachverarbeitung für die 3D-Bildsegmentierung vereinfacht und optimiert

Methodische Details

Aufgabendefinition

Eingabe:

  • 3D-CT-Scan-Bild χ ∈ R^(H×W×D×C)
  • Klinische Patienteninformationen (pathologische, therapeutische Informationen usw.)

Ausgabe: Mehrklassen-Segmentierungsmaske, einschließlich Leber, Tumor, Blutgefäße, Aorta und andere Strukturen

Einschränkungen: Speicherbegrenzungen bei der Verarbeitung hochauflösender 3D-Bilder, Segmentierungsaufgaben mit extremem Klassenungleichgewicht

Modellarchitektur

1. Swin Transformer Encoder

Verwendet 3D Swin Transformer als Encoder mit folgender spezifischer Implementierung:

  • Patch-Partitionierung: Teilt das Eingabebild in 3D-Fenster der Größe M×M×M auf
  • Fenster-Aufmerksamkeitsmechanismus:
    z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
    z^l = MLP(LN(z^l)) + z^l
    z^(l+1) = SW-MSA(LN(z^l)) + z^l
    z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
    
  • Aufmerksamkeitsberechnung:
    Attention(Q,K,V) = Softmax(QK^T/√d + B)V
    

2. ConvNeXt Decoder

Verwendet die Decoder-Struktur von MedNeXt:

  • Transponierte Faltungs-Upsampling:
    Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
    
  • GELU-Aktivierungsfunktion:
    GELU(x) = x/2[1 + erf(x/√2)]
    

3. Cross-Attention-Fusionsmodul

Integriert Multimodalinformationen in der Encoder-Bottleneck-Schicht:

  • Key & Value: Feature-Maps der niedrigsten Encoder-Schicht
  • Query: Klinischer Merkmalvektor des Patienten
  • Fusionsstrategie: Durch vollständig verbundene Schichten werden klinische Merkmale auf die geeignete Dimension abgebildet, gefolgt von Cross-Attention-Berechnung

Technische Innovationen

  1. Hybrid-Architektur-Design: Erstmalige Kombination von Swin Transformer Encoder mit ConvNeXt Decoder, um die jeweiligen Vorteile zu nutzen
  2. Multimodale Cross-Attention: Innovativer Einsatz des Cross-Attention-Mechanismus zur Fusion von Bildmerkmalen und klinischen Informationen
  3. Kombinierte Verlustfunktion: Entwurf von DiceFocalCELoss zur Lösung des Klassenungleichgewichtsproblems in der medizinischen Bildsegmentierung

Experimentelle Einrichtung

Datensätze

  • Bilddaten: 110 Lebertomographie-Scans von 98 Patienten
  • Klinische Daten: 56 Variablen pathologischer und therapeutischer Patienteninformationen
  • Datenbereinigung: 4 problematische Datensätze wurden gelöscht (HCC 017, 008, 025, 009)
  • Behandlung fehlender Werte: Verwendung von Machine-Learning-Modellen zur Imputation fehlender Werte

Bewertungsmetriken

  1. Dice-Koeffizient: Dice = 2×|X∩Y|/(|X|+|Y|)
  2. Durchschnittliche IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
  3. Hausdorff-Distanz (HD95): 95. Perzentil der Hausdorff-Distanz
  4. Genauigkeit, Recall, Präzision: Standard-Klassifizierungsmetriken

Vergleichsmethoden

  • U-Net
  • UNETR
  • SwinUNETR
  • MedNeXt
  • Vorgeschlagenes Swin-NeXt und seine Varianten

Implementierungsdetails

  • Framework: Basierend auf MONAI, kompatibel mit Jupyter Notebook
  • Vorverarbeitung: Bildausschnitt, Normalisierung, Resampling, Datenerweiterung
  • Trainingsstrategie: Sliding-Window-Strategie, blockweise Verarbeitung zur Vermeidung von Speicherüberlauf

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich bei der Lebertumor-Segmentierungsaufgabe:

ModellKlasseDiceMIoUHD95GenauigkeitRecallPräzision
U-NetGesamt0.7090.61416.8470.9910.7700.704
SwinUNETRGesamt0.6560.5537.30.9830.7330.64
MedNeXtGesamt0.6830.58321.60.990.7520.674
Swin-NeXtGesamt0.6620.56914.6140.9920.7140.684

Ablationsstudien

Vergleich der Merkmalsfusionsmethoden:

FusionsmethodeModellDiceMIoUHD95
AddSwinUNETR0.6620.56226.956
ConcatSwinUNETR0.6410.53739.197
Cross AttentionSwinUNETR0.6660.56432.883
Cross AttentionMedNeXt0.6830.58926.428
Cross AttentionSwin-NeXt0.6570.56511.28

Wichtigste Erkenntnisse:

  1. Der Cross-Attention-Mechanismus bietet bei allen Modellen stabile Leistungsverbesserungen
  2. Add- und Concat-Methoden können bei Modellen mit transponierter Faltung (MedNeXt, Swin-NeXt) nicht konvergieren
  3. Der Cross-Attention-Mechanismus hat bessere Kompatibilität mit der Struktur der transponierten Faltung

Fallanalyse

Die Visualisierung der CT-Schnitte des Patienten HCC066 zeigt, dass Swin-NeXt zwar bei numerischen Metriken nicht optimal abschneidet, aber in Bezug auf Segmentierungsform und -größe dem echten Label am nächsten kommt und einen besseren klinischen Praktikabilitätswert hat.

Verwandte Arbeiten

Entwicklung der 3D-Medizinbildsegmentierung

  1. Traditionelle Methoden: Unüberwachte Methoden wie Regionenwachstum
  2. Deep-Learning-Ära: 3D U-Net legt den Grundstein
  3. Automatisierte Frameworks: nnU-Net integriert automatisierte Vorverarbeitung und Parameterauswahl
  4. Transformer-Anwendung: UNETR führt ViT ein, SwinUNETR verwendet Swin Transformer
  5. Moderne Faltung: MedNeXt basiert auf ConvNeXt-Design

Positionierung des Beitrags dieses Artikels

Dieser Artikel ist die erste systematische Kombination von Transformer-Encoder und modernem Faltungs-Decoder für die 3D-Medizinbildsegmentierung und führt einen Multimodal-Cross-Attention-Mechanismus ein.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Architektur-Fusion ist wirksam: Die Kombination von Swin Transformer Encoder und ConvNeXt Decoder ist wirksam
  2. Cross-Attention ist überlegen: Bei der Multimodalfusion ist der Cross-Attention-Mechanismus deutlich überlegen gegenüber einfachen Additions- und Verkettungsmethoden
  3. Kombinierte Verlustfunktion ist wirksam: DiceFocalCELoss kann die Trainingskonvergenz bei Klassenungleichgewichtsproblemen verbessern

Einschränkungen

  1. Konservative Parametereinstellung: Zur fairen Vergleichbarkeit wurden Parameter reduziert, das optimale Verhältnis von 1:1:3:1 für Merkmalextraktionsblöcke wurde nicht verwendet
  2. Rechnerische Ressourcenbegrenzungen: Aufgrund von Warteschlangen auf Servern usw. konnten nicht alle geplanten Experimente abgeschlossen werden
  3. Datensatzgröße: Der relativ kleine Datensatz kann die Generalisierungsfähigkeit des Modells einschränken

Zukünftige Richtungen

  1. Erforschung optimaler Netzwerkarchitektur-Verhältnisse
  2. Validierung der Methodeneffektivität auf größeren Datensätzen
  3. Untersuchung der Anwendbarkeit auf andere Medizinbildsegmentierungsaufgaben

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige systematische Kombination der Vorteile von Swin Transformer und ConvNeXt
  2. Multimodalfusion: Effektive Nutzung klinischer Informationen zur Unterstützung der Bildsegmentierung
  3. Umfangreiche Experimente: Detaillierte Ablationsstudien und Vergleichsanalysen
  4. Hoher praktischer Wert: Auf die tatsächlichen Anforderungen der medizinischen Bildsegmentierung zugeschnitten

Schwächen

  1. Begrenzte Leistungsverbesserung: Numerische Verbesserungen gegenüber Baseline-Methoden sind nicht signifikant
  2. Inkonsistente Experimentalbedingungen: Unterschiede in Trainingszeit und Bedingungen zwischen verschiedenen Modellen
  3. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum Cross-Attention effektiver ist
  4. Unbekannte Generalisierbarkeit: Validierung nur bei Lebertumor-Segmentierung, Leistung bei anderen Aufgaben unbekannt

Auswirkungen

  1. Methodologischer Beitrag: Bietet neue Architektur-Designideen für die 3D-Medizinbildsegmentierung
  2. Multimodalfusion: Bietet effektive Lösungen für die Multimodal-Informationsfusion in der medizinischen Bildanalyse
  3. Praktischer Wert: Segmentierungsmethoden, die klinische Informationen berücksichtigen, entsprechen besser den tatsächlichen medizinischen Anforderungen

Anwendungsszenarien

  1. 3D-Medizinbildsegmentierung: Besonders Szenarien, die klinische Informationen erfordern
  2. Multimodale medizinische Analyse: Aufgaben, die Bilder und strukturierte Daten kombinieren
  3. Segmentierung mit Klassenungleichgewicht: Segmentierungsaufgaben, bei denen der Hintergrund dominiert

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten in diesem Bereich, einschließlich:

  • 3D U-Net: Grundlegende Arbeit zur 3D-Medizinbildsegmentierung
  • nnU-Net: Automatisiertes Framework für medizinische Bildsegmentierung
  • SwinUNETR: Anwendung von Swin Transformer in der medizinischen Bildsegmentierung
  • MedNeXt: Medizinische Bildsegmentierungsmethode basierend auf ConvNeXt

Gesamtbewertung: Dies ist eine Arbeit mit gewisser Innovativität im Bereich der 3D-Medizinbildsegmentierung, besonders in Bezug auf Multimodalfusion und Architektur-Design. Obwohl die Leistungsverbesserungen relativ begrenzt sind, verdienen die Praktikabilität der Methode und der Beitrag zum Bereich Anerkennung.