nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic
nnY-Net: Swin-NeXt mit Cross-Attention für 3D-Medizinbildsegmentierung
In diesem Artikel wird eine neue Modellarchitektur namens nnY-Net für die 3D-Medizinbildsegmentierung vorgestellt. Das Modell erhält seinen Namen durch die Y-förmige Struktur, die durch das Hinzufügen eines Cross-Attention-Moduls am Boden der U-Net-Struktur entsteht. Die Autoren integrieren die Vorteile zweier neuester SOTA-Modelle – MedNeXt und SwinUNETR – indem sie Swin Transformer als Encoder und ConvNeXt als Decoder verwenden und innovativ die Swin-NeXt-Struktur entwerfen. Das Modell nutzt Feature-Maps der niedrigsten Encoder-Schicht als Key und Value und verwendet Patienteneigenschaften wie pathologische und therapeutische Informationen als Query zur Berechnung von Cross-Attention-Gewichten. Darüber hinaus werden basierend auf den Frameworks dynUnet und nnU-Net die Vorverarbeitung und Nachverarbeitung für die 3D-Bildsegmentierung vereinfacht, und eine DiceFocalCELoss-Funktion wird konstruiert, um die Trainingseffizienz bei unausgewogener Voxel-Klassifizierung zu verbessern.
Die Segmentierung von 3D-CT-Bildern von Lebertumoren ist eine wichtige Aufgabe in der medizinischen Bildsegmentierung. Eine genaue CT-Bildsegmentierung kann Ärzten helfen, das Tumorvolumen zu schätzen und angemessene Behandlungspläne zu entwickeln.
Einschränkungen traditioneller Methoden: Vor 2016 wurden hauptsächlich unüberwachte Algorithmen wie Regionenwachstum verwendet, mit begrenzter Genauigkeit
Mängel einzelner Architekturen: Bestehende Methoden basieren entweder auf reinen Faltungen (wie nnU-Net) oder reinen Transformern (wie SwinUNETR) und nutzen nicht vollständig die Vorteile beider Ansätze
Unzureichende Multimodalfusion: Bestehende Methoden verarbeiten hauptsächlich Bildinformationen und nutzen nicht effektiv die pathologischen und therapeutischen Informationen von Patienten
Klassenungleichgewichtsproblem: Das Hintergrund-Label nimmt über 90% der Pixel ein, was zu Trainingsschwierigkeiten führt
Dieser Artikel zielt darauf ab, durch die Fusion der Vorteile von Transformer und Faltungs-Neuronalen Netzen ein Multimodal-Segmentierungsmodell zu entwerfen, das gleichzeitig 3D-Bilder und klinische Patienteninformationen verarbeiten kann, um die Genauigkeit und Praktikabilität der medizinischen Bildsegmentierung zu verbessern.
Vorschlag der Swin-NeXt-Architektur: Innovativ werden der Encoder von SwinUNETR und der Decoder von MedNeXt kombiniert, um vollständig die Vorteile von Transformer bei der Merkmalsextraktion und Faltung bei der Pixel-Level-Dekodierung zu nutzen
Entwurf eines Cross-Attention-Fusionsmechanismus: Es werden drei Merkmalsfusionsmethoden vorgeschlagen, wobei festgestellt wird, dass der Cross-Attention-Mechanismus bei der Multimodalfusion am besten abschneidet und die Modellleistung stabil verbessert
Konstruktion der DiceFocalCELoss-Verlustfunktion: Durch die Kombination von DiceLoss, FocalLoss und Cross-Entropy-Loss wird das Klassenungleichgewichtsproblem bei der Voxel-Klassifizierung effektiv gelöst
Vereinfachung des Vorverarbeitungsprozesses: Basierend auf den Frameworks dynUnet und nnU-Net werden die Vorverarbeitung und Nachverarbeitung für die 3D-Bildsegmentierung vereinfacht und optimiert
Integriert Multimodalinformationen in der Encoder-Bottleneck-Schicht:
Key & Value: Feature-Maps der niedrigsten Encoder-Schicht
Query: Klinischer Merkmalvektor des Patienten
Fusionsstrategie: Durch vollständig verbundene Schichten werden klinische Merkmale auf die geeignete Dimension abgebildet, gefolgt von Cross-Attention-Berechnung
Die Visualisierung der CT-Schnitte des Patienten HCC066 zeigt, dass Swin-NeXt zwar bei numerischen Metriken nicht optimal abschneidet, aber in Bezug auf Segmentierungsform und -größe dem echten Label am nächsten kommt und einen besseren klinischen Praktikabilitätswert hat.
Dieser Artikel ist die erste systematische Kombination von Transformer-Encoder und modernem Faltungs-Decoder für die 3D-Medizinbildsegmentierung und führt einen Multimodal-Cross-Attention-Mechanismus ein.
Architektur-Fusion ist wirksam: Die Kombination von Swin Transformer Encoder und ConvNeXt Decoder ist wirksam
Cross-Attention ist überlegen: Bei der Multimodalfusion ist der Cross-Attention-Mechanismus deutlich überlegen gegenüber einfachen Additions- und Verkettungsmethoden
Kombinierte Verlustfunktion ist wirksam: DiceFocalCELoss kann die Trainingskonvergenz bei Klassenungleichgewichtsproblemen verbessern
Konservative Parametereinstellung: Zur fairen Vergleichbarkeit wurden Parameter reduziert, das optimale Verhältnis von 1:1:3:1 für Merkmalextraktionsblöcke wurde nicht verwendet
Rechnerische Ressourcenbegrenzungen: Aufgrund von Warteschlangen auf Servern usw. konnten nicht alle geplanten Experimente abgeschlossen werden
Datensatzgröße: Der relativ kleine Datensatz kann die Generalisierungsfähigkeit des Modells einschränken
Der Artikel zitiert wichtige Arbeiten in diesem Bereich, einschließlich:
3D U-Net: Grundlegende Arbeit zur 3D-Medizinbildsegmentierung
nnU-Net: Automatisiertes Framework für medizinische Bildsegmentierung
SwinUNETR: Anwendung von Swin Transformer in der medizinischen Bildsegmentierung
MedNeXt: Medizinische Bildsegmentierungsmethode basierend auf ConvNeXt
Gesamtbewertung: Dies ist eine Arbeit mit gewisser Innovativität im Bereich der 3D-Medizinbildsegmentierung, besonders in Bezug auf Multimodalfusion und Architektur-Design. Obwohl die Leistungsverbesserungen relativ begrenzt sind, verdienen die Praktikabilität der Methode und der Beitrag zum Bereich Anerkennung.