nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic
nnY-Net: Swin-NeXt con Atención Cruzada para Segmentación de Imágenes Médicas 3D
En este artículo se propone una nueva arquitectura de modelo de segmentación de imágenes médicas 3D denominada nnY-Net. El modelo recibe su nombre por su estructura en forma de Y, formada al añadir un módulo de atención cruzada en la parte inferior de la estructura U-Net. Los autores integran las ventajas de dos modelos SOTA recientes, MedNeXt y SwinUNETR, utilizando Swin Transformer como codificador y ConvNeXt como decodificador, diseñando innovadoramente la estructura Swin-NeXt. El modelo utiliza mapas de características de la capa más baja del codificador como Clave y Valor, mientras que utiliza características del paciente como información patológica y terapéutica como Consulta para calcular pesos de atención cruzada. Además, basándose en los marcos dynUnet y nnU-Net, se simplifican los métodos de preprocesamiento y postprocesamiento para la segmentación de imágenes 3D, y se construye una pérdida DiceFocalCELoss para mejorar la eficiencia del entrenamiento en la clasificación de vóxeles desbalanceada.
La segmentación de imágenes 3D de TC de tumores hepáticos es una tarea importante en la segmentación de imágenes médicas. La segmentación precisa de imágenes de TC puede ayudar a los médicos a estimar el volumen del tumor y formular planes de tratamiento apropiados.
Limitaciones de métodos tradicionales: Antes de 2016, se utilizaban principalmente algoritmos no supervisados como crecimiento de regiones, con precisión limitada
Defectos de arquitecturas únicas: Los métodos existentes se basan en convoluciones puras (como nnU-Net) o en Transformers puros (como SwinUNETR), sin combinar plenamente las ventajas de ambos
Fusión multimodal insuficiente: Los métodos existentes procesan principalmente información de imágenes, sin utilizar efectivamente la información patológica y terapéutica del paciente
Problema de desequilibrio de clases: La etiqueta de fondo ocupa más del 90% de los píxeles, lo que dificulta el entrenamiento
Este artículo tiene como objetivo diseñar un modelo de segmentación multimodal que pueda procesar simultáneamente imágenes 3D e información clínica del paciente, fusionando las ventajas de Transformers y redes neuronales convolucionales, para mejorar la precisión y practicidad de la segmentación de imágenes médicas.
Propuesta de la arquitectura Swin-NeXt: Combina innovadoramente el codificador de SwinUNETR con el decodificador de MedNeXt, aprovechando plenamente las ventajas de Transformer en extracción de características y convolución en decodificación a nivel de píxel
Diseño del mecanismo de fusión de atención cruzada: Propone tres métodos de fusión de características, descubriendo que el mecanismo de atención cruzada funciona mejor en la fusión multimodal, mejorando establemente el rendimiento del modelo
Construcción de la función de pérdida DiceFocalCELoss: Combina DiceLoss, FocalLoss y pérdida de entropía cruzada, resolviendo efectivamente el problema de desequilibrio de clases en la clasificación de vóxeles
Simplificación del flujo de preprocesamiento: Basándose en los marcos dynUnet y nnU-Net, simplifica y optimiza los métodos de preprocesamiento y postprocesamiento para la segmentación de imágenes 3D
Integra información multimodal en la capa inferior del codificador (Bottleneck):
Clave y Valor: Mapas de características de la capa más baja del codificador
Consulta: Vector de características clínicas del paciente
Estrategia de fusión: Mapea características clínicas a dimensión apropiada a través de capas completamente conectadas, luego realiza cálculo de atención cruzada
La visualización de resultados en cortes de TC del paciente HCC066 muestra que, aunque Swin-NeXt no alcanza el óptimo en métricas numéricas, es el más cercano a la etiqueta real en forma y tamaño de segmentación, con mayor valor clínico práctico.
Este artículo es el primero en combinar sistemáticamente un codificador Transformer y un decodificador de convolución moderna para segmentación de imágenes médicas 3D, introduciendo además un mecanismo de atención cruzada multimodal.
Fusión de arquitectura efectiva: La combinación del codificador Swin Transformer con el decodificador ConvNeXt es efectiva
Superioridad de atención cruzada: En fusión multimodal, el mecanismo de atención cruzada es significativamente superior a métodos simples de suma y concatenación
Efectividad de función de pérdida combinada: DiceFocalCELoss puede mejorar la convergencia del entrenamiento en problemas de desequilibrio de clases
Configuración de parámetros conservadora: Se redujeron los parámetros para comparación justa, sin utilizar la proporción óptima de bloques de extracción de características 1:1:3:1
Limitaciones de recursos computacionales: Debido a factores como colas de servidores, no se completaron todos los experimentos programados
Escala del conjunto de datos: El conjunto de datos relativamente pequeño puede limitar la capacidad de generalización del modelo
El artículo cita trabajos importantes en el campo, incluyendo:
3D U-Net: Trabajo fundamental en segmentación de imágenes médicas 3D
nnU-Net: Marco de segmentación de imágenes médicas automatizado
SwinUNETR: Aplicación de Swin Transformer en segmentación de imágenes médicas
MedNeXt: Método de segmentación de imágenes médicas basado en ConvNeXt
Evaluación General: Este es un trabajo con cierta innovación en el campo de segmentación de imágenes médicas 3D, particularmente en fusión multimodal y diseño de arquitectura. Aunque la mejora de rendimiento es relativamente limitada, la practicidad del método y su contribución al campo merecen reconocimiento.