2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

academic

nnY-Net: Swin-NeXt con Atención Cruzada para Segmentación de Imágenes Médicas 3D

Información Básica

ID del Artículo: 2501.01406
Título: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Autores: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
Instituciones: ¹Universidad de Sídney, ²Universidad China de Hong Kong
Clasificación: cs.CV (Visión por Computadora)
Enlace del Artículo: https://arxiv.org/abs/2501.01406

Resumen

En este artículo se propone una nueva arquitectura de modelo de segmentación de imágenes médicas 3D denominada nnY-Net. El modelo recibe su nombre por su estructura en forma de Y, formada al añadir un módulo de atención cruzada en la parte inferior de la estructura U-Net. Los autores integran las ventajas de dos modelos SOTA recientes, MedNeXt y SwinUNETR, utilizando Swin Transformer como codificador y ConvNeXt como decodificador, diseñando innovadoramente la estructura Swin-NeXt. El modelo utiliza mapas de características de la capa más baja del codificador como Clave y Valor, mientras que utiliza características del paciente como información patológica y terapéutica como Consulta para calcular pesos de atención cruzada. Además, basándose en los marcos dynUnet y nnU-Net, se simplifican los métodos de preprocesamiento y postprocesamiento para la segmentación de imágenes 3D, y se construye una pérdida DiceFocalCELoss para mejorar la eficiencia del entrenamiento en la clasificación de vóxeles desbalanceada.

Antecedentes y Motivación de la Investigación

Definición del Problema

La segmentación de imágenes 3D de TC de tumores hepáticos es una tarea importante en la segmentación de imágenes médicas. La segmentación precisa de imágenes de TC puede ayudar a los médicos a estimar el volumen del tumor y formular planes de tratamiento apropiados.

Limitaciones de los Métodos Existentes

Limitaciones de métodos tradicionales: Antes de 2016, se utilizaban principalmente algoritmos no supervisados como crecimiento de regiones, con precisión limitada
Defectos de arquitecturas únicas: Los métodos existentes se basan en convoluciones puras (como nnU-Net) o en Transformers puros (como SwinUNETR), sin combinar plenamente las ventajas de ambos
Fusión multimodal insuficiente: Los métodos existentes procesan principalmente información de imágenes, sin utilizar efectivamente la información patológica y terapéutica del paciente
Problema de desequilibrio de clases: La etiqueta de fondo ocupa más del 90% de los píxeles, lo que dificulta el entrenamiento

Motivación de la Investigación

Este artículo tiene como objetivo diseñar un modelo de segmentación multimodal que pueda procesar simultáneamente imágenes 3D e información clínica del paciente, fusionando las ventajas de Transformers y redes neuronales convolucionales, para mejorar la precisión y practicidad de la segmentación de imágenes médicas.

Contribuciones Principales

Propuesta de la arquitectura Swin-NeXt: Combina innovadoramente el codificador de SwinUNETR con el decodificador de MedNeXt, aprovechando plenamente las ventajas de Transformer en extracción de características y convolución en decodificación a nivel de píxel
Diseño del mecanismo de fusión de atención cruzada: Propone tres métodos de fusión de características, descubriendo que el mecanismo de atención cruzada funciona mejor en la fusión multimodal, mejorando establemente el rendimiento del modelo
Construcción de la función de pérdida DiceFocalCELoss: Combina DiceLoss, FocalLoss y pérdida de entropía cruzada, resolviendo efectivamente el problema de desequilibrio de clases en la clasificación de vóxeles
Simplificación del flujo de preprocesamiento: Basándose en los marcos dynUnet y nnU-Net, simplifica y optimiza los métodos de preprocesamiento y postprocesamiento para la segmentación de imágenes 3D

Explicación Detallada del Método

Definición de la Tarea

Entrada:

Imagen de TC 3D χ ∈ R^(H×W×D×C)
Información clínica del paciente (información patológica, terapéutica, etc.)

Salida: Máscara de segmentación multiclase, incluyendo estructuras como hígado, tumor, vasos sanguíneos, aorta, etc.

Restricciones: Limitaciones de memoria al procesar imágenes 3D de alta resolución, tarea de segmentación con desequilibrio extremo de clases

Arquitectura del Modelo

1. Codificador Swin Transformer

Utiliza Swin Transformer 3D como codificador, con implementación específica:

Partición de parches: Divide la imagen de entrada en ventanas 3D de tamaño M×M×M

Mecanismo de atención de ventana:

z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)

Cálculo de atención:

Attention(Q,K,V) = Softmax(QK^T/√d + B)V

2. Decodificador ConvNeXt

Utiliza la estructura del decodificador de MedNeXt:

Sobremuestreo con convolución transpuesta:

Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}

Función de activación GELU:
```
GELU(x) = x/2[1 + erf(x/√2)]
```

3. Módulo de Fusión de Atención Cruzada

Integra información multimodal en la capa inferior del codificador (Bottleneck):

Clave y Valor: Mapas de características de la capa más baja del codificador
Consulta: Vector de características clínicas del paciente
Estrategia de fusión: Mapea características clínicas a dimensión apropiada a través de capas completamente conectadas, luego realiza cálculo de atención cruzada

Puntos de Innovación Técnica

Diseño de arquitectura híbrida: Primera combinación de codificador Swin Transformer con decodificador ConvNeXt, aprovechando las ventajas de cada uno
Atención cruzada multimodal: Uso innovador del mecanismo de atención cruzada para fusionar características de imagen e información clínica
Función de pérdida combinada: Diseña DiceFocalCELoss para resolver el problema de desequilibrio de clases en segmentación de imágenes médicas

Configuración Experimental

Conjunto de Datos

Datos de imagen: 110 imágenes de TC de hígado, procedentes de 98 pacientes
Datos clínicos: Información patológica y terapéutica de 56 variables del paciente
Limpieza de datos: Se eliminaron 4 conjuntos de datos problemáticos (HCC 017, 008, 025, 009)
Manejo de valores faltantes: Se utilizó modelo de aprendizaje automático para imputación de valores faltantes

Métricas de Evaluación

Coeficiente Dice: Dice = 2×|X∩Y|/(|X|+|Y|)
IoU Promedio: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
Distancia Hausdorff (HD95): Distancia Hausdorff del percentil 95
Precisión, Sensibilidad, Especificidad: Métricas de clasificación estándar

Métodos de Comparación

U-Net
UNETR
SwinUNETR
MedNeXt
Swin-NeXt propuesto y sus variantes

Detalles de Implementación

Marco: Desarrollado basándose en MONAI, compatible con Jupyter Notebook
Preprocesamiento: Recorte de imagen, normalización, remuestreo, aumento de datos
Estrategia de entrenamiento: Estrategia de ventana deslizante, procesamiento por bloques para evitar desbordamiento de memoria

Resultados Experimentales

Resultados Principales

Comparación de rendimiento en la tarea de segmentación de tumores hepáticos:

Modelo	Clase	Dice	MIoU	HD95	Precisión	Sensibilidad	Especificidad
U-Net	General	0.709	0.614	16.847	0.991	0.770	0.704
SwinUNETR	General	0.656	0.55	37.3	0.983	0.733	0.64
MedNeXt	General	0.683	0.583	21.6	0.99	0.752	0.674
Swin-NeXt	General	0.662	0.569	14.614	0.992	0.714	0.684

Experimentos de Ablación

Comparación de métodos de fusión de características:

Método de Fusión	Modelo	Dice	MIoU	HD95
Add	SwinUNETR	0.662	0.562	26.956
Concat	SwinUNETR	0.641	0.537	39.197
Atención Cruzada	SwinUNETR	0.666	0.564	32.883
Atención Cruzada	MedNeXt	0.683	0.589	26.428
Atención Cruzada	Swin-NeXt	0.657	0.565	11.28

Hallazgos Clave:

El mecanismo de atención cruzada proporciona mejora de rendimiento estable en todos los modelos
Los métodos Add y Concat no convergen en modelos que utilizan convolución transpuesta (MedNeXt, Swin-NeXt)
El mecanismo de atención cruzada tiene mejor compatibilidad con la estructura de convolución transpuesta

Análisis de Casos

La visualización de resultados en cortes de TC del paciente HCC066 muestra que, aunque Swin-NeXt no alcanza el óptimo en métricas numéricas, es el más cercano a la etiqueta real en forma y tamaño de segmentación, con mayor valor clínico práctico.

Trabajos Relacionados

Desarrollo de Segmentación de Imágenes Médicas 3D

Métodos tradicionales: Métodos no supervisados como crecimiento de regiones
Era del aprendizaje profundo: 3D U-Net sienta las bases
Marcos automatizados: nnU-Net integra preprocesamiento automatizado y selección de parámetros
Aplicación de Transformers: UNETR introduce ViT, SwinUNETR utiliza Swin Transformer
Convolución moderna: MedNeXt diseñado basándose en ConvNeXt

Posicionamiento de la Contribución de este Artículo

Este artículo es el primero en combinar sistemáticamente un codificador Transformer y un decodificador de convolución moderna para segmentación de imágenes médicas 3D, introduciendo además un mecanismo de atención cruzada multimodal.

Conclusiones y Discusión

Conclusiones Principales

Fusión de arquitectura efectiva: La combinación del codificador Swin Transformer con el decodificador ConvNeXt es efectiva
Superioridad de atención cruzada: En fusión multimodal, el mecanismo de atención cruzada es significativamente superior a métodos simples de suma y concatenación
Efectividad de función de pérdida combinada: DiceFocalCELoss puede mejorar la convergencia del entrenamiento en problemas de desequilibrio de clases

Limitaciones

Configuración de parámetros conservadora: Se redujeron los parámetros para comparación justa, sin utilizar la proporción óptima de bloques de extracción de características 1:1:3:1
Limitaciones de recursos computacionales: Debido a factores como colas de servidores, no se completaron todos los experimentos programados
Escala del conjunto de datos: El conjunto de datos relativamente pequeño puede limitar la capacidad de generalización del modelo

Direcciones Futuras

Explorar diseños de proporciones de arquitectura de red más óptimos
Validar la efectividad del método en conjuntos de datos de mayor escala
Investigar la aplicabilidad a otras tareas de segmentación de imágenes médicas

Evaluación Profunda

Fortalezas

Fuerte innovación: Primera combinación sistemática de las ventajas de Swin Transformer y ConvNeXt
Fusión multimodal: Utilización efectiva de información clínica para asistir la segmentación de imágenes
Experimentos exhaustivos: Incluye experimentos de ablación detallados y análisis comparativos
Alto valor práctico: Diseñado según las necesidades reales de segmentación de imágenes médicas

Insuficiencias

Mejora de rendimiento limitada: La mejora numérica respecto a métodos base no es lo suficientemente significativa
Inconsistencia en condiciones experimentales: Existen diferencias en tiempo de entrenamiento y condiciones entre diferentes modelos
Análisis teórico insuficiente: Falta análisis teórico profundo sobre por qué la atención cruzada es más efectiva
Generalización desconocida: Solo validado en segmentación de tumores hepáticos, rendimiento en otras tareas desconocido

Impacto

Contribución metodológica: Proporciona nuevas ideas de diseño de arquitectura para segmentación de imágenes médicas 3D
Fusión multimodal: Proporciona solución efectiva para fusión de información multimodal en análisis de imágenes médicas
Valor práctico: El método que considera información clínica se ajusta mejor a necesidades médicas reales

Escenarios Aplicables

Segmentación de imágenes médicas 3D: Especialmente en escenarios que requieren combinar información clínica
Análisis médico multimodal: Tareas que combinan imágenes con datos estructurados
Segmentación con desequilibrio de clases: Tareas de segmentación donde el fondo es dominante

Referencias Bibliográficas

El artículo cita trabajos importantes en el campo, incluyendo:

3D U-Net: Trabajo fundamental en segmentación de imágenes médicas 3D
nnU-Net: Marco de segmentación de imágenes médicas automatizado
SwinUNETR: Aplicación de Swin Transformer en segmentación de imágenes médicas
MedNeXt: Método de segmentación de imágenes médicas basado en ConvNeXt

Evaluación General: Este es un trabajo con cierta innovación en el campo de segmentación de imágenes médicas 3D, particularmente en fusión multimodal y diseño de arquitectura. Aunque la mejora de rendimiento es relativamente limitada, la practicidad del método y su contribución al campo merecen reconocimiento.