2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic

nnY-Net: Swin-NeXt con Atención Cruzada para Segmentación de Imágenes Médicas 3D

Información Básica

  • ID del Artículo: 2501.01406
  • Título: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
  • Autores: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
  • Instituciones: ¹Universidad de Sídney, ²Universidad China de Hong Kong
  • Clasificación: cs.CV (Visión por Computadora)
  • Enlace del Artículo: https://arxiv.org/abs/2501.01406

Resumen

En este artículo se propone una nueva arquitectura de modelo de segmentación de imágenes médicas 3D denominada nnY-Net. El modelo recibe su nombre por su estructura en forma de Y, formada al añadir un módulo de atención cruzada en la parte inferior de la estructura U-Net. Los autores integran las ventajas de dos modelos SOTA recientes, MedNeXt y SwinUNETR, utilizando Swin Transformer como codificador y ConvNeXt como decodificador, diseñando innovadoramente la estructura Swin-NeXt. El modelo utiliza mapas de características de la capa más baja del codificador como Clave y Valor, mientras que utiliza características del paciente como información patológica y terapéutica como Consulta para calcular pesos de atención cruzada. Además, basándose en los marcos dynUnet y nnU-Net, se simplifican los métodos de preprocesamiento y postprocesamiento para la segmentación de imágenes 3D, y se construye una pérdida DiceFocalCELoss para mejorar la eficiencia del entrenamiento en la clasificación de vóxeles desbalanceada.

Antecedentes y Motivación de la Investigación

Definición del Problema

La segmentación de imágenes 3D de TC de tumores hepáticos es una tarea importante en la segmentación de imágenes médicas. La segmentación precisa de imágenes de TC puede ayudar a los médicos a estimar el volumen del tumor y formular planes de tratamiento apropiados.

Limitaciones de los Métodos Existentes

  1. Limitaciones de métodos tradicionales: Antes de 2016, se utilizaban principalmente algoritmos no supervisados como crecimiento de regiones, con precisión limitada
  2. Defectos de arquitecturas únicas: Los métodos existentes se basan en convoluciones puras (como nnU-Net) o en Transformers puros (como SwinUNETR), sin combinar plenamente las ventajas de ambos
  3. Fusión multimodal insuficiente: Los métodos existentes procesan principalmente información de imágenes, sin utilizar efectivamente la información patológica y terapéutica del paciente
  4. Problema de desequilibrio de clases: La etiqueta de fondo ocupa más del 90% de los píxeles, lo que dificulta el entrenamiento

Motivación de la Investigación

Este artículo tiene como objetivo diseñar un modelo de segmentación multimodal que pueda procesar simultáneamente imágenes 3D e información clínica del paciente, fusionando las ventajas de Transformers y redes neuronales convolucionales, para mejorar la precisión y practicidad de la segmentación de imágenes médicas.

Contribuciones Principales

  1. Propuesta de la arquitectura Swin-NeXt: Combina innovadoramente el codificador de SwinUNETR con el decodificador de MedNeXt, aprovechando plenamente las ventajas de Transformer en extracción de características y convolución en decodificación a nivel de píxel
  2. Diseño del mecanismo de fusión de atención cruzada: Propone tres métodos de fusión de características, descubriendo que el mecanismo de atención cruzada funciona mejor en la fusión multimodal, mejorando establemente el rendimiento del modelo
  3. Construcción de la función de pérdida DiceFocalCELoss: Combina DiceLoss, FocalLoss y pérdida de entropía cruzada, resolviendo efectivamente el problema de desequilibrio de clases en la clasificación de vóxeles
  4. Simplificación del flujo de preprocesamiento: Basándose en los marcos dynUnet y nnU-Net, simplifica y optimiza los métodos de preprocesamiento y postprocesamiento para la segmentación de imágenes 3D

Explicación Detallada del Método

Definición de la Tarea

Entrada:

  • Imagen de TC 3D χ ∈ R^(H×W×D×C)
  • Información clínica del paciente (información patológica, terapéutica, etc.)

Salida: Máscara de segmentación multiclase, incluyendo estructuras como hígado, tumor, vasos sanguíneos, aorta, etc.

Restricciones: Limitaciones de memoria al procesar imágenes 3D de alta resolución, tarea de segmentación con desequilibrio extremo de clases

Arquitectura del Modelo

1. Codificador Swin Transformer

Utiliza Swin Transformer 3D como codificador, con implementación específica:

  • Partición de parches: Divide la imagen de entrada en ventanas 3D de tamaño M×M×M
  • Mecanismo de atención de ventana:
    z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
    z^l = MLP(LN(z^l)) + z^l
    z^(l+1) = SW-MSA(LN(z^l)) + z^l
    z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
    
  • Cálculo de atención:
    Attention(Q,K,V) = Softmax(QK^T/√d + B)V
    

2. Decodificador ConvNeXt

Utiliza la estructura del decodificador de MedNeXt:

  • Sobremuestreo con convolución transpuesta:
    Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
    
  • Función de activación GELU:
    GELU(x) = x/2[1 + erf(x/√2)]
    

3. Módulo de Fusión de Atención Cruzada

Integra información multimodal en la capa inferior del codificador (Bottleneck):

  • Clave y Valor: Mapas de características de la capa más baja del codificador
  • Consulta: Vector de características clínicas del paciente
  • Estrategia de fusión: Mapea características clínicas a dimensión apropiada a través de capas completamente conectadas, luego realiza cálculo de atención cruzada

Puntos de Innovación Técnica

  1. Diseño de arquitectura híbrida: Primera combinación de codificador Swin Transformer con decodificador ConvNeXt, aprovechando las ventajas de cada uno
  2. Atención cruzada multimodal: Uso innovador del mecanismo de atención cruzada para fusionar características de imagen e información clínica
  3. Función de pérdida combinada: Diseña DiceFocalCELoss para resolver el problema de desequilibrio de clases en segmentación de imágenes médicas

Configuración Experimental

Conjunto de Datos

  • Datos de imagen: 110 imágenes de TC de hígado, procedentes de 98 pacientes
  • Datos clínicos: Información patológica y terapéutica de 56 variables del paciente
  • Limpieza de datos: Se eliminaron 4 conjuntos de datos problemáticos (HCC 017, 008, 025, 009)
  • Manejo de valores faltantes: Se utilizó modelo de aprendizaje automático para imputación de valores faltantes

Métricas de Evaluación

  1. Coeficiente Dice: Dice = 2×|X∩Y|/(|X|+|Y|)
  2. IoU Promedio: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
  3. Distancia Hausdorff (HD95): Distancia Hausdorff del percentil 95
  4. Precisión, Sensibilidad, Especificidad: Métricas de clasificación estándar

Métodos de Comparación

  • U-Net
  • UNETR
  • SwinUNETR
  • MedNeXt
  • Swin-NeXt propuesto y sus variantes

Detalles de Implementación

  • Marco: Desarrollado basándose en MONAI, compatible con Jupyter Notebook
  • Preprocesamiento: Recorte de imagen, normalización, remuestreo, aumento de datos
  • Estrategia de entrenamiento: Estrategia de ventana deslizante, procesamiento por bloques para evitar desbordamiento de memoria

Resultados Experimentales

Resultados Principales

Comparación de rendimiento en la tarea de segmentación de tumores hepáticos:

ModeloClaseDiceMIoUHD95PrecisiónSensibilidadEspecificidad
U-NetGeneral0.7090.61416.8470.9910.7700.704
SwinUNETRGeneral0.6560.5537.30.9830.7330.64
MedNeXtGeneral0.6830.58321.60.990.7520.674
Swin-NeXtGeneral0.6620.56914.6140.9920.7140.684

Experimentos de Ablación

Comparación de métodos de fusión de características:

Método de FusiónModeloDiceMIoUHD95
AddSwinUNETR0.6620.56226.956
ConcatSwinUNETR0.6410.53739.197
Atención CruzadaSwinUNETR0.6660.56432.883
Atención CruzadaMedNeXt0.6830.58926.428
Atención CruzadaSwin-NeXt0.6570.56511.28

Hallazgos Clave:

  1. El mecanismo de atención cruzada proporciona mejora de rendimiento estable en todos los modelos
  2. Los métodos Add y Concat no convergen en modelos que utilizan convolución transpuesta (MedNeXt, Swin-NeXt)
  3. El mecanismo de atención cruzada tiene mejor compatibilidad con la estructura de convolución transpuesta

Análisis de Casos

La visualización de resultados en cortes de TC del paciente HCC066 muestra que, aunque Swin-NeXt no alcanza el óptimo en métricas numéricas, es el más cercano a la etiqueta real en forma y tamaño de segmentación, con mayor valor clínico práctico.

Trabajos Relacionados

Desarrollo de Segmentación de Imágenes Médicas 3D

  1. Métodos tradicionales: Métodos no supervisados como crecimiento de regiones
  2. Era del aprendizaje profundo: 3D U-Net sienta las bases
  3. Marcos automatizados: nnU-Net integra preprocesamiento automatizado y selección de parámetros
  4. Aplicación de Transformers: UNETR introduce ViT, SwinUNETR utiliza Swin Transformer
  5. Convolución moderna: MedNeXt diseñado basándose en ConvNeXt

Posicionamiento de la Contribución de este Artículo

Este artículo es el primero en combinar sistemáticamente un codificador Transformer y un decodificador de convolución moderna para segmentación de imágenes médicas 3D, introduciendo además un mecanismo de atención cruzada multimodal.

Conclusiones y Discusión

Conclusiones Principales

  1. Fusión de arquitectura efectiva: La combinación del codificador Swin Transformer con el decodificador ConvNeXt es efectiva
  2. Superioridad de atención cruzada: En fusión multimodal, el mecanismo de atención cruzada es significativamente superior a métodos simples de suma y concatenación
  3. Efectividad de función de pérdida combinada: DiceFocalCELoss puede mejorar la convergencia del entrenamiento en problemas de desequilibrio de clases

Limitaciones

  1. Configuración de parámetros conservadora: Se redujeron los parámetros para comparación justa, sin utilizar la proporción óptima de bloques de extracción de características 1:1:3:1
  2. Limitaciones de recursos computacionales: Debido a factores como colas de servidores, no se completaron todos los experimentos programados
  3. Escala del conjunto de datos: El conjunto de datos relativamente pequeño puede limitar la capacidad de generalización del modelo

Direcciones Futuras

  1. Explorar diseños de proporciones de arquitectura de red más óptimos
  2. Validar la efectividad del método en conjuntos de datos de mayor escala
  3. Investigar la aplicabilidad a otras tareas de segmentación de imágenes médicas

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Primera combinación sistemática de las ventajas de Swin Transformer y ConvNeXt
  2. Fusión multimodal: Utilización efectiva de información clínica para asistir la segmentación de imágenes
  3. Experimentos exhaustivos: Incluye experimentos de ablación detallados y análisis comparativos
  4. Alto valor práctico: Diseñado según las necesidades reales de segmentación de imágenes médicas

Insuficiencias

  1. Mejora de rendimiento limitada: La mejora numérica respecto a métodos base no es lo suficientemente significativa
  2. Inconsistencia en condiciones experimentales: Existen diferencias en tiempo de entrenamiento y condiciones entre diferentes modelos
  3. Análisis teórico insuficiente: Falta análisis teórico profundo sobre por qué la atención cruzada es más efectiva
  4. Generalización desconocida: Solo validado en segmentación de tumores hepáticos, rendimiento en otras tareas desconocido

Impacto

  1. Contribución metodológica: Proporciona nuevas ideas de diseño de arquitectura para segmentación de imágenes médicas 3D
  2. Fusión multimodal: Proporciona solución efectiva para fusión de información multimodal en análisis de imágenes médicas
  3. Valor práctico: El método que considera información clínica se ajusta mejor a necesidades médicas reales

Escenarios Aplicables

  1. Segmentación de imágenes médicas 3D: Especialmente en escenarios que requieren combinar información clínica
  2. Análisis médico multimodal: Tareas que combinan imágenes con datos estructurados
  3. Segmentación con desequilibrio de clases: Tareas de segmentación donde el fondo es dominante

Referencias Bibliográficas

El artículo cita trabajos importantes en el campo, incluyendo:

  • 3D U-Net: Trabajo fundamental en segmentación de imágenes médicas 3D
  • nnU-Net: Marco de segmentación de imágenes médicas automatizado
  • SwinUNETR: Aplicación de Swin Transformer en segmentación de imágenes médicas
  • MedNeXt: Método de segmentación de imágenes médicas basado en ConvNeXt

Evaluación General: Este es un trabajo con cierta innovación en el campo de segmentación de imágenes médicas 3D, particularmente en fusión multimodal y diseño de arquitectura. Aunque la mejora de rendimiento es relativamente limitada, la practicidad del método y su contribución al campo merecen reconocimiento.