2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.

Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.

academic

MSM-Seg: Un Marco de Memoria Modalidad-y-Corte con Indicaciones Agnósticas de Categoría para Segmentación de Tumores Cerebrales Multimodales

Información Básica

ID del Artículo: 2510.10679
Título: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Autores: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
Clasificación: cs.CV (Visión por Computadora)
Revista de Publicación: IEEE Transactions on Medical Imaging
Enlace del Artículo: https://arxiv.org/abs/2510.10679
Enlace del Código: https://github.com/xq141839/MSM-Seg

Resumen

La segmentación multimodal de tumores cerebrales es crucial para el diagnóstico clínico, requiriendo la identificación precisa de diferentes subrregiones anatómicas internas. Aunque los paradigmas de segmentación basados en indicaciones recientes han proporcionado experiencias interactivas a los clínicos, los métodos existentes ignoran las correlaciones entre modalidades, dependen de indicaciones específicas de categoría que requieren mucho trabajo manual, limitando su aplicabilidad en escenarios prácticos. Para abordar estos problemas, este artículo propone el marco MSM-Seg para segmentación multimodal de tumores cerebrales. MSM-Seg introduce un novedoso paradigma de segmentación de doble memoria que integra cooperativamente información entre modalidades y cortes con indicaciones agnósticas de categoría eficientes para la comprensión de tumores cerebrales.

Antecedentes de Investigación y Motivación

Problemas Centrales

Complejidad de la segmentación multimodal de tumores cerebrales: Requiere identificar simultáneamente componentes tumorales heterogéneos, incluyendo núcleo con realce de contraste, áreas de necrosis y edema peritumoral, cada uno proporcionando diferentes biomarcadores clínicos para la clasificación tumoral y decisiones terapéuticas.
Limitaciones de los métodos existentes:
- Los marcos clásicos de segmentación 3D multimodal están limitados por la ineficiencia computacional inherente al procesamiento volumétrico
- Ignoran las relaciones de secuencia natural entre cortes adyacentes
- Métodos como SAM2 dependen de anotaciones específicas de categoría como indicaciones, requiriendo anotación manual intensiva
- Los métodos existentes típicamente procesan diferentes modalidades de resonancia magnética de forma independiente o mediante conexiones previas simples, sin aprovechar plenamente la información complementaria rica entre modalidades

Motivación de la Investigación

Las diferentes modalidades de resonancia magnética poseen relaciones fuertemente complementarias: la secuencia FLAIR es experta en mostrar edema peritumoral y lesiones de señal alta, mientras que la secuencia T1c proporciona visualización con realce de contraste de áreas tumorales activas y ruptura de la barrera hematoencefálica. Esta relación complementaria inspira la necesidad de desarrollar un marco unificado que pueda capturar efectivamente relaciones entre modalidades y continuidad espacial.

Contribuciones Principales

Propone un paradigma de segmentación de doble memoria: Aprovecha relaciones entre modalidades y cortes en el escaneo de entrada, logrando comprensión integral de subrregiones tumorales
Diseña un mecanismo de atención de memoria modalidad-y-corte (MSMA): Utiliza eficientemente relaciones entre modalidades y cortes, mejorando la representación de características multimodales
Desarrolla un codificador de indicaciones agnósticas de categoría multiescala (MCP-Encoder): Proporciona orientación de región tumoral y diseña un decodificador de fusión adaptativo de modalidad (MF-Decoder)
Logra mejoras significativas de rendimiento en conjuntos de datos de gliomas y tumores metastásicos: Supera los métodos de segmentación más avanzados existentes

Explicación Detallada del Método

Definición de la Tarea

Dado un escaneo de resonancia magnética multimodal {X_{t,m}}, donde t ∈ {1,...,T} denota el índice de corte, m ∈ {1,...,M} denota el índice de modalidad, el objetivo es generar máscaras de segmentación precisas de tumores cerebrales, identificando tres regiones jerárquicas: tumor realzado (ET), núcleo tumoral (TC) y tumor completo (WT).

Arquitectura del Modelo

1. Paradigma de Segmentación de Doble Memoria

La idea central es establecer integración de memoria progresiva, refinando progresivamente la comprensión de la estructura tumoral completa. Dado el corte de entrada X_{t,m}, el modelo mantiene un estado latente S_{t,m} ∈ R^{C×H×W}, con regla de actualización:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

Donde:

R(·) es la función de actualización de estado
P(·) es la cabeza de predicción de segmentación
S_{t,≺m} representa el contexto entre modalidades de modalidades anteriores en el corte actual t
S_{≺t} representa el contexto entre cortes del corte anterior
θ_{t,m} es una indicación agnóstica de categoría eficiente

2. Atención de Memoria Modalidad-y-Corte (MSMA)

Divide uniformemente la incrustación de imagen F a lo largo de la dimensión de canal:

[F_slice, F_modal] = Split(F)

Actualiza la incrustación mediante autoatención:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

Aplica atención cruzada para integrar información del repositorio de memoria:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. Codificador de Indicaciones Agnósticas de Categoría Multiescala (MCP-Encoder)

Soporta dos modos:

Modo de indicación agnóstica de categoría: Requiere solo un cuadro delimitador único que cubra toda la región tumoral
Modo automático: Sin anotación manual, genera automáticamente orientación de región tumoral

Proceso de fusión multiescala:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

Orientación de región tumoral final:

P = DS(σ(φ(F^fusion_l)))

4. Decodificador de Fusión Adaptativo de Modalidad (MF-Decoder)

Para cada modalidad m en el corte t, recibe la incrustación mejorada por memoria Z_{t,m} y la orientación tumoral correspondiente P_{t,m}. Fusiona la incrustación de indicación mediante suma a nivel de elemento:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

Genera predicciones específicas de modalidad:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

La máscara de segmentación final se obtiene mediante una estrategia de ponderación adaptativa:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

Puntos de Innovación Técnica

Mecanismo de doble memoria: Modela simultáneamente por primera vez relaciones entre modalidades y cortes, rompiendo el aislamiento entre modalidades y cortes
Indicaciones agnósticas de categoría: Se libera de anotaciones específicas de categoría que requieren mucho trabajo, mejorando la aplicabilidad clínica
Fusión adaptativa de modalidad: Selecciona dinámicamente la modalidad más informativa para cada vóxel
Atención mejorada por memoria: Captura efectivamente dependencias de larga distancia e información contextual

Configuración Experimental

Conjuntos de Datos

BraTS-METS: Conjunto de datos de segmentación de tumores metastásicos cerebrales, que contiene 652 exámenes de resonancia magnética multicontraste, abarcando cuatro modalidades: T1, T1c, T2, FLAIR

BraTS-AGPT: Conjunto de datos de segmentación de gliomas adultos post-tratamiento, que contiene 1,349 casos, enfocándose en segmentación de gliomas residuales o recurrentes después de intervención terapéutica

Métricas de Evaluación

Coeficiente de Similitud Dice: Mide la calidad de segmentación, valores más altos indican mejor rendimiento
Distancia de Hausdorff del 95% (HD95): Evalúa la precisión de delineación de bordes, valores más bajos indican bordes más precisos

Evaluación de tres regiones tumorales jerárquicas:

Tumor Realzado (ET): Región de tumor realzado
Núcleo Tumoral (TC): Unión de ET y núcleo tumoral no realzado de señal alta FLAIR circundante
Tumor Completo (WT): Unión de TC y núcleo tumoral no realzado

Métodos de Comparación

Incluye métodos tradicionales (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) y métodos basados en indicaciones (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)

Detalles de Implementación

Hardware: GPU NVIDIA A6000
Optimizador: AdamW (β1=0.9, β2=0.999)
Tasa de aprendizaje: 1×10^-4, decaimiento de peso 0.01
Tamaño de lote: 16, épocas de entrenamiento: 300
Tamaño de imagen: 256×256
Repositorio de memoria de modalidad k=3, repositorio de memoria de corte n=7

Resultados Experimentales

Resultados Principales

Conjunto de Datos BraTS-METS:

MSM-Seg logra una puntuación Dice promedio del 79.51%, superando el mejor método tradicional SegMamba-V2 (73.92%) en 5.59%
Mejora del 2.04% en comparación con el mejor método basado en indicaciones SAMed-2 (77.47%)
HD95 se reduce de 14.27mm en SAMed-2 a 13.75mm

Conjunto de Datos BraTS-AGPT:

MSM-Seg logra una puntuación Dice promedio del 83.84%, superando SegMamba-V2 (76.49%) en 7.35%
Mejora del 2.40% en comparación con SAMed-2 (81.44%)
HD95 se reduce de 6.12mm en SAMed-2 a 5.56mm

Estudios de Ablación

Investigación sistemática de ablación verifica la contribución de cada componente:

MSMA: Proporciona mejoras Dice del 0.65% y 0.81%
MCP-Encoder: Contribuye adicionalmente con mejoras del 0.87% y 1.07%
MF-Decoder: Mejora adicional del 1.08% y 1.33%
Paradigma de doble memoria: Contribución más significativa, mejora promedio del 1.73% y 2.08%

Análisis de Capacidad de Memoria

Capacidad de Memoria de Modalidad: El aumento de k=0 a k=3 muestra mejora continua de rendimiento, k=3 logra los mejores resultados, con mejora Dice promedio del 5.13% y 3.98%

Capacidad de Memoria de Corte: El aumento de n=0 a n=16 muestra mejora significativa, n=8 proporciona el mejor equilibrio entre precisión y eficiencia

Robustez de Secuencia de Modalidad

El análisis de prueba t muestra que no hay diferencias significativas entre diferentes secuencias de entrada de modalidad (valores P > 0.05), demostrando que MSM-Seg posee robustez significativa ante cambios de secuencia de modalidad.

Trabajo Relacionado

Segmentación Multimodal de Tumores Cerebrales

La investigación temprana adoptó marcos de codificador-decodificador en forma de U con CNN 3D. Los métodos recientes integran CNN 3D con Transformadores de Visión para capturar patrones espaciales locales e información contextual global. La investigación actual explora el reemplazo de ViT con Mamba de Visión y RWKV para modelar dependencias de larga distancia con complejidad computacional lineal.

Segmentación Basada en Memoria con Indicaciones

Los mecanismos de memoria se aplican ampliamente en tareas de segmentación de objetos en video. SAM2 introduce un repositorio de memoria complejo y mecanismos de atención de memoria para mejorar la consistencia de predicción entre cortes de secuencia en escaneos volumétricos. Trabajos posteriores como ReSurgSAM2, Medical SAM2, etc., optimizan el almacenamiento del repositorio de memoria y medidas de similitud.

Conclusiones y Discusión

Conclusiones Principales

MSM-Seg integra efectivamente información entre modalidades y cortes mediante un paradigma de segmentación de doble memoria, combinado con diseño de indicaciones agnósticas de categoría, logrando mejoras significativas de rendimiento en la tarea de segmentación multimodal de tumores cerebrales, proporcionando una solución práctica y eficiente para aplicaciones clínicas.

Limitaciones

Costo computacional: El mecanismo de doble memoria aumenta la latencia de inferencia de 3.86s a 4.17s
Limitaciones de capacidad de memoria: Rendimientos marginales decrecientes con mayor capacidad de memoria
Escala del conjunto de datos: Validación solo en dos conjuntos de datos BraTS, requiere validación en conjuntos de datos más amplios

Direcciones Futuras

Explorar mecanismos de memoria más eficientes para reducir costo computacional
Extender a otras tareas de segmentación de imágenes médicas
Investigar estrategias de selección de capacidad de memoria adaptativa

Evaluación Profunda

Fortalezas

Fuerte innovación técnica: El paradigma de doble memoria y el diseño de indicaciones agnósticas de categoría poseen innovación significativa
Experimentación completa: Experimentos de ablación y comparación exhaustivos verifican la efectividad del método
Alto valor práctico: Reduce la carga de anotación, mejora la aplicabilidad clínica
Mejora de rendimiento significativa: Supera métodos más avanzados existentes en múltiples métricas

Insuficiencias

Análisis de complejidad computacional insuficiente: Falta análisis detallado de complejidad temporal y espacial
Validación de generalización entre conjuntos de datos insuficiente: Validación solo en conjuntos de datos de la serie BraTS
Análisis de casos de fallo faltante: No proporciona análisis de casos específicos de fallo del método

Impacto

Este trabajo proporciona un nuevo paradigma técnico para segmentación de imágenes médicas multimodales, el mecanismo de doble memoria y el diseño de indicaciones agnósticas de categoría poseen amplio potencial de aplicación, se espera que produzca impacto importante en el campo del análisis de imágenes médicas.

Escenarios Aplicables

Diagnóstico clínico de tumores cerebrales: Reduce la carga de trabajo de anotación de médicos
Segmentación de imágenes médicas multimodales: Extensible a otros órganos y enfermedades
Sistemas de diagnóstico asistido por computadora: Proporciona base de segmentación de alta precisión

Referencias

El artículo cita 45 referencias relacionadas, abarcando trabajos importantes en campos clave como segmentación multimodal, Transformadores de Visión, métodos de la serie SAM, etc., proporcionando una base teórica sólida para esta investigación.