MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: Un Marco de Memoria Modalidad-y-Corte con Indicaciones Agnósticas de Categoría para Segmentación de Tumores Cerebrales Multimodales
La segmentación multimodal de tumores cerebrales es crucial para el diagnóstico clínico, requiriendo la identificación precisa de diferentes subrregiones anatómicas internas. Aunque los paradigmas de segmentación basados en indicaciones recientes han proporcionado experiencias interactivas a los clínicos, los métodos existentes ignoran las correlaciones entre modalidades, dependen de indicaciones específicas de categoría que requieren mucho trabajo manual, limitando su aplicabilidad en escenarios prácticos. Para abordar estos problemas, este artículo propone el marco MSM-Seg para segmentación multimodal de tumores cerebrales. MSM-Seg introduce un novedoso paradigma de segmentación de doble memoria que integra cooperativamente información entre modalidades y cortes con indicaciones agnósticas de categoría eficientes para la comprensión de tumores cerebrales.
Complejidad de la segmentación multimodal de tumores cerebrales: Requiere identificar simultáneamente componentes tumorales heterogéneos, incluyendo núcleo con realce de contraste, áreas de necrosis y edema peritumoral, cada uno proporcionando diferentes biomarcadores clínicos para la clasificación tumoral y decisiones terapéuticas.
Limitaciones de los métodos existentes:
Los marcos clásicos de segmentación 3D multimodal están limitados por la ineficiencia computacional inherente al procesamiento volumétrico
Ignoran las relaciones de secuencia natural entre cortes adyacentes
Métodos como SAM2 dependen de anotaciones específicas de categoría como indicaciones, requiriendo anotación manual intensiva
Los métodos existentes típicamente procesan diferentes modalidades de resonancia magnética de forma independiente o mediante conexiones previas simples, sin aprovechar plenamente la información complementaria rica entre modalidades
Las diferentes modalidades de resonancia magnética poseen relaciones fuertemente complementarias: la secuencia FLAIR es experta en mostrar edema peritumoral y lesiones de señal alta, mientras que la secuencia T1c proporciona visualización con realce de contraste de áreas tumorales activas y ruptura de la barrera hematoencefálica. Esta relación complementaria inspira la necesidad de desarrollar un marco unificado que pueda capturar efectivamente relaciones entre modalidades y continuidad espacial.
Propone un paradigma de segmentación de doble memoria: Aprovecha relaciones entre modalidades y cortes en el escaneo de entrada, logrando comprensión integral de subrregiones tumorales
Diseña un mecanismo de atención de memoria modalidad-y-corte (MSMA): Utiliza eficientemente relaciones entre modalidades y cortes, mejorando la representación de características multimodales
Desarrolla un codificador de indicaciones agnósticas de categoría multiescala (MCP-Encoder): Proporciona orientación de región tumoral y diseña un decodificador de fusión adaptativo de modalidad (MF-Decoder)
Logra mejoras significativas de rendimiento en conjuntos de datos de gliomas y tumores metastásicos: Supera los métodos de segmentación más avanzados existentes
Dado un escaneo de resonancia magnética multimodal {X_{t,m}}, donde t ∈ {1,...,T} denota el índice de corte, m ∈ {1,...,M} denota el índice de modalidad, el objetivo es generar máscaras de segmentación precisas de tumores cerebrales, identificando tres regiones jerárquicas: tumor realzado (ET), núcleo tumoral (TC) y tumor completo (WT).
La idea central es establecer integración de memoria progresiva, refinando progresivamente la comprensión de la estructura tumoral completa. Dado el corte de entrada X_{t,m}, el modelo mantiene un estado latente S_{t,m} ∈ R^{C×H×W}, con regla de actualización:
Para cada modalidad m en el corte t, recibe la incrustación mejorada por memoria Z_{t,m} y la orientación tumoral correspondiente P_{t,m}. Fusiona la incrustación de indicación mediante suma a nivel de elemento:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
Genera predicciones específicas de modalidad:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
La máscara de segmentación final se obtiene mediante una estrategia de ponderación adaptativa:
Mecanismo de doble memoria: Modela simultáneamente por primera vez relaciones entre modalidades y cortes, rompiendo el aislamiento entre modalidades y cortes
Indicaciones agnósticas de categoría: Se libera de anotaciones específicas de categoría que requieren mucho trabajo, mejorando la aplicabilidad clínica
Fusión adaptativa de modalidad: Selecciona dinámicamente la modalidad más informativa para cada vóxel
Atención mejorada por memoria: Captura efectivamente dependencias de larga distancia e información contextual
BraTS-METS: Conjunto de datos de segmentación de tumores metastásicos cerebrales, que contiene 652 exámenes de resonancia magnética multicontraste, abarcando cuatro modalidades: T1, T1c, T2, FLAIR
BraTS-AGPT: Conjunto de datos de segmentación de gliomas adultos post-tratamiento, que contiene 1,349 casos, enfocándose en segmentación de gliomas residuales o recurrentes después de intervención terapéutica
Capacidad de Memoria de Modalidad: El aumento de k=0 a k=3 muestra mejora continua de rendimiento, k=3 logra los mejores resultados, con mejora Dice promedio del 5.13% y 3.98%
Capacidad de Memoria de Corte: El aumento de n=0 a n=16 muestra mejora significativa, n=8 proporciona el mejor equilibrio entre precisión y eficiencia
El análisis de prueba t muestra que no hay diferencias significativas entre diferentes secuencias de entrada de modalidad (valores P > 0.05), demostrando que MSM-Seg posee robustez significativa ante cambios de secuencia de modalidad.
La investigación temprana adoptó marcos de codificador-decodificador en forma de U con CNN 3D. Los métodos recientes integran CNN 3D con Transformadores de Visión para capturar patrones espaciales locales e información contextual global. La investigación actual explora el reemplazo de ViT con Mamba de Visión y RWKV para modelar dependencias de larga distancia con complejidad computacional lineal.
Los mecanismos de memoria se aplican ampliamente en tareas de segmentación de objetos en video. SAM2 introduce un repositorio de memoria complejo y mecanismos de atención de memoria para mejorar la consistencia de predicción entre cortes de secuencia en escaneos volumétricos. Trabajos posteriores como ReSurgSAM2, Medical SAM2, etc., optimizan el almacenamiento del repositorio de memoria y medidas de similitud.
MSM-Seg integra efectivamente información entre modalidades y cortes mediante un paradigma de segmentación de doble memoria, combinado con diseño de indicaciones agnósticas de categoría, logrando mejoras significativas de rendimiento en la tarea de segmentación multimodal de tumores cerebrales, proporcionando una solución práctica y eficiente para aplicaciones clínicas.
Este trabajo proporciona un nuevo paradigma técnico para segmentación de imágenes médicas multimodales, el mecanismo de doble memoria y el diseño de indicaciones agnósticas de categoría poseen amplio potencial de aplicación, se espera que produzca impacto importante en el campo del análisis de imágenes médicas.
El artículo cita 45 referencias relacionadas, abarcando trabajos importantes en campos clave como segmentación multimodal, Transformadores de Visión, métodos de la serie SAM, etc., proporcionando una base teórica sólida para esta investigación.