MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: Структура памяти модальности и срезов с категориально-агностическим подсказыванием для многомодальной сегментации опухолей мозга
Многомодальная сегментация опухолей мозга имеет критическое значение для клинической диагностики, требуя точного выявления различных внутренних анатомических подрегионов. Хотя недавние парадигмы сегментации на основе подсказок обеспечивают интерактивный опыт для клиницистов, существующие методы игнорируют кроссмодальные корреляции и полагаются на трудоемкие категориально-специфичные подсказки, что ограничивает их применимость в практических сценариях. Для решения этих проблем предлагается структура MSM-Seg для многомодальной сегментации опухолей мозга. MSM-Seg вводит новую двойную парадигму сегментации памяти, которая синергетически интегрирует информацию между модальностями и срезами с эффективным категориально-агностическим подсказыванием для понимания опухолей мозга.
Сложность многомодальной сегментации опухолей мозга: требует одновременного выявления гетерогенных компонентов опухоли, включая контрастно-усиленное ядро, область некроза и перитуморальный отек, каждый из которых предоставляет различные клинические биомаркеры для градации опухоли и принятия решений о лечении.
Игнорируют естественные последовательные отношения между соседними срезами
Методы, такие как SAM2, полагаются на категориально-специфичные аннотации в качестве подсказок, требующие трудоемкого ручного аннотирования
Существующие методы обычно обрабатывают различные МРТ-модальности независимо или через простые априорные соединения, не полностью используя богатую дополнительную информацию между модальностями
Различные МРТ-модальности обладают сильными дополнительными отношениями: последовательность FLAIR превосходит в отображении перитуморального отека и очагов с высокой интенсивностью сигнала, тогда как последовательность T1c обеспечивает контрастно-усиленную визуализацию активных областей опухоли и нарушения гематоэнцефалического барьера. Эта дополнительность мотивирует разработку унифицированной структуры, которая может эффективно захватывать кроссмодальные отношения и пространственную непрерывность.
Предложена двойная парадигма сегментации памяти: использует кроссмодальные и межсрезовые отношения во входных сканах для комплексного понимания подрегионов опухоли
Разработан механизм внимания памяти модальности и срезов (MSMA): эффективно использует кроссмодальные и межсрезовые отношения, улучшая представление многомодальных признаков
Разработан многомасштабный кодировщик категориально-агностических подсказок (MCP-Encoder): обеспечивает руководство по областям опухоли и разработан модально-адаптивный декодер слияния (MF-Decoder)
Достигнуты значительные улучшения производительности на наборах данных глиом и метастазов: превосходит существующие передовые методы сегментации
Учитывая многомодальные МРТ-сканы {X_{t,m}}, где t ∈ {1,...,T} обозначает индекс среза, m ∈ {1,...,M} обозначает индекс модальности, целью является создание точной маски сегментации опухоли мозга, выявляющей три иерархических региона: усиленная опухоль (ET), ядро опухоли (TC) и полная опухоль (WT).
Основная идея заключается в установлении пошагового интегрирования памяти, постепенно совершенствуя понимание всей структуры опухоли. Учитывая входной срез X_{t,m}, модель поддерживает скрытое состояние S_{t,m} ∈ R^{C×H×W}, правило обновления:
Для каждой модальности m на срезе t получает встраивание, улучшенное памятью Z_{t,m}, и соответствующее руководство по опухоли P_{t,m}. Слияние встраивания подсказок через поэлементное сложение:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
Генерирование модально-специфичных предсказаний:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
Окончательная маска сегментации получается через адаптивную стратегию взвешивания:
BraTS-METS: набор данных для сегментации метастазов мозга, содержит 652 многоконтрастных МРТ-исследования, охватывающие четыре модальности: T1, T1c, T2, FLAIR
BraTS-AGPT: набор данных для сегментации глиом у взрослых после лечения, содержит 1349 случаев, сосредоточен на сегментации остаточных или рецидивирующих глиом после терапевтического вмешательства
Включают традиционные методы (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) и методы на основе подсказок (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)
Емкость памяти модальности: увеличение от k=0 до k=3 показывает постоянное улучшение производительности, k=3 достигает оптимальных результатов, среднее улучшение Dice на 5.13% и 3.98%
Емкость памяти срезов: улучшение от n=0 до n=16 показывает значительное улучшение, n=8 обеспечивает оптимальный баланс между точностью и эффективностью
Анализ t-теста показывает отсутствие значительных различий между различными последовательностями входных модальностей (значение P > 0.05), демонстрируя значительную робастность MSM-Seg к изменениям последовательности модальностей.
Ранние исследования применяли U-образные структуры кодировщик-декодер с трехмерными CNN. Недавние методы интегрируют трехмерные CNN с Vision Transformer для захвата локальных пространственных паттернов и глобальной контекстной информации. Текущие исследования изучают замену ViT на Vision Mamba и RWKV для моделирования дальнодействующих зависимостей с линейной вычислительной сложностью.
Механизмы памяти широко применяются в задачах сегментации видео-объектов. SAM2 вводит сложное хранилище памяти и механизм внимания памяти для улучшения согласованности предсказаний между последовательными срезами в объемных сканах. Последующие работы, такие как ReSurgSAM2, Medical SAM2, оптимизируют хранение в хранилище памяти и меры сходства.
MSM-Seg эффективно интегрирует информацию между модальностями и срезами через двойную парадигму сегментации памяти, в сочетании с категориально-агностическим дизайном подсказок, достигая значительного улучшения производительности в задаче многомодальной сегментации опухолей мозга, обеспечивая эффективное и практическое решение для клинического применения.
Эта работа предоставляет новую техническую парадигму для многомодальной сегментации медицинских изображений, двойной механизм памяти и категориально-агностический дизайн подсказок имеют широкий потенциал применения, ожидается значительное влияние на область анализа медицинских изображений.
Статья цитирует 45 соответствующих работ, охватывающих ключевые области многомодальной сегментации, Vision Transformer, методов серии SAM и других важных работ, обеспечивая прочную теоретическую основу для данного исследования.