2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.

Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.

academic

MSM-Seg: Структура памяти модальности и срезов с категориально-агностическим подсказыванием для многомодальной сегментации опухолей мозга

Основная информация

ID статьи: 2510.10679
Название: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Авторы: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
Категория: cs.CV (Компьютерное зрение)
Журнал публикации: IEEE Transactions on Medical Imaging
Ссылка на статью: https://arxiv.org/abs/2510.10679
Ссылка на код: https://github.com/xq141839/MSM-Seg

Аннотация

Многомодальная сегментация опухолей мозга имеет критическое значение для клинической диагностики, требуя точного выявления различных внутренних анатомических подрегионов. Хотя недавние парадигмы сегментации на основе подсказок обеспечивают интерактивный опыт для клиницистов, существующие методы игнорируют кроссмодальные корреляции и полагаются на трудоемкие категориально-специфичные подсказки, что ограничивает их применимость в практических сценариях. Для решения этих проблем предлагается структура MSM-Seg для многомодальной сегментации опухолей мозга. MSM-Seg вводит новую двойную парадигму сегментации памяти, которая синергетически интегрирует информацию между модальностями и срезами с эффективным категориально-агностическим подсказыванием для понимания опухолей мозга.

Исследовательский контекст и мотивация

Основные проблемы

Сложность многомодальной сегментации опухолей мозга: требует одновременного выявления гетерогенных компонентов опухоли, включая контрастно-усиленное ядро, область некроза и перитуморальный отек, каждый из которых предоставляет различные клинические биомаркеры для градации опухоли и принятия решений о лечении.
Ограничения существующих методов:
- Классические трехмерные многомодальные структуры сегментации ограничены вычислительной неэффективностью, присущей обработке объемов
- Игнорируют естественные последовательные отношения между соседними срезами
- Методы, такие как SAM2, полагаются на категориально-специфичные аннотации в качестве подсказок, требующие трудоемкого ручного аннотирования
- Существующие методы обычно обрабатывают различные МРТ-модальности независимо или через простые априорные соединения, не полностью используя богатую дополнительную информацию между модальностями

Исследовательская мотивация

Различные МРТ-модальности обладают сильными дополнительными отношениями: последовательность FLAIR превосходит в отображении перитуморального отека и очагов с высокой интенсивностью сигнала, тогда как последовательность T1c обеспечивает контрастно-усиленную визуализацию активных областей опухоли и нарушения гематоэнцефалического барьера. Эта дополнительность мотивирует разработку унифицированной структуры, которая может эффективно захватывать кроссмодальные отношения и пространственную непрерывность.

Основные вклады

Предложена двойная парадигма сегментации памяти: использует кроссмодальные и межсрезовые отношения во входных сканах для комплексного понимания подрегионов опухоли
Разработан механизм внимания памяти модальности и срезов (MSMA): эффективно использует кроссмодальные и межсрезовые отношения, улучшая представление многомодальных признаков
Разработан многомасштабный кодировщик категориально-агностических подсказок (MCP-Encoder): обеспечивает руководство по областям опухоли и разработан модально-адаптивный декодер слияния (MF-Decoder)
Достигнуты значительные улучшения производительности на наборах данных глиом и метастазов: превосходит существующие передовые методы сегментации

Подробное описание методологии

Определение задачи

Учитывая многомодальные МРТ-сканы {X_{t,m}}, где t ∈ {1,...,T} обозначает индекс среза, m ∈ {1,...,M} обозначает индекс модальности, целью является создание точной маски сегментации опухоли мозга, выявляющей три иерархических региона: усиленная опухоль (ET), ядро опухоли (TC) и полная опухоль (WT).

Архитектура модели

1. Двойная парадигма сегментации памяти

Основная идея заключается в установлении пошагового интегрирования памяти, постепенно совершенствуя понимание всей структуры опухоли. Учитывая входной срез X_{t,m}, модель поддерживает скрытое состояние S_{t,m} ∈ R^{C×H×W}, правило обновления:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

где:

R(·) — функция обновления состояния
P(·) — голова предсказания сегментации
S_{t,≺m} обозначает кроссмодальный контекст предыдущих модальностей текущего среза t
S_{≺t} обозначает контекст предыдущих срезов
θ_{t,m} — эффективная категориально-агностическая подсказка

2. Внимание памяти модальности и срезов (MSMA)

Разделение встраивания изображения F равномерно вдоль размерности канала:

[F_slice, F_modal] = Split(F)

Обновление встраивания через самовнимание:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

Применение перекрестного внимания для интеграции информации из хранилища памяти:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. Многомасштабный кодировщик категориально-агностических подсказок (MCP-Encoder)

Поддерживает два режима:

Режим категориально-агностических подсказок: требует только одного ограничивающего прямоугольника, охватывающего всю область опухоли
Автоматический режим: не требует ручного аннотирования, автономно генерирует руководство по областям опухоли

Процесс многомасштабного слияния:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), если подсказка доступна
    Concat(F^fusion_{i-1}, F_i), в противном случае
}

Окончательное руководство по областям опухоли:

P = DS(σ(φ(F^fusion_l)))

4. Модально-адаптивный декодер слияния (MF-Decoder)

Для каждой модальности m на срезе t получает встраивание, улучшенное памятью Z_{t,m}, и соответствующее руководство по опухоли P_{t,m}. Слияние встраивания подсказок через поэлементное сложение:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

Генерирование модально-специфичных предсказаний:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

Окончательная маска сегментации получается через адаптивную стратегию взвешивания:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

Технические инновации

Двойной механизм памяти: впервые одновременно моделирует кроссмодальные и межсрезовые отношения, преодолевая изоляцию между модальностями и срезами
Категориально-агностические подсказки: избегает трудоемкого категориально-специфичного аннотирования, повышая клиническую применимость
Модально-адаптивное слияние: динамически выбирает наиболее информативную модальность для каждого воксела
Внимание, улучшенное памятью: эффективно захватывает дальнодействующие зависимости и контекстную информацию

Экспериментальная установка

Наборы данных

BraTS-METS: набор данных для сегментации метастазов мозга, содержит 652 многоконтрастных МРТ-исследования, охватывающие четыре модальности: T1, T1c, T2, FLAIR

BraTS-AGPT: набор данных для сегментации глиом у взрослых после лечения, содержит 1349 случаев, сосредоточен на сегментации остаточных или рецидивирующих глиом после терапевтического вмешательства

Метрики оценки

Коэффициент сходства Dice: измеряет качество сегментации, более высокие значения указывают на лучшую производительность
95-процентильное расстояние Хаусдорфа (HD95): оценивает точность описания границ, более низкие значения указывают на более точные границы

Оценка трех иерархических областей опухоли:

Усиленная опухоль (ET): область усиленной опухоли
Ядро опухоли (TC): объединение ET и окружающего неусиленного FLAIR-сигнала высокой интенсивности
Полная опухоль (WT): объединение TC и неусиленного ядра опухоли

Методы сравнения

Включают традиционные методы (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) и методы на основе подсказок (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)

Детали реализации

Оборудование: GPU NVIDIA A6000
Оптимизатор: AdamW (β1=0.9, β2=0.999)
Скорость обучения: 1×10^-4, затухание веса 0.01
Размер пакета: 16, количество эпох: 300
Размер изображения: 256×256
Хранилище памяти модальности k=3, хранилище памяти срезов n=7

Результаты экспериментов

Основные результаты

Набор данных BraTS-METS:

MSM-Seg достигает среднего коэффициента Dice 79.51%, превосходя лучший традиционный метод SegMamba-V2 (73.92%) на 5.59%
Улучшение на 2.04% по сравнению с лучшим методом на основе подсказок SAMed-2 (77.47%)
HD95 снижается с 14.27 мм (SAMed-2) до 13.75 мм

Набор данных BraTS-AGPT:

MSM-Seg достигает среднего коэффициента Dice 83.84%, превосходя SegMamba-V2 (76.49%) на 7.35%
Улучшение на 2.40% по сравнению с SAMed-2 (81.44%)
HD95 снижается с 6.12 мм (SAMed-2) до 5.56 мм

Абляционные исследования

Систематическое абляционное исследование проверяет вклад каждого компонента:

MSMA: обеспечивает улучшение Dice на 0.65% и 0.81%
MCP-Encoder: дополнительный вклад улучшения на 0.87% и 1.07%
MF-Decoder: дальнейшее улучшение на 1.08% и 1.33%
Двойная парадигма памяти: наиболее значительный вклад, среднее улучшение на 1.73% и 2.08%

Анализ емкости памяти

Емкость памяти модальности: увеличение от k=0 до k=3 показывает постоянное улучшение производительности, k=3 достигает оптимальных результатов, среднее улучшение Dice на 5.13% и 3.98%

Емкость памяти срезов: улучшение от n=0 до n=16 показывает значительное улучшение, n=8 обеспечивает оптимальный баланс между точностью и эффективностью

Робастность последовательности модальностей

Анализ t-теста показывает отсутствие значительных различий между различными последовательностями входных модальностей (значение P > 0.05), демонстрируя значительную робастность MSM-Seg к изменениям последовательности модальностей.

Связанные работы

Многомодальная сегментация опухолей мозга

Ранние исследования применяли U-образные структуры кодировщик-декодер с трехмерными CNN. Недавние методы интегрируют трехмерные CNN с Vision Transformer для захвата локальных пространственных паттернов и глобальной контекстной информации. Текущие исследования изучают замену ViT на Vision Mamba и RWKV для моделирования дальнодействующих зависимостей с линейной вычислительной сложностью.

Сегментация на основе памяти с подсказками

Механизмы памяти широко применяются в задачах сегментации видео-объектов. SAM2 вводит сложное хранилище памяти и механизм внимания памяти для улучшения согласованности предсказаний между последовательными срезами в объемных сканах. Последующие работы, такие как ReSurgSAM2, Medical SAM2, оптимизируют хранение в хранилище памяти и меры сходства.

Выводы и обсуждение

Основные выводы

MSM-Seg эффективно интегрирует информацию между модальностями и срезами через двойную парадигму сегментации памяти, в сочетании с категориально-агностическим дизайном подсказок, достигая значительного улучшения производительности в задаче многомодальной сегментации опухолей мозга, обеспечивая эффективное и практическое решение для клинического применения.

Ограничения

Вычислительные затраты: двойной механизм памяти увеличивает задержку вывода с 3.86 с до 4.17 с
Ограничения емкости памяти: убывающая предельная полезность большей емкости памяти
Масштаб набора данных: проверка только на двух наборах данных BraTS, требуется проверка на более широких наборах данных

Будущие направления

Исследование более эффективных механизмов памяти для снижения вычислительных затрат
Расширение на другие задачи сегментации медицинских изображений
Исследование стратегий адаптивного выбора емкости памяти

Глубокая оценка

Преимущества

Сильная техническая инновативность: двойная парадигма памяти и категориально-агностический дизайн подсказок обладают значительной инновативностью
Полные эксперименты: комплексные абляционные и сравнительные эксперименты проверяют эффективность метода
Высокая практическая ценность: снижает нагрузку на аннотирование, повышает клиническую применимость
Значительное улучшение производительности: превосходит существующие передовые методы по нескольким метрикам

Недостатки

Недостаточный анализ вычислительной сложности: отсутствует подробный анализ временной и пространственной сложности
Недостаточная проверка кроссдатасетной обобщаемости: проверка только на наборах данных серии BraTS
Отсутствие анализа случаев отказа: не предоставлены конкретные примеры отказа метода

Влияние

Эта работа предоставляет новую техническую парадигму для многомодальной сегментации медицинских изображений, двойной механизм памяти и категориально-агностический дизайн подсказок имеют широкий потенциал применения, ожидается значительное влияние на область анализа медицинских изображений.

Применимые сценарии

Клиническая диагностика опухолей мозга: снижение объема работы по аннотированию врачами
Сегментация многомодальных медицинских изображений: расширяемо на другие органы и заболевания
Системы компьютерной поддержки диагностики: обеспечивает основу для высокоточной сегментации

Библиография

Статья цитирует 45 соответствующих работ, охватывающих ключевые области многомодальной сегментации, Vision Transformer, методов серии SAM и других важных работ, обеспечивая прочную теоретическую основу для данного исследования.