2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.

Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.

academic

基本信息

论文ID: 2510.10679
标题: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
作者: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
分类: cs.CV (Computer Vision)
发表期刊: IEEE Transactions on Medical Imaging
论文链接: https://arxiv.org/abs/2510.10679
代码链接: https://github.com/xq141839/MSM-Seg

摘要

多模态脑肿瘤分割对临床诊断至关重要，需要准确识别不同的内部解剖亚区域。虽然最近基于提示的分割范式为临床医生提供了交互式体验，但现有方法忽略了跨模态相关性，依赖于劳动密集型的类别特定提示，限制了其在实际场景中的适用性。为解决这些问题，本文提出了MSM-Seg框架用于多模态脑肿瘤分割。MSM-Seg引入了一种新颖的双记忆分割范式，协同整合多模态和切片间信息与高效的类别无关提示进行脑肿瘤理解。

研究背景与动机

核心问题

多模态脑肿瘤分割的复杂性：需要同时识别异质性肿瘤成分，包括对比增强核心、坏死区域和瘤周水肿，每种都为肿瘤分级和治疗决策提供不同的临床生物标志物。
现有方法的局限性：
- 经典3D多模态分割框架受限于体积处理固有的计算低效性
- 忽略相邻切片间的自然序列关系
- SAM2等方法依赖类别特定标注作为提示，需要劳动密集型手动标注
- 现有方法通常独立处理不同MRI模态或通过简单的先验连接，未能充分利用模态间的丰富互补信息

研究动机

不同MRI模态具有强互补关系：FLAIR序列擅长显示瘤周水肿和高信号病灶，而T1c序列提供活跃肿瘤区域和血脑屏障破坏的对比增强可视化。这种互补关系激发了开发统一框架的需求，该框架能够有效捕获跨模态关系和空间连续性。

核心贡献

提出双记忆分割范式：利用输入扫描中的跨模态和切片间关系，实现肿瘤亚区域的全面理解
设计模态和切片记忆注意力机制（MSMA）：高效利用跨模态和切片间关系，增强多模态特征表示
开发多尺度类别无关提示编码器（MCP-Encoder）：提供肿瘤区域指导，并设计模态自适应融合解码器（MF-Decoder）
在胶质瘤和转移瘤数据集上取得显著性能提升：超越现有最先进的分割方法

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

其中：

R(·)是状态更新函数
P(·)是分割预测头
S_{t,≺m}表示当前切片t前序模态的跨模态上下文
S_{≺t}表示前序切片的切片间上下文
θ_{t,m}是高效的类别无关提示

2. 模态和切片记忆注意力（MSMA）

将图像嵌入F沿通道维度均匀分割：

[F_slice, F_modal] = Split(F)

通过自注意力更新嵌入：

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

应用交叉注意力整合记忆库信息：

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. 多尺度类别无关提示编码器（MCP-Encoder）

支持两种模式：

类别无关提示模式：仅需覆盖整个肿瘤区域的单个边界框
自动模式：无需手动标注，自主生成肿瘤区域指导

多尺度融合过程：

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

最终肿瘤区域指导：

P = DS(σ(φ(F^fusion_l)))

4. 模态自适应融合解码器（MF-Decoder）

对每个模态m在切片t，接收记忆增强嵌入Z_{t,m}和对应的肿瘤指导P_{t,m}。通过元素级加法融合提示嵌入：

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

生成模态特定预测：

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

最终分割掩码通过自适应加权策略获得：

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

技术创新点

双记忆机制：首次同时建模跨模态和切片间关系，打破模态和切片间的隔离
类别无关提示：摆脱劳动密集型类别特定标注，提高临床适用性
模态自适应融合：动态选择每个体素最具信息量的模态
记忆增强注意力：有效捕获长距离依赖和上下文信息

Dice相似系数：衡量分割质量，值越高表示性能越好
95%豪斯多夫距离（HD95）：评估边界描绘准确性，值越低表示边界更准确

评估三个层次化肿瘤区域：

增强肿瘤（ET）：增强肿瘤区域
肿瘤核心（TC）：ET和周围非增强FLAIR高信号的联合
全肿瘤（WT）：TC和非增强肿瘤核心的联合

对比方法

包括传统方法（TransBTS、EoFormer、3D-TransUNet、UNETR++、nnUnet-V2、SegMamba-V2）和基于提示的方法（SAM、MA-SAM、SAM2、MedSAM-2、SAM2-Adapter、SAMed-2）

实现细节

硬件：NVIDIA A6000 GPU
优化器：AdamW（β1=0.9, β2=0.999）
学习率：1×10^-4，权重衰减0.01
批次大小：16，训练轮数：300
图像尺寸：256×256
模态记忆库k=3，切片记忆库n=7

实验结果

主要结果

BraTS-METS数据集：

MSM-Seg达到79.51%平均Dice分数，超越最佳传统方法SegMamba-V2（73.92%）5.59%
相比最佳提示方法SAMed-2（77.47%）提升2.04%
HD95从SAMed-2的14.27mm降至13.75mm

BraTS-AGPT数据集：

MSM-Seg达到83.84%平均Dice分数，超越SegMamba-V2（76.49%）7.35%
相比SAMed-2（81.44%）提升2.40%
HD95从SAMed-2的6.12mm降至5.56mm

消融实验

系统性消融研究验证各组件贡献：

MSMA：提供0.65%和0.81%的Dice提升
MCP-Encoder：额外贡献0.87%和1.07%提升
MF-Decoder：进一步增强1.08%和1.33%
双记忆范式：最显著贡献，平均提升1.73%和2.08%

计算开销：双记忆机制增加了推理延迟，从3.86s增至4.17s
记忆容量限制：更大记忆容量的边际收益递减
数据集规模：仅在两个BraTS数据集上验证，需要更广泛的数据集验证

未来方向

探索更高效的记忆机制减少计算开销
扩展到其他医学图像分割任务
研究自适应记忆容量选择策略

深度评价

优点

技术创新性强：双记忆范式和类别无关提示设计具有显著创新性
实验充分：全面的消融实验和对比实验验证方法有效性
实用价值高：减少标注负担，提高临床适用性
性能提升显著：在多个指标上超越现有最先进方法

不足

计算复杂度分析不够深入：缺乏详细的时间和空间复杂度分析
跨数据集泛化验证不足：仅在BraTS系列数据集验证
失败案例分析缺失：未提供方法失效的具体案例分析

影响力

该工作为多模态医学图像分割提供了新的技术范式，双记忆机制和类别无关提示设计具有广泛的应用潜力，预期对医学图像分析领域产生重要影响。

适用场景

临床脑肿瘤诊断：减少医生标注工作量
多模态医学图像分割：可扩展到其他器官和疾病
计算机辅助诊断系统：提供高精度分割基础

参考文献

论文引用了45篇相关文献，涵盖多模态分割、视觉Transformer、SAM系列方法等关键领域的重要工作，为本研究提供了坚实的理论基础。

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

基本信息

摘要

研究背景与动机

核心问题

研究动机

核心贡献

方法详解

任务定义

模型架构

1. 双记忆分割范式

2. 模态和切片记忆注意力（MSMA）

3. 多尺度类别无关提示编码器（MCP-Encoder）

4. 模态自适应融合解码器（MF-Decoder）

技术创新点

实验设置

数据集

评价指标

对比方法

实现细节

实验结果

主要结果

消融实验

记忆容量分析

模态序列鲁棒性

相关工作

多模态脑肿瘤分割

基于记忆的提示分割

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献