2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

基本信息

  • 论文ID: 2510.10679
  • 标题: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
  • 作者: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
  • 分类: cs.CV (Computer Vision)
  • 发表期刊: IEEE Transactions on Medical Imaging
  • 论文链接: https://arxiv.org/abs/2510.10679
  • 代码链接: https://github.com/xq141839/MSM-Seg

摘要

多模态脑肿瘤分割对临床诊断至关重要,需要准确识别不同的内部解剖亚区域。虽然最近基于提示的分割范式为临床医生提供了交互式体验,但现有方法忽略了跨模态相关性,依赖于劳动密集型的类别特定提示,限制了其在实际场景中的适用性。为解决这些问题,本文提出了MSM-Seg框架用于多模态脑肿瘤分割。MSM-Seg引入了一种新颖的双记忆分割范式,协同整合多模态和切片间信息与高效的类别无关提示进行脑肿瘤理解。

研究背景与动机

核心问题

  1. 多模态脑肿瘤分割的复杂性:需要同时识别异质性肿瘤成分,包括对比增强核心、坏死区域和瘤周水肿,每种都为肿瘤分级和治疗决策提供不同的临床生物标志物。
  2. 现有方法的局限性
    • 经典3D多模态分割框架受限于体积处理固有的计算低效性
    • 忽略相邻切片间的自然序列关系
    • SAM2等方法依赖类别特定标注作为提示,需要劳动密集型手动标注
    • 现有方法通常独立处理不同MRI模态或通过简单的先验连接,未能充分利用模态间的丰富互补信息

研究动机

不同MRI模态具有强互补关系:FLAIR序列擅长显示瘤周水肿和高信号病灶,而T1c序列提供活跃肿瘤区域和血脑屏障破坏的对比增强可视化。这种互补关系激发了开发统一框架的需求,该框架能够有效捕获跨模态关系和空间连续性。

核心贡献

  1. 提出双记忆分割范式:利用输入扫描中的跨模态和切片间关系,实现肿瘤亚区域的全面理解
  2. 设计模态和切片记忆注意力机制(MSMA):高效利用跨模态和切片间关系,增强多模态特征表示
  3. 开发多尺度类别无关提示编码器(MCP-Encoder):提供肿瘤区域指导,并设计模态自适应融合解码器(MF-Decoder)
  4. 在胶质瘤和转移瘤数据集上取得显著性能提升:超越现有最先进的分割方法

方法详解

任务定义

给定多模态MRI扫描{X_{t,m}},其中t ∈ {1,...,T}表示切片索引,m ∈ {1,...,M}表示模态索引,目标是生成准确的脑肿瘤分割掩码,识别增强肿瘤(ET)、肿瘤核心(TC)和全肿瘤(WT)三个层次化区域。

模型架构

1. 双记忆分割范式

核心思想是建立逐步记忆整合,渐进式完善对整个肿瘤结构的理解。给定输入切片X_{t,m},模型维护潜在状态S_{t,m} ∈ R^{C×H×W},更新规则为:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

其中:

  • R(·)是状态更新函数
  • P(·)是分割预测头
  • S_{t,≺m}表示当前切片t前序模态的跨模态上下文
  • S_{≺t}表示前序切片的切片间上下文
  • θ_{t,m}是高效的类别无关提示

2. 模态和切片记忆注意力(MSMA)

将图像嵌入F沿通道维度均匀分割:

[F_slice, F_modal] = Split(F)

通过自注意力更新嵌入:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

应用交叉注意力整合记忆库信息:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. 多尺度类别无关提示编码器(MCP-Encoder)

支持两种模式:

  • 类别无关提示模式:仅需覆盖整个肿瘤区域的单个边界框
  • 自动模式:无需手动标注,自主生成肿瘤区域指导

多尺度融合过程:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

最终肿瘤区域指导:

P = DS(σ(φ(F^fusion_l)))

4. 模态自适应融合解码器(MF-Decoder)

对每个模态m在切片t,接收记忆增强嵌入Z_{t,m}和对应的肿瘤指导P_{t,m}。通过元素级加法融合提示嵌入:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

生成模态特定预测:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

最终分割掩码通过自适应加权策略获得:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

技术创新点

  1. 双记忆机制:首次同时建模跨模态和切片间关系,打破模态和切片间的隔离
  2. 类别无关提示:摆脱劳动密集型类别特定标注,提高临床适用性
  3. 模态自适应融合:动态选择每个体素最具信息量的模态
  4. 记忆增强注意力:有效捕获长距离依赖和上下文信息

实验设置

数据集

BraTS-METS:脑转移瘤分割数据集,包含652例多对比MRI检查,涵盖T1、T1c、T2、FLAIR四种模态

BraTS-AGPT:成人治疗后胶质瘤分割数据集,包含1,349例,聚焦于治疗干预后残留或复发胶质瘤的分割

评价指标

  • Dice相似系数:衡量分割质量,值越高表示性能越好
  • 95%豪斯多夫距离(HD95):评估边界描绘准确性,值越低表示边界更准确

评估三个层次化肿瘤区域:

  • 增强肿瘤(ET):增强肿瘤区域
  • 肿瘤核心(TC):ET和周围非增强FLAIR高信号的联合
  • 全肿瘤(WT):TC和非增强肿瘤核心的联合

对比方法

包括传统方法(TransBTS、EoFormer、3D-TransUNet、UNETR++、nnUnet-V2、SegMamba-V2)和基于提示的方法(SAM、MA-SAM、SAM2、MedSAM-2、SAM2-Adapter、SAMed-2)

实现细节

  • 硬件:NVIDIA A6000 GPU
  • 优化器:AdamW(β1=0.9, β2=0.999)
  • 学习率:1×10^-4,权重衰减0.01
  • 批次大小:16,训练轮数:300
  • 图像尺寸:256×256
  • 模态记忆库k=3,切片记忆库n=7

实验结果

主要结果

BraTS-METS数据集

  • MSM-Seg达到79.51%平均Dice分数,超越最佳传统方法SegMamba-V2(73.92%)5.59%
  • 相比最佳提示方法SAMed-2(77.47%)提升2.04%
  • HD95从SAMed-2的14.27mm降至13.75mm

BraTS-AGPT数据集

  • MSM-Seg达到83.84%平均Dice分数,超越SegMamba-V2(76.49%)7.35%
  • 相比SAMed-2(81.44%)提升2.40%
  • HD95从SAMed-2的6.12mm降至5.56mm

消融实验

系统性消融研究验证各组件贡献:

  1. MSMA:提供0.65%和0.81%的Dice提升
  2. MCP-Encoder:额外贡献0.87%和1.07%提升
  3. MF-Decoder:进一步增强1.08%和1.33%
  4. 双记忆范式:最显著贡献,平均提升1.73%和2.08%

记忆容量分析

模态记忆容量:从k=0增加到k=3显示持续性能改善,k=3达到最佳结果,平均Dice提升5.13%和3.98%

切片记忆容量:从n=0到n=16显示显著改善,n=8提供准确性和效率的最佳平衡

模态序列鲁棒性

t检验分析显示不同模态输入序列间无显著差异(P值>0.05),证明MSM-Seg对模态序列变化具有显著鲁棒性。

相关工作

多模态脑肿瘤分割

早期研究采用U形编码器-解码器框架与3D CNN。近期方法整合3D CNN与视觉Transformer捕获局部空间模式和全局上下文信息。当前研究探索用视觉Mamba和RWKV替代ViT以线性计算复杂度建模长距离依赖。

基于记忆的提示分割

记忆机制广泛应用于视频目标分割任务。SAM2引入复杂记忆库和记忆注意力机制增强体积扫描中序列切片间的预测一致性。后续工作如ReSurgSAM2、Medical SAM2等优化记忆库存储和相似性度量。

结论与讨论

主要结论

MSM-Seg通过双记忆分割范式有效整合跨模态和切片间信息,结合类别无关提示设计,在多模态脑肿瘤分割任务上取得显著性能提升,为临床应用提供了高效实用的解决方案。

局限性

  1. 计算开销:双记忆机制增加了推理延迟,从3.86s增至4.17s
  2. 记忆容量限制:更大记忆容量的边际收益递减
  3. 数据集规模:仅在两个BraTS数据集上验证,需要更广泛的数据集验证

未来方向

  1. 探索更高效的记忆机制减少计算开销
  2. 扩展到其他医学图像分割任务
  3. 研究自适应记忆容量选择策略

深度评价

优点

  1. 技术创新性强:双记忆范式和类别无关提示设计具有显著创新性
  2. 实验充分:全面的消融实验和对比实验验证方法有效性
  3. 实用价值高:减少标注负担,提高临床适用性
  4. 性能提升显著:在多个指标上超越现有最先进方法

不足

  1. 计算复杂度分析不够深入:缺乏详细的时间和空间复杂度分析
  2. 跨数据集泛化验证不足:仅在BraTS系列数据集验证
  3. 失败案例分析缺失:未提供方法失效的具体案例分析

影响力

该工作为多模态医学图像分割提供了新的技术范式,双记忆机制和类别无关提示设计具有广泛的应用潜力,预期对医学图像分析领域产生重要影响。

适用场景

  1. 临床脑肿瘤诊断:减少医生标注工作量
  2. 多模态医学图像分割:可扩展到其他器官和疾病
  3. 计算机辅助诊断系统:提供高精度分割基础

参考文献

论文引用了45篇相关文献,涵盖多模态分割、视觉Transformer、SAM系列方法等关键领域的重要工作,为本研究提供了坚实的理论基础。