MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: 범주 무관 프롬프팅을 활용한 모달리티-슬라이스 메모리 프레임워크 기반 다중모달 뇌종양 분할
다중모달 뇌종양 분할은 임상 진단에 필수적이며, 서로 다른 내부 해부학적 부분 영역을 정확히 식별해야 한다. 최근 프롬프트 기반 분할 패러다임은 임상의에게 상호작용적 경험을 제공하지만, 기존 방법들은 모달리티 간 상관관계를 무시하고 노동 집약적인 범주 특정 프롬프트에 의존하여 실제 임상 환경에서의 적용성을 제한한다. 이러한 문제를 해결하기 위해 본 논문은 다중모달 뇌종양 분할을 위한 MSM-Seg 프레임워크를 제안한다. MSM-Seg은 새로운 이중 메모리 분할 패러다임을 도입하여 다중모달 및 슬라이스 간 정보를 효율적인 범주 무관 프롬프팅과 협력적으로 통합하여 뇌종양 이해를 수행한다.
서로 다른 MRI 모달리티는 강한 상호보완 관계를 가진다: FLAIR 수열은 종양 주변 부종 및 고신호 병변 표시에 탁월하며, T1c 수열은 활성 종양 영역 및 혈액뇌장벽 파괴의 조영 증강 시각화를 제공한다. 이러한 상호보완 관계는 모달리티 간 관계와 공간 연속성을 효과적으로 포착할 수 있는 통합 프레임워크 개발의 필요성을 촉발했다.
다중모달 MRI 스캔 {X_{t,m}}이 주어졌을 때, 여기서 t ∈ {1,...,T}는 슬라이스 인덱스, m ∈ {1,...,M}은 모달리티 인덱스를 나타내며, 목표는 정확한 뇌종양 분할 마스크를 생성하여 증강 종양(ET), 종양 핵심(TC), 전체 종양(WT)의 세 가지 계층적 영역을 식별하는 것이다.
초기 연구는 3D CNN과 함께 U자형 인코더-디코더 프레임워크를 채택했다. 최근 방법은 3D CNN과 비전 Transformer를 통합하여 국소 공간 패턴과 전역 컨텍스트 정보를 포착한다. 현재 연구는 선형 계산 복잡도로 장거리 의존성을 모델링하기 위해 비전 Mamba 및 RWKV로 ViT를 대체하는 것을 탐색한다.
메모리 메커니즘은 비디오 객체 분할 작업에 광범위하게 적용된다. SAM2는 복잡한 메모리 저장소 및 메모리 주의 메커니즘을 도입하여 체적 스캔의 순차 슬라이스 간 예측 일관성을 강화한다. ReSurgSAM2, Medical SAM2 등의 후속 작업은 메모리 저장소 저장 및 유사도 측정을 최적화한다.