2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic

MSM-Seg: 범주 무관 프롬프팅을 활용한 모달리티-슬라이스 메모리 프레임워크 기반 다중모달 뇌종양 분할

기본 정보

  • 논문 ID: 2510.10679
  • 제목: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
  • 저자: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
  • 분류: cs.CV (컴퓨터 비전)
  • 게재 저널: IEEE Transactions on Medical Imaging
  • 논문 링크: https://arxiv.org/abs/2510.10679
  • 코드 링크: https://github.com/xq141839/MSM-Seg

초록

다중모달 뇌종양 분할은 임상 진단에 필수적이며, 서로 다른 내부 해부학적 부분 영역을 정확히 식별해야 한다. 최근 프롬프트 기반 분할 패러다임은 임상의에게 상호작용적 경험을 제공하지만, 기존 방법들은 모달리티 간 상관관계를 무시하고 노동 집약적인 범주 특정 프롬프트에 의존하여 실제 임상 환경에서의 적용성을 제한한다. 이러한 문제를 해결하기 위해 본 논문은 다중모달 뇌종양 분할을 위한 MSM-Seg 프레임워크를 제안한다. MSM-Seg은 새로운 이중 메모리 분할 패러다임을 도입하여 다중모달 및 슬라이스 간 정보를 효율적인 범주 무관 프롬프팅과 협력적으로 통합하여 뇌종양 이해를 수행한다.

연구 배경 및 동기

핵심 문제

  1. 다중모달 뇌종양 분할의 복잡성: 조영 증강 핵심, 괴사 영역, 종양 주변 부종을 포함한 이질적 종양 성분을 동시에 식별해야 하며, 각각은 종양 등급 결정 및 치료 계획 수립을 위한 서로 다른 임상 생물표지자를 제공한다.
  2. 기존 방법의 한계:
    • 고전적 3D 다중모달 분할 프레임워크는 체적 처리의 고유한 계산 비효율성으로 제한됨
    • 인접 슬라이스 간의 자연스러운 순차 관계 무시
    • SAM2 등의 방법은 범주 특정 주석을 프롬프트로 사용하여 노동 집약적인 수동 주석 필요
    • 기존 방법은 일반적으로 서로 다른 MRI 모달리티를 독립적으로 처리하거나 단순한 사전 연결을 통해 모달리티 간의 풍부한 상호보완 정보를 충분히 활용하지 못함

연구 동기

서로 다른 MRI 모달리티는 강한 상호보완 관계를 가진다: FLAIR 수열은 종양 주변 부종 및 고신호 병변 표시에 탁월하며, T1c 수열은 활성 종양 영역 및 혈액뇌장벽 파괴의 조영 증강 시각화를 제공한다. 이러한 상호보완 관계는 모달리티 간 관계와 공간 연속성을 효과적으로 포착할 수 있는 통합 프레임워크 개발의 필요성을 촉발했다.

핵심 기여

  1. 이중 메모리 분할 패러다임 제안: 입력 스캔의 모달리티 간 및 슬라이스 간 관계를 활용하여 종양 부분 영역의 포괄적 이해 달성
  2. 모달리티 및 슬라이스 메모리 주의 메커니즘(MSMA) 설계: 모달리티 간 및 슬라이스 간 관계를 효율적으로 활용하여 다중모달 특징 표현 강화
  3. 다중 스케일 범주 무관 프롬프트 인코더(MCP-Encoder) 개발: 종양 영역 지도를 제공하고 모달리티 자적응 융합 디코더(MF-Decoder) 설계
  4. 교모세포종 및 전이종양 데이터셋에서 현저한 성능 향상 달성: 기존 최첨단 분할 방법 초과

방법 상세 설명

작업 정의

다중모달 MRI 스캔 {X_{t,m}}이 주어졌을 때, 여기서 t ∈ {1,...,T}는 슬라이스 인덱스, m ∈ {1,...,M}은 모달리티 인덱스를 나타내며, 목표는 정확한 뇌종양 분할 마스크를 생성하여 증강 종양(ET), 종양 핵심(TC), 전체 종양(WT)의 세 가지 계층적 영역을 식별하는 것이다.

모델 아키텍처

1. 이중 메모리 분할 패러다임

핵심 개념은 점진적 메모리 통합을 구축하여 전체 종양 구조에 대한 이해를 순차적으로 개선하는 것이다. 입력 슬라이스 X_{t,m}이 주어졌을 때, 모델은 잠재 상태 S_{t,m} ∈ R^{C×H×W}를 유지하며, 업데이트 규칙은 다음과 같다:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

여기서:

  • R(·)은 상태 업데이트 함수
  • P(·)은 분할 예측 헤드
  • S_{t,≺m}은 현재 슬라이스 t의 이전 모달리티의 모달리티 간 컨텍스트
  • S_{≺t}는 이전 슬라이스의 슬라이스 간 컨텍스트
  • θ_{t,m}은 효율적인 범주 무관 프롬프트

2. 모달리티 및 슬라이스 메모리 주의(MSMA)

이미지 임베딩 F를 채널 차원을 따라 균등하게 분할:

[F_slice, F_modal] = Split(F)

자기 주의를 통해 임베딩 업데이트:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

교차 주의를 적용하여 메모리 저장소 정보 통합:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. 다중 스케일 범주 무관 프롬프트 인코더(MCP-Encoder)

두 가지 모드 지원:

  • 범주 무관 프롬프트 모드: 전체 종양 영역을 덮는 단일 경계 상자만 필요
  • 자동 모드: 수동 주석 불필요, 자동으로 종양 영역 지도 생성

다중 스케일 융합 프로세스:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

최종 종양 영역 지도:

P = DS(σ(φ(F^fusion_l)))

4. 모달리티 자적응 융합 디코더(MF-Decoder)

각 모달리티 m의 슬라이스 t에 대해, 메모리 강화 임베딩 Z_{t,m}과 대응하는 종양 지도 P_{t,m}을 수신한다. 요소별 덧셈을 통해 프롬프트 임베딩 융합:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

모달리티 특정 예측 생성:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

최종 분할 마스크는 자적응 가중 전략을 통해 획득:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

기술 혁신점

  1. 이중 메모리 메커니즘: 모달리티 간 및 슬라이스 간 관계를 동시에 모델링하여 모달리티와 슬라이스 간의 격리 타파
  2. 범주 무관 프롬프팅: 노동 집약적인 범주 특정 주석 제거, 임상 적용성 향상
  3. 모달리티 자적응 융합: 각 복셀에 대해 가장 정보량이 많은 모달리티를 동적으로 선택
  4. 메모리 강화 주의: 장거리 의존성 및 컨텍스트 정보 효과적 포착

실험 설정

데이터셋

BraTS-METS: 뇌 전이종양 분할 데이터셋, T1, T1c, T2, FLAIR 네 가지 모달리티를 포함한 652개의 다중 대조 MRI 검사 포함

BraTS-AGPT: 성인 치료 후 교모세포종 분할 데이터셋, 1,349개 사례 포함, 치료 중재 후 잔존 또는 재발 교모세포종의 분할에 초점

평가 지표

  • Dice 유사도 계수: 분할 품질 측정, 값이 높을수록 성능이 우수함
  • 95% Hausdorff 거리(HD95): 경계 묘사 정확도 평가, 값이 낮을수록 경계가 더 정확함

세 가지 계층적 종양 영역 평가:

  • 증강 종양(ET): 증강 종양 영역
  • 종양 핵심(TC): ET와 주변 비증강 FLAIR 고신호의 합집합
  • 전체 종양(WT): TC와 비증강 종양 핵심의 합집합

비교 방법

전통적 방법(TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2)과 프롬프트 기반 방법(SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2) 포함

구현 세부사항

  • 하드웨어: NVIDIA A6000 GPU
  • 최적화기: AdamW (β1=0.9, β2=0.999)
  • 학습률: 1×10^-4, 가중치 감쇠 0.01
  • 배치 크기: 16, 훈련 에포크: 300
  • 이미지 크기: 256×256
  • 모달리티 메모리 저장소 k=3, 슬라이스 메모리 저장소 n=7

실험 결과

주요 결과

BraTS-METS 데이터셋:

  • MSM-Seg은 평균 79.51% Dice 점수 달성, 최고 성능 전통 방법 SegMamba-V2(73.92%)를 5.59% 초과
  • 최고 성능 프롬프트 방법 SAMed-2(77.47%)와 비교 2.04% 향상
  • HD95가 SAMed-2의 14.27mm에서 13.75mm로 감소

BraTS-AGPT 데이터셋:

  • MSM-Seg은 평균 83.84% Dice 점수 달성, SegMamba-V2(76.49%)를 7.35% 초과
  • SAMed-2(81.44%)와 비교 2.40% 향상
  • HD95가 SAMed-2의 6.12mm에서 5.56mm로 감소

제거 실험

각 구성 요소의 기여도를 검증하는 체계적 제거 연구:

  1. MSMA: 0.65% 및 0.81%의 Dice 향상 제공
  2. MCP-Encoder: 추가 0.87% 및 1.07% 향상 기여
  3. MF-Decoder: 추가 1.08% 및 1.33% 강화
  4. 이중 메모리 패러다임: 가장 현저한 기여, 평균 1.73% 및 2.08% 향상

메모리 용량 분석

모달리티 메모리 용량: k=0에서 k=3으로 증가하면서 지속적인 성능 개선 표시, k=3에서 최고 결과 달성, 평균 Dice 5.13% 및 3.98% 향상

슬라이스 메모리 용량: n=0에서 n=16으로 증가하면서 현저한 개선 표시, n=8에서 정확도와 효율성의 최적 균형 제공

모달리티 순서 견고성

t 검정 분석은 서로 다른 모달리티 입력 순서 간 유의미한 차이 없음을 보여줌(P값 > 0.05), MSM-Seg이 모달리티 순서 변화에 대해 현저한 견고성을 가짐을 증명한다.

관련 연구

다중모달 뇌종양 분할

초기 연구는 3D CNN과 함께 U자형 인코더-디코더 프레임워크를 채택했다. 최근 방법은 3D CNN과 비전 Transformer를 통합하여 국소 공간 패턴과 전역 컨텍스트 정보를 포착한다. 현재 연구는 선형 계산 복잡도로 장거리 의존성을 모델링하기 위해 비전 Mamba 및 RWKV로 ViT를 대체하는 것을 탐색한다.

메모리 기반 프롬프트 분할

메모리 메커니즘은 비디오 객체 분할 작업에 광범위하게 적용된다. SAM2는 복잡한 메모리 저장소 및 메모리 주의 메커니즘을 도입하여 체적 스캔의 순차 슬라이스 간 예측 일관성을 강화한다. ReSurgSAM2, Medical SAM2 등의 후속 작업은 메모리 저장소 저장 및 유사도 측정을 최적화한다.

결론 및 논의

주요 결론

MSM-Seg은 이중 메모리 분할 패러다임을 통해 모달리티 간 및 슬라이스 간 정보를 효과적으로 통합하고, 범주 무관 프롬프팅 설계와 결합하여 다중모달 뇌종양 분할 작업에서 현저한 성능 향상을 달성하며, 임상 응용을 위한 효율적이고 실용적인 솔루션을 제공한다.

한계

  1. 계산 오버헤드: 이중 메모리 메커니즘은 추론 지연을 3.86초에서 4.17초로 증가시킴
  2. 메모리 용량 제한: 더 큰 메모리 용량의 한계 수익 감소
  3. 데이터셋 규모: 두 개의 BraTS 데이터셋에서만 검증, 더 광범위한 데이터셋 검증 필요

향후 방향

  1. 계산 오버헤드 감소를 위한 더 효율적인 메모리 메커니즘 탐색
  2. 다른 의료 영상 분할 작업으로 확장
  3. 자적응 메모리 용량 선택 전략 연구

심층 평가

장점

  1. 기술 혁신성 강함: 이중 메모리 패러다임과 범주 무관 프롬프팅 설계의 현저한 혁신성
  2. 실험 충분함: 포괄적인 제거 실험 및 비교 실험이 방법의 유효성 검증
  3. 실용 가치 높음: 주석 부담 감소, 임상 적용성 향상
  4. 성능 향상 현저함: 여러 지표에서 기존 최첨단 방법 초과

부족점

  1. 계산 복잡도 분석 부족: 상세한 시간 및 공간 복잡도 분석 부재
  2. 교차 데이터셋 일반화 검증 부족: BraTS 시리즈 데이터셋에서만 검증
  3. 실패 사례 분석 부재: 방법 실패의 구체적 사례 분석 미제공

영향력

본 연구는 다중모달 의료 영상 분할을 위한 새로운 기술 패러다임을 제공하며, 이중 메모리 메커니즘과 범주 무관 프롬프팅 설계는 광범위한 응용 잠재력을 가지고 있으며, 의료 영상 분석 분야에 중요한 영향을 미칠 것으로 예상된다.

적용 시나리오

  1. 임상 뇌종양 진단: 의사 주석 작업량 감소
  2. 다중모달 의료 영상 분할: 다른 장기 및 질병으로 확장 가능
  3. 컴퓨터 보조 진단 시스템: 고정확도 분할 기초 제공

참고 문헌

논문은 다중모달 분할, 비전 Transformer, SAM 시리즈 방법 등 핵심 분야의 중요 연구를 포함한 45편의 관련 문헌을 인용하여 본 연구에 견고한 이론적 기초를 제공한다.