Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
論文ID : 2510.10679タイトル : MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation著者 : Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan分類 : cs.CV(コンピュータビジョン)掲載誌 : IEEE Transactions on Medical Imaging論文リンク : https://arxiv.org/abs/2510.10679 コードリンク : https://github.com/xq141839/MSM-Seg マルチモーダル脳腫瘍セグメンテーションは臨床診断に極めて重要であり、異なる内部解剖学的部分領域の正確な識別が必要である。最近のプロンプトベースのセグメンテーション手法は臨床医に対話的な体験を提供しているが、既存の方法はモダリティ間の相関性を無視し、労働集約的なカテゴリ特異的プロンプトに依存しており、実際の場面での適用性を制限している。これらの問題に対処するため、本論文ではマルチモーダル脳腫瘍セグメンテーション用のMSM-Segフレームワークを提案する。MSM-Segは新規な双メモリセグメンテーション範式を導入し、マルチモーダル情報とスライス間情報を協調的に統合し、効率的なカテゴリ非依存プロンプティングと組み合わせて脳腫瘍理解を実現する。
マルチモーダル脳腫瘍セグメンテーションの複雑性 :造影増強コア、壊死領域、腫瘍周囲浮腫を含む異質性腫瘍成分を同時に識別する必要があり、各々が腫瘍グレーディングと治療決定のための異なる臨床バイオマーカーを提供する。既存手法の限界 :古典的な3Dマルチモーダルセグメンテーションフレームワークは体積処理に固有の計算非効率性に制限されている 隣接スライス間の自然な時系列関係を無視している SAM2などの手法はプロンプトとしてカテゴリ特異的な注釈に依存し、労働集約的な手動注釈が必要である 既存手法は通常、異なるMRIモダリティを独立して処理するか、単純な事前接続を通じて処理し、モダリティ間の豊富な相補情報を十分に活用していない 異なるMRIモダリティは強い相補関係を有する:FLAIR配列は腫瘍周囲浮腫と高信号病変の表示に優れており、一方T1c配列は活動的腫瘍領域と血液脳関門破壊の造影増強可視化を提供する。この相補関係は、モダリティ間の関係と空間連続性を効果的に捉えることができる統一フレームワークの開発の必要性を促す。
双メモリセグメンテーション範式の提案 :入力スキャンにおけるモダリティ間およびスライス間の関係を利用し、腫瘍部分領域の包括的理解を実現モダリティ・スライスメモリ注意機構(MSMA)の設計 :モダリティ間およびスライス間の関係を効率的に利用し、マルチモーダル特徴表現を強化マルチスケールカテゴリ非依存プロンプト符号化器(MCP-Encoder)の開発 :腫瘍領域ガイダンスを提供し、モダリティ適応融合デコーダ(MF-Decoder)を設計グリオーマおよび転移腫瘍データセット上での顕著な性能向上 :既存の最先端セグメンテーション手法を超越マルチモーダルMRIスキャン{X_{t,m}}が与えられ、ここでt ∈ {1,...,T}はスライスインデックス、m ∈ {1,...,M}はモダリティインデックスを表す。目標は正確な脳腫瘍セグメンテーションマスクを生成し、増強腫瘍(ET)、腫瘍コア(TC)、全腫瘍(WT)の3つの階層的領域を識別することである。
核心的な考え方は段階的メモリ統合を確立し、腫瘍全体構造に対する理解を段階的に改善することである。入力スライスX_{t,m}が与えられた場合、モデルは潜在状態S_{t,m} ∈ R^{C×H×W}を維持し、更新規則は以下の通りである:
{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})
ここで:
R(·)は状態更新関数 P(·)はセグメンテーション予測ヘッド S_{t,≺m}は現在のスライスtより前のモダリティのモダリティ間コンテキストを表す S_{≺t}は前のスライスのスライス間コンテキストを表す θ_{t,m}は効率的なカテゴリ非依存プロンプト 画像埋め込みFをチャネル次元に沿って均等に分割:
[F_slice, F_modal] = Split(F)
自己注意を通じて埋め込みを更新:
Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))
交差注意を適用してメモリ情報を統合:
Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})
2つのモードをサポート:
カテゴリ非依存プロンプトモード :腫瘍領域全体をカバーする単一バウンディングボックスのみが必要自動モード :手動注釈が不要で、腫瘍領域ガイダンスを自動生成マルチスケール融合プロセス:
F^fusion_i = {
Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
Concat(F^fusion_{i-1}, F_i), otherwise
}
最終腫瘍領域ガイダンス:
各モダリティmのスライスtについて、メモリ強化埋め込みZ_{t,m}と対応する腫瘍ガイダンスP_{t,m}を受け取る。要素ごとの加算を通じてプロンプト埋め込みを融合:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
モダリティ特異的予測を生成:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
最終セグメンテーションマスクは適応加重戦略を通じて取得:
Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}
双メモリ機構 :モダリティ間およびスライス間の関係を同時にモデル化する初の試み、モダリティとスライス間の隔離を打破カテゴリ非依存プロンプト :労働集約的なカテゴリ特異的注釈から脱却し、臨床適用性を向上モダリティ適応融合 :各ボクセルの最も情報量の多いモダリティを動的に選択メモリ強化注意機構 :長距離依存関係とコンテキスト情報を効果的に捉えるBraTS-METS :脳転移腫瘍セグメンテーションデータセット、652例のマルチコントラストMRI検査を含み、T1、T1c、T2、FLAIR 4つのモダリティをカバー
BraTS-AGPT :成人治療後グリオーマセグメンテーションデータセット、1,349例を含み、治療介入後の残存または再発グリオーマのセグメンテーションに焦点
Dice類似係数 :セグメンテーション品質を測定、値が高いほど性能が良い95%ハウスドルフ距離(HD95) :境界描写精度を評価、値が低いほど境界がより正確3つの階層的腫瘍領域を評価:
増強腫瘍(ET) :増強腫瘍領域腫瘍コア(TC) :ETと周囲の非増強FLAIR高信号の結合全腫瘍(WT) :TCと非増強腫瘍コアの結合従来の手法(TransBTS、EoFormer、3D-TransUNet、UNETR++、nnUnet-V2、SegMamba-V2)とプロンプトベース手法(SAM、MA-SAM、SAM2、MedSAM-2、SAM2-Adapter、SAMed-2)を含む
ハードウェア:NVIDIA A6000 GPU オプティマイザ:AdamW(β1=0.9, β2=0.999) 学習率:1×10^-4、重み減衰0.01 バッチサイズ:16、訓練エポック:300 画像サイズ:256×256 モダリティメモリバッファk=3、スライスメモリバッファn=7 BraTS-METSデータセット :
MSM-Segは平均Dice スコア79.51%を達成し、最良の従来手法SegMamba-V2(73.92%)を5.59%上回る 最良のプロンプト手法SAMed-2(77.47%)と比較して2.04%向上 HD95はSAMed-2の14.27mmから13.75mmに低下 BraTS-AGPTデータセット :
MSM-Segは平均Dice スコア83.84%を達成し、SegMamba-V2(76.49%)を7.35%上回る SAMed-2(81.44%)と比較して2.40%向上 HD95はSAMed-2の6.12mmから5.56mmに低下 各成分の貢献を検証する体系的なアブレーション研究:
MSMA :Dice スコア0.65%および0.81%の向上を提供MCP-Encoder :さらに0.87%および1.07%の向上に貢献MF-Decoder :さらに1.08%および1.33%を強化双メモリ範式 :最も顕著な貢献、平均1.73%および2.08%の向上モダリティメモリ容量 :k=0からk=3への増加は継続的な性能改善を示し、k=3で最良の結果を達成、平均Dice スコア5.13%および3.98%の向上
スライスメモリ容量 :n=0からn=16への増加は顕著な改善を示し、n=8は精度と効率の最良のバランスを提供
t検定分析は異なるモダリティ入力順序間に有意差がないことを示し(P値>0.05)、MSM-Segがモダリティ順序変化に対して顕著なロバスト性を有することを証明する。
初期研究は3D CNNを用いたU字形エンコーダ・デコーダフレームワークを採用した。最近の手法は3D CNNとビジョンTransformerを統合し、局所空間パターンと全体的コンテキスト情報を捉える。現在の研究は線形計算複雑度で長距離依存関係をモデル化するため、ビジョンMambaとRWKVでViTを置き換えることを探索している。
メモリ機構は動画オブジェクトセグメンテーションタスクに広く応用されている。SAM2は複雑なメモリバッファとメモリ注意機構を導入し、体積スキャン内の連続スライス間の予測一貫性を強化する。ReSurgSAM2、Medical SAM2などの後続研究はメモリバッファストレージと類似度測定を最適化する。
MSM-Segは双メモリセグメンテーション範式を通じてモダリティ間およびスライス間情報を効果的に統合し、カテゴリ非依存プロンプト設計と組み合わせて、マルチモーダル脳腫瘍セグメンテーションタスクで顕著な性能向上を達成し、臨床応用のための効率的で実用的なソリューションを提供する。
計算オーバーヘッド :双メモリ機構は推論遅延を3.86秒から4.17秒に増加させるメモリ容量制限 :より大きなメモリ容量の限界効用は逓減するデータセット規模 :2つのBraTS データセットのみで検証され、より広範なデータセット検証が必要計算オーバーヘッドを削減するためのより効率的なメモリ機構の探索 他の医学画像セグメンテーションタスクへの拡張 適応的メモリ容量選択戦略の研究 技術革新性が強い :双メモリ範式とカテゴリ非依存プロンプト設計は顕著な革新性を有する実験が充分 :包括的なアブレーション実験と比較実験が手法の有効性を検証実用価値が高い :注釈負担を削減し、臨床適用性を向上性能向上が顕著 :複数の指標で既存の最先端手法を超越計算複雑度分析が不十分 :詳細な時間および空間複雑度分析が欠落クロスデータセット汎化検証が不足 :BraTS系列データセットのみで検証失敗事例分析が欠落 :手法が失効する具体的な事例分析がない本研究はマルチモーダル医学画像セグメンテーションに新しい技術範式を提供し、双メモリ機構とカテゴリ非依存プロンプト設計は広範な応用可能性を有し、医学画像解析分野に重要な影響を与えることが予想される。
臨床脳腫瘍診断 :医師の注釈作業量を削減マルチモーダル医学画像セグメンテーション :他の臓器および疾患に拡張可能コンピュータ支援診断システム :高精度セグメンテーションの基礎を提供論文は45篇の関連文献を引用し、マルチモーダルセグメンテーション、ビジョンTransformer、SAM系列手法など主要分野の重要な研究をカバーし、本研究に堅実な理論的基礎を提供する。