2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic

MSM-Seg: Un Framework di Memoria Modale e di Fetta con Prompting Agnostico di Categoria per la Segmentazione Multi-Modale di Tumori Cerebrali

Informazioni Fondamentali

  • ID Articolo: 2510.10679
  • Titolo: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
  • Autori: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
  • Classificazione: cs.CV (Visione Artificiale)
  • Rivista di Pubblicazione: IEEE Transactions on Medical Imaging
  • Link Articolo: https://arxiv.org/abs/2510.10679
  • Link Codice: https://github.com/xq141839/MSM-Seg

Riassunto

La segmentazione multi-modale di tumori cerebrali è cruciale per la diagnosi clinica, richiedendo l'identificazione accurata di diverse sottoaree anatomiche interne. Sebbene i recenti paradigmi di segmentazione basati su prompt forniscano un'esperienza interattiva ai clinici, i metodi esistenti trascurano le correlazioni cross-modali, dipendono da prompt specifici di categoria laboriosi, limitando l'applicabilità in scenari reali. Per affrontare questi problemi, il presente articolo propone il framework MSM-Seg per la segmentazione multi-modale di tumori cerebrali. MSM-Seg introduce un innovativo paradigma di segmentazione a doppia memoria che integra sinergicamente informazioni cross-modali e inter-fetta con prompt efficienti e agnostici di categoria per la comprensione dei tumori cerebrali.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Complessità della segmentazione multi-modale di tumori cerebrali: Richiede l'identificazione simultanea di componenti tumorali eterogenei, incluso il nucleo con contrasto aumentato, le aree necrotiche e l'edema peritumoral, ognuno fornendo diversi biomarcatori clinici per la classificazione tumorale e le decisioni terapeutiche.
  2. Limitazioni dei metodi esistenti:
    • I framework classici di segmentazione 3D multi-modale sono limitati dall'inefficienza computazionale intrinseca dell'elaborazione volumetrica
    • Trascurano la relazione sequenziale naturale tra fette adiacenti
    • Metodi come SAM2 dipendono da annotazioni specifiche di categoria come prompt, richiedendo annotazioni manuali laboriose
    • I metodi esistenti elaborano tipicamente diverse modalità MRI indipendentemente o attraverso connessioni semplici precedenti, non sfruttando pienamente le ricche informazioni complementari inter-modali

Motivazione della Ricerca

Diverse modalità MRI presentano forti relazioni complementari: la sequenza FLAIR eccelle nella visualizzazione dell'edema peritumoral e delle lesioni ad alto segnale, mentre la sequenza T1c fornisce la visualizzazione con contrasto aumentato delle aree tumorali attive e della rottura della barriera emato-encefalica. Questa relazione complementare ha ispirato lo sviluppo di un framework unificato che possa catturare efficacemente le relazioni cross-modali e la continuità spaziale.

Contributi Fondamentali

  1. Propone un paradigma di segmentazione a doppia memoria: Sfrutta le relazioni cross-modali e inter-fetta nella scansione di input, realizzando una comprensione completa delle sottoaree tumorali
  2. Progetta il meccanismo di attenzione della memoria modale e di fetta (MSMA): Utilizza efficientemente le relazioni cross-modali e inter-fetta, migliorando la rappresentazione delle caratteristiche multi-modali
  3. Sviluppa l'encoder di prompt multi-scala agnostico di categoria (MCP-Encoder): Fornisce guida della regione tumorale e progetta il decoder di fusione adattivo modale (MF-Decoder)
  4. Raggiunge miglioramenti significativi delle prestazioni su dataset di gliomi e metastasi: Supera i metodi di segmentazione all'avanguardia esistenti

Dettagli del Metodo

Definizione del Compito

Data una scansione MRI multi-modale {X_{t,m}}, dove t ∈ {1,...,T} rappresenta l'indice di fetta, m ∈ {1,...,M} rappresenta l'indice di modalità, l'obiettivo è generare una maschera di segmentazione accurata del tumore cerebrale, identificando tre aree gerarchiche: tumore aumentato (ET), nucleo tumorale (TC) e tumore completo (WT).

Architettura del Modello

1. Paradigma di Segmentazione a Doppia Memoria

L'idea fondamentale è stabilire un'integrazione progressiva della memoria, raffinando gradualmente la comprensione dell'intera struttura tumorale. Data la fetta di input X_{t,m}, il modello mantiene uno stato latente S_{t,m} ∈ R^{C×H×W}, con regola di aggiornamento:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

Dove:

  • R(·) è la funzione di aggiornamento dello stato
  • P(·) è la testa di predizione di segmentazione
  • S_{t,≺m} rappresenta il contesto cross-modale delle modalità precedenti nella fetta corrente t
  • S_{≺t} rappresenta il contesto inter-fetta delle fette precedenti
  • θ_{t,m} è un prompt efficiente e agnostico di categoria

2. Attenzione della Memoria Modale e di Fetta (MSMA)

L'embedding dell'immagine F è diviso uniformemente lungo la dimensione del canale:

[F_slice, F_modal] = Split(F)

L'embedding è aggiornato attraverso auto-attenzione:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

L'attenzione incrociata integra le informazioni del magazzino di memoria:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. Encoder di Prompt Multi-Scala Agnostico di Categoria (MCP-Encoder)

Supporta due modalità:

  • Modalità prompt agnostico di categoria: Richiede solo una singola casella di delimitazione che copra l'intera regione tumorale
  • Modalità automatica: Nessuna annotazione manuale richiesta, genera autonomamente la guida della regione tumorale

Processo di fusione multi-scala:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

Guida della regione tumorale finale:

P = DS(σ(φ(F^fusion_l)))

4. Decoder di Fusione Adattivo Modale (MF-Decoder)

Per ogni modalità m nella fetta t, riceve l'embedding aumentato di memoria Z_{t,m} e la corrispondente guida tumorale P_{t,m}. Fonde l'embedding del prompt attraverso addizione a livello di elemento:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

Genera predizioni specifiche di modalità:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

La maschera di segmentazione finale è ottenuta attraverso una strategia di ponderazione adattiva:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

Punti di Innovazione Tecnica

  1. Meccanismo a doppia memoria: Modella simultaneamente per la prima volta le relazioni cross-modali e inter-fetta, rompendo l'isolamento tra modalità e fette
  2. Prompt agnostico di categoria: Elimina la necessità di annotazioni specifiche di categoria laboriose, migliorando l'applicabilità clinica
  3. Fusione adattiva modale: Seleziona dinamicamente la modalità più informativa per ogni voxel
  4. Attenzione aumentata di memoria: Cattura efficacemente dipendenze a lunga distanza e informazioni di contesto

Configurazione Sperimentale

Dataset

BraTS-METS: Dataset di segmentazione di metastasi cerebrali, contenente 652 esami MRI multi-contrasto, che coprono quattro modalità: T1, T1c, T2, FLAIR

BraTS-AGPT: Dataset di segmentazione di gliomi adulti post-trattamento, contenente 1.349 casi, focalizzato sulla segmentazione di gliomi residui o ricorrenti dopo interventi terapeutici

Metriche di Valutazione

  • Coefficiente di Similarità Dice: Misura la qualità della segmentazione, valori più alti indicano prestazioni migliori
  • Distanza di Hausdorff al 95% (HD95): Valuta l'accuratezza della descrizione del contorno, valori più bassi indicano contorni più accurati

Valutazione di tre aree tumorali gerarchiche:

  • Tumore Aumentato (ET): Regione tumorale aumentata
  • Nucleo Tumorale (TC): Unione di ET e FLAIR ad alto segnale non aumentato circostante
  • Tumore Completo (WT): Unione di TC e nucleo tumorale non aumentato

Metodi di Confronto

Include metodi tradizionali (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) e metodi basati su prompt (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)

Dettagli di Implementazione

  • Hardware: GPU NVIDIA A6000
  • Ottimizzatore: AdamW (β1=0.9, β2=0.999)
  • Tasso di apprendimento: 1×10^-4, decadimento dei pesi 0.01
  • Dimensione batch: 16, epoche di addestramento: 300
  • Dimensione immagine: 256×256
  • Magazzino di memoria modale k=3, magazzino di memoria di fetta n=7

Risultati Sperimentali

Risultati Principali

Dataset BraTS-METS:

  • MSM-Seg raggiunge un punteggio Dice medio del 79,51%, superando il miglior metodo tradizionale SegMamba-V2 (73,92%) del 5,59%
  • Miglioramento del 2,04% rispetto al miglior metodo basato su prompt SAMed-2 (77,47%)
  • HD95 ridotto da 14,27mm di SAMed-2 a 13,75mm

Dataset BraTS-AGPT:

  • MSM-Seg raggiunge un punteggio Dice medio dell'83,84%, superando SegMamba-V2 (76,49%) del 7,35%
  • Miglioramento del 2,40% rispetto a SAMed-2 (81,44%)
  • HD95 ridotto da 6,12mm di SAMed-2 a 5,56mm

Esperimenti di Ablazione

Uno studio sistematico di ablazione verifica il contributo di ogni componente:

  1. MSMA: Fornisce miglioramenti Dice del 0,65% e 0,81%
  2. MCP-Encoder: Contribuisce ulteriormente con miglioramenti del 0,87% e 1,07%
  3. MF-Decoder: Migliora ulteriormente del 1,08% e 1,33%
  4. Paradigma a doppia memoria: Contributo più significativo, miglioramento medio del 1,73% e 2,08%

Analisi della Capacità di Memoria

Capacità di memoria modale: L'aumento da k=0 a k=3 mostra miglioramenti continui delle prestazioni, k=3 raggiunge i risultati migliori, con miglioramento Dice medio del 5,13% e 3,98%

Capacità di memoria di fetta: L'aumento da n=0 a n=16 mostra miglioramenti significativi, n=8 fornisce il miglior equilibrio tra accuratezza ed efficienza

Robustezza della Sequenza Modale

L'analisi del test t mostra nessuna differenza significativa tra diverse sequenze di input modale (valore P > 0,05), provando la robustezza significativa di MSM-Seg alle variazioni di sequenza modale.

Lavori Correlati

Segmentazione Multi-Modale di Tumori Cerebrali

La ricerca iniziale ha adottato framework di codificatore-decodificatore a forma di U con CNN 3D. I metodi recenti integrano CNN 3D con Transformer visivi per catturare modelli spaziali locali e informazioni di contesto globale. La ricerca attuale esplora l'uso di Mamba visivi e RWKV per sostituire ViT al fine di modellare dipendenze a lunga distanza con complessità computazionale lineare.

Segmentazione Basata su Memoria con Prompt

I meccanismi di memoria sono ampiamente applicati nei compiti di segmentazione di oggetti video. SAM2 introduce magazzini di memoria complessi e meccanismi di attenzione di memoria per migliorare la coerenza di predizione tra fette sequenziali nelle scansioni volumetriche. I lavori successivi come ReSurgSAM2, Medical SAM2 e altri ottimizzano l'archiviazione del magazzino di memoria e le misure di similarità.

Conclusioni e Discussione

Conclusioni Principali

MSM-Seg integra efficacemente le informazioni cross-modali e inter-fetta attraverso un paradigma di segmentazione a doppia memoria, combinato con un design di prompt agnostico di categoria, raggiungendo miglioramenti significativi delle prestazioni nel compito di segmentazione multi-modale di tumori cerebrali, fornendo una soluzione efficace e pratica per l'applicazione clinica.

Limitazioni

  1. Overhead computazionale: Il meccanismo a doppia memoria aumenta la latenza di inferenza da 3,86s a 4,17s
  2. Limitazioni della capacità di memoria: Rendimenti marginali decrescenti con capacità di memoria maggiore
  3. Scala del dataset: Validazione solo su due dataset BraTS, richiede validazione su dataset più ampi

Direzioni Future

  1. Esplorare meccanismi di memoria più efficienti per ridurre l'overhead computazionale
  2. Estendere ad altri compiti di segmentazione di immagini mediche
  3. Ricercare strategie di selezione della capacità di memoria adattiva

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione tecnica: Il paradigma a doppia memoria e il design di prompt agnostico di categoria presentano innovazione significativa
  2. Esperimenti completi: Esperimenti di ablazione e confronto completi verificano l'efficacia del metodo
  3. Alto valore pratico: Riduce l'onere di annotazione, migliorando l'applicabilità clinica
  4. Miglioramenti significativi delle prestazioni: Supera i metodi all'avanguardia esistenti su più metriche

Insufficienze

  1. Analisi della complessità computazionale insufficiente: Manca un'analisi dettagliata della complessità temporale e spaziale
  2. Validazione di generalizzazione cross-dataset insufficiente: Validazione solo su dataset della serie BraTS
  3. Mancanza di analisi dei casi di fallimento: Non fornisce analisi di casi specifici di fallimento del metodo

Impatto

Questo lavoro fornisce un nuovo paradigma tecnico per la segmentazione di immagini mediche multi-modali, il meccanismo a doppia memoria e il design di prompt agnostico di categoria hanno ampio potenziale di applicazione, prevedibilmente avranno un impatto significativo nel campo dell'analisi di immagini mediche.

Scenari di Applicazione

  1. Diagnosi clinica di tumori cerebrali: Riduce il carico di lavoro di annotazione dei medici
  2. Segmentazione di immagini mediche multi-modali: Estendibile ad altri organi e malattie
  3. Sistemi di diagnosi assistita da computer: Fornisce la base per segmentazione ad alta precisione

Riferimenti Bibliografici

L'articolo cita 45 riferimenti correlati, coprendo lavori importanti nei campi chiave della segmentazione multi-modale, Transformer visivi, metodi della serie SAM e altri, fornendo una base teorica solida per questa ricerca.