MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: Un Framework di Memoria Modale e di Fetta con Prompting Agnostico di Categoria per la Segmentazione Multi-Modale di Tumori Cerebrali
La segmentazione multi-modale di tumori cerebrali è cruciale per la diagnosi clinica, richiedendo l'identificazione accurata di diverse sottoaree anatomiche interne. Sebbene i recenti paradigmi di segmentazione basati su prompt forniscano un'esperienza interattiva ai clinici, i metodi esistenti trascurano le correlazioni cross-modali, dipendono da prompt specifici di categoria laboriosi, limitando l'applicabilità in scenari reali. Per affrontare questi problemi, il presente articolo propone il framework MSM-Seg per la segmentazione multi-modale di tumori cerebrali. MSM-Seg introduce un innovativo paradigma di segmentazione a doppia memoria che integra sinergicamente informazioni cross-modali e inter-fetta con prompt efficienti e agnostici di categoria per la comprensione dei tumori cerebrali.
Complessità della segmentazione multi-modale di tumori cerebrali: Richiede l'identificazione simultanea di componenti tumorali eterogenei, incluso il nucleo con contrasto aumentato, le aree necrotiche e l'edema peritumoral, ognuno fornendo diversi biomarcatori clinici per la classificazione tumorale e le decisioni terapeutiche.
Limitazioni dei metodi esistenti:
I framework classici di segmentazione 3D multi-modale sono limitati dall'inefficienza computazionale intrinseca dell'elaborazione volumetrica
Trascurano la relazione sequenziale naturale tra fette adiacenti
Metodi come SAM2 dipendono da annotazioni specifiche di categoria come prompt, richiedendo annotazioni manuali laboriose
I metodi esistenti elaborano tipicamente diverse modalità MRI indipendentemente o attraverso connessioni semplici precedenti, non sfruttando pienamente le ricche informazioni complementari inter-modali
Diverse modalità MRI presentano forti relazioni complementari: la sequenza FLAIR eccelle nella visualizzazione dell'edema peritumoral e delle lesioni ad alto segnale, mentre la sequenza T1c fornisce la visualizzazione con contrasto aumentato delle aree tumorali attive e della rottura della barriera emato-encefalica. Questa relazione complementare ha ispirato lo sviluppo di un framework unificato che possa catturare efficacemente le relazioni cross-modali e la continuità spaziale.
Propone un paradigma di segmentazione a doppia memoria: Sfrutta le relazioni cross-modali e inter-fetta nella scansione di input, realizzando una comprensione completa delle sottoaree tumorali
Progetta il meccanismo di attenzione della memoria modale e di fetta (MSMA): Utilizza efficientemente le relazioni cross-modali e inter-fetta, migliorando la rappresentazione delle caratteristiche multi-modali
Sviluppa l'encoder di prompt multi-scala agnostico di categoria (MCP-Encoder): Fornisce guida della regione tumorale e progetta il decoder di fusione adattivo modale (MF-Decoder)
Raggiunge miglioramenti significativi delle prestazioni su dataset di gliomi e metastasi: Supera i metodi di segmentazione all'avanguardia esistenti
Data una scansione MRI multi-modale {X_{t,m}}, dove t ∈ {1,...,T} rappresenta l'indice di fetta, m ∈ {1,...,M} rappresenta l'indice di modalità, l'obiettivo è generare una maschera di segmentazione accurata del tumore cerebrale, identificando tre aree gerarchiche: tumore aumentato (ET), nucleo tumorale (TC) e tumore completo (WT).
L'idea fondamentale è stabilire un'integrazione progressiva della memoria, raffinando gradualmente la comprensione dell'intera struttura tumorale. Data la fetta di input X_{t,m}, il modello mantiene uno stato latente S_{t,m} ∈ R^{C×H×W}, con regola di aggiornamento:
Per ogni modalità m nella fetta t, riceve l'embedding aumentato di memoria Z_{t,m} e la corrispondente guida tumorale P_{t,m}. Fonde l'embedding del prompt attraverso addizione a livello di elemento:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
Genera predizioni specifiche di modalità:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
La maschera di segmentazione finale è ottenuta attraverso una strategia di ponderazione adattiva:
Meccanismo a doppia memoria: Modella simultaneamente per la prima volta le relazioni cross-modali e inter-fetta, rompendo l'isolamento tra modalità e fette
Prompt agnostico di categoria: Elimina la necessità di annotazioni specifiche di categoria laboriose, migliorando l'applicabilità clinica
Fusione adattiva modale: Seleziona dinamicamente la modalità più informativa per ogni voxel
Attenzione aumentata di memoria: Cattura efficacemente dipendenze a lunga distanza e informazioni di contesto
BraTS-METS: Dataset di segmentazione di metastasi cerebrali, contenente 652 esami MRI multi-contrasto, che coprono quattro modalità: T1, T1c, T2, FLAIR
BraTS-AGPT: Dataset di segmentazione di gliomi adulti post-trattamento, contenente 1.349 casi, focalizzato sulla segmentazione di gliomi residui o ricorrenti dopo interventi terapeutici
Capacità di memoria modale: L'aumento da k=0 a k=3 mostra miglioramenti continui delle prestazioni, k=3 raggiunge i risultati migliori, con miglioramento Dice medio del 5,13% e 3,98%
Capacità di memoria di fetta: L'aumento da n=0 a n=16 mostra miglioramenti significativi, n=8 fornisce il miglior equilibrio tra accuratezza ed efficienza
L'analisi del test t mostra nessuna differenza significativa tra diverse sequenze di input modale (valore P > 0,05), provando la robustezza significativa di MSM-Seg alle variazioni di sequenza modale.
La ricerca iniziale ha adottato framework di codificatore-decodificatore a forma di U con CNN 3D. I metodi recenti integrano CNN 3D con Transformer visivi per catturare modelli spaziali locali e informazioni di contesto globale. La ricerca attuale esplora l'uso di Mamba visivi e RWKV per sostituire ViT al fine di modellare dipendenze a lunga distanza con complessità computazionale lineare.
I meccanismi di memoria sono ampiamente applicati nei compiti di segmentazione di oggetti video. SAM2 introduce magazzini di memoria complessi e meccanismi di attenzione di memoria per migliorare la coerenza di predizione tra fette sequenziali nelle scansioni volumetriche. I lavori successivi come ReSurgSAM2, Medical SAM2 e altri ottimizzano l'archiviazione del magazzino di memoria e le misure di similarità.
MSM-Seg integra efficacemente le informazioni cross-modali e inter-fetta attraverso un paradigma di segmentazione a doppia memoria, combinato con un design di prompt agnostico di categoria, raggiungendo miglioramenti significativi delle prestazioni nel compito di segmentazione multi-modale di tumori cerebrali, fornendo una soluzione efficace e pratica per l'applicazione clinica.
Questo lavoro fornisce un nuovo paradigma tecnico per la segmentazione di immagini mediche multi-modali, il meccanismo a doppia memoria e il design di prompt agnostico di categoria hanno ampio potenziale di applicazione, prevedibilmente avranno un impatto significativo nel campo dell'analisi di immagini mediche.
L'articolo cita 45 riferimenti correlati, coprendo lavori importanti nei campi chiave della segmentazione multi-modale, Transformer visivi, metodi della serie SAM e altri, fornendo una base teorica solida per questa ricerca.