MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: Ein Modalitäts- und Schicht-Speicher-Framework mit kategoriagnostischem Prompting für Multi-modale Hirntumorsegmentierung
Die multi-modale Hirntumorsegmentierung ist für die klinische Diagnose von entscheidender Bedeutung und erfordert die genaue Identifikation verschiedener interner anatomischer Subregionen. Obwohl kürzlich entwickelte Prompt-basierte Segmentierungsparadigmen Klinikern ein interaktives Erlebnis bieten, ignorieren bestehende Methoden die modalitätsübergreifenden Korrelationen und sind auf arbeitsintensive kategoriespezifische Prompts angewiesen, was ihre Anwendbarkeit in realen Szenarien einschränkt. Um diese Probleme zu beheben, wird das MSM-Seg-Framework für die multi-modale Hirntumorsegmentierung vorgeschlagen. MSM-Seg führt ein neuartiges Dual-Memory-Segmentierungsparadigma ein, das multi-modale und schichtübergreifende Informationen mit effizientem kategoriagnostischem Prompting für das Verständnis von Hirntumoren synergistisch integriert.
Komplexität der multi-modalen Hirntumorsegmentierung: Erfordert die gleichzeitige Identifikation heterogener Tumorkomponenten, einschließlich kontrastmittelgestärktem Kern, Nekrosebereichen und peritumöraler Ödembildung, von denen jede unterschiedliche klinische Biomarker für die Tumorgraduierung und Behandlungsentscheidungen liefert.
Einschränkungen bestehender Methoden:
Klassische 3D-Multi-Modal-Segmentierungsrahmen sind durch die inhärente Rechnenineffizienz der Volumenverarbeitung begrenzt
Ignorieren die natürliche Sequenzbeziehung zwischen benachbarten Schichten
Methoden wie SAM2 sind auf kategoriespezifische Annotationen als Prompts angewiesen, die arbeitsintensive manuelle Annotationen erfordern
Bestehende Methoden verarbeiten typischerweise verschiedene MRT-Modalitäten unabhängig oder durch einfache vorherige Verbindungen und nutzen die reichhaltigen komplementären Informationen zwischen Modalitäten nicht vollständig
Verschiedene MRT-Modalitäten weisen starke komplementäre Beziehungen auf: FLAIR-Sequenzen sind hervorragend bei der Darstellung von peritumöraler Ödembildung und hochsignalen Läsionen, während T1c-Sequenzen eine kontrastmittelgestärkte Visualisierung aktiver Tumorbereiche und einer Blut-Hirn-Schranken-Störung bieten. Diese komplementäre Beziehung motiviert die Entwicklung eines einheitlichen Frameworks, das modalitätsübergreifende Beziehungen und räumliche Kontinuität effektiv erfassen kann.
Vorschlag eines Dual-Memory-Segmentierungsparadigmas: Nutzt modalitätsübergreifende und schichtübergreifende Beziehungen in Eingabescans für umfassendes Verständnis von Tumorsubregionen
Entwurf eines Modalitäts- und Schicht-Memory-Aufmerksamkeitsmechanismus (MSMA): Effiziente Nutzung modalitätsübergreifender und schichtübergreifender Beziehungen zur Verbesserung der Multi-Modal-Merkmalsdarstellung
Entwicklung eines Multi-Skalen-kategoriagnostischen Prompt-Encoders (MCP-Encoder): Bereitstellung von Tumorbereichslenkung und Entwurf eines modalitätsadaptiven Fusions-Decoders (MF-Decoder)
Erreichung signifikanter Leistungsverbesserungen auf Gliom- und Metastasen-Datensätzen: Übertreffung bestehender hochmoderner Segmentierungsmethoden
Gegeben sind multi-modale MRT-Scans {X_{t,m}}, wobei t ∈ {1,...,T} den Schichtindex und m ∈ {1,...,M} den Modalitätsindex darstellt. Das Ziel besteht darin, genaue Hirntumorsegmentierungsmasken zu generieren, die drei hierarchische Regionen identifizieren: gestärkter Tumor (ET), Tumorkern (TC) und Gesamttumor (WT).
Die Kernidee besteht darin, eine schrittweise Speicherintegration zu etablieren, die das Verständnis der gesamten Tumorstruktur progressiv verfeinert. Gegeben eine Eingabeschicht X_{t,m} verwaltet das Modell einen latenten Zustand S_{t,m} ∈ R^{C×H×W} mit der Aktualisierungsregel:
Für jede Modalität m in Schicht t empfängt speichergestärkte Einbettung Z_{t,m} und entsprechende Tumorbereichslenkung P_{t,m}. Fusioniert Prompt-Einbettungen durch elementweise Addition:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
Generiert modalitätsspezifische Vorhersagen:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
Die endgültige Segmentierungsmaske wird durch eine adaptive Gewichtungsstrategie erhalten:
Dual-Memory-Mechanismus: Erstmals gleichzeitige Modellierung modalitätsübergreifender und schichtübergreifender Beziehungen, Überwindung der Isolation zwischen Modalitäten und Schichten
Kategoriagnostisches Prompting: Befreiung von arbeitsintensiven kategoriespezifischen Annotationen, Verbesserung der klinischen Anwendbarkeit
Modalitätsadaptive Fusion: Dynamische Auswahl der informativsten Modalität für jeden Voxel
Speichergestärkte Aufmerksamkeit: Effektive Erfassung von Fernabhängigkeiten und Kontextinformationen
BraTS-METS: Hirn-Metastasen-Segmentierungsdatensatz mit 652 Multi-Kontrast-MRT-Untersuchungen, umfassend T1-, T1c-, T2- und FLAIR-Modalitäten
BraTS-AGPT: Datensatz zur Segmentierung von Gliomen nach Erwachsenenbehandlung mit 1.349 Fällen, konzentriert sich auf die Segmentierung von Resttumoren oder rezidivierenden Gliomen nach therapeutischen Interventionen
Modalitätsspeicherkapazität: Von k=0 bis k=3 zeigt kontinuierliche Leistungsverbesserung, k=3 erreicht beste Ergebnisse mit durchschnittlicher Dice-Verbesserung von 5,13% und 3,98%
Schichtspeicherkapazität: Von n=0 bis n=16 zeigt signifikante Verbesserung, n=8 bietet beste Balance zwischen Genauigkeit und Effizienz
t-Test-Analyse zeigt keine signifikanten Unterschiede zwischen verschiedenen Eingabesequenzen der Modalitäten (P-Wert >0,05), was die signifikante Robustheit von MSM-Seg gegenüber Modalitätsreihenfolgenänderungen beweist.
Frühe Forschung verwendete U-förmige Encoder-Decoder-Rahmen mit 3D-CNN. Neuere Methoden integrieren 3D-CNN mit Vision-Transformer zur Erfassung lokaler räumlicher Muster und globaler Kontextinformationen. Aktuelle Forschung erforscht die Verwendung von Vision-Mamba und RWKV als ViT-Ersatz zur Modellierung von Fernabhängigkeiten mit linearer Rechenkomplexität.
Speichermechanismen werden weit verbreitet in Video-Objektsegmentierungsaufgaben angewendet. SAM2 führt komplexe Speicherbibliotheken und Memory-Attention-Mechanismen ein, um die Vorhersagekonsistenz zwischen sequenziellen Schichten in Volumenscans zu verbessern. Nachfolgende Arbeiten wie ReSurgSAM2, Medical SAM2 usw. optimieren Speicherbibliotheksspeicherung und Ähnlichkeitsmessung.
MSM-Seg integriert effektiv modalitätsübergreifende und schichtübergreifende Informationen durch ein Dual-Memory-Segmentierungsparadigma, kombiniert mit kategoriagnostischem Prompt-Design, und erreicht signifikante Leistungsverbesserungen bei der Multi-Modal-Hirntumorsegmentierungsaufgabe, wobei eine effiziente und praktische Lösung für klinische Anwendungen bereitgestellt wird.
Diese Arbeit bietet ein neues technisches Paradigma für die Multi-Modal-Medizinbildsegmentierung. Das Dual-Memory-Mechanismus- und kategoriagnostische Prompt-Design haben breites Anwendungspotenzial und werden voraussichtlich bedeutende Auswirkungen auf das Feld der medizinischen Bildanalyse haben.
Das Papier zitiert 45 verwandte Literaturquellen, die wichtige Arbeiten in Schlüsselbereichen wie Multi-Modal-Segmentierung, Vision-Transformer und SAM-Serie-Methoden abdecken und eine solide theoretische Grundlage für diese Forschung bieten.