2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.

Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.

academic

MSM-Seg: Ein Modalitäts- und Schicht-Speicher-Framework mit kategoriagnostischem Prompting für Multi-modale Hirntumorsegmentierung

Grundinformationen

Papier-ID: 2510.10679
Titel: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Autoren: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
Klassifizierung: cs.CV (Computervision)
Veröffentlichtes Journal: IEEE Transactions on Medical Imaging
Papier-Link: https://arxiv.org/abs/2510.10679
Code-Link: https://github.com/xq141839/MSM-Seg

Zusammenfassung

Die multi-modale Hirntumorsegmentierung ist für die klinische Diagnose von entscheidender Bedeutung und erfordert die genaue Identifikation verschiedener interner anatomischer Subregionen. Obwohl kürzlich entwickelte Prompt-basierte Segmentierungsparadigmen Klinikern ein interaktives Erlebnis bieten, ignorieren bestehende Methoden die modalitätsübergreifenden Korrelationen und sind auf arbeitsintensive kategoriespezifische Prompts angewiesen, was ihre Anwendbarkeit in realen Szenarien einschränkt. Um diese Probleme zu beheben, wird das MSM-Seg-Framework für die multi-modale Hirntumorsegmentierung vorgeschlagen. MSM-Seg führt ein neuartiges Dual-Memory-Segmentierungsparadigma ein, das multi-modale und schichtübergreifende Informationen mit effizientem kategoriagnostischem Prompting für das Verständnis von Hirntumoren synergistisch integriert.

Forschungshintergrund und Motivation

Kernprobleme

Komplexität der multi-modalen Hirntumorsegmentierung: Erfordert die gleichzeitige Identifikation heterogener Tumorkomponenten, einschließlich kontrastmittelgestärktem Kern, Nekrosebereichen und peritumöraler Ödembildung, von denen jede unterschiedliche klinische Biomarker für die Tumorgraduierung und Behandlungsentscheidungen liefert.
Einschränkungen bestehender Methoden:
- Klassische 3D-Multi-Modal-Segmentierungsrahmen sind durch die inhärente Rechnenineffizienz der Volumenverarbeitung begrenzt
- Ignorieren die natürliche Sequenzbeziehung zwischen benachbarten Schichten
- Methoden wie SAM2 sind auf kategoriespezifische Annotationen als Prompts angewiesen, die arbeitsintensive manuelle Annotationen erfordern
- Bestehende Methoden verarbeiten typischerweise verschiedene MRT-Modalitäten unabhängig oder durch einfache vorherige Verbindungen und nutzen die reichhaltigen komplementären Informationen zwischen Modalitäten nicht vollständig

Forschungsmotivation

Verschiedene MRT-Modalitäten weisen starke komplementäre Beziehungen auf: FLAIR-Sequenzen sind hervorragend bei der Darstellung von peritumöraler Ödembildung und hochsignalen Läsionen, während T1c-Sequenzen eine kontrastmittelgestärkte Visualisierung aktiver Tumorbereiche und einer Blut-Hirn-Schranken-Störung bieten. Diese komplementäre Beziehung motiviert die Entwicklung eines einheitlichen Frameworks, das modalitätsübergreifende Beziehungen und räumliche Kontinuität effektiv erfassen kann.

Kernbeiträge

Vorschlag eines Dual-Memory-Segmentierungsparadigmas: Nutzt modalitätsübergreifende und schichtübergreifende Beziehungen in Eingabescans für umfassendes Verständnis von Tumorsubregionen
Entwurf eines Modalitäts- und Schicht-Memory-Aufmerksamkeitsmechanismus (MSMA): Effiziente Nutzung modalitätsübergreifender und schichtübergreifender Beziehungen zur Verbesserung der Multi-Modal-Merkmalsdarstellung
Entwicklung eines Multi-Skalen-kategoriagnostischen Prompt-Encoders (MCP-Encoder): Bereitstellung von Tumorbereichslenkung und Entwurf eines modalitätsadaptiven Fusions-Decoders (MF-Decoder)
Erreichung signifikanter Leistungsverbesserungen auf Gliom- und Metastasen-Datensätzen: Übertreffung bestehender hochmoderner Segmentierungsmethoden

Methodische Details

Aufgabendefinition

Gegeben sind multi-modale MRT-Scans {X_{t,m}}, wobei t ∈ {1,...,T} den Schichtindex und m ∈ {1,...,M} den Modalitätsindex darstellt. Das Ziel besteht darin, genaue Hirntumorsegmentierungsmasken zu generieren, die drei hierarchische Regionen identifizieren: gestärkter Tumor (ET), Tumorkern (TC) und Gesamttumor (WT).

Modellarchitektur

1. Dual-Memory-Segmentierungsparadigma

Die Kernidee besteht darin, eine schrittweise Speicherintegration zu etablieren, die das Verständnis der gesamten Tumorstruktur progressiv verfeinert. Gegeben eine Eingabeschicht X_{t,m} verwaltet das Modell einen latenten Zustand S_{t,m} ∈ R^{C×H×W} mit der Aktualisierungsregel:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

Wobei:

R(·) die Zustandsaktualisierungsfunktion ist
P(·) der Segmentierungsvorhersagekopf ist
S_{t,≺m} den modalitätsübergreifenden Kontext vorheriger Modalitäten der aktuellen Schicht darstellt
S_{≺t} den schichtübergreifenden Kontext vorheriger Schichten darstellt
θ_{t,m} ein effizienter kategoriagnostischer Prompt ist

2. Modalitäts- und Schicht-Memory-Aufmerksamkeit (MSMA)

Teilt die Bildeinbettung F gleichmäßig entlang der Kanaldimension:

[F_slice, F_modal] = Split(F)

Aktualisiert Einbettungen durch Selbstaufmerksamkeit:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

Wendet Kreuzaufmerksamkeit an, um Speicherbibliotheksinformationen zu integrieren:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. Multi-Skalen-kategoriagnostischer Prompt-Encoder (MCP-Encoder)

Unterstützt zwei Modi:

Kategoriagnostischer Prompt-Modus: Erfordert nur ein einzelnes Begrenzungsrahmen, das den gesamten Tumorbereich abdeckt
Automatischer Modus: Keine manuelle Annotation erforderlich, generiert automatisch Tumorbereichslenkung

Multi-Skalen-Fusionsprozess:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

Endgültige Tumorbereichslenkung:

P = DS(σ(φ(F^fusion_l)))

4. Modalitätsadaptiver Fusions-Decoder (MF-Decoder)

Für jede Modalität m in Schicht t empfängt speichergestärkte Einbettung Z_{t,m} und entsprechende Tumorbereichslenkung P_{t,m}. Fusioniert Prompt-Einbettungen durch elementweise Addition:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

Generiert modalitätsspezifische Vorhersagen:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

Die endgültige Segmentierungsmaske wird durch eine adaptive Gewichtungsstrategie erhalten:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

Technische Innovationspunkte

Dual-Memory-Mechanismus: Erstmals gleichzeitige Modellierung modalitätsübergreifender und schichtübergreifender Beziehungen, Überwindung der Isolation zwischen Modalitäten und Schichten
Kategoriagnostisches Prompting: Befreiung von arbeitsintensiven kategoriespezifischen Annotationen, Verbesserung der klinischen Anwendbarkeit
Modalitätsadaptive Fusion: Dynamische Auswahl der informativsten Modalität für jeden Voxel
Speichergestärkte Aufmerksamkeit: Effektive Erfassung von Fernabhängigkeiten und Kontextinformationen

Experimentelle Einrichtung

Datensätze

BraTS-METS: Hirn-Metastasen-Segmentierungsdatensatz mit 652 Multi-Kontrast-MRT-Untersuchungen, umfassend T1-, T1c-, T2- und FLAIR-Modalitäten

BraTS-AGPT: Datensatz zur Segmentierung von Gliomen nach Erwachsenenbehandlung mit 1.349 Fällen, konzentriert sich auf die Segmentierung von Resttumoren oder rezidivierenden Gliomen nach therapeutischen Interventionen

Bewertungsmetriken

Dice-Ähnlichkeitskoeffizient: Misst Segmentierungsqualität, höhere Werte zeigen bessere Leistung
95%-Hausdorff-Distanz (HD95): Bewertet Grenzgenauigkeit, niedrigere Werte zeigen genauere Grenzen

Bewertung von drei hierarchischen Tumorregionen:

Gestärkter Tumor (ET): Gestärkte Tumorregion
Tumorkern (TC): Vereinigung von ET und umgebendem nicht-gestärktem FLAIR-Hochsignal
Gesamttumor (WT): Vereinigung von TC und nicht-gestärktem Tumorkern

Vergleichsmethoden

Umfasst traditionelle Methoden (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) und Prompt-basierte Methoden (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)

Implementierungsdetails

Hardware: NVIDIA A6000 GPU
Optimierer: AdamW (β1=0,9, β2=0,999)
Lernrate: 1×10^-4, Gewichtsabfall 0,01
Batch-Größe: 16, Trainingsepochen: 300
Bildgröße: 256×256
Modalitätsspeicher k=3, Schichtspeicher n=7

Experimentelle Ergebnisse

Hauptergebnisse

BraTS-METS-Datensatz:

MSM-Seg erreicht durchschnittliche Dice-Punktzahl von 79,51%, übertreffend beste traditionelle Methode SegMamba-V2 (73,92%) um 5,59%
Verbesserung um 2,04% gegenüber bester Prompt-Methode SAMed-2 (77,47%)
HD95 von SAMed-2 14,27 mm auf 13,75 mm reduziert

BraTS-AGPT-Datensatz:

MSM-Seg erreicht durchschnittliche Dice-Punktzahl von 83,84%, übertreffend SegMamba-V2 (76,49%) um 7,35%
Verbesserung um 2,40% gegenüber SAMed-2 (81,44%)
HD95 von SAMed-2 6,12 mm auf 5,56 mm reduziert

Ablationsstudien

Systematische Ablationsstudien validieren Beiträge einzelner Komponenten:

MSMA: Bietet Dice-Verbesserung von 0,65% und 0,81%
MCP-Encoder: Trägt zusätzliche Verbesserung von 0,87% und 1,07% bei
MF-Decoder: Weitere Verbesserung von 1,08% und 1,33%
Dual-Memory-Paradigma: Signifikantester Beitrag mit durchschnittlicher Verbesserung von 1,73% und 2,08%

Speicherkapazitätsanalyse

Modalitätsspeicherkapazität: Von k=0 bis k=3 zeigt kontinuierliche Leistungsverbesserung, k=3 erreicht beste Ergebnisse mit durchschnittlicher Dice-Verbesserung von 5,13% und 3,98%

Schichtspeicherkapazität: Von n=0 bis n=16 zeigt signifikante Verbesserung, n=8 bietet beste Balance zwischen Genauigkeit und Effizienz

Robustheit der Modalitätsreihenfolge

t-Test-Analyse zeigt keine signifikanten Unterschiede zwischen verschiedenen Eingabesequenzen der Modalitäten (P-Wert >0,05), was die signifikante Robustheit von MSM-Seg gegenüber Modalitätsreihenfolgenänderungen beweist.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

MSM-Seg integriert effektiv modalitätsübergreifende und schichtübergreifende Informationen durch ein Dual-Memory-Segmentierungsparadigma, kombiniert mit kategoriagnostischem Prompt-Design, und erreicht signifikante Leistungsverbesserungen bei der Multi-Modal-Hirntumorsegmentierungsaufgabe, wobei eine effiziente und praktische Lösung für klinische Anwendungen bereitgestellt wird.

Einschränkungen

Rechnerischer Aufwand: Der Dual-Memory-Mechanismus erhöht die Inferenzverzögerung von 3,86 s auf 4,17 s
Speicherkapazitätsbegrenzungen: Abnehmende Grenzrenditen bei größerer Speicherkapazität
Datensatzgröße: Validierung nur auf zwei BraTS-Datensätzen, erfordert Validierung auf breiteren Datensätzen

Zukünftige Richtungen

Erforschung effizienterer Speichermechanismen zur Reduzierung des Rechneraufwands
Erweiterung auf andere medizinische Bildsegmentierungsaufgaben
Untersuchung adaptiver Speicherkapazitätsauswahlstrategien

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Dual-Memory-Paradigma und kategoriagnostisches Prompt-Design zeigen signifikante Innovation
Umfangreiche Experimente: Umfassende Ablations- und Vergleichsexperimente validieren Methodeneffektivität
Hoher praktischer Wert: Reduziert Annotationsbelastung und verbessert klinische Anwendbarkeit
Signifikante Leistungsverbesserung: Übertreffung bestehender hochmoderner Methoden bei mehreren Metriken

Mängel

Unzureichende Analyse der Rechenkomplexität: Mangel an detaillierter Zeit- und Raumkomplexitätsanalyse
Unzureichende Validierung der Datensatz-übergreifenden Generalisierung: Validierung nur auf BraTS-Serie-Datensätzen
Fehlende Analyse von Fehlerfällen: Keine Bereitstellung spezifischer Fehlerfälle der Methode

Auswirkungen

Diese Arbeit bietet ein neues technisches Paradigma für die Multi-Modal-Medizinbildsegmentierung. Das Dual-Memory-Mechanismus- und kategoriagnostische Prompt-Design haben breites Anwendungspotenzial und werden voraussichtlich bedeutende Auswirkungen auf das Feld der medizinischen Bildanalyse haben.

Anwendungsszenarien

Klinische Hirntumor-Diagnose: Reduziert Annotationsarbeitsbelastung von Ärzten
Multi-modale medizinische Bildsegmentierung: Erweiterbar auf andere Organe und Krankheiten
Computergestützte Diagnosesysteme: Bietet Grundlage für hochpräzise Segmentierung

Literaturverzeichnis

Das Papier zitiert 45 verwandte Literaturquellen, die wichtige Arbeiten in Schlüsselbereichen wie Multi-Modal-Segmentierung, Vision-Transformer und SAM-Serie-Methoden abdecken und eine solide theoretische Grundlage für diese Forschung bieten.