2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic

MSM-Seg: Ein Modalitäts- und Schicht-Speicher-Framework mit kategoriagnostischem Prompting für Multi-modale Hirntumorsegmentierung

Grundinformationen

  • Papier-ID: 2510.10679
  • Titel: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
  • Autoren: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichtes Journal: IEEE Transactions on Medical Imaging
  • Papier-Link: https://arxiv.org/abs/2510.10679
  • Code-Link: https://github.com/xq141839/MSM-Seg

Zusammenfassung

Die multi-modale Hirntumorsegmentierung ist für die klinische Diagnose von entscheidender Bedeutung und erfordert die genaue Identifikation verschiedener interner anatomischer Subregionen. Obwohl kürzlich entwickelte Prompt-basierte Segmentierungsparadigmen Klinikern ein interaktives Erlebnis bieten, ignorieren bestehende Methoden die modalitätsübergreifenden Korrelationen und sind auf arbeitsintensive kategoriespezifische Prompts angewiesen, was ihre Anwendbarkeit in realen Szenarien einschränkt. Um diese Probleme zu beheben, wird das MSM-Seg-Framework für die multi-modale Hirntumorsegmentierung vorgeschlagen. MSM-Seg führt ein neuartiges Dual-Memory-Segmentierungsparadigma ein, das multi-modale und schichtübergreifende Informationen mit effizientem kategoriagnostischem Prompting für das Verständnis von Hirntumoren synergistisch integriert.

Forschungshintergrund und Motivation

Kernprobleme

  1. Komplexität der multi-modalen Hirntumorsegmentierung: Erfordert die gleichzeitige Identifikation heterogener Tumorkomponenten, einschließlich kontrastmittelgestärktem Kern, Nekrosebereichen und peritumöraler Ödembildung, von denen jede unterschiedliche klinische Biomarker für die Tumorgraduierung und Behandlungsentscheidungen liefert.
  2. Einschränkungen bestehender Methoden:
    • Klassische 3D-Multi-Modal-Segmentierungsrahmen sind durch die inhärente Rechnenineffizienz der Volumenverarbeitung begrenzt
    • Ignorieren die natürliche Sequenzbeziehung zwischen benachbarten Schichten
    • Methoden wie SAM2 sind auf kategoriespezifische Annotationen als Prompts angewiesen, die arbeitsintensive manuelle Annotationen erfordern
    • Bestehende Methoden verarbeiten typischerweise verschiedene MRT-Modalitäten unabhängig oder durch einfache vorherige Verbindungen und nutzen die reichhaltigen komplementären Informationen zwischen Modalitäten nicht vollständig

Forschungsmotivation

Verschiedene MRT-Modalitäten weisen starke komplementäre Beziehungen auf: FLAIR-Sequenzen sind hervorragend bei der Darstellung von peritumöraler Ödembildung und hochsignalen Läsionen, während T1c-Sequenzen eine kontrastmittelgestärkte Visualisierung aktiver Tumorbereiche und einer Blut-Hirn-Schranken-Störung bieten. Diese komplementäre Beziehung motiviert die Entwicklung eines einheitlichen Frameworks, das modalitätsübergreifende Beziehungen und räumliche Kontinuität effektiv erfassen kann.

Kernbeiträge

  1. Vorschlag eines Dual-Memory-Segmentierungsparadigmas: Nutzt modalitätsübergreifende und schichtübergreifende Beziehungen in Eingabescans für umfassendes Verständnis von Tumorsubregionen
  2. Entwurf eines Modalitäts- und Schicht-Memory-Aufmerksamkeitsmechanismus (MSMA): Effiziente Nutzung modalitätsübergreifender und schichtübergreifender Beziehungen zur Verbesserung der Multi-Modal-Merkmalsdarstellung
  3. Entwicklung eines Multi-Skalen-kategoriagnostischen Prompt-Encoders (MCP-Encoder): Bereitstellung von Tumorbereichslenkung und Entwurf eines modalitätsadaptiven Fusions-Decoders (MF-Decoder)
  4. Erreichung signifikanter Leistungsverbesserungen auf Gliom- und Metastasen-Datensätzen: Übertreffung bestehender hochmoderner Segmentierungsmethoden

Methodische Details

Aufgabendefinition

Gegeben sind multi-modale MRT-Scans {X_{t,m}}, wobei t ∈ {1,...,T} den Schichtindex und m ∈ {1,...,M} den Modalitätsindex darstellt. Das Ziel besteht darin, genaue Hirntumorsegmentierungsmasken zu generieren, die drei hierarchische Regionen identifizieren: gestärkter Tumor (ET), Tumorkern (TC) und Gesamttumor (WT).

Modellarchitektur

1. Dual-Memory-Segmentierungsparadigma

Die Kernidee besteht darin, eine schrittweise Speicherintegration zu etablieren, die das Verständnis der gesamten Tumorstruktur progressiv verfeinert. Gegeben eine Eingabeschicht X_{t,m} verwaltet das Modell einen latenten Zustand S_{t,m} ∈ R^{C×H×W} mit der Aktualisierungsregel:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

Wobei:

  • R(·) die Zustandsaktualisierungsfunktion ist
  • P(·) der Segmentierungsvorhersagekopf ist
  • S_{t,≺m} den modalitätsübergreifenden Kontext vorheriger Modalitäten der aktuellen Schicht darstellt
  • S_{≺t} den schichtübergreifenden Kontext vorheriger Schichten darstellt
  • θ_{t,m} ein effizienter kategoriagnostischer Prompt ist

2. Modalitäts- und Schicht-Memory-Aufmerksamkeit (MSMA)

Teilt die Bildeinbettung F gleichmäßig entlang der Kanaldimension:

[F_slice, F_modal] = Split(F)

Aktualisiert Einbettungen durch Selbstaufmerksamkeit:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

Wendet Kreuzaufmerksamkeit an, um Speicherbibliotheksinformationen zu integrieren:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. Multi-Skalen-kategoriagnostischer Prompt-Encoder (MCP-Encoder)

Unterstützt zwei Modi:

  • Kategoriagnostischer Prompt-Modus: Erfordert nur ein einzelnes Begrenzungsrahmen, das den gesamten Tumorbereich abdeckt
  • Automatischer Modus: Keine manuelle Annotation erforderlich, generiert automatisch Tumorbereichslenkung

Multi-Skalen-Fusionsprozess:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

Endgültige Tumorbereichslenkung:

P = DS(σ(φ(F^fusion_l)))

4. Modalitätsadaptiver Fusions-Decoder (MF-Decoder)

Für jede Modalität m in Schicht t empfängt speichergestärkte Einbettung Z_{t,m} und entsprechende Tumorbereichslenkung P_{t,m}. Fusioniert Prompt-Einbettungen durch elementweise Addition:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

Generiert modalitätsspezifische Vorhersagen:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

Die endgültige Segmentierungsmaske wird durch eine adaptive Gewichtungsstrategie erhalten:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

Technische Innovationspunkte

  1. Dual-Memory-Mechanismus: Erstmals gleichzeitige Modellierung modalitätsübergreifender und schichtübergreifender Beziehungen, Überwindung der Isolation zwischen Modalitäten und Schichten
  2. Kategoriagnostisches Prompting: Befreiung von arbeitsintensiven kategoriespezifischen Annotationen, Verbesserung der klinischen Anwendbarkeit
  3. Modalitätsadaptive Fusion: Dynamische Auswahl der informativsten Modalität für jeden Voxel
  4. Speichergestärkte Aufmerksamkeit: Effektive Erfassung von Fernabhängigkeiten und Kontextinformationen

Experimentelle Einrichtung

Datensätze

BraTS-METS: Hirn-Metastasen-Segmentierungsdatensatz mit 652 Multi-Kontrast-MRT-Untersuchungen, umfassend T1-, T1c-, T2- und FLAIR-Modalitäten

BraTS-AGPT: Datensatz zur Segmentierung von Gliomen nach Erwachsenenbehandlung mit 1.349 Fällen, konzentriert sich auf die Segmentierung von Resttumoren oder rezidivierenden Gliomen nach therapeutischen Interventionen

Bewertungsmetriken

  • Dice-Ähnlichkeitskoeffizient: Misst Segmentierungsqualität, höhere Werte zeigen bessere Leistung
  • 95%-Hausdorff-Distanz (HD95): Bewertet Grenzgenauigkeit, niedrigere Werte zeigen genauere Grenzen

Bewertung von drei hierarchischen Tumorregionen:

  • Gestärkter Tumor (ET): Gestärkte Tumorregion
  • Tumorkern (TC): Vereinigung von ET und umgebendem nicht-gestärktem FLAIR-Hochsignal
  • Gesamttumor (WT): Vereinigung von TC und nicht-gestärktem Tumorkern

Vergleichsmethoden

Umfasst traditionelle Methoden (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) und Prompt-basierte Methoden (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)

Implementierungsdetails

  • Hardware: NVIDIA A6000 GPU
  • Optimierer: AdamW (β1=0,9, β2=0,999)
  • Lernrate: 1×10^-4, Gewichtsabfall 0,01
  • Batch-Größe: 16, Trainingsepochen: 300
  • Bildgröße: 256×256
  • Modalitätsspeicher k=3, Schichtspeicher n=7

Experimentelle Ergebnisse

Hauptergebnisse

BraTS-METS-Datensatz:

  • MSM-Seg erreicht durchschnittliche Dice-Punktzahl von 79,51%, übertreffend beste traditionelle Methode SegMamba-V2 (73,92%) um 5,59%
  • Verbesserung um 2,04% gegenüber bester Prompt-Methode SAMed-2 (77,47%)
  • HD95 von SAMed-2 14,27 mm auf 13,75 mm reduziert

BraTS-AGPT-Datensatz:

  • MSM-Seg erreicht durchschnittliche Dice-Punktzahl von 83,84%, übertreffend SegMamba-V2 (76,49%) um 7,35%
  • Verbesserung um 2,40% gegenüber SAMed-2 (81,44%)
  • HD95 von SAMed-2 6,12 mm auf 5,56 mm reduziert

Ablationsstudien

Systematische Ablationsstudien validieren Beiträge einzelner Komponenten:

  1. MSMA: Bietet Dice-Verbesserung von 0,65% und 0,81%
  2. MCP-Encoder: Trägt zusätzliche Verbesserung von 0,87% und 1,07% bei
  3. MF-Decoder: Weitere Verbesserung von 1,08% und 1,33%
  4. Dual-Memory-Paradigma: Signifikantester Beitrag mit durchschnittlicher Verbesserung von 1,73% und 2,08%

Speicherkapazitätsanalyse

Modalitätsspeicherkapazität: Von k=0 bis k=3 zeigt kontinuierliche Leistungsverbesserung, k=3 erreicht beste Ergebnisse mit durchschnittlicher Dice-Verbesserung von 5,13% und 3,98%

Schichtspeicherkapazität: Von n=0 bis n=16 zeigt signifikante Verbesserung, n=8 bietet beste Balance zwischen Genauigkeit und Effizienz

Robustheit der Modalitätsreihenfolge

t-Test-Analyse zeigt keine signifikanten Unterschiede zwischen verschiedenen Eingabesequenzen der Modalitäten (P-Wert >0,05), was die signifikante Robustheit von MSM-Seg gegenüber Modalitätsreihenfolgenänderungen beweist.

Verwandte Arbeiten

Multi-modale Hirntumorsegmentierung

Frühe Forschung verwendete U-förmige Encoder-Decoder-Rahmen mit 3D-CNN. Neuere Methoden integrieren 3D-CNN mit Vision-Transformer zur Erfassung lokaler räumlicher Muster und globaler Kontextinformationen. Aktuelle Forschung erforscht die Verwendung von Vision-Mamba und RWKV als ViT-Ersatz zur Modellierung von Fernabhängigkeiten mit linearer Rechenkomplexität.

Speicherbasierte Prompt-Segmentierung

Speichermechanismen werden weit verbreitet in Video-Objektsegmentierungsaufgaben angewendet. SAM2 führt komplexe Speicherbibliotheken und Memory-Attention-Mechanismen ein, um die Vorhersagekonsistenz zwischen sequenziellen Schichten in Volumenscans zu verbessern. Nachfolgende Arbeiten wie ReSurgSAM2, Medical SAM2 usw. optimieren Speicherbibliotheksspeicherung und Ähnlichkeitsmessung.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

MSM-Seg integriert effektiv modalitätsübergreifende und schichtübergreifende Informationen durch ein Dual-Memory-Segmentierungsparadigma, kombiniert mit kategoriagnostischem Prompt-Design, und erreicht signifikante Leistungsverbesserungen bei der Multi-Modal-Hirntumorsegmentierungsaufgabe, wobei eine effiziente und praktische Lösung für klinische Anwendungen bereitgestellt wird.

Einschränkungen

  1. Rechnerischer Aufwand: Der Dual-Memory-Mechanismus erhöht die Inferenzverzögerung von 3,86 s auf 4,17 s
  2. Speicherkapazitätsbegrenzungen: Abnehmende Grenzrenditen bei größerer Speicherkapazität
  3. Datensatzgröße: Validierung nur auf zwei BraTS-Datensätzen, erfordert Validierung auf breiteren Datensätzen

Zukünftige Richtungen

  1. Erforschung effizienterer Speichermechanismen zur Reduzierung des Rechneraufwands
  2. Erweiterung auf andere medizinische Bildsegmentierungsaufgaben
  3. Untersuchung adaptiver Speicherkapazitätsauswahlstrategien

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Dual-Memory-Paradigma und kategoriagnostisches Prompt-Design zeigen signifikante Innovation
  2. Umfangreiche Experimente: Umfassende Ablations- und Vergleichsexperimente validieren Methodeneffektivität
  3. Hoher praktischer Wert: Reduziert Annotationsbelastung und verbessert klinische Anwendbarkeit
  4. Signifikante Leistungsverbesserung: Übertreffung bestehender hochmoderner Methoden bei mehreren Metriken

Mängel

  1. Unzureichende Analyse der Rechenkomplexität: Mangel an detaillierter Zeit- und Raumkomplexitätsanalyse
  2. Unzureichende Validierung der Datensatz-übergreifenden Generalisierung: Validierung nur auf BraTS-Serie-Datensätzen
  3. Fehlende Analyse von Fehlerfällen: Keine Bereitstellung spezifischer Fehlerfälle der Methode

Auswirkungen

Diese Arbeit bietet ein neues technisches Paradigma für die Multi-Modal-Medizinbildsegmentierung. Das Dual-Memory-Mechanismus- und kategoriagnostische Prompt-Design haben breites Anwendungspotenzial und werden voraussichtlich bedeutende Auswirkungen auf das Feld der medizinischen Bildanalyse haben.

Anwendungsszenarien

  1. Klinische Hirntumor-Diagnose: Reduziert Annotationsarbeitsbelastung von Ärzten
  2. Multi-modale medizinische Bildsegmentierung: Erweiterbar auf andere Organe und Krankheiten
  3. Computergestützte Diagnosesysteme: Bietet Grundlage für hochpräzise Segmentierung

Literaturverzeichnis

Das Papier zitiert 45 verwandte Literaturquellen, die wichtige Arbeiten in Schlüsselbereichen wie Multi-Modal-Segmentierung, Vision-Transformer und SAM-Serie-Methoden abdecken und eine solide theoretische Grundlage für diese Forschung bieten.