2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.

Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.

academic

MSM-Seg : Un Cadre de Mémoire Modale et Tranches avec Incitation Agnostique aux Catégories pour la Segmentation Multi-Modale de Tumeurs Cérébrales

Informations Fondamentales

ID de l'article : 2510.10679
Titre : MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Auteurs : Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
Classification : cs.CV (Vision par Ordinateur)
Journal de Publication : IEEE Transactions on Medical Imaging
Lien de l'article : https://arxiv.org/abs/2510.10679
Lien du code : https://github.com/xq141839/MSM-Seg

Résumé

La segmentation multi-modale de tumeurs cérébrales est cruciale pour le diagnostic clinique, nécessitant l'identification précise de différentes sous-régions anatomiques internes. Bien que les paradigmes de segmentation basés sur les incitations récentes offrent une expérience interactive aux cliniciens, les méthodes existantes négligent les corrélations inter-modales, dépendent d'incitations spécifiques aux catégories laborieuses, limitant leur applicabilité dans les scénarios réels. Pour résoudre ces problèmes, cet article propose le cadre MSM-Seg pour la segmentation multi-modale de tumeurs cérébrales. MSM-Seg introduit un nouveau paradigme de segmentation à double mémoire, intégrant de manière synergique les informations inter-modales et inter-tranches avec une incitation efficace agnostique aux catégories pour la compréhension des tumeurs cérébrales.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Complexité de la segmentation multi-modale de tumeurs cérébrales : Nécessite l'identification simultanée de composants tumoraux hétérogènes, incluant le noyau amélioré par contraste, les régions de nécrose et l'œdème péritumoral, chacun fournissant différents biomarqueurs cliniques pour la classification tumorale et les décisions thérapeutiques.
Limitations des méthodes existantes :
- Les cadres classiques de segmentation 3D multi-modale sont limités par l'inefficacité informatique inhérente au traitement volumétrique
- Négligent la relation de séquence naturelle entre les tranches adjacentes
- Les méthodes telles que SAM2 dépendent des annotations spécifiques aux catégories comme incitations, nécessitant des annotations manuelles laborieuses
- Les méthodes existantes traitent généralement différentes modalités IRM indépendamment ou via des connexions antérieures simples, sans exploiter pleinement les informations complémentaires riches entre les modalités

Motivation de la Recherche

Les différentes modalités IRM présentent des relations fortement complémentaires : la séquence FLAIR excelle dans l'affichage de l'œdème péritumoral et des lésions de signal élevé, tandis que la séquence T1c fournit une visualisation améliorée par contraste des régions tumorales actives et de la rupture de la barrière hémato-encéphalique. Cette relation complémentaire a motivé le développement d'un cadre unifié capable de capturer efficacement les relations inter-modales et la continuité spatiale.

Contributions Fondamentales

Proposition d'un paradigme de segmentation à double mémoire : Exploite les relations inter-modales et inter-tranches dans les acquisitions d'entrée pour une compréhension complète des sous-régions tumorales
Conception d'un mécanisme d'attention mémoire modale et tranches (MSMA) : Exploite efficacement les relations inter-modales et inter-tranches, améliorant la représentation des caractéristiques multi-modales
Développement d'un encodeur d'incitation multi-échelle agnostique aux catégories (MCP-Encoder) : Fournit des conseils sur les régions tumorales et conçoit un décodeur de fusion modale adaptative (MF-Decoder)
Réalisation d'améliorations significatives de performance sur les ensembles de données de gliomes et de métastases : Dépassement des méthodes de segmentation les plus avancées existantes

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une acquisition IRM multi-modale {X_{t,m}}, où t ∈ {1,...,T} représente l'indice de tranche, m ∈ {1,...,M} représente l'indice de modalité, l'objectif est de générer un masque de segmentation de tumeur cérébrale précis, identifiant trois régions hiérarchisées : tumeur améliorée (ET), noyau tumoral (TC) et tumeur entière (WT).

Architecture du Modèle

1. Paradigme de Segmentation à Double Mémoire

L'idée centrale est d'établir une intégration mémoire progressive, affinant progressivement la compréhension de la structure tumorale entière. Étant donné la tranche d'entrée X_{t,m}, le modèle maintient un état latent S_{t,m} ∈ R^{C×H×W}, avec la règle de mise à jour :

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

Où :

R(·) est la fonction de mise à jour d'état
P(·) est la tête de prédiction de segmentation
S_{t,≺m} représente le contexte inter-modal des modalités antérieures de la tranche actuelle t
S_{≺t} représente le contexte inter-tranches des tranches antérieures
θ_{t,m} est une incitation efficace agnostique aux catégories

2. Attention Mémoire Modale et Tranches (MSMA)

Diviser l'intégration d'image F uniformément le long de la dimension des canaux :

[F_slice, F_modal] = Split(F)

Mettre à jour les intégrations via l'auto-attention :

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

Appliquer l'attention croisée pour intégrer les informations du magasin mémoire :

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. Encodeur d'Incitation Multi-Échelle Agnostique aux Catégories (MCP-Encoder)

Supporte deux modes :

Mode d'incitation agnostique aux catégories : Nécessite uniquement une boîte englobante unique couvrant la région tumorale entière
Mode automatique : Aucune annotation manuelle requise, génère automatiquement des conseils sur les régions tumorales

Processus de fusion multi-échelle :

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

Conseils finaux sur les régions tumorales :

P = DS(σ(φ(F^fusion_l)))

4. Décodeur de Fusion Modale Adaptative (MF-Decoder)

Pour chaque modalité m à la tranche t, reçoit l'intégration améliorée par mémoire Z_{t,m} et les conseils tumoraux correspondants P_{t,m}. Fusionner les intégrations d'incitations via addition au niveau des éléments :

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

Générer des prédictions spécifiques à la modalité :

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

Le masque de segmentation final est obtenu via une stratégie de pondération adaptative :

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

Points d'Innovation Technique

Mécanisme à double mémoire : Modélise pour la première fois simultanément les relations inter-modales et inter-tranches, brisant l'isolement entre modalités et tranches
Incitation agnostique aux catégories : Élimine les annotations spécifiques aux catégories laborieuses, améliorant l'applicabilité clinique
Fusion modale adaptative : Sélectionne dynamiquement la modalité la plus informative pour chaque voxel
Attention améliorée par mémoire : Capture efficacement les dépendances à longue distance et les informations contextuelles

Configuration Expérimentale

Ensembles de Données

BraTS-METS : Ensemble de données de segmentation de métastases cérébrales, contenant 652 examens IRM multi-contraste, couvrant quatre modalités : T1, T1c, T2, FLAIR

BraTS-AGPT : Ensemble de données de segmentation de gliomes traités chez l'adulte, contenant 1 349 cas, se concentrant sur la segmentation des gliomes résiduels ou récurrents après intervention thérapeutique

Métriques d'Évaluation

Coefficient de similarité Dice : Mesure la qualité de segmentation, les valeurs plus élevées indiquent une meilleure performance
Distance de Hausdorff 95% (HD95) : Évalue la précision de la description des limites, les valeurs plus basses indiquent des limites plus précises

Évaluation de trois régions tumorales hiérarchisées :

Tumeur améliorée (ET) : Région tumorale améliorée
Noyau tumoral (TC) : Union de ET et du signal FLAIR non amélioré élevé environnant
Tumeur entière (WT) : Union de TC et du noyau tumoral non amélioré

Méthodes de Comparaison

Incluent des méthodes traditionnelles (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) et des méthodes basées sur les incitations (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)

Détails d'Implémentation

Matériel : GPU NVIDIA A6000
Optimiseur : AdamW (β1=0.9, β2=0.999)
Taux d'apprentissage : 1×10^-4, décroissance des poids 0.01
Taille de lot : 16, nombre d'épochs : 300
Taille d'image : 256×256
Magasin mémoire modale k=3, magasin mémoire tranches n=7

Résultats Expérimentaux

Résultats Principaux

Ensemble de données BraTS-METS :

MSM-Seg atteint un score Dice moyen de 79,51%, surpassant la meilleure méthode traditionnelle SegMamba-V2 (73,92%) de 5,59%
Amélioration de 2,04% par rapport à la meilleure méthode d'incitation SAMed-2 (77,47%)
HD95 réduit de 14,27 mm (SAMed-2) à 13,75 mm

Ensemble de données BraTS-AGPT :

MSM-Seg atteint un score Dice moyen de 83,84%, surpassant SegMamba-V2 (76,49%) de 7,35%
Amélioration de 2,40% par rapport à SAMed-2 (81,44%)
HD95 réduit de 6,12 mm (SAMed-2) à 5,56 mm

Études d'Ablation

Études d'ablation systématiques validant la contribution de chaque composant :

MSMA : Fournit des améliorations Dice de 0,65% et 0,81%
MCP-Encoder : Contribution supplémentaire d'améliorations de 0,87% et 1,07%
MF-Decoder : Amélioration supplémentaire de 1,08% et 1,33%
Paradigme à double mémoire : Contribution la plus significative, amélioration moyenne de 1,73% et 2,08%

Analyse de la Capacité Mémoire

Capacité mémoire modale : L'augmentation de k=0 à k=3 montre une amélioration continue des performances, k=3 atteignant les meilleurs résultats, avec une amélioration Dice moyenne de 5,13% et 3,98%

Capacité mémoire tranches : L'augmentation de n=0 à n=16 montre une amélioration significative, n=8 fournissant le meilleur équilibre entre précision et efficacité

Robustesse de la Séquence Modale

L'analyse du test t montre aucune différence significative entre différentes séquences d'entrée modale (valeur P > 0,05), prouvant que MSM-Seg possède une robustesse significative aux variations de séquence modale.

Travaux Connexes

Segmentation Multi-Modale de Tumeurs Cérébrales

Les recherches précoces ont adopté des cadres d'encodeur-décodeur en forme de U avec CNN 3D. Les méthodes récentes intègrent CNN 3D et Transformers de Vision pour capturer les motifs spatiaux locaux et les informations contextuelles globales. Les recherches actuelles explorent le remplacement de ViT par Mamba de Vision et RWKV pour modéliser les dépendances à longue distance avec une complexité informatique linéaire.

Segmentation Basée sur la Mémoire avec Incitations

Les mécanismes de mémoire sont largement appliqués aux tâches de segmentation d'objets vidéo. SAM2 introduit des magasins mémoire complexes et des mécanismes d'attention mémoire pour améliorer la cohérence des prédictions entre les tranches de séquence dans les acquisitions volumétriques. Les travaux ultérieurs tels que ReSurgSAM2, Medical SAM2, etc., optimisent le stockage du magasin mémoire et les mesures de similarité.

Conclusion et Discussion

Conclusions Principales

MSM-Seg intègre efficacement les informations inter-modales et inter-tranches via un paradigme de segmentation à double mémoire, combiné avec une conception d'incitation agnostique aux catégories, réalisant des améliorations significatives de performance dans la tâche de segmentation multi-modale de tumeurs cérébrales, fournissant une solution efficace et pratique pour l'application clinique.

Limitations

Surcharge informatique : Le mécanisme à double mémoire augmente la latence d'inférence de 3,86 s à 4,17 s
Limitations de capacité mémoire : Rendements marginaux décroissants avec une capacité mémoire plus grande
Taille de l'ensemble de données : Validation uniquement sur deux ensembles de données BraTS, nécessitant une validation sur des ensembles de données plus larges

Directions Futures

Explorer des mécanismes mémoire plus efficaces pour réduire la surcharge informatique
Étendre à d'autres tâches de segmentation d'images médicales
Étudier des stratégies de sélection de capacité mémoire adaptative

Évaluation Approfondie

Avantages

Innovation technique forte : Le paradigme à double mémoire et la conception d'incitation agnostique aux catégories présentent une innovation significative
Expérimentation complète : Des études d'ablation et des expériences de comparaison complètes valident l'efficacité de la méthode
Valeur pratique élevée : Réduit le fardeau des annotations, améliore l'applicabilité clinique
Amélioration de performance significative : Dépasse les méthodes les plus avancées existantes sur plusieurs métriques

Insuffisances

Analyse de complexité informatique insuffisante : Manque d'analyse détaillée de la complexité temporelle et spatiale
Validation de généralisation inter-ensembles insuffisante : Validation uniquement sur les ensembles de données de la série BraTS
Analyse de cas d'échec manquante : Aucune analyse de cas spécifiques d'inefficacité de la méthode

Impact

Ce travail fournit un nouveau paradigme technique pour la segmentation d'images médicales multi-modales, le mécanisme à double mémoire et la conception d'incitation agnostique aux catégories ayant un potentiel d'application large, devrait avoir un impact important sur le domaine de l'analyse d'images médicales.

Scénarios Applicables

Diagnostic clinique de tumeurs cérébrales : Réduit le travail d'annotation des médecins
Segmentation d'images médicales multi-modales : Extensible à d'autres organes et maladies
Systèmes de diagnostic assisté par ordinateur : Fournit une base de segmentation haute précision

Références

L'article cite 47 références connexes, couvrant les domaines clés de la segmentation multi-modale, des Transformers de Vision, des méthodes de la série SAM, etc., fournissant une base théorique solide pour cette recherche.