MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg : Un Cadre de Mémoire Modale et Tranches avec Incitation Agnostique aux Catégories pour la Segmentation Multi-Modale de Tumeurs Cérébrales
La segmentation multi-modale de tumeurs cérébrales est cruciale pour le diagnostic clinique, nécessitant l'identification précise de différentes sous-régions anatomiques internes. Bien que les paradigmes de segmentation basés sur les incitations récentes offrent une expérience interactive aux cliniciens, les méthodes existantes négligent les corrélations inter-modales, dépendent d'incitations spécifiques aux catégories laborieuses, limitant leur applicabilité dans les scénarios réels. Pour résoudre ces problèmes, cet article propose le cadre MSM-Seg pour la segmentation multi-modale de tumeurs cérébrales. MSM-Seg introduit un nouveau paradigme de segmentation à double mémoire, intégrant de manière synergique les informations inter-modales et inter-tranches avec une incitation efficace agnostique aux catégories pour la compréhension des tumeurs cérébrales.
Complexité de la segmentation multi-modale de tumeurs cérébrales : Nécessite l'identification simultanée de composants tumoraux hétérogènes, incluant le noyau amélioré par contraste, les régions de nécrose et l'œdème péritumoral, chacun fournissant différents biomarqueurs cliniques pour la classification tumorale et les décisions thérapeutiques.
Limitations des méthodes existantes :
Les cadres classiques de segmentation 3D multi-modale sont limités par l'inefficacité informatique inhérente au traitement volumétrique
Négligent la relation de séquence naturelle entre les tranches adjacentes
Les méthodes telles que SAM2 dépendent des annotations spécifiques aux catégories comme incitations, nécessitant des annotations manuelles laborieuses
Les méthodes existantes traitent généralement différentes modalités IRM indépendamment ou via des connexions antérieures simples, sans exploiter pleinement les informations complémentaires riches entre les modalités
Les différentes modalités IRM présentent des relations fortement complémentaires : la séquence FLAIR excelle dans l'affichage de l'œdème péritumoral et des lésions de signal élevé, tandis que la séquence T1c fournit une visualisation améliorée par contraste des régions tumorales actives et de la rupture de la barrière hémato-encéphalique. Cette relation complémentaire a motivé le développement d'un cadre unifié capable de capturer efficacement les relations inter-modales et la continuité spatiale.
Proposition d'un paradigme de segmentation à double mémoire : Exploite les relations inter-modales et inter-tranches dans les acquisitions d'entrée pour une compréhension complète des sous-régions tumorales
Conception d'un mécanisme d'attention mémoire modale et tranches (MSMA) : Exploite efficacement les relations inter-modales et inter-tranches, améliorant la représentation des caractéristiques multi-modales
Développement d'un encodeur d'incitation multi-échelle agnostique aux catégories (MCP-Encoder) : Fournit des conseils sur les régions tumorales et conçoit un décodeur de fusion modale adaptative (MF-Decoder)
Réalisation d'améliorations significatives de performance sur les ensembles de données de gliomes et de métastases : Dépassement des méthodes de segmentation les plus avancées existantes
Étant donné une acquisition IRM multi-modale {X_{t,m}}, où t ∈ {1,...,T} représente l'indice de tranche, m ∈ {1,...,M} représente l'indice de modalité, l'objectif est de générer un masque de segmentation de tumeur cérébrale précis, identifiant trois régions hiérarchisées : tumeur améliorée (ET), noyau tumoral (TC) et tumeur entière (WT).
L'idée centrale est d'établir une intégration mémoire progressive, affinant progressivement la compréhension de la structure tumorale entière. Étant donné la tranche d'entrée X_{t,m}, le modèle maintient un état latent S_{t,m} ∈ R^{C×H×W}, avec la règle de mise à jour :
Pour chaque modalité m à la tranche t, reçoit l'intégration améliorée par mémoire Z_{t,m} et les conseils tumoraux correspondants P_{t,m}. Fusionner les intégrations d'incitations via addition au niveau des éléments :
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
Générer des prédictions spécifiques à la modalité :
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
Le masque de segmentation final est obtenu via une stratégie de pondération adaptative :
Mécanisme à double mémoire : Modélise pour la première fois simultanément les relations inter-modales et inter-tranches, brisant l'isolement entre modalités et tranches
Incitation agnostique aux catégories : Élimine les annotations spécifiques aux catégories laborieuses, améliorant l'applicabilité clinique
Fusion modale adaptative : Sélectionne dynamiquement la modalité la plus informative pour chaque voxel
Attention améliorée par mémoire : Capture efficacement les dépendances à longue distance et les informations contextuelles
BraTS-METS : Ensemble de données de segmentation de métastases cérébrales, contenant 652 examens IRM multi-contraste, couvrant quatre modalités : T1, T1c, T2, FLAIR
BraTS-AGPT : Ensemble de données de segmentation de gliomes traités chez l'adulte, contenant 1 349 cas, se concentrant sur la segmentation des gliomes résiduels ou récurrents après intervention thérapeutique
Incluent des méthodes traditionnelles (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) et des méthodes basées sur les incitations (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2)
Capacité mémoire modale : L'augmentation de k=0 à k=3 montre une amélioration continue des performances, k=3 atteignant les meilleurs résultats, avec une amélioration Dice moyenne de 5,13% et 3,98%
Capacité mémoire tranches : L'augmentation de n=0 à n=16 montre une amélioration significative, n=8 fournissant le meilleur équilibre entre précision et efficacité
L'analyse du test t montre aucune différence significative entre différentes séquences d'entrée modale (valeur P > 0,05), prouvant que MSM-Seg possède une robustesse significative aux variations de séquence modale.
Les recherches précoces ont adopté des cadres d'encodeur-décodeur en forme de U avec CNN 3D. Les méthodes récentes intègrent CNN 3D et Transformers de Vision pour capturer les motifs spatiaux locaux et les informations contextuelles globales. Les recherches actuelles explorent le remplacement de ViT par Mamba de Vision et RWKV pour modéliser les dépendances à longue distance avec une complexité informatique linéaire.
Les mécanismes de mémoire sont largement appliqués aux tâches de segmentation d'objets vidéo. SAM2 introduit des magasins mémoire complexes et des mécanismes d'attention mémoire pour améliorer la cohérence des prédictions entre les tranches de séquence dans les acquisitions volumétriques. Les travaux ultérieurs tels que ReSurgSAM2, Medical SAM2, etc., optimisent le stockage du magasin mémoire et les mesures de similarité.
MSM-Seg intègre efficacement les informations inter-modales et inter-tranches via un paradigme de segmentation à double mémoire, combiné avec une conception d'incitation agnostique aux catégories, réalisant des améliorations significatives de performance dans la tâche de segmentation multi-modale de tumeurs cérébrales, fournissant une solution efficace et pratique pour l'application clinique.
Surcharge informatique : Le mécanisme à double mémoire augmente la latence d'inférence de 3,86 s à 4,17 s
Limitations de capacité mémoire : Rendements marginaux décroissants avec une capacité mémoire plus grande
Taille de l'ensemble de données : Validation uniquement sur deux ensembles de données BraTS, nécessitant une validation sur des ensembles de données plus larges
Innovation technique forte : Le paradigme à double mémoire et la conception d'incitation agnostique aux catégories présentent une innovation significative
Expérimentation complète : Des études d'ablation et des expériences de comparaison complètes valident l'efficacité de la méthode
Valeur pratique élevée : Réduit le fardeau des annotations, améliore l'applicabilité clinique
Amélioration de performance significative : Dépasse les méthodes les plus avancées existantes sur plusieurs métriques
Ce travail fournit un nouveau paradigme technique pour la segmentation d'images médicales multi-modales, le mécanisme à double mémoire et la conception d'incitation agnostique aux catégories ayant un potentiel d'application large, devrait avoir un impact important sur le domaine de l'analyse d'images médicales.
L'article cite 47 références connexes, couvrant les domaines clés de la segmentation multi-modale, des Transformers de Vision, des méthodes de la série SAM, etc., fournissant une base théorique solide pour cette recherche.