2025-11-19T18:28:14.904030

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Judge, Duchateau, Judge et al.
Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.
academic

Apprentissage par Renforcement pour l'Adaptation de Domaine Non Supervisée en Segmentation Échocardiographique Spatio-Temporelle

Informations Fondamentales

  • ID de l'article : 2510.14244
  • Titre : Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
  • Auteurs : Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
  • Classification : eess.IV cs.AI cs.CV
  • Journal de Publication : IEEE Transactions on Medical Imaging (2025)
  • Lien de l'article : https://arxiv.org/abs/2510.14244
  • Lien du code : https://github.com/arnaudjudge/RL4Seg3D

Résumé

Cet article propose RL4Seg3D, un cadre d'adaptation de domaine non supervisée pour la segmentation échocardiographique 2D+temporelle. La méthode résout le problème d'adaptation de domaine dans les données spatio-temporelles par apprentissage par renforcement, en particulier pour les dégradations de performance de segmentation causées par les artefacts et le bruit en échocardiographie. RL4Seg3D intègre des fonctions de récompense novatrices et des mécanismes de fusion, améliorant la précision des repères anatomiques clés tout en traitant des vidéos d'entrée en taille réelle. La méthode améliore non seulement la précision, la validité anatomique et la cohérence temporelle, mais fournit également des estimateurs d'incertitude robustes pouvant améliorer davantage les performances de segmentation au moment du test.

Contexte de Recherche et Motivation

Définition du Problème

  1. Défis de l'adaptation de domaine : Les méthodes traditionnelles d'adaptation de domaine manquent de fiabilité dans le domaine cible, ce qui est particulièrement critique en segmentation d'images médicales où la précision et la validité anatomique sont essentielles
  2. Complexité des données spatio-temporelles : Dans les données spatio-temporelles, l'absence de cohérence temporelle réduit considérablement la qualité de segmentation
  3. Spécificités de l'échocardiographie : Les artefacts et le bruit en échocardiographie entravent davantage les performances de segmentation

Importance de la Recherche

  • La segmentation d'images médicales nécessite des annotations d'experts coûteuses et chronophages
  • L'annotation de séquences 2D+temporelles est plus difficile que celle d'images 2D statiques
  • Les applications cliniques exigent une haute précision et une validité anatomique

Limitations des Méthodes Existantes

  1. Incohérence temporelle des méthodes 2D : Le traitement indépendant de chaque image crée une incohérence temporelle
  2. Perte d'information par sous-échantillonnage : Les méthodes existantes fonctionnent généralement sur des entrées en basse résolution
  3. Absence de contraintes anatomiques : Les méthodes traditionnelles ont du mal à garantir la validité anatomique
  4. Limitations des modèles de base : Les modèles comme SAM présentent des problèmes d'incohérence temporelle en segmentation vidéo

Contributions Principales

  1. Extension du cadre de segmentation par apprentissage par renforcement : Extension de RL4Seg à la segmentation 3D spatio-temporelle, supportant des mécanismes de récompenses multiples simultanées
  2. Traitement vidéo en taille réelle : Implémentation du traitement cohérent de vidéos d'entrée en taille réelle, conception de nouveaux modèles de récompense pour la cohérence temporelle et la précision des repères clés
  3. Estimation d'incertitude améliorée : Extension des capacités d'estimation d'incertitude du réseau de récompense, permettant l'évaluation de la confiance pour la segmentation spatio-temporelle au niveau des pixels
  4. Mécanisme d'optimisation au moment du test : Introduction d'une optimisation au moment du test exploitant les estimations d'incertitude pour améliorer les performances sur les vidéos difficiles
  5. Validation à grande échelle : Validation de l'efficacité et de la scalabilité de la méthode sur plus de 30 000 vidéos échocardiographiques

Explication Détaillée de la Méthode

Définition de la Tâche

  • Entrée : Données annotées du domaine source DS={(xS(i),yS(i))}i=1nD_S = \{(x_S^{(i)}, y_S^{(i)})\}_{i=1}^n et données non annotées du domaine cible DT={xT(j)}j=1mD_T = \{x_T^{(j)}\}_{j=1}^m
  • Sortie : Résultats de segmentation précis, anatomiquement valides et temporellement cohérents sur le domaine cible
  • Contraintes : Aucune annotation du domaine cible requise, maintien de la validité anatomique et de la cohérence temporelle

Architecture du Modèle

Cadre d'Apprentissage par Renforcement pour la Segmentation 3D

  1. Définition de l'état : ss est une tranche temporelle d'image 2D+temporelle, contenant des images consécutives en taille réelle
  2. Définition de l'action : aa est la carte de segmentation correspondante
  3. Réseau de politique : π:RH×W×T[0,1]K×H×W×T\pi: \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{K \times H \times W \times T}, implémenté basé sur U-Net 3D
  4. Fonction de récompense : r(s,a):R2×H×W×T[0,1]H×W×Tr(s,a): \mathbb{R}^{2 \times H \times W \times T} \rightarrow [0,1]^{H \times W \times T}
  5. Fonction de valeur : Vπ(s):RH×W×T[0,1]H×W×TV^\pi(s): \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{H \times W \times T}

Mécanisme de Fusion de Récompenses

La fonction d'avantage est définie comme : A(s,a)i,j,t=(minri,j,tRi,j,tri,j,tCKLi,j,t)Vπ(s)i,j,tA(s,a)_{i,j,t} = \left(\min_{r_{i,j,t} \in R_{i,j,t}} r_{i,j,t} - C_{KL_{i,j,t}}\right) - V^\pi(s)_{i,j,t}

où l'opération de minimum garantit que la politique se corrige selon l'erreur la plus grave pour chaque pixel.

Points d'Innovation Technique

1. Mécanisme de Récompenses Multiples

  • Récompense anatomique (rANATr_{ANAT}) : Réseau adaptatif guidant l'adaptation de domaine basée sur des métriques anatomiques
  • Récompense de repères (rLMr_{LM}) : Récompense d'alignement ciblant les repères anatomiques clés comme la commissure mitrale
  • Pénalité temporelle (PTemporalP_{Temporal}) : Mécanisme de récompense statique évaluant la cohérence temporelle via 8 métriques temporelles

2. Fenêtre Glissante Temporelle

  • Utilisation de 4 images consécutives en taille réelle comme tranches temporelles
  • Extraction aléatoire de tranches pendant l'entraînement, calcul séquentiel et fusion par moyenne gaussienne lors de l'inférence

3. Estimation d'Incertitude et Optimisation au Moment du Test

  • Exploitation du réseau de récompense anatomique pour fournir une estimation d'incertitude au niveau des pixels
  • Étalonnage par mise à l'échelle de température de la confiance du modèle
  • Optimisation spécifique à la séquence pour les vidéos difficiles

Configuration Expérimentale

Ensembles de Données

  1. Domaine source (DSD_S) : 579 vidéos échocardiographiques complètement annotées, provenant de l'Hôpital Universitaire de Lyon, France
    • Contenant des vues apicales quatre cavités (A4C) et deux cavités (A2C)
    • Qualité d'image bonne, structures anatomiques généralement visibles
  2. Domaine cible (DTD_T) : 31 053 vidéos hétérogènes non annotées
    • Provenant de 357 centres de soins ambulatoires dans 22 États américains
    • Contenant des vues A4C et A2C
    • Ensemble de test : 128 vidéos complètes validées par des experts

Métriques d'Évaluation

  1. Qualité de segmentation : Coefficient Dice, distance de Hausdorff (endocarde, épicarde)
  2. Validité anatomique : Pourcentage de validité basé sur 10 critères anatomiques
  3. Validité temporelle : Pourcentage de cohérence basé sur la régularité de 8 attributs temporels
  4. Précision des repères : Métrique « Erreurs par Cycle (MpC) » pour le repère de la commissure mitrale

Méthodes de Comparaison

  • Méthodes de base : U-Net 3D, nnU-Net
  • Modèles de base : MedSAM, SAMUS, MemSAM
  • Adaptation de domaine non supervisée : MaskedSSL, UA-MT, RL4Seg(2D)

Détails d'Implémentation

  • Environnement d'entraînement : Environ 32 GPU NVIDIA A100
  • Temps d'entraînement : Environ 2 jours, incluant 2-3 itérations de boucle RL
  • Taille de lot : 1 (en raison des dimensions d'image variables)
  • Entraînement parallèle distribué pour améliorer l'efficacité

Résultats Expérimentaux

Résultats Principaux

MéthodeDice(%) ↑Hausdorff(mm) ↓Validité Anatomique(%) ↑Validité Temporelle(%) ↑Erreur Repère MVC↓
Variabilité inter-experts94,94,6100--
nnU-Net93,87,848,446,90,6
MemSAM91,67,748,439,86,0
MaskedSSL93,36,364,156,33,1
RL4Seg3D94,24,996,985,91,1
RL4Seg3D(OTT)94,24,799,293,01,0

Études d'Ablation

  1. Récompense anatomique uniquement : Dice 93,5%, validité anatomique 98,4%
  2. Récompense anatomique + repères : Dice 94,2%, erreur de repère réduite significativement à 1,1
  3. Ajout de pénalité temporelle : Validité temporelle améliorée à 88,3%
  4. Optimisation au moment du test : Amélioration supplémentaire à 93,0% de validité temporelle

Analyse de Cas

  • Cohérence temporelle : RL4Seg3D réduit significativement les images temporellement incohérentes par rapport aux méthodes 2D (de 2,7 images à 0,4 image)
  • Estimation d'incertitude : L'erreur d'étalonnage attendue (ECE) du réseau de récompense anatomique 3D est de 0,054, surpassant les méthodes d'incertitude traditionnelles
  • Optimisation au moment du test : Correction réussie des erreurs dans 22 vidéos initialement invalides, améliorant plusieurs métriques

Travaux Connexes

Méthodes d'Adaptation de Domaine Non Supervisée

  1. Apprentissage de représentations : Reconstruction masquée, apprentissage contrastif
  2. Méthodes de pseudo-étiquettes : Auto-apprentissage, architectures maître-élève, seuillage de confiance
  3. Traduction image-à-image : Modèles de diffusion, méthodes GAN

Modèles de Base

  1. Série SAM : Applications de MedSAM, SAMUS dans les images médicales
  2. SAM Vidéo : MemSAM améliorant la cohérence temporelle via modules de mémoire

Applications de l'Apprentissage par Renforcement en Imagerie Médicale

  1. Détection de repères : Apprentissage par renforcement profond multi-échelle
  2. RLHF : Apprentissage à partir de retours humains, similaire à la méthode d'entraînement de ChatGPT
  3. RL4Seg : Cadre d'apprentissage par renforcement pour la segmentation 2D

Conclusions et Discussion

Conclusions Principales

  1. RL4Seg3D atteint les meilleures performances sur plusieurs métriques, se rapprochant de la limite supérieure de variabilité inter-experts
  2. Le mécanisme de fusion de récompenses multiples améliore efficacement différents types d'erreurs de segmentation
  3. Les convolutions 3D et les contraintes temporelles améliorent significativement la cohérence temporelle
  4. L'estimation d'incertitude et l'optimisation au moment du test renforcent davantage l'utilité pratique de la méthode

Limitations

  1. Exigences en ressources informatiques : Nécessite d'importantes ressources GPU pour l'entraînement distribué
  2. Limitation de la taille de lot : La taille de lot est limitée à 1 en raison des dimensions d'image variables
  3. Complexité temporelle : L'entraînement bout en bout nécessite environ 2 jours
  4. Erreurs résiduelles : Principalement dues à des incohérences temporelles mineures causées par les mouvements cardiaques rapides

Directions Futures

  1. Mécanisme de récompense temporelle plus complet : Traitement des mouvements cardiaques rapides
  2. Extension aux données volumétriques : Segmentation d'images médicales 3D
  3. Fusion multimodale : Combinaison d'autres modalités d'imagerie médicale
  4. Applications en temps réel : Optimisation de la vitesse d'inférence pour les applications cliniques en temps réel

Évaluation Approfondie

Points Forts

  1. Innovativité de la méthode : Première extension de l'apprentissage par renforcement à la segmentation d'images médicales 3D spatio-temporelle, avec un mécanisme de fusion de récompenses ingénieux
  2. Suffisance expérimentale : Validation sur plus de 30 000 vidéos, incluant plusieurs méthodes de comparaison et études d'ablation détaillées
  3. Pertinence clinique : Attention portée aux métriques cliniques clés comme la validité anatomique et la cohérence temporelle
  4. Complétude technique : Fourniture de fonctionnalités pratiques comme l'estimation d'incertitude et l'optimisation au moment du test

Insuffisances

  1. Complexité informatique élevée : Nécessite d'importantes ressources informatiques, pouvant limiter les applications pratiques
  2. Dépendance aux données : Bien que non supervisée en domaine cible, nécessite toujours des annotations de haute qualité en domaine source
  3. Limitations d'évaluation : L'ensemble de test est relativement petit (128 vidéos), pouvant affecter la généralisation des résultats
  4. Complexité de la méthode : La coordination de plusieurs composants peut augmenter la difficulté du réglage des hyperparamètres

Impact

  1. Contribution académique : Fournit un nouveau paradigme d'apprentissage par renforcement pour l'adaptation de domaine en imagerie médicale
  2. Valeur pratique : Applicable directement à l'analyse échocardiographique clinique
  3. Reproductibilité : Fourniture d'une implémentation de code complète
  4. Inspiration : Fournit un cadre de référence pour d'autres tâches d'imagerie médicale spatio-temporelle

Scénarios d'Application

  1. Segmentation d'images médicales : Particulièrement pour les images médicales dynamiques nécessitant la cohérence temporelle
  2. Tâches d'adaptation de domaine : Analyse d'images médicales inter-hôpitaux et inter-appareils
  3. Contrôle de qualité : Évaluation automatique de la qualité exploitant les estimations d'incertitude
  4. Diagnostic clinique assisté : Fourniture de résultats de segmentation fiables soutenant les décisions cliniques

Références

  1. Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
  2. Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
  3. Kirillov et al. "Segment anything." ICCV 2023.
  4. Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.

Résumé : RL4Seg3D proposé dans cet article est une contribution importante au domaine de la segmentation d'images médicales, résolvant ingénieusement le problème d'adaptation de domaine pour les images médicales spatio-temporelles par un cadre d'apprentissage par renforcement. La méthode est techniquement innovante, avec une vérification expérimentale suffisante et des résultats convaincants. Malgré les limitations telles que la complexité informatique élevée, son potentiel dans les applications cliniques et son rôle moteur dans le développement du domaine ne peuvent être ignorés.