Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.
- Papier-ID: 2510.14244
- Titel: Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
- Autoren: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
- Klassifizierung: eess.IV cs.AI cs.CV
- Veröffentlichtes Journal: IEEE Transactions on Medical Imaging (2025)
- Papierlink: https://arxiv.org/abs/2510.14244
- Codelink: https://github.com/arnaudjudge/RL4Seg3D
Dieses Papier präsentiert RL4Seg3D, ein Framework für unüberwachte Domänenanpassung in der 2D+zeitlichen Ultraschallkardiographie-Segmentierung. Die Methode adressiert das Domänenanpassungsproblem in räumlich-zeitlichen Daten durch Verstärkungslernverfahren, insbesondere bei der Segmentierungsleistungsabnahme in der Echokardiographie aufgrund von Artefakten und Rauschen. RL4Seg3D integriert neuartige Belohnungsfunktionen und Fusionsmechanismen, die die Genauigkeit kritischer anatomischer Landmarken verbessern, während vollständige Eingabevideos verarbeitet werden. Die Methode verbessert nicht nur Genauigkeit, anatomische Gültigkeit und zeitliche Konsistenz, sondern bietet auch robuste Unsicherheitsschätzer, die die Segmentierungsleistung zur Testzeit weiter verbessern können.
- Domänenanpassungsherausforderungen: Traditionelle Domänenanpassungsmethoden zeigen unzureichende Zuverlässigkeit in der Zieldomäne, was in der medizinischen Bildsegmentierung besonders kritisch ist, da Genauigkeit und anatomische Gültigkeit entscheidend sind
- Komplexität räumlich-zeitlicher Daten: Bei räumlich-zeitlichen Daten führt das Fehlen zeitlicher Konsistenz zu erheblicher Verschlechterung der Segmentierungsqualität
- Besonderheiten der Echokardiographie: Artefakte und Rauschen in der Echokardiographie behindern die Segmentierungsleistung zusätzlich
- Medizinische Bildsegmentierung erfordert umfangreiche Expertenbeschriftungen mit hohen Kosten und zeitaufwendigen Prozessen
- Die Beschriftung von 2D+zeitlichen Sequenzen ist schwieriger als statische 2D-Bilder
- Klinische Anwendungen erfordern hohe Genauigkeit und anatomische Gültigkeit
- Zeitliche Inkonsistenz von 2D-Methoden: Unabhängige Verarbeitung einzelner Frames führt zu zeitlicher Inkohärenz
- Informationsverlust durch Unterabtastung: Bestehende Methoden arbeiten typischerweise mit Eingaben niedriger Auflösung
- Mangel an anatomischen Beschränkungen: Traditionelle Methoden können anatomische Gültigkeit schwer gewährleisten
- Einschränkungen grundlegender Modelle: SAM und ähnliche Modelle zeigen zeitliche Inkonsistenzen bei der Videosegmentierung
- Erweiterung des Verstärkungslernrahmens für Segmentierung: Erweiterung von RL4Seg auf 3D räumlich-zeitliche Segmentierung mit Unterstützung mehrerer gleichzeitiger Belohnungsmechanismen
- Verarbeitung von Videos in voller Auflösung: Implementierung kohärenter Verarbeitung vollständiger Eingabevideos mit neuen Vorlagen für zeitliche Konsistenz und Genauigkeit kritischer Landmarken
- Verbesserte Unsicherheitsschätzung: Erweiterung der Unsicherheitsschätzungsfähigkeiten des Belohnungsnetzwerks für pixelweise räumlich-zeitliche Segmentierungsvertrauensbewertung
- Testzeit-Optimierungsmechanismus: Einführung eines Testzeit-Optimierungsmechanismus, der Unsicherheitsschätzungen zur Verbesserung der Leistung bei schwierigen Videos nutzt
- Großflächige Validierung: Validierung der Methode auf über 30.000 Ultraschallkardiographie-Videos
- Eingabe: Beschriftete Quelldomänendaten DS={(xS(i),yS(i))}i=1n und unbeschriftete Zieldomänendaten DT={xT(j)}j=1m
- Ausgabe: Genaue, anatomisch gültige und zeitlich konsistente Segmentierungsergebnisse in der Zieldomäne
- Einschränkungen: Keine Zieldomänenbeschriftungen erforderlich, Erhaltung anatomischer Gültigkeit und zeitlicher Kohärenz
- Zustandsdefinition: s ist ein zeitliches Segment eines 2D+zeitlichen Bildes mit aufeinanderfolgenden Vollauflösungsframes
- Aktionsdefinition: a ist die entsprechende kontinuierliche Segmentierungskarte
- Richtliniennetzwerk: π:RH×W×T→[0,1]K×H×W×T, implementiert basierend auf 3D U-Net
- Belohnungsfunktion: r(s,a):R2×H×W×T→[0,1]H×W×T
- Wertfunktion: Vπ(s):RH×W×T→[0,1]H×W×T
Die Vorteilsfunktion ist definiert als:
A(s,a)i,j,t=(minri,j,t∈Ri,j,tri,j,t−CKLi,j,t)−Vπ(s)i,j,t
wobei die Minimum-Operation sicherstellt, dass die Richtlinie basierend auf dem schwerwiegendsten Fehler für jeden Pixel korrigiert wird.
- Anatomische Belohnung (rANAT): Adaptives Netzwerk, das die Domänenanpassung basierend auf anatomischen Metriken steuert
- Landmarken-Belohnung (rLM): Ausrichtungsbelohnung für kritische anatomische Landmarken wie die Mitralklappenkommissur
- Zeitliche Strafe (PTemporal): Statischer Belohnungsmechanismus, der zeitliche Konsistenz durch 8 zeitliche Metriken bewertet
- Verwendung von 4 aufeinanderfolgenden Vollauflösungsframes als zeitliches Segment
- Zufällige Segmentextraktion während des Trainings, sequenzielle Berechnung und Gaußsche Mittelwertfusion während der Inferenz
- Nutzung des anatomischen Belohnungsnetzwerks zur Bereitstellung pixelweiser Unsicherheitsschätzung
- Temperatur-Skalierung zur Kalibrierung der Modellzuverlässigkeit
- Sequenzspezifische Optimierung für schwierige Videos
- Quelldomäne (DS): 579 vollständig beschriftete Ultraschallkardiographie-Videos aus dem Universitätskrankenhaus Lyon, Frankreich
- Enthält apikale Vierkammer- (A4C) und Zweikammer- (A2C) Schnittebenen
- Gute Bildqualität mit überwiegend sichtbaren anatomischen Strukturen
- Zieldomäne (DT): 31.053 unbeschriftete heterogene Videos
- Aus 357 ambulanten Zentren in 22 US-Bundesstaaten
- Enthält A4C- und A2C-Schnittebenen
- Testset: 128 von Experten validierte vollständige Videos
- Segmentierungsqualität: Dice-Koeffizient, Hausdorff-Distanz (Endokard, Epikard)
- Anatomische Gültigkeit: Gültigkeitsprozentsatz basierend auf 10 anatomischen Standards
- Zeitliche Gültigkeit: Konsistenzprozentsatz basierend auf 8 zeitlichen Glättungsattributen
- Landmarken-Genauigkeit: "Fehler pro Zyklus (MpC)"-Metrik für die Mitralklappenkommissur-Landmarke
- Basismethoden: 3D U-Net, nnU-Net
- Grundlegende Modelle: MedSAM, SAMUS, MemSAM
- Unüberwachte Domänenanpassung: MaskedSSL, UA-MT, RL4Seg(2D)
- Trainingsumgebung: Etwa 32 NVIDIA A100 GPUs
- Trainingszeit: Etwa 2 Tage mit 2-3 RL-Zyklus-Iterationen
- Batch-Größe: 1 (aufgrund variierender Bildgrößen)
- Verteiltes paralleles Training zur Effizienzsteigerung
| Methode | Dice(%) ↑ | Hausdorff(mm) ↓ | Anatomische Gültigkeit(%) ↑ | Zeitliche Gültigkeit(%) ↑ | MVC-Landmarkenfehler↓ |
|---|
| Experten-Variabilität | 94,9 | 4,6 | 100 | - | - |
| nnU-Net | 93,8 | 7,8 | 48,4 | 46,9 | 0,6 |
| MemSAM | 91,6 | 7,7 | 48,4 | 39,8 | 6,0 |
| MaskedSSL | 93,3 | 6,3 | 64,1 | 56,3 | 3,1 |
| RL4Seg3D | 94,2 | 4,9 | 96,9 | 85,9 | 1,1 |
| RL4Seg3D(TTO) | 94,2 | 4,7 | 99,2 | 93,0 | 1,0 |
- Nur anatomische Belohnung: Dice 93,5%, anatomische Gültigkeit 98,4%
- Anatomische + Landmarken-Belohnung: Dice 94,2%, Landmarkenfehler sinkt signifikant auf 1,1
- Mit zeitlicher Strafe: Zeitliche Gültigkeit verbessert sich auf 88,3%
- Testzeit-Optimierung: Weitere Verbesserung auf 93,0% zeitliche Gültigkeit
- Zeitliche Konsistenz: RL4Seg3D reduziert zeitlich inkonsistente Frames im Vergleich zu 2D-Methoden signifikant (von 2,7 auf 0,4 Frames)
- Unsicherheitsschätzung: Erwarteter Kalibrierungsfehler (ECE) des 3D-anatomischen Belohnungsnetzwerks beträgt 0,054, übertrifft traditionelle Unsicherheitsmethoden
- Testzeit-Optimierung: Erfolgreich Fehler in 22 anfänglich ungültigen Videos korrigiert, mehrere Metriken verbessert
- Darstellungslernverfahren: Maskierte Rekonstruktion, kontrastives Lernen
- Pseudo-Label-Methoden: Selbstlernen, Lehrer-Schüler-Architektur, Konfidenz-Schwellenwertbildung
- Bild-zu-Bild-Übersetzung: Diffusionsmodelle, GAN-Methoden
- SAM-Serie: Anwendung von MedSAM, SAMUS in medizinischen Bildern
- Video-SAM: MemSAM verbessert zeitliche Konsistenz durch Speichermodule
- Landmarkenerkennung: Multi-Scale Deep Reinforcement Learning
- RLHF: Lernen aus menschlichem Feedback, ähnlich ChatGPT-Trainingsmethoden
- RL4Seg: Verstärkungslernrahmen für 2D-Segmentierung
- RL4Seg3D erreicht optimale Leistung bei mehreren Metriken, nahe der Obergrenze der Experten-Variabilität
- Der Mehrfach-Belohnungsfusionsmechanismus verbessert effektiv verschiedene Arten von Segmentierungsfehlern
- 3D-Faltung und zeitliche Beschränkungen verbessern signifikant die zeitliche Konsistenz
- Unsicherheitsschätzung und Testzeit-Optimierung verbessern die praktische Anwendbarkeit der Methode weiter
- Rechenressourcen-Anforderungen: Erfordert umfangreiche GPU-Ressourcen für verteiltes Training
- Batch-Größen-Beschränkung: Aufgrund variierender Bildgrößen ist die Batch-Größe auf 1 begrenzt
- Zeitkomplexität: End-to-End-Training benötigt etwa 2 Tage
- Verbleibende Fehler: Hauptsächlich leichte zeitliche Inkonsistenzen aufgrund schneller Herzbewegungen
- Umfassendere zeitliche Belohnungsmechanismen: Behandlung schneller Herzbewegungen
- Erweiterung auf Volumendaten: 3D-Segmentierung medizinischer Bilder
- Multimodale Fusion: Integration anderer medizinischer Bildgebungsmodalitäten
- Echtzeitanwendungen: Optimierung der Inferenzgeschwindigkeit für klinische Echtzeitanwendungen
- Methodische Innovativität: Erste Erweiterung von Verstärkungslernverfahren auf 3D räumlich-zeitliche medizinische Bildsegmentierung mit ausgefeiltem Belohnungsfusionsmechanismus
- Experimentelle Vollständigkeit: Validierung auf über 30.000 Videos mit mehreren Vergleichsmethoden und detaillierten Ablationsstudien
- Klinische Relevanz: Fokus auf klinisch wichtige Metriken wie anatomische Gültigkeit und zeitliche Konsistenz
- Technische Vollständigkeit: Bereitstellung von Unsicherheitsschätzung und Testzeit-Optimierung als praktische Funktionen
- Hohe Rechenkomplexität: Erfordert umfangreiche Rechenressourcen, kann praktische Anwendungen einschränken
- Datenabhängigkeit: Obwohl unüberwachte Domänenanpassung, erfordert immer noch hochwertige Quelldomänenbeschriftungen
- Bewertungsbeschränkungen: Relativ kleines Testset (128 Videos) kann Generalisierbarkeit der Ergebnisse beeinflussen
- Methodische Komplexität: Koordination mehrerer Komponenten kann die Hyperparameter-Abstimmung erschweren
- Akademischer Beitrag: Bietet neues Verstärkungslernparadigma für medizinische Bildomänenanpassung
- Praktischer Wert: Direkt anwendbar auf klinische Ultraschallkardiographie-Analyse
- Reproduzierbarkeit: Vollständige Code-Implementierung bereitgestellt
- Inspirationskraft: Bietet Referenzrahmen für andere räumlich-zeitliche medizinische Bildaufgaben
- Medizinische Bildsegmentierung: Besonders für dynamische medizinische Bilder, die zeitliche Konsistenz erfordern
- Domänenanpassungsaufgaben: Medizinische Bildanalyse über Krankenhäuser und Geräte hinweg
- Qualitätskontrolle: Automatische Qualitätsbewertung mittels Unsicherheitsschätzung
- Klinische Unterstützungsdiagnose: Bereitstellung zuverlässiger Segmentierungsergebnisse zur Unterstützung klinischer Entscheidungsfindung
- Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
- Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
- Kirillov et al. "Segment anything." ICCV 2023.
- Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.
Zusammenfassung: Das in diesem Papier vorgestellte RL4Seg3D ist ein wichtiger Beitrag im Bereich der medizinischen Bildsegmentierung, der das Domänenanpassungsproblem in räumlich-zeitlichen medizinischen Bildern durch einen Verstärkungslernrahmen elegant löst. Die Methode ist technisch innovativ, experimentell gründlich validiert und liefert überzeugende Ergebnisse. Trotz Einschränkungen wie hoher Rechenkomplexität sind sein Potenzial für klinische Anwendungen und sein Beitrag zur Weiterentwicklung des Feldes bemerkenswert.