2025-11-19T18:28:14.904030

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Judge, Duchateau, Judge et al.

Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.

academic

Apprendimento per Rinforzo per l'Adattamento di Dominio Non Supervisionato nella Segmentazione Ecocardiografica Spazio-Temporale

Informazioni Fondamentali

ID Articolo: 2510.14244
Titolo: Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
Autori: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
Classificazione: eess.IV cs.AI cs.CV
Rivista di Pubblicazione: IEEE Transactions on Medical Imaging (2025)
Link Articolo: https://arxiv.org/abs/2510.14244
Link Codice: https://github.com/arnaudjudge/RL4Seg3D

Riassunto

Questo articolo propone RL4Seg3D, un framework di adattamento di dominio non supervisionato per la segmentazione ecocardiografica 2D+temporale. Il metodo affronta il problema dell'adattamento di dominio nei dati spazio-temporali attraverso l'apprendimento per rinforzo, in particolare per la riduzione delle prestazioni di segmentazione causata da artefatti e rumore nell'ecocardiografia. RL4Seg3D integra funzioni di ricompensa innovative e meccanismi di fusione, migliorando la precisione dei punti di riferimento anatomici critici durante l'elaborazione di video a risoluzione completa. Il metodo non solo migliora l'accuratezza, la validità anatomica e la coerenza temporale, ma fornisce anche robusti stimatori di incertezza che possono ulteriormente migliorare le prestazioni di segmentazione al momento del test.

Contesto di Ricerca e Motivazione

Definizione del Problema

Sfide nell'Adattamento di Dominio: I metodi tradizionali di adattamento di dominio mostrano affidabilità insufficiente nel dominio target, il che è particolarmente critico nella segmentazione di immagini mediche dove l'accuratezza e la validità anatomica sono essenziali
Complessità dei Dati Spazio-Temporali: Nei dati spazio-temporali, la mancanza di coerenza temporale riduce significativamente la qualità della segmentazione
Specificità dell'Ecocardiografia: Gli artefatti e il rumore nell'ecocardiografia ostacolano ulteriormente le prestazioni di segmentazione

Importanza della Ricerca

La segmentazione di immagini mediche richiede annotazioni estensive da parte di esperti, con costi di acquisizione elevati e tempi lunghi
L'annotazione di sequenze 2D+temporali è più difficile rispetto alle immagini statiche 2D
Le applicazioni cliniche richiedono alta precisione e validità anatomica

Limitazioni dei Metodi Esistenti

Incoerenza Temporale dei Metodi 2D: L'elaborazione indipendente di ogni frame porta a discontinuità temporale
Perdita di Informazioni da Sottocampionamento: I metodi esistenti operano tipicamente su input a bassa risoluzione
Mancanza di Vincoli Anatomici: I metodi tradizionali hanno difficoltà a garantire la validità anatomica
Limitazioni dei Modelli Fondamentali: Modelli come SAM presentano problemi di incoerenza temporale nella segmentazione video

Contributi Principali

Estensione del Framework di Segmentazione per Apprendimento per Rinforzo: Estensione di RL4Seg alla segmentazione 3D spazio-temporale, supportando meccanismi di ricompensa multipli simultanei
Elaborazione Video a Risoluzione Completa: Implementazione dell'elaborazione coerente di video a risoluzione completa, con progettazione di nuovi template di ricompensa per coerenza temporale e precisione dei punti di riferimento critici
Stima di Incertezza Migliorata: Estensione delle capacità di stima dell'incertezza della rete di ricompensa, realizzando valutazione della confidenza a livello di pixel per la segmentazione spazio-temporale
Meccanismo di Ottimizzazione al Momento del Test: Introduzione di ottimizzazione specifica per il test che sfrutta la stima dell'incertezza per migliorare le prestazioni su video impegnativi
Validazione su Larga Scala: Validazione del metodo su oltre 30.000 video ecocardiografici, dimostrando efficacia e scalabilità

Dettagli del Metodo

Definizione del Compito

Input: Dati annotati del dominio sorgente $D_S = \{(x_S^{(i)}, y_S^{(i)})\}_{i=1}^n$ e dati non annotati del dominio target $D_T = \{x_T^{(j)}\}_{j=1}^m$
Output: Risultati di segmentazione accurati, anatomicamente validi e temporalmente coerenti nel dominio target
Vincoli: Nessuna annotazione richiesta nel dominio target, mantenimento della validità anatomica e coerenza temporale

Architettura del Modello

Framework di Apprendimento per Rinforzo per Segmentazione 3D

Definizione dello Stato: $s$ è una fetta temporale dell'immagine 2D+temporale, contenente frame consecutivi a risoluzione completa
Definizione dell'Azione: $a$ è la mappa di segmentazione corrispondente
Rete di Politica: $\pi: \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{K \times H \times W \times T}$ , implementata basandosi su U-Net 3D
Funzione di Ricompensa: $r(s,a): \mathbb{R}^{2 \times H \times W \times T} \rightarrow [0,1]^{H \times W \times T}$
Funzione di Valore: $V^\pi(s): \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{H \times W \times T}$

Meccanismo di Fusione delle Ricompense

La funzione di vantaggio è definita come: $A(s,a)_{i,j,t} = \left(\min_{r_{i,j,t} \in R_{i,j,t}} r_{i,j,t} - C_{KL_{i,j,t}}\right) - V^\pi(s)_{i,j,t}$

dove l'operazione di minimo garantisce che la politica si corregga in base all'errore più grave per ogni pixel.

Punti di Innovazione Tecnica

1. Meccanismo di Ricompense Multiple

Ricompensa Anatomica ( $r_{ANAT}$ ): Rete adattiva che guida l'adattamento di dominio basandosi su metriche anatomiche
Ricompensa di Punti di Riferimento ( $r_{LM}$ ): Ricompensa di allineamento per punti di riferimento anatomici critici come la commessura mitralica
Penalità Temporale ( $P_{Temporal}$ ): Meccanismo di ricompensa statica che valuta la coerenza temporale attraverso 8 metriche temporali

2. Finestra Scorrevole Temporale

Utilizzo di 4 frame consecutivi a risoluzione completa come fetta temporale
Estrazione casuale di frammenti durante l'addestramento, calcolo sequenziale durante l'inferenza con fusione a media gaussiana

3. Stima di Incertezza e Ottimizzazione al Momento del Test

Sfruttamento della rete di ricompensa anatomica per fornire stima dell'incertezza a livello di pixel
Calibrazione della temperatura per calibrare la confidenza del modello
Ottimizzazione specifica per sequenza per video impegnativi

Configurazione Sperimentale

Dataset

Dominio Sorgente ( $D_S$ $D_{S}$ ): 579 video ecocardiografici completamente annotati dall'Ospedale Universitario di Lione, Francia
- Contiene viste apicali a quattro camere (A4C) e a due camere (A2C)
- Qualità dell'immagine buona, strutture anatomiche per lo più visibili
Dominio Target ( $D_T$ $D_{T}$ ): 31.053 video eterogenei non annotati
- Provenienti da 357 centri ambulatoriali in 22 stati degli USA
- Contiene viste A4C e A2C
- Set di test: 128 video completi convalidati da esperti

Metriche di Valutazione

Qualità della Segmentazione: Coefficiente Dice, Distanza di Hausdorff (endocardio, epicardio)
Validità Anatomica: Percentuale di validità basata su 10 standard anatomici
Validità Temporale: Percentuale di coerenza basata sulla levigatezza di 8 attributi temporali
Precisione dei Punti di Riferimento: Metrica "Errori per Ciclo (MpC)" per il punto di riferimento della commessura mitralica

Metodi di Confronto

Metodi di Base: U-Net 3D, nnU-Net
Modelli Fondamentali: MedSAM, SAMUS, MemSAM
Adattamento di Dominio Non Supervisionato: MaskedSSL, UA-MT, RL4Seg(2D)

Dettagli di Implementazione

Ambiente di Addestramento: Circa 32 GPU NVIDIA A100
Tempo di Addestramento: Circa 2 giorni, incluse 2-3 iterazioni di ciclo RL
Dimensione del Batch: 1 (a causa delle dimensioni di immagine variabili)
Addestramento parallelo distribuito per migliorare l'efficienza

Risultati Sperimentali

Risultati Principali

Metodo	Dice(%) ↑	Hausdorff(mm) ↓	Validità Anatomica(%) ↑	Validità Temporale(%) ↑	Errore Punto di Riferimento MVC↓
Variabilità tra Esperti	94,9	4,6	100	-	-
nnU-Net	93,8	7,8	48,4	46,9	0,6
MemSAM	91,6	7,7	48,4	39,8	6,0
MaskedSSL	93,3	6,3	64,1	56,3	3,1
RL4Seg3D	94,2	4,9	96,9	85,9	1,1
RL4Seg3D(OTT)	94,2	4,7	99,2	93,0	1,0

Esperimenti di Ablazione

Solo Ricompensa Anatomica: Dice 93,5%, Validità Anatomica 98,4%
Ricompensa Anatomica + Punti di Riferimento: Dice 94,2%, Errore di Punto di Riferimento ridotto significativamente a 1,1
Aggiunta di Penalità Temporale: Validità Temporale migliorata a 88,3%
Ottimizzazione al Momento del Test: Ulteriore miglioramento a 93,0% di validità temporale

Analisi di Casi

Coerenza Temporale: RL4Seg3D riduce significativamente i frame incoerenti rispetto ai metodi 2D (da 2,7 frame a 0,4 frame)
Stima di Incertezza: L'errore di calibrazione atteso (ECE) della rete di ricompensa anatomica 3D è 0,054, superiore ai metodi di incertezza tradizionali
Ottimizzazione al Momento del Test: Corregge con successo gli errori in 22 video inizialmente non validi, migliorando più metriche

Lavori Correlati

Metodi di Adattamento di Dominio Non Supervisionato

Apprendimento di Rappresentazioni: Ricostruzione mascherata, apprendimento contrastivo
Metodi di Pseudo-Etichette: Auto-apprendimento, architetture insegnante-studente, soglie di confidenza
Traduzione da Immagine a Immagine: Modelli di diffusione, metodi GAN

Modelli Fondamentali

Serie SAM: Applicazioni di MedSAM, SAMUS in immagini mediche
Video SAM: MemSAM migliora la coerenza temporale attraverso moduli di memoria

Applicazioni di Apprendimento per Rinforzo in Immagini Mediche

Rilevamento di Punti di Riferimento: Apprendimento per rinforzo profondo multi-scala
RLHF: Apprendimento dal feedback umano, simile al metodo di addestramento di ChatGPT
RL4Seg: Framework di apprendimento per rinforzo per segmentazione 2D

Conclusioni e Discussione

Conclusioni Principali

RL4Seg3D raggiunge prestazioni ottimali su più metriche, avvicinandosi al limite superiore della variabilità tra esperti
Il meccanismo di fusione di ricompense multiple migliora efficacemente diversi tipi di errori di segmentazione
La convoluzione 3D e i vincoli temporali migliorano significativamente la coerenza temporale
La stima dell'incertezza e l'ottimizzazione al momento del test migliorano ulteriormente l'utilità pratica del metodo

Limitazioni

Requisiti di Risorse Computazionali: Richiede notevoli risorse GPU per l'addestramento distribuito
Limitazione della Dimensione del Batch: A causa delle dimensioni di immagine variabili, la dimensione del batch è limitata a 1
Complessità Temporale: L'addestramento end-to-end richiede circa 2 giorni
Errori Residui: Principalmente leggere incoerenze temporali causate da rapidi movimenti cardiaci

Direzioni Future

Meccanismo di Ricompensa Temporale Più Completo: Gestione dei rapidi movimenti cardiaci
Estensione a Dati Volumetrici: Segmentazione di immagini mediche 3D
Fusione Multimodale: Combinazione di altre modalità di imaging medico
Applicazioni in Tempo Reale: Ottimizzazione della velocità di inferenza per supportare applicazioni cliniche in tempo reale

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: Prima estensione dell'apprendimento per rinforzo alla segmentazione di immagini mediche 3D spazio-temporali, con design intelligente del meccanismo di fusione delle ricompense
Completezza Sperimentale: Validazione su oltre 30.000 video, inclusi molteplici metodi di confronto e dettagliati esperimenti di ablazione
Rilevanza Clinica: Attenzione a metriche clinicamente critiche come validità anatomica e coerenza temporale
Completezza Tecnica: Fornisce stima dell'incertezza e ottimizzazione al momento del test come funzionalità pratiche

Insufficienze

Complessità Computazionale Elevata: Richiede notevoli risorse computazionali, che potrebbero limitare l'applicazione pratica
Dipendenza dai Dati: Sebbene sia adattamento di dominio non supervisionato, richiede comunque annotazioni di alta qualità nel dominio sorgente
Limitazioni di Valutazione: Il set di test è relativamente piccolo (128 video), che potrebbe influenzare la generalizzabilità dei risultati
Complessità del Metodo: Il coordinamento di più componenti potrebbe aumentare la difficoltà di sintonizzazione dei parametri

Impatto

Contributo Accademico: Fornisce un nuovo paradigma di apprendimento per rinforzo per l'adattamento di dominio di immagini mediche
Valore Pratico: Applicabile direttamente all'analisi clinica ecocardiografica
Riproducibilità: Fornisce implementazione completa del codice
Ispirazione: Fornisce un framework di riferimento per altri compiti di immagini mediche spazio-temporali

Scenari Applicabili

Segmentazione di Immagini Mediche: Particolarmente per immagini mediche dinamiche che richiedono coerenza temporale
Compiti di Adattamento di Dominio: Analisi di immagini mediche tra ospedali e dispositivi
Controllo di Qualità: Utilizzo della stima dell'incertezza per valutazione automatica della qualità
Diagnostica Clinica Assistita: Fornire risultati di segmentazione affidabili per supportare le decisioni cliniche

Bibliografia

Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
Kirillov et al. "Segment anything." ICCV 2023.
Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.

Sintesi: RL4Seg3D proposto in questo articolo rappresenta un importante contributo nel campo della segmentazione di immagini mediche, affrontando elegantemente il problema dell'adattamento di dominio per immagini mediche spazio-temporali attraverso un framework di apprendimento per rinforzo. Il metodo è innovativo dal punto di vista tecnico, la validazione sperimentale è completa e i risultati sono convincenti. Nonostante le limitazioni come l'elevata complessità computazionale, il suo potenziale nelle applicazioni cliniche e il suo ruolo nel promuovere lo sviluppo del settore non possono essere ignorati.