Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.
- ID Articolo: 2510.14244
- Titolo: Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
- Autori: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
- Classificazione: eess.IV cs.AI cs.CV
- Rivista di Pubblicazione: IEEE Transactions on Medical Imaging (2025)
- Link Articolo: https://arxiv.org/abs/2510.14244
- Link Codice: https://github.com/arnaudjudge/RL4Seg3D
Questo articolo propone RL4Seg3D, un framework di adattamento di dominio non supervisionato per la segmentazione ecocardiografica 2D+temporale. Il metodo affronta il problema dell'adattamento di dominio nei dati spazio-temporali attraverso l'apprendimento per rinforzo, in particolare per la riduzione delle prestazioni di segmentazione causata da artefatti e rumore nell'ecocardiografia. RL4Seg3D integra funzioni di ricompensa innovative e meccanismi di fusione, migliorando la precisione dei punti di riferimento anatomici critici durante l'elaborazione di video a risoluzione completa. Il metodo non solo migliora l'accuratezza, la validità anatomica e la coerenza temporale, ma fornisce anche robusti stimatori di incertezza che possono ulteriormente migliorare le prestazioni di segmentazione al momento del test.
- Sfide nell'Adattamento di Dominio: I metodi tradizionali di adattamento di dominio mostrano affidabilità insufficiente nel dominio target, il che è particolarmente critico nella segmentazione di immagini mediche dove l'accuratezza e la validità anatomica sono essenziali
- Complessità dei Dati Spazio-Temporali: Nei dati spazio-temporali, la mancanza di coerenza temporale riduce significativamente la qualità della segmentazione
- Specificità dell'Ecocardiografia: Gli artefatti e il rumore nell'ecocardiografia ostacolano ulteriormente le prestazioni di segmentazione
- La segmentazione di immagini mediche richiede annotazioni estensive da parte di esperti, con costi di acquisizione elevati e tempi lunghi
- L'annotazione di sequenze 2D+temporali è più difficile rispetto alle immagini statiche 2D
- Le applicazioni cliniche richiedono alta precisione e validità anatomica
- Incoerenza Temporale dei Metodi 2D: L'elaborazione indipendente di ogni frame porta a discontinuità temporale
- Perdita di Informazioni da Sottocampionamento: I metodi esistenti operano tipicamente su input a bassa risoluzione
- Mancanza di Vincoli Anatomici: I metodi tradizionali hanno difficoltà a garantire la validità anatomica
- Limitazioni dei Modelli Fondamentali: Modelli come SAM presentano problemi di incoerenza temporale nella segmentazione video
- Estensione del Framework di Segmentazione per Apprendimento per Rinforzo: Estensione di RL4Seg alla segmentazione 3D spazio-temporale, supportando meccanismi di ricompensa multipli simultanei
- Elaborazione Video a Risoluzione Completa: Implementazione dell'elaborazione coerente di video a risoluzione completa, con progettazione di nuovi template di ricompensa per coerenza temporale e precisione dei punti di riferimento critici
- Stima di Incertezza Migliorata: Estensione delle capacità di stima dell'incertezza della rete di ricompensa, realizzando valutazione della confidenza a livello di pixel per la segmentazione spazio-temporale
- Meccanismo di Ottimizzazione al Momento del Test: Introduzione di ottimizzazione specifica per il test che sfrutta la stima dell'incertezza per migliorare le prestazioni su video impegnativi
- Validazione su Larga Scala: Validazione del metodo su oltre 30.000 video ecocardiografici, dimostrando efficacia e scalabilità
- Input: Dati annotati del dominio sorgente DS={(xS(i),yS(i))}i=1n e dati non annotati del dominio target DT={xT(j)}j=1m
- Output: Risultati di segmentazione accurati, anatomicamente validi e temporalmente coerenti nel dominio target
- Vincoli: Nessuna annotazione richiesta nel dominio target, mantenimento della validità anatomica e coerenza temporale
- Definizione dello Stato: s è una fetta temporale dell'immagine 2D+temporale, contenente frame consecutivi a risoluzione completa
- Definizione dell'Azione: a è la mappa di segmentazione corrispondente
- Rete di Politica: π:RH×W×T→[0,1]K×H×W×T, implementata basandosi su U-Net 3D
- Funzione di Ricompensa: r(s,a):R2×H×W×T→[0,1]H×W×T
- Funzione di Valore: Vπ(s):RH×W×T→[0,1]H×W×T
La funzione di vantaggio è definita come:
A(s,a)i,j,t=(minri,j,t∈Ri,j,tri,j,t−CKLi,j,t)−Vπ(s)i,j,t
dove l'operazione di minimo garantisce che la politica si corregga in base all'errore più grave per ogni pixel.
- Ricompensa Anatomica (rANAT): Rete adattiva che guida l'adattamento di dominio basandosi su metriche anatomiche
- Ricompensa di Punti di Riferimento (rLM): Ricompensa di allineamento per punti di riferimento anatomici critici come la commessura mitralica
- Penalità Temporale (PTemporal): Meccanismo di ricompensa statica che valuta la coerenza temporale attraverso 8 metriche temporali
- Utilizzo di 4 frame consecutivi a risoluzione completa come fetta temporale
- Estrazione casuale di frammenti durante l'addestramento, calcolo sequenziale durante l'inferenza con fusione a media gaussiana
- Sfruttamento della rete di ricompensa anatomica per fornire stima dell'incertezza a livello di pixel
- Calibrazione della temperatura per calibrare la confidenza del modello
- Ottimizzazione specifica per sequenza per video impegnativi
- Dominio Sorgente (DS): 579 video ecocardiografici completamente annotati dall'Ospedale Universitario di Lione, Francia
- Contiene viste apicali a quattro camere (A4C) e a due camere (A2C)
- Qualità dell'immagine buona, strutture anatomiche per lo più visibili
- Dominio Target (DT): 31.053 video eterogenei non annotati
- Provenienti da 357 centri ambulatoriali in 22 stati degli USA
- Contiene viste A4C e A2C
- Set di test: 128 video completi convalidati da esperti
- Qualità della Segmentazione: Coefficiente Dice, Distanza di Hausdorff (endocardio, epicardio)
- Validità Anatomica: Percentuale di validità basata su 10 standard anatomici
- Validità Temporale: Percentuale di coerenza basata sulla levigatezza di 8 attributi temporali
- Precisione dei Punti di Riferimento: Metrica "Errori per Ciclo (MpC)" per il punto di riferimento della commessura mitralica
- Metodi di Base: U-Net 3D, nnU-Net
- Modelli Fondamentali: MedSAM, SAMUS, MemSAM
- Adattamento di Dominio Non Supervisionato: MaskedSSL, UA-MT, RL4Seg(2D)
- Ambiente di Addestramento: Circa 32 GPU NVIDIA A100
- Tempo di Addestramento: Circa 2 giorni, incluse 2-3 iterazioni di ciclo RL
- Dimensione del Batch: 1 (a causa delle dimensioni di immagine variabili)
- Addestramento parallelo distribuito per migliorare l'efficienza
| Metodo | Dice(%) ↑ | Hausdorff(mm) ↓ | Validità Anatomica(%) ↑ | Validità Temporale(%) ↑ | Errore Punto di Riferimento MVC↓ |
|---|
| Variabilità tra Esperti | 94,9 | 4,6 | 100 | - | - |
| nnU-Net | 93,8 | 7,8 | 48,4 | 46,9 | 0,6 |
| MemSAM | 91,6 | 7,7 | 48,4 | 39,8 | 6,0 |
| MaskedSSL | 93,3 | 6,3 | 64,1 | 56,3 | 3,1 |
| RL4Seg3D | 94,2 | 4,9 | 96,9 | 85,9 | 1,1 |
| RL4Seg3D(OTT) | 94,2 | 4,7 | 99,2 | 93,0 | 1,0 |
- Solo Ricompensa Anatomica: Dice 93,5%, Validità Anatomica 98,4%
- Ricompensa Anatomica + Punti di Riferimento: Dice 94,2%, Errore di Punto di Riferimento ridotto significativamente a 1,1
- Aggiunta di Penalità Temporale: Validità Temporale migliorata a 88,3%
- Ottimizzazione al Momento del Test: Ulteriore miglioramento a 93,0% di validità temporale
- Coerenza Temporale: RL4Seg3D riduce significativamente i frame incoerenti rispetto ai metodi 2D (da 2,7 frame a 0,4 frame)
- Stima di Incertezza: L'errore di calibrazione atteso (ECE) della rete di ricompensa anatomica 3D è 0,054, superiore ai metodi di incertezza tradizionali
- Ottimizzazione al Momento del Test: Corregge con successo gli errori in 22 video inizialmente non validi, migliorando più metriche
- Apprendimento di Rappresentazioni: Ricostruzione mascherata, apprendimento contrastivo
- Metodi di Pseudo-Etichette: Auto-apprendimento, architetture insegnante-studente, soglie di confidenza
- Traduzione da Immagine a Immagine: Modelli di diffusione, metodi GAN
- Serie SAM: Applicazioni di MedSAM, SAMUS in immagini mediche
- Video SAM: MemSAM migliora la coerenza temporale attraverso moduli di memoria
- Rilevamento di Punti di Riferimento: Apprendimento per rinforzo profondo multi-scala
- RLHF: Apprendimento dal feedback umano, simile al metodo di addestramento di ChatGPT
- RL4Seg: Framework di apprendimento per rinforzo per segmentazione 2D
- RL4Seg3D raggiunge prestazioni ottimali su più metriche, avvicinandosi al limite superiore della variabilità tra esperti
- Il meccanismo di fusione di ricompense multiple migliora efficacemente diversi tipi di errori di segmentazione
- La convoluzione 3D e i vincoli temporali migliorano significativamente la coerenza temporale
- La stima dell'incertezza e l'ottimizzazione al momento del test migliorano ulteriormente l'utilità pratica del metodo
- Requisiti di Risorse Computazionali: Richiede notevoli risorse GPU per l'addestramento distribuito
- Limitazione della Dimensione del Batch: A causa delle dimensioni di immagine variabili, la dimensione del batch è limitata a 1
- Complessità Temporale: L'addestramento end-to-end richiede circa 2 giorni
- Errori Residui: Principalmente leggere incoerenze temporali causate da rapidi movimenti cardiaci
- Meccanismo di Ricompensa Temporale Più Completo: Gestione dei rapidi movimenti cardiaci
- Estensione a Dati Volumetrici: Segmentazione di immagini mediche 3D
- Fusione Multimodale: Combinazione di altre modalità di imaging medico
- Applicazioni in Tempo Reale: Ottimizzazione della velocità di inferenza per supportare applicazioni cliniche in tempo reale
- Innovazione del Metodo: Prima estensione dell'apprendimento per rinforzo alla segmentazione di immagini mediche 3D spazio-temporali, con design intelligente del meccanismo di fusione delle ricompense
- Completezza Sperimentale: Validazione su oltre 30.000 video, inclusi molteplici metodi di confronto e dettagliati esperimenti di ablazione
- Rilevanza Clinica: Attenzione a metriche clinicamente critiche come validità anatomica e coerenza temporale
- Completezza Tecnica: Fornisce stima dell'incertezza e ottimizzazione al momento del test come funzionalità pratiche
- Complessità Computazionale Elevata: Richiede notevoli risorse computazionali, che potrebbero limitare l'applicazione pratica
- Dipendenza dai Dati: Sebbene sia adattamento di dominio non supervisionato, richiede comunque annotazioni di alta qualità nel dominio sorgente
- Limitazioni di Valutazione: Il set di test è relativamente piccolo (128 video), che potrebbe influenzare la generalizzabilità dei risultati
- Complessità del Metodo: Il coordinamento di più componenti potrebbe aumentare la difficoltà di sintonizzazione dei parametri
- Contributo Accademico: Fornisce un nuovo paradigma di apprendimento per rinforzo per l'adattamento di dominio di immagini mediche
- Valore Pratico: Applicabile direttamente all'analisi clinica ecocardiografica
- Riproducibilità: Fornisce implementazione completa del codice
- Ispirazione: Fornisce un framework di riferimento per altri compiti di immagini mediche spazio-temporali
- Segmentazione di Immagini Mediche: Particolarmente per immagini mediche dinamiche che richiedono coerenza temporale
- Compiti di Adattamento di Dominio: Analisi di immagini mediche tra ospedali e dispositivi
- Controllo di Qualità: Utilizzo della stima dell'incertezza per valutazione automatica della qualità
- Diagnostica Clinica Assistita: Fornire risultati di segmentazione affidabili per supportare le decisioni cliniche
- Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
- Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
- Kirillov et al. "Segment anything." ICCV 2023.
- Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.
Sintesi: RL4Seg3D proposto in questo articolo rappresenta un importante contributo nel campo della segmentazione di immagini mediche, affrontando elegantemente il problema dell'adattamento di dominio per immagini mediche spazio-temporali attraverso un framework di apprendimento per rinforzo. Il metodo è innovativo dal punto di vista tecnico, la validazione sperimentale è completa e i risultati sono convincenti. Nonostante le limitazioni come l'elevata complessità computazionale, il suo potenziale nelle applicazioni cliniche e il suo ruolo nel promuovere lo sviluppo del settore non possono essere ignorati.