2025-11-19T18:28:14.904030

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Judge, Duchateau, Judge et al.

Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.

academic

시공간 심초음파 분할을 위한 강화학습 기반 비지도 도메인 적응

기본 정보

논문 ID: 2510.14244
제목: Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
저자: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
분류: eess.IV cs.AI cs.CV
게재 저널: IEEE Transactions on Medical Imaging (2025)
논문 링크: https://arxiv.org/abs/2510.14244
코드 링크: https://github.com/arnaudjudge/RL4Seg3D

초록

본 논문은 2D+시간 심초음파 분할을 위한 비지도 도메인 적응 프레임워크인 RL4Seg3D를 제안합니다. 본 방법은 강화학습을 통해 시공간 데이터의 도메인 적응 문제를 해결하며, 특히 심초음파에서 인공물과 잡음으로 인한 분할 성능 저하 문제를 다룹니다. RL4Seg3D는 새로운 보상 함수와 융합 메커니즘을 통합하여 전체 크기의 입력 비디오를 처리하면서 주요 해부학적 랜드마크의 정확도를 향상시킵니다. 본 방법은 정확성, 해부학적 타당성 및 시간적 일관성을 개선할 뿐만 아니라 테스트 시 분할 성능을 추가로 향상시킬 수 있는 강력한 불확실성 추정기를 제공합니다.

연구 배경 및 동기

문제 정의

도메인 적응 과제: 기존 도메인 적응 방법은 목표 도메인에서 신뢰성이 부족하며, 이는 의료 영상 분할에서 특히 중요합니다. 정확성과 해부학적 타당성이 필수적이기 때문입니다.
시공간 데이터 복잡성: 시공간 데이터에서 시간적 일관성의 부재는 분할 품질을 크게 저하시킵니다.
심초음파의 특수성: 심초음파의 인공물과 잡음은 분할 성능을 더욱 방해합니다.

연구의 중요성

의료 영상 분할은 대량의 전문가 주석이 필요하며, 획득 비용이 높고 시간이 많이 소요됩니다.
2D+시간 시퀀스의 주석은 정적 2D 이미지보다 훨씬 더 어렵습니다.
임상 응용은 높은 정확성과 해부학적 타당성을 요구합니다.

기존 방법의 한계

2D 방법의 시간적 불일치: 각 프레임을 독립적으로 처리하면 시간적 비연속성이 발생합니다.
다운샘플링으로 인한 정보 손실: 기존 방법은 일반적으로 저해상도 입력에서 작동합니다.
해부학적 제약 부재: 기존 방법은 해부학적 타당성을 보장하기 어렵습니다.
기초 모델의 한계: SAM 등의 모델은 비디오 분할에서 시간적 불일치 문제가 있습니다.

핵심 기여

강화학습 분할 프레임워크 확장: RL4Seg를 3D 시공간 분할로 확장하여 다중 동시 보상 메커니즘을 지원합니다.
전체 크기 비디오 처리: 완전한 크기의 입력 비디오에 대한 일관된 처리를 구현하며, 새로운 시간적 일관성 및 주요 랜드마크 정확도 보상 템플릿을 설계합니다.
향상된 불확실성 추정: 보상 네트워크의 불확실성 추정 능력을 확장하여 픽셀 수준의 시공간 분할 신뢰도 평가를 구현합니다.
테스트 시 최적화 메커니즘: 불확실성 추정을 활용하여 도전적인 비디오의 성능을 개선하는 테스트 시 최적화 메커니즘을 도입합니다.
대규모 검증: 30,000개 이상의 심초음파 비디오에서 방법의 효과성과 확장성을 검증합니다.

방법론 상세 설명

작업 정의

입력: 원본 도메인 주석 데이터 $D_S = \{(x_S^{(i)}, y_S^{(i)})\}_{i=1}^n$ 및 목표 도메인 비주석 데이터 $D_T = \{x_T^{(j)}\}_{j=1}^m$
출력: 목표 도메인에서 정확하고 해부학적으로 타당하며 시간적으로 일관된 분할 결과
제약: 목표 도메인 주석 불필요, 해부학적 타당성 및 시간적 일관성 유지

모델 아키텍처

3D 분할 강화학습 프레임워크

상태 정의: $s$ 는 2D+시간 이미지의 시간 슬라이스이며, 연속적인 전체 크기 프레임을 포함합니다.
행동 정의: $a$ 는 해당하는 연속 분할 맵입니다.
정책 네트워크: $\pi: \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{K \times H \times W \times T}$ , 3D U-Net을 기반으로 구현됩니다.
보상 함수: $r(s,a): \mathbb{R}^{2 \times H \times W \times T} \rightarrow [0,1]^{H \times W \times T}$
가치 함수: $V^\pi(s): \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{H \times W \times T}$

보상 융합 메커니즘

이점 함수는 다음과 같이 정의됩니다: $A(s,a)_{i,j,t} = \left(\min_{r_{i,j,t} \in R_{i,j,t}} r_{i,j,t} - C_{KL_{i,j,t}}\right) - V^\pi(s)_{i,j,t}$

여기서 최솟값 연산을 사용하여 정책이 각 픽셀의 가장 심각한 오류에 따라 수정되도록 합니다.

기술적 혁신 사항

1. 다중 보상 메커니즘

해부학적 보상 ( $r_{ANAT}$ ): 자적응 네트워크로, 해부학적 지표를 기반으로 도메인 적응을 안내합니다.
랜드마크 보상 ( $r_{LM}$ ): 이첨판 교합 등 주요 해부학적 랜드마크의 정렬 보상입니다.
시간적 페널티 ( $P_{Temporal}$ ): 정적 보상 메커니즘으로, 8개의 시간 지표를 통해 시간적 일관성을 평가합니다.

2. 시간적 슬라이딩 윈도우

연속적인 4개의 전체 크기 프레임을 시간 슬라이스로 사용합니다.
훈련 중에는 무작위로 슬라이스를 추출하고, 추론 중에는 순차적으로 계산하여 가우시안 평균으로 융합합니다.

3. 불확실성 추정 및 테스트 시 최적화

해부학적 보상 네트워크를 활용하여 픽셀 수준의 불확실성 추정을 제공합니다.
온도 스케일링으로 모델 신뢰도를 보정합니다.
도전적인 비디오에 대한 시퀀스 특이적 최적화를 수행합니다.

실험 설정

데이터셋

원본 도메인 ( $D_S$ $D_{S}$ ): 579개의 완전히 주석된 심초음파 비디오, 프랑스 리옹 대학 병원 출처
- 심첨 4실 절단면(A4C) 및 2실 절단면(A2C) 포함
- 이미지 품질 우수, 대부분의 해부학적 구조가 가시적
목표 도메인 ( $D_T$ $D_{T}$ ): 31,053개의 비주석 이질적 비디오
- 미국 22개 주의 357개 외래 센터 출처
- A4C 및 A2C 절단면 포함
- 테스트 세트: 128개의 전문가 검증 완전 비디오

평가 지표

분할 품질: Dice 계수, Hausdorff 거리(심내막, 심외막)
해부학적 타당성: 10개 해부학적 기준을 기반으로 한 타당성 백분율
시간적 타당성: 8개 시간 속성 평활성을 기반으로 한 일관성 백분율
랜드마크 정확도: 이첨판 교합 랜드마크의 "주기당 오류 수(MpC)" 지표

비교 방법

기준선 방법: 3D U-Net, nnU-Net
기초 모델: MedSAM, SAMUS, MemSAM
비지도 도메인 적응: MaskedSSL, UA-MT, RL4Seg(2D)

구현 세부사항

훈련 환경: 약 32개의 NVIDIA A100 GPU
훈련 시간: 약 2일, 2-3회의 RL 순환 반복 포함
배치 크기: 1(변화하는 이미지 크기로 인해)
분산 병렬 훈련으로 효율성 향상

실험 결과

주요 결과

방법	Dice(%) ↑	Hausdorff(mm) ↓	해부학적 타당성(%) ↑	시간적 타당성(%) ↑	MVC 랜드마크 오류↓
전문가 간 변이성	94.9	4.6	100	-	-
nnU-Net	93.8	7.8	48.4	46.9	0.6
MemSAM	91.6	7.7	48.4	39.8	6.0
MaskedSSL	93.3	6.3	64.1	56.3	3.1
RL4Seg3D	94.2	4.9	96.9	85.9	1.1
RL4Seg3D(TTO)	94.2	4.7	99.2	93.0	1.0

절제 실험

해부학적 보상만: Dice 93.5%, 해부학적 타당성 98.4%
해부학적 + 랜드마크 보상: Dice 94.2%, 랜드마크 오류 1.1로 크게 감소
시간적 페널티 추가: 시간적 타당성 88.3%로 향상
테스트 시 최적화: 시간적 타당성 93.0%로 추가 향상

사례 분석

시간적 일관성: RL4Seg3D는 2D 방법 대비 시간적 불일치 프레임 수를 크게 감소(2.7프레임에서 0.4프레임으로)
불확실성 추정: 3D 해부학적 보상 네트워크의 예상 보정 오류(ECE)는 0.054로 기존 불확실성 방법보다 우수
테스트 시 최적화: 초기 무효 비디오 22개 중 오류 수정 성공, 여러 지표 향상

결론 및 논의

주요 결론

RL4Seg3D는 여러 지표에서 최적 성능을 달성하여 전문가 간 변이성 상한에 근접합니다.
다중 보상 융합 메커니즘은 다양한 유형의 분할 오류를 효과적으로 개선합니다.
3D 합성곱과 시간적 제약은 시간적 일관성을 크게 향상시킵니다.
불확실성 추정과 테스트 시 최적화는 방법의 실용성을 추가로 향상시킵니다.

한계

계산 자원 요구: 분산 훈련을 위해 대량의 GPU가 필요합니다.
배치 크기 제한: 변화하는 이미지 크기로 인해 배치 크기가 1로 제한됩니다.
시간 복잡도: 엔드-투-엔드 훈련에 약 2일이 소요됩니다.
남은 오류: 주로 빠른 심장 운동으로 인한 경미한 시간적 불일치입니다.

향후 방향

더 포괄적인 시간 보상 메커니즘: 빠른 심장 운동 처리
체적 데이터로 확장: 3D 의료 영상 분할
다중 모달 융합: 다른 의료 영상 모달리티와의 결합
실시간 응용: 임상 실시간 응용을 지원하기 위한 추론 속도 최적화

심층 평가

장점

방법의 혁신성: 강화학습을 3D 시공간 의료 영상 분할로 처음 확장하며, 정교한 보상 융합 메커니즘을 설계합니다.
실험의 충분성: 30,000개 이상의 비디오에서 검증하며, 다양한 비교 방법과 상세한 절제 실험을 포함합니다.
임상 관련성: 해부학적 타당성, 시간적 일관성 등 임상 핵심 지표에 주목합니다.
기술적 완성도: 불확실성 추정 및 테스트 시 최적화 등 실용적 기능을 제공합니다.

부족한 점

높은 계산 복잡도: 대량의 계산 자원이 필요하여 실제 응용을 제한할 수 있습니다.
데이터 의존성: 비지도 도메인 적응이지만 여전히 원본 도메인의 고품질 주석이 필요합니다.
평가의 한계: 테스트 세트가 상대적으로 작음(128개 비디오)으로 결과의 일반화 가능성에 영향을 미칠 수 있습니다.
방법의 복잡성: 여러 구성 요소의 조정이 필요하여 하이퍼파라미터 튜닝 난이도가 증가할 수 있습니다.

영향력

학술적 기여: 의료 영상 도메인 적응을 위한 새로운 강화학습 패러다임을 제공합니다.
실용적 가치: 임상 심초음파 분석에 직접 적용 가능합니다.
재현성: 완전한 코드 구현을 제공합니다.
영감: 다른 시공간 의료 영상 작업에 참고 프레임워크를 제공합니다.

적용 시나리오

의료 영상 분할: 특히 시간적 일관성이 필요한 동적 의료 영상
도메인 적응 작업: 병원 간, 장비 간 의료 영상 분석
품질 관리: 불확실성 추정을 활용한 자동 품질 평가
임상 보조 진단: 임상 의사결정을 지원하는 신뢰할 수 있는 분할 결과 제공

참고 문헌

Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
Kirillov et al. "Segment anything." ICCV 2023.
Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.

요약: 본 논문에서 제안한 RL4Seg3D는 의료 영상 분할 분야의 중요한 기여로, 강화학습 프레임워크를 통해 시공간 의료 영상의 도메인 적응 문제를 정교하게 해결합니다. 방법은 기술적으로 혁신적이며, 실험 검증이 충분하고, 결과가 설득력 있습니다. 높은 계산 복잡도 등의 한계가 있지만, 임상 응용에서의 잠재력과 분야 발전에 대한 추진력은 무시할 수 없습니다.