2025-11-19T18:28:14.904030

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Judge, Duchateau, Judge et al.
Domain adaptation methods aim to bridge the gap between datasets by enabling knowledge transfer across domains, reducing the need for additional expert annotations. However, many approaches struggle with reliability in the target domain, an issue particularly critical in medical image segmentation, where accuracy and anatomical validity are essential. This challenge is further exacerbated in spatio-temporal data, where the lack of temporal consistency can significantly degrade segmentation quality, and particularly in echocardiography, where the presence of artifacts and noise can further hinder segmentation performance. To address these issues, we present RL4Seg3D, an unsupervised domain adaptation framework for 2D + time echocardiography segmentation. RL4Seg3D integrates novel reward functions and a fusion scheme to enhance key landmark precision in its segmentations while processing full-sized input videos. By leveraging reinforcement learning for image segmentation, our approach improves accuracy, anatomical validity, and temporal consistency while also providing, as a beneficial side effect, a robust uncertainty estimator, which can be used at test time to further enhance segmentation performance. We demonstrate the effectiveness of our framework on over 30,000 echocardiographic videos, showing that it outperforms standard domain adaptation techniques without the need for any labels on the target domain. Code is available at https://github.com/arnaudjudge/RL4Seg3D.
academic

Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

基本信息

  • 论文ID: 2510.14244
  • 标题: Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation
  • 作者: Arnaud Judge, Nicolas Duchateau, Thierry Judge, Roman A. Sandler, Joseph Z. Sokol, Christian Desrosiers, Olivier Bernard, Pierre-Marc Jodoin
  • 分类: eess.IV cs.AI cs.CV
  • 发表期刊: IEEE Transactions on Medical Imaging (2025)
  • 论文链接: https://arxiv.org/abs/2510.14244
  • 代码链接: https://github.com/arnaudjudge/RL4Seg3D

摘要

本文提出了RL4Seg3D,一个用于2D+时间超声心动图分割的无监督域适应框架。该方法通过强化学习解决了时空数据中的域适应问题,特别是在超声心动图中由于伪影和噪声导致的分割性能下降。RL4Seg3D集成了新颖的奖励函数和融合机制,在处理全尺寸输入视频的同时增强关键解剖标志的精度。该方法不仅提高了准确性、解剖有效性和时间一致性,还提供了强大的不确定性估计器,可在测试时进一步增强分割性能。

研究背景与动机

问题定义

  1. 域适应挑战:传统域适应方法在目标域的可靠性不足,这在医学图像分割中尤为关键,因为准确性和解剖有效性至关重要
  2. 时空数据复杂性:在时空数据中,时间一致性的缺乏会显著降低分割质量
  3. 超声心动图特殊性:超声心动图中的伪影和噪声进一步阻碍了分割性能

研究重要性

  • 医学图像分割需要大量专家标注,获取成本高昂且耗时
  • 2D+时间序列的标注比静态2D图像更加困难
  • 临床应用要求高精度和解剖学有效性

现有方法局限性

  1. 2D方法的时间不一致性:独立处理每帧导致时间不连贯
  2. 下采样信息丢失:现有方法通常在低分辨率输入上工作
  3. 缺乏解剖学约束:传统方法难以保证解剖学有效性
  4. 基础模型的局限性:SAM等模型在视频分割中存在时间不一致问题

核心贡献

  1. 扩展强化学习分割框架:将RL4Seg扩展到3D时空分割,支持多重同时奖励机制
  2. 全尺寸视频处理:实现对完整尺寸输入视频的连贯处理,设计了新的时间一致性和关键地标精度奖励模板
  3. 增强不确定性估计:扩展了奖励网络的不确定性估计能力,实现像素级时空分割的置信度评估
  4. 测试时优化机制:引入利用不确定性估计改善挑战性视频性能的测试时优化机制
  5. 大规模验证:在超过30,000个超声心动图视频上验证了方法的有效性和可扩展性

方法详解

任务定义

  • 输入:源域标注数据 DS={(xS(i),yS(i))}i=1nD_S = \{(x_S^{(i)}, y_S^{(i)})\}_{i=1}^n 和目标域无标注数据 DT={xT(j)}j=1mD_T = \{x_T^{(j)}\}_{j=1}^m
  • 输出:在目标域上准确、解剖学有效且时间一致的分割结果
  • 约束:无需目标域标注,保持解剖学有效性和时间连贯性

模型架构

3D分割强化学习框架

  1. 状态定义ss 为2D+时间图像的时间片段,包含连续的全尺寸帧
  2. 动作定义aa 为对应的连续分割图
  3. 策略网络π:RH×W×T[0,1]K×H×W×T\pi: \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{K \times H \times W \times T},基于3D U-Net实现
  4. 奖励函数r(s,a):R2×H×W×T[0,1]H×W×Tr(s,a): \mathbb{R}^{2 \times H \times W \times T} \rightarrow [0,1]^{H \times W \times T}
  5. 价值函数Vπ(s):RH×W×T[0,1]H×W×TV^\pi(s): \mathbb{R}^{H \times W \times T} \rightarrow [0,1]^{H \times W \times T}

奖励融合机制

优势函数定义为: A(s,a)i,j,t=(minri,j,tRi,j,tri,j,tCKLi,j,t)Vπ(s)i,j,tA(s,a)_{i,j,t} = \left(\min_{r_{i,j,t} \in R_{i,j,t}} r_{i,j,t} - C_{KL_{i,j,t}}\right) - V^\pi(s)_{i,j,t}

其中使用最小值操作确保策略根据每个像素最严重的错误进行修正。

技术创新点

1. 多重奖励机制

  • 解剖学奖励 (rANATr_{ANAT}):自适应网络,基于解剖学指标指导域适应
  • 地标奖励 (rLMr_{LM}):针对二尖瓣连合等关键解剖标志的对齐奖励
  • 时间惩罚 (PTemporalP_{Temporal}):静态奖励机制,通过8个时间指标评估时间一致性

2. 时间滑动窗口

  • 使用4帧连续的全尺寸帧作为时间片段
  • 训练时随机提取片段,推理时顺序计算并高斯平均融合

3. 不确定性估计与测试时优化

  • 利用解剖学奖励网络提供像素级不确定性估计
  • 温度缩放校准模型置信度
  • 针对挑战性视频的序列特异性优化

实验设置

数据集

  1. 源域 (DSD_S):579个完全标注的超声心动图视频,来自法国里昂大学医院
    • 包含心尖四腔心切面(A4C)和二腔心切面(A2C)
    • 图像质量良好,解剖结构大多可见
  2. 目标域 (DTD_T):31,053个无标注异构视频
    • 来自美国22个州357个门诊中心
    • 包含A4C和A2C切面
    • 测试集:128个专家验证的完整视频

评价指标

  1. 分割质量:Dice系数、Hausdorff距离(心内膜、心外膜)
  2. 解剖学有效性:基于10个解剖学标准的有效性百分比
  3. 时间有效性:基于8个时间属性平滑性的一致性百分比
  4. 地标精度:二尖瓣连合地标的"每周期错误数(MpC)"指标

对比方法

  • 基线方法:3D U-Net、nnU-Net
  • 基础模型:MedSAM、SAMUS、MemSAM
  • 无监督域适应:MaskedSSL、UA-MT、RL4Seg(2D)

实现细节

  • 训练环境:约32个NVIDIA A100 GPU
  • 训练时间:约2天,包含2-3次RL循环迭代
  • 批次大小:1(由于变化的图像尺寸)
  • 分布式并行训练提高效率

实验结果

主要结果

方法Dice(%) ↑Hausdorff(mm) ↓解剖有效性(%) ↑时间有效性(%) ↑MVC地标错误↓
专家间变异性94.94.6100--
nnU-Net93.87.848.446.90.6
MemSAM91.67.748.439.86.0
MaskedSSL93.36.364.156.33.1
RL4Seg3D94.24.996.985.91.1
RL4Seg3D(TTO)94.24.799.293.01.0

消融实验

  1. 仅解剖学奖励:Dice 93.5%,解剖有效性 98.4%
  2. 解剖学+地标奖励:Dice 94.2%,地标错误显著降低至1.1
  3. 加入时间惩罚:时间有效性提升至88.3%
  4. 测试时优化:进一步提升至93.0%的时间有效性

案例分析

  • 时间一致性:RL4Seg3D相比2D方法显著减少了时间不一致帧数(从2.7帧降至0.4帧)
  • 不确定性估计:3D解剖学奖励网络的期望校准误差(ECE)为0.054,优于传统不确定性方法
  • 测试时优化:在22个初始无效视频中成功修正错误,提升多项指标

相关工作

无监督域适应方法

  1. 表示学习:掩码重建、对比学习
  2. 伪标签方法:自学习、师生架构、置信度阈值
  3. 图像到图像转换:扩散模型、GAN方法

基础模型

  1. SAM系列:MedSAM、SAMUS在医学图像中的应用
  2. 视频SAM:MemSAM通过记忆模块改善时间一致性

强化学习在医学图像中的应用

  1. 地标检测:多尺度深度强化学习
  2. RLHF:从人类反馈中学习,类似ChatGPT的训练方式
  3. RL4Seg:2D分割的强化学习框架

结论与讨论

主要结论

  1. RL4Seg3D在多项指标上达到了最优性能,接近专家间变异性上界
  2. 多重奖励融合机制有效改善了不同类型的分割错误
  3. 3D卷积和时间约束显著提升了时间一致性
  4. 不确定性估计和测试时优化进一步增强了方法的实用性

局限性

  1. 计算资源需求:需要大量GPU进行分布式训练
  2. 批次大小限制:由于变化的图像尺寸,批次大小受限为1
  3. 时间复杂度:端到端训练需要约2天时间
  4. 剩余错误:主要为快速心脏运动导致的轻微时间不一致

未来方向

  1. 更全面的时间奖励机制:处理快速心脏运动
  2. 扩展到体积数据:3D医学图像分割
  3. 多模态融合:结合其他医学成像模态
  4. 实时应用:优化推理速度以支持临床实时应用

深度评价

优点

  1. 方法创新性:首次将强化学习扩展到3D时空医学图像分割,设计了巧妙的奖励融合机制
  2. 实验充分性:在超过30,000个视频上验证,包含多种对比方法和详细的消融实验
  3. 临床相关性:关注解剖学有效性、时间一致性等临床关键指标
  4. 技术完整性:提供了不确定性估计和测试时优化等实用功能

不足

  1. 计算复杂度高:需要大量计算资源,可能限制实际应用
  2. 数据依赖性:虽然是无监督域适应,但仍需要源域的高质量标注
  3. 评估局限性:测试集相对较小(128个视频),可能影响结果的泛化性
  4. 方法复杂性:多个组件的协调可能增加调参难度

影响力

  1. 学术贡献:为医学图像的域适应提供了新的强化学习范式
  2. 实用价值:可直接应用于临床超声心动图分析
  3. 可复现性:提供了完整的代码实现
  4. 启发性:为其他时空医学图像任务提供了参考框架

适用场景

  1. 医学图像分割:特别是需要时间一致性的动态医学图像
  2. 域适应任务:跨医院、跨设备的医学图像分析
  3. 质量控制:利用不确定性估计进行自动质量评估
  4. 临床辅助诊断:提供可靠的分割结果支持临床决策

参考文献

  1. Judge et al. "Domain adaptation of echocardiography segmentation via reinforcement learning." MICCAI 2024.
  2. Painchaud et al. "Echocardiography segmentation with enforced temporal consistency." IEEE TMI 2022.
  3. Kirillov et al. "Segment anything." ICCV 2023.
  4. Isensee et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature Methods 2021.

总结:本文提出的RL4Seg3D是医学图像分割领域的重要贡献,通过强化学习框架巧妙地解决了时空医学图像的域适应问题。方法在技术上具有创新性,实验验证充分,结果令人信服。尽管存在计算复杂度高等局限性,但其在临床应用中的潜力和对领域发展的推动作用不容忽视。