2025-11-18T18:37:13.503826

Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion

Zhang, Cheng

Thanks to the recent achievements in task-driven image quality enhancement (IQE) models like ESTR, the image enhancement model and the visual recognition model can mutually enhance each other's quantitation while producing high-quality processed images that are perceivable by our human vision systems. However, existing task-driven IQE models tend to overlook an underlying fact -- different levels of vision tasks have varying and sometimes conflicting requirements of image features. To address this problem, this paper proposes a generalized gradient promotion (GradProm) training strategy for task-driven IQE of medical images. Specifically, we partition a task-driven IQE system into two sub-models, i.e., a mainstream model for image enhancement and an auxiliary model for visual recognition. During training, GradProm updates only parameters of the image enhancement model using gradients of the visual recognition model and the image enhancement model, but only when gradients of these two sub-models are aligned in the same direction, which is measured by their cosine similarity. In case gradients of these two sub-models are not in the same direction, GradProm only uses the gradient of the image enhancement model to update its parameters. Theoretically, we have proved that the optimization direction of the image enhancement model will not be biased by the auxiliary visual recognition model under the implementation of GradProm. Empirically, extensive experimental results on four public yet challenging medical image datasets demonstrated the superior performance of GradProm over existing state-of-the-art methods.

academic

Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion

基本信息

论文ID: 2501.01114
标题: Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion
作者: Dong Zhang, Kwang-Ting Cheng
分类: cs.CV (Computer Vision)
发表时间/会议: arXiv preprint, 2025年1月2日
论文链接: https://arxiv.org/abs/2501.01114

摘要

本文针对任务驱动的医学图像质量增强问题，提出了一种广义梯度促进(GradProm)训练策略。虽然现有的任务驱动图像质量增强模型(如ESTR)能够实现图像增强模型和视觉识别模型的相互促进，但它们忽略了一个重要事实：不同层次的视觉任务对图像特征有着不同且有时相互冲突的需求。为解决这一问题，本文将任务驱动IQE系统划分为两个子模型：主流的图像增强模型和辅助的视觉识别模型。GradProm仅在两个子模型的梯度方向一致时才使用两者的梯度更新图像增强模型参数，否则仅使用图像增强模型自身的梯度。理论上证明了该方法能确保图像增强模型的优化方向不被辅助视觉识别模型偏置，实验结果在四个公开医学图像数据集上验证了其优越性。

研究背景与动机

问题定义

医学图像分析在现代医疗系统中发挥着越来越重要的作用，能够帮助医生可视化内部解剖结构并评估疾病进展。图像质量对医学图像分析至关重要，更高质量的图像通常能产生更准确的识别性能。

现有方法的局限性

感知导向方法的问题：传统的感知导向医学图像处理方法主要追求接近人类视觉感知的高质量表现，但这种增强的视觉感知图像质量并不等同于下游视觉识别模型获得的有益信息。
任务驱动方法的缺陷：现有的任务驱动IQE方法虽然能联合训练图像增强模型和视觉识别模型，但忽略了一个重要事实——不同层次的计算机视觉任务对图像特征有着不同且有时相互冲突的需求。

研究动机

如图2所示，在同一输入图像下，去噪任务关注图像的所有区域，语义分割任务关注前景对象区域，而诊断任务则关注前景对象的判别性局部区域。这种特征需求的不一致性导致上游图像增强模型和下游视觉识别模型之间存在潜在冲突，从而影响性能。

核心贡献

提出了任务驱动医学IQE的新范式：明确将系统分为主流图像增强模型和辅助视觉识别模型两个子模型
设计了GradProm训练策略：一种简单而有效的广义训练策略，能够动态训练两个子模型并实现持续的性能改进，无需额外数据或网络架构变更
提供了理论证明：证明了GradProm能够收敛到局部最优解而不被辅助视觉识别模型偏置
全面的实验验证：在四个公开医学图像数据集上进行了广泛实验，证明了GradProm在IQE任务上达到了最先进的性能

L_total = L_IP + λL_VR

其中L_IP为图像增强损失，L_VR为视觉识别损失，λ为平衡超参数。

GradProm核心思想

GradProm的核心理念是将任务驱动医学IQE系统明确划分为：

主流模型：图像增强模型IP（参数θ）
辅助模型：视觉识别模型VR（参数φ）

梯度促进策略

GradProm根据两个子模型梯度的余弦相似度s = cos(G_IP, G_VR)来动态调整训练目标：

情况1：当s ≥ 0时（梯度方向一致）

G_T = [∇_θ(L_IP(θ) + λL_VR(φ)); ∇_φL_VR(φ)]

情况2：当s < 0时（梯度方向不一致）

G_T = [∇_θ(L_IP(θ)); ∇_φL_VR(φ)]

理论分析

引理3.1：GradProm能够通过以下更新规则实现局部最小值：

θ^(t+1)_T := θ^t_T - α_t(G^t_IP + G^t_VR * max(0, cos(G^t_IP, G^t_VR)))

证明要点：通过证明更新方向与主流模型梯度的内积非负，确保了优化方向的正确性，防止辅助模型引入偏置。

实验设置

数据集

ISIC 2018：皮肤病变数据集，2,594张RGB图像，分辨率600×450
COVID-CT：CT数据集，349张COVID-19阳性和397张阴性CT图像
Lizard：238张PNG图像，包含6种核细胞类别
CAMUS：超声心动图数据集，500名患者的2D超声图像

实验任务

图像增强任务：去噪、超分辨率
视觉识别任务：诊断（分类）、语义分割

基线方法

Benchmark-i：仅使用SR-ResNet进行图像增强
Benchmark-ii/iii：纯ResNet用于诊断/UNet用于分割
Joint Training：联合训练策略
Frozen-params Training：冻结VR参数的训练策略（ESTR方法）

评价指标

图像质量：PSNR、SSIM
识别性能：准确率（诊断）、mIoU（分割）

噪声σ=0.1	PSNR↑	SSIM↑
Frozen-params	32.152	0.906
GradProm	33.383	0.915

GradProm在各种噪声水平下均优于基线方法，例如在σ=0.1时相比Frozen-params方法提升1.231 PSNR和0.009 SSIM。

与最先进方法的对比

表5展示了在ISIC 2018上与SOTA方法的对比：

方法	σ=0.1 PSNR	σ=0.2 PSNR	σ=0.3 PSNR
ESTR (ResNet-101)	33.723	25.925	20.163
ADAP	34.858	24.926	20.373
GradProm (ResNet-101)	36.173	28.024	23.703

可视化结果：GradProm生成的图像在去除噪声的同时更好地保持了前景对象的完整性
类激活图分析：GradProm的CAM更专注于前景对象区域，验证了辅助任务的有效性

结论与讨论

主要结论

GradProm能够有效解决任务驱动IQE中不同模型特征需求冲突的问题
通过动态梯度选择机制，确保主流图像增强模型不被辅助模型偏置
在多个医学图像数据集上达到了最先进的性能
方法具有良好的泛化性，适用于不同的医学图像模态

局限性

计算开销：虽然推理时无额外开销，但训练时需要计算梯度相似度
适用范围：主要针对医学图像领域，在其他领域的有效性需要进一步验证
极端场景：在图像质量严重退化的情况下，性能提升有限

未来方向

扩展应用：将GradProm扩展到其他任务驱动训练过程，如多目标学习、任务驱动数据增强
医学应用：探索在医学图像配准和重建等其他医学图像分析任务中的应用
技术融合：研究GradProm与迁移学习、域适应等技术的结合

深度评价

优点

问题洞察深刻：准确识别了现有任务驱动方法的核心问题——不同任务特征需求的冲突
方法设计巧妙：通过梯度余弦相似度简单而有效地解决了梯度冲突问题
理论基础扎实：提供了严格的数学证明，确保方法的理论正确性
实验全面充分：在多个数据集、多种任务、多种设置下进行了全面验证
实用价值高：无需修改网络架构或增加推理开销，易于实际应用

不足

梯度计算开销：需要额外计算梯度相似度，增加了训练时间
阈值设置简单：仅使用0作为阈值可能过于粗糙，更细粒度的策略可能带来更好效果
跨域验证有限：虽然在医学图像不同模态间验证了泛化性，但跨领域验证不足
对比方法选择：部分对比方法可能不是最新的SOTA方法

影响力

学术价值：为任务驱动学习领域提供了新的思路和方法
实用价值：对医学图像处理具有重要应用价值
可复现性：方法描述清晰，实现相对简单，具有良好的可复现性
启发意义：梯度冲突的解决思路可能启发其他多任务学习问题的研究

适用场景

医学图像处理：各种医学图像模态的质量增强任务
多任务学习：存在主辅任务关系且任务间可能存在冲突的场景
图像增强：需要结合下游任务的图像质量提升应用
辅助学习：需要利用辅助任务提升主任务性能的场景

参考文献

论文引用了丰富的相关工作，主要包括：

ESTR 1 - 任务驱动图像质量增强的代表性工作
ResNet 6 - 经典的深度学习架构
UNet 39 - 医学图像分割的经典方法
多个医学图像数据集的相关论文 40-43

总体评价：这是一篇高质量的计算机视觉领域论文，针对任务驱动医学图像质量增强中的关键问题提出了创新性解决方案。方法简单有效，理论基础扎实，实验验证充分，具有重要的学术价值和实用价值。