2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, Bajić
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

基本信息

  • 论文ID: 2510.10970
  • 标题: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
  • 作者: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
  • 分类: eess.IV (图像与视频处理)
  • 发表时间/会议: Picture Coding Symposium 2025, Aachen, Germany
  • 论文链接: https://arxiv.org/abs/2510.10970

摘要

主流图像和视频编码标准(包括H.266/VVC、AVS3和AV1等最新编解码器)采用基于块的混合编码框架。虽然该框架便于针对峰值信噪比(PSNR)进行直接优化,但在优化感知对齐指标(如多尺度结构相似性MS-SSIM)方面存在困难。为解决这一挑战,本文提出了一种低复杂度方法,通过从端到端图像压缩中转移比特分配知识来增强VVC帧内编码的感知质量。文章引入了一个使用感知损失训练的轻量级模型来生成量化步长图,该图隐式捕获块级感知重要性,使得能够有效推导VVC的QP图。在Kodak和CLIC数据集上的实验表明,该方案在执行时间和感知指标性能方面都具有显著优势,MS-SSIM的BD-rate降低超过11%。

研究背景与动机

核心问题

传统的基于块的视频编码标准(如VVC)在率失真优化(RDO)中主要针对MSE/PSNR进行优化,但这些指标与人类视觉感知质量的相关性较差。而感知对齐的指标(如SSIM、MS-SSIM、LPIPS)由于缺乏可加性和块独立性,难以在传统的块级RDO框架中有效应用。

问题重要性

  1. 感知质量与传统指标的差异:MSE/PSNR与人类视觉感知存在显著差距,优化这些指标并不能保证良好的主观质量
  2. 实际应用需求:现代视频应用对感知质量的要求越来越高,需要更好的感知优化方法
  3. 计算复杂度挑战:直接在传统编码器中优化复杂的感知指标计算成本过高

现有方法局限性

  1. 端到端压缩:虽然可以灵活优化感知指标,但与传统标准不兼容
  2. 传统感知优化方法:如PerceptQPA等方法效果有限
  3. 知识蒸馏方法:如Distillation方法需要运行编码器网络两次,计算复杂度过高

核心贡献

  1. 提出了低复杂度的比特分配转移方案:通过轻量级量化步长生成模型,将端到端图像压缩的感知比特分配知识转移到VVC编码器中
  2. 建立了量化步长与比特比率的线性关系:发现比特比率与量化步长的倒数呈线性关系,简化了QP映射的生成过程
  3. 显著降低了计算复杂度:相比现有的蒸馏方法,QP图生成时间减少到十分之一以下
  4. 在多个数据集上取得显著性能提升:MS-SSIM的BD-rate降低超过11%,同时保持更好的PSNR性能

方法详解

任务定义

给定输入图像,生成适用于VVC编码器的QP图,使得在相同比特率约束下,编码结果在感知指标(SSIM、MS-SSIM等)上获得更好的性能。

模型架构

整体框架

方法包含两个主要阶段:

  1. 训练阶段:使用感知损失训练量化步长生成模型
  2. 推理阶段:生成量化步长图并转换为VVC的QP图

量化步长生成模型

  • 架构设计:采用堆叠的残差块和步长为2的卷积层
  • 输出分辨率:与潜在特征相同(原图像下采样16倍)
  • 激活函数:使用softplus确保输出为正值:
    softplus(x) = ln(1 + e^x)
    

端到端图像压缩基础

基于主流的超先验设计,优化联合损失:

L = λD + R_main + R_hyper

其中λ控制率失真权衡,D为失真(MSE或感知指标),R_main和R_hyper分别对应量化潜在特征和超先验的比特率。

技术创新点

1. 量化步长到比特比率的映射

通过实验发现比特比率与量化步长倒数的线性关系:

r_k ≈ 1/QS_k

其中r_k为块k的比特比率,QS_k为对应的量化步长。

2. QP自适应算法

基于R-λ模型,块级QP计算公式为:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. 感知损失优化

训练三种感知变体:1-SSIM、1-MS-SSIM和LPIPS,联合损失函数为:

L = λ(αD_perc) + R_main + R_hyper

实验设置

数据集

  1. 训练数据:LIU4K数据集,包含607,714个从1,600张原始图像及其2×/4×双三次下采样版本中随机裁剪的256×256补丁
  2. 测试数据
    • Kodak图像集:24张图像,约0.35MP
    • CLIC 2022验证/测试图像:超过2MP

评价指标

  • 传统指标:RGB PSNR
  • 感知指标:SSIM、MS-SSIM、LPIPS
  • 综合评估:BD-rate(Bjøntegaard Delta Rate)

对比方法

  1. VTM-23.0:VVC参考软件基线
  2. PerceptQPA:基于高通滤波的QP自适应方法
  3. Distillation:知识蒸馏方法,需要运行编码器网络两次

实现细节

  • QP设置:QP ∈ {37, 32, 27, 22}进行率对齐
  • 最大QP偏移:限制为4以减轻块效应
  • 训练设置:使用Adam优化器,初始学习率1e-4,训练5个epoch
  • 超参数:α分别设置为0.02(SSIM)、0.08(MS-SSIM)、0.04(LPIPS)

实验结果

主要结果

Kodak数据集结果

方法PSNRSSIMMS-SSIMLPIPS
PerceptQPA2.85-4.26-11.86-11.96
Distillation (MS-SSIM)2.52-5.83-12.74-13.30
本文方法 (MS-SSIM)0.98-6.19-11.88-10.96

CLIC数据集结果

方法PSNRSSIMMS-SSIMLPIPS
PerceptQPA3.20-2.42-9.91-11.51
Distillation (MS-SSIM)7.55-3.61-10.24-11.97
本文方法 (MS-SSIM)2.46-5.91-11.26-10.88

消融实验

斜率参数影响

将斜率从1.0调整到1.2,可以实现更激进的QP自适应:

  • MS-SSIM优化:BD-rate从-11.88%提升到-12.47%
  • 但PSNR性能有所下降:从0.98%增加到2.24%

真实比特比率vs近似方法

使用真实比特比率相比倒数近似方法:

  • 感知指标性能略有下降
  • 但PSNR保持性能更好

计算复杂度分析

  • GPU环境:QP图生成仅需约20ms(Kodak图像)
  • CPU环境:约700ms
  • 相比Distillation:时间复杂度降低到十分之一以下

视觉质量评估

在QP 37下的视觉评估显示:

  • 结构区域:感知质量明显改善
  • 高纹理区域:在更低比特率下产生相似的感知质量
  • 整体效果与PerceptQPA和Distillation相似

相关工作

传统感知优化方法

  1. PerceptQPA:基于高通滤波的QP自适应,考虑人类视觉系统特性
  2. 基于JND的方法:利用刚刚可察觉差异进行比特分配

端到端图像压缩

  1. 超先验架构:Ballé等提出的变分图像压缩框架
  2. 感知优化:直接使用感知损失训练的端到端模型
  3. 块级结构:更贴近传统编码框架的端到端模型

知识转移方法

  1. 蒸馏方法:从端到端模型提取比特分配知识
  2. 特征转移:利用深度学习模型的中间表示

结论与讨论

主要结论

  1. 有效性:成功将端到端图像压缩的感知比特分配知识转移到VVC编码器
  2. 效率性:显著降低了计算复杂度,使方法具备实用性
  3. 通用性:方法对不同感知指标(SSIM、MS-SSIM)都有效

局限性

  1. LPIPS优化效果有限:深度感知指标的优化仍然存在挑战
  2. 仅限帧内编码:尚未扩展到视频编码的时域优化
  3. 架构差异:端到端模型与传统编码器的架构差异限制了知识转移效果

未来方向

  1. 视频编码扩展:结合时域信息进行感知优化
  2. 机器视觉任务:针对下游任务(如目标检测)的比特分配
  3. 架构对齐:采用更贴近传统编码框架的端到端模型

深度评价

优点

  1. 创新性强:提出了量化步长与比特比率的线性关系,简化了转移过程
  2. 实用价值高:大幅降低计算复杂度,使方法具备实际应用潜力
  3. 实验全面:在多个数据集和指标上进行了充分验证
  4. 性能优异:在保持PSNR性能的同时显著提升感知指标

不足

  1. 理论分析不足:缺乏对量化步长-比特比率线性关系的理论解释
  2. 适用范围有限:主要适用于SSIM和MS-SSIM,对LPIPS效果有限
  3. 参数敏感性:斜率等超参数需要手动调节
  4. 泛化能力:在不同类型图像上的泛化能力需要进一步验证

影响力

  1. 学术贡献:为传统编码器的感知优化提供了新思路
  2. 实用价值:低复杂度特性使其具备工业应用潜力
  3. 可复现性:方法描述清晰,实验设置详细

适用场景

  1. 视频流媒体:需要在有限带宽下提升感知质量的应用
  2. 图像压缩:对感知质量要求较高的图像存储和传输
  3. 实时应用:计算资源受限但需要感知优化的场景

参考文献

论文引用了20篇重要文献,涵盖了视频编码标准、感知质量评估、端到端压缩和知识转移等相关领域的核心工作,为研究提供了坚实的理论基础。