2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

基本信息

论文ID: 2510.10970
标题: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
作者: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
分类: eess.IV (图像与视频处理)
发表时间/会议: Picture Coding Symposium 2025, Aachen, Germany
论文链接: https://arxiv.org/abs/2510.10970

摘要

主流图像和视频编码标准（包括H.266/VVC、AVS3和AV1等最新编解码器）采用基于块的混合编码框架。虽然该框架便于针对峰值信噪比(PSNR)进行直接优化，但在优化感知对齐指标（如多尺度结构相似性MS-SSIM）方面存在困难。为解决这一挑战，本文提出了一种低复杂度方法，通过从端到端图像压缩中转移比特分配知识来增强VVC帧内编码的感知质量。文章引入了一个使用感知损失训练的轻量级模型来生成量化步长图，该图隐式捕获块级感知重要性，使得能够有效推导VVC的QP图。在Kodak和CLIC数据集上的实验表明，该方案在执行时间和感知指标性能方面都具有显著优势，MS-SSIM的BD-rate降低超过11%。

感知质量与传统指标的差异：MSE/PSNR与人类视觉感知存在显著差距，优化这些指标并不能保证良好的主观质量
实际应用需求：现代视频应用对感知质量的要求越来越高，需要更好的感知优化方法
计算复杂度挑战：直接在传统编码器中优化复杂的感知指标计算成本过高

现有方法局限性

端到端压缩：虽然可以灵活优化感知指标，但与传统标准不兼容
传统感知优化方法：如PerceptQPA等方法效果有限
知识蒸馏方法：如Distillation方法需要运行编码器网络两次，计算复杂度过高

核心贡献

提出了低复杂度的比特分配转移方案：通过轻量级量化步长生成模型，将端到端图像压缩的感知比特分配知识转移到VVC编码器中
建立了量化步长与比特比率的线性关系：发现比特比率与量化步长的倒数呈线性关系，简化了QP映射的生成过程
显著降低了计算复杂度：相比现有的蒸馏方法，QP图生成时间减少到十分之一以下
在多个数据集上取得显著性能提升：MS-SSIM的BD-rate降低超过11%，同时保持更好的PSNR性能

训练阶段：使用感知损失训练量化步长生成模型
推理阶段：生成量化步长图并转换为VVC的QP图

量化步长生成模型

架构设计：采用堆叠的残差块和步长为2的卷积层
输出分辨率：与潜在特征相同（原图像下采样16倍）
激活函数：使用softplus确保输出为正值：
```
softplus(x) = ln(1 + e^x)
```

端到端图像压缩基础

基于主流的超先验设计，优化联合损失：

L = λD + R_main + R_hyper

其中λ控制率失真权衡，D为失真（MSE或感知指标），R_main和R_hyper分别对应量化潜在特征和超先验的比特率。

技术创新点

1. 量化步长到比特比率的映射

通过实验发现比特比率与量化步长倒数的线性关系：

r_k ≈ 1/QS_k

其中r_k为块k的比特比率，QS_k为对应的量化步长。

2. QP自适应算法

基于R-λ模型，块级QP计算公式为：

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. 感知损失优化

训练三种感知变体：1-SSIM、1-MS-SSIM和LPIPS，联合损失函数为：

L = λ(αD_perc) + R_main + R_hyper

实验设置

数据集

训练数据：LIU4K数据集，包含607,714个从1,600张原始图像及其2×/4×双三次下采样版本中随机裁剪的256×256补丁
测试数据：
- Kodak图像集：24张图像，约0.35MP
- CLIC 2022验证/测试图像：超过2MP

评价指标

传统指标：RGB PSNR
感知指标：SSIM、MS-SSIM、LPIPS
综合评估：BD-rate（Bjøntegaard Delta Rate）

对比方法

VTM-23.0：VVC参考软件基线
PerceptQPA：基于高通滤波的QP自适应方法
Distillation：知识蒸馏方法，需要运行编码器网络两次

实现细节

QP设置：QP ∈ {37, 32, 27, 22}进行率对齐
最大QP偏移：限制为4以减轻块效应
训练设置：使用Adam优化器，初始学习率1e-4，训练5个epoch
超参数：α分别设置为0.02（SSIM）、0.08（MS-SSIM）、0.04（LPIPS）

方法	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	2.85	-4.26	-11.86	-11.96
Distillation (MS-SSIM)	2.52	-5.83	-12.74	-13.30
本文方法 (MS-SSIM)	0.98	-6.19	-11.88	-10.96

CLIC数据集结果

方法	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	3.20	-2.42	-9.91	-11.51
Distillation (MS-SSIM)	7.55	-3.61	-10.24	-11.97
本文方法 (MS-SSIM)	2.46	-5.91	-11.26	-10.88

消融实验

斜率参数影响

将斜率从1.0调整到1.2，可以实现更激进的QP自适应：

MS-SSIM优化：BD-rate从-11.88%提升到-12.47%
但PSNR性能有所下降：从0.98%增加到2.24%

真实比特比率vs近似方法

使用真实比特比率相比倒数近似方法：

感知指标性能略有下降
但PSNR保持性能更好

计算复杂度分析

GPU环境：QP图生成仅需约20ms（Kodak图像）
CPU环境：约700ms
相比Distillation：时间复杂度降低到十分之一以下

视觉质量评估

在QP 37下的视觉评估显示：

结构区域：感知质量明显改善
高纹理区域：在更低比特率下产生相似的感知质量
整体效果与PerceptQPA和Distillation相似

结论与讨论

主要结论

有效性：成功将端到端图像压缩的感知比特分配知识转移到VVC编码器
效率性：显著降低了计算复杂度，使方法具备实用性
通用性：方法对不同感知指标（SSIM、MS-SSIM）都有效

局限性

LPIPS优化效果有限：深度感知指标的优化仍然存在挑战
仅限帧内编码：尚未扩展到视频编码的时域优化
架构差异：端到端模型与传统编码器的架构差异限制了知识转移效果

未来方向

视频编码扩展：结合时域信息进行感知优化
机器视觉任务：针对下游任务（如目标检测）的比特分配
架构对齐：采用更贴近传统编码框架的端到端模型

深度评价

优点

创新性强：提出了量化步长与比特比率的线性关系，简化了转移过程
实用价值高：大幅降低计算复杂度，使方法具备实际应用潜力
实验全面：在多个数据集和指标上进行了充分验证
性能优异：在保持PSNR性能的同时显著提升感知指标

不足

理论分析不足：缺乏对量化步长-比特比率线性关系的理论解释
适用范围有限：主要适用于SSIM和MS-SSIM，对LPIPS效果有限
参数敏感性：斜率等超参数需要手动调节
泛化能力：在不同类型图像上的泛化能力需要进一步验证

影响力

学术贡献：为传统编码器的感知优化提供了新思路
实用价值：低复杂度特性使其具备工业应用潜力
可复现性：方法描述清晰，实验设置详细

适用场景

视频流媒体：需要在有限带宽下提升感知质量的应用
图像压缩：对感知质量要求较高的图像存储和传输
实时应用：计算资源受限但需要感知优化的场景

参考文献

论文引用了20篇重要文献，涵盖了视频编码标准、感知质量评估、端到端压缩和知识转移等相关领域的核心工作，为研究提供了坚实的理论基础。