2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

VVC帧内符号化の知覚品質向上のためのビット配分転送

基本情報

論文ID: 2510.10970
タイトル: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
著者: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
分類: eess.IV (画像・ビデオ処理)
発表時期/会議: Picture Coding Symposium 2025, Aachen, Germany
論文リンク: https://arxiv.org/abs/2510.10970

要約

H.266/VVC、AVS3、AV1などの最新コーデックを含む主流の画像・ビデオ符号化標準は、ブロックベースのハイブリッド符号化フレームワークを採用しています。このフレームワークは峰値信号対雑音比(PSNR)の直接最適化に便利ですが、マルチスケール構造類似度(MS-SSIM)などの知覚整合指標の最適化には困難があります。この課題に対処するため、本論文は、エンドツーエンド画像圧縮からのビット配分知識の転送を通じてVVC帧内符号化の知覚品質を向上させる低複雑度手法を提案しています。本論文では、知覚損失で訓練された軽量モデルを導入して量化ステップサイズマップを生成し、これがブロックレベルの知覚重要性を暗黙的に捕捉し、VVCのQPマップの効果的な導出を可能にします。KodakおよびCLICデータセット上の実験により、実行時間と知覚指標性能の両面で顕著な利点が示され、MS-SSIMのBD-rate削減は11%を超えています。

知覚品質と従来指標の相違：MSE/PSNRと人間の視覚知覚の間に顕著なギャップが存在し、これらの指標の最適化は必ずしも良好な主観的品質を保証しません
実用的なニーズ：現代のビデオアプリケーションは知覚品質に対する要求がますます高まり、より優れた知覚最適化手法が必要です
計算複雑度の課題：従来の符号化器で複雑な知覚指標を直接最適化することは計算コストが高すぎます

既存手法の限界

エンドツーエンド圧縮：知覚指標の柔軟な最適化が可能ですが、従来の標準との互換性がありません
従来の知覚最適化手法：PerceptQPAなどの手法の効果は限定的です
知識蒸留手法：蒸留手法は符号化器ネットワークを2回実行する必要があり、計算複雑度が高すぎます

核心貢献

低複雑度のビット配分転送スキームを提案：軽量な量化ステップサイズ生成モデルを通じて、エンドツーエンド画像圧縮の知覚ビット配分知識をVVC符号化器に転送します
量化ステップサイズとビット比率の線形関係を確立：ビット比率と量化ステップサイズの逆数が線形関係にあることを発見し、QPマップ生成プロセスを簡略化します
計算複雑度を大幅に削減：既存の蒸留手法と比較して、QPマップ生成時間を10分の1以下に削減します
複数のデータセットで顕著な性能向上を達成：MS-SSIMのBD-rate削減は11%を超え、同時により優れたPSNR性能を維持します

訓練段階：知覚損失で訓練された量化ステップサイズ生成モデル
推論段階：量化ステップサイズマップを生成し、VVCのQPマップに変換

量化ステップサイズ生成モデル

アーキテクチャ設計：積み重ねられた残差ブロックとストライド2の畳み込み層を採用
出力解像度：潜在特徴と同じ(元画像の16倍ダウンサンプリング)
活性化関数：softplusを使用して出力が正値であることを保証：
```
softplus(x) = ln(1 + e^x)
```

エンドツーエンド画像圧縮の基礎

主流のハイパープライア設計に基づき、結合損失を最適化：

L = λD + R_main + R_hyper

ここでλは率歪みトレードオフを制御し、Dは歪み(MSEまたは知覚指標)、R_mainとR_hyperはそれぞれ量化潜在特徴とハイパープライアのビットレートに対応します。

技術的革新点

1. 量化ステップサイズからビット比率へのマッピング

実験を通じてビット比率と量化ステップサイズ逆数の線形関係を発見：

r_k ≈ 1/QS_k

ここでr_kはブロックkのビット比率、QS_kは対応する量化ステップサイズです。

2. QP適応アルゴリズム

R-λモデルに基づき、ブロックレベルのQP計算式：

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. 知覚損失最適化

3つの知覚変種を訓練：1-SSIM、1-MS-SSIM、LPIPS、結合損失関数：

L = λ(αD_perc) + R_main + R_hyper

実験設定

データセット

訓練データ：LIU4Kデータセット、1,600枚の元画像およびそれらの2×/4×双三次ダウンサンプリング版から無作為に切り取られた607,714個の256×256パッチを含む
テストデータ：
- Kodak画像セット：24枚の画像、約0.35MP
- CLIC 2022検証/テスト画像：2MP以上