Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
論文ID : 2510.10970タイトル : Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding著者 : Runyu Yang, Ivan V. Bajić (Simon Fraser University)分類 : eess.IV (画像・ビデオ処理)発表時期/会議 : Picture Coding Symposium 2025, Aachen, Germany論文リンク : https://arxiv.org/abs/2510.10970 H.266/VVC、AVS3、AV1などの最新コーデックを含む主流の画像・ビデオ符号化標準は、ブロックベースのハイブリッド符号化フレームワークを採用しています。このフレームワークは峰値信号対雑音比(PSNR)の直接最適化に便利ですが、マルチスケール構造類似度(MS-SSIM)などの知覚整合指標の最適化には困難があります。この課題に対処するため、本論文は、エンドツーエンド画像圧縮からのビット配分知識の転送を通じてVVC帧内符号化の知覚品質を向上させる低複雑度手法を提案しています。本論文では、知覚損失で訓練された軽量モデルを導入して量化ステップサイズマップを生成し、これがブロックレベルの知覚重要性を暗黙的に捕捉し、VVCのQPマップの効果的な導出を可能にします。KodakおよびCLICデータセット上の実験により、実行時間と知覚指標性能の両面で顕著な利点が示され、MS-SSIMのBD-rate削減は11%を超えています。
従来のブロックベースビデオ符号化標準(VVCなど)は、率歪み最適化(RDO)においてMSE/PSNRの最適化を主に行いますが、これらの指標は人間の視覚知覚品質との相関性が低いです。一方、知覚整合指標(SSIM、MS-SSIM、LPIPS)は加法性とブロック独立性の欠如のため、従来のブロックレベルRDOフレームワークで効果的に適用することが困難です。
知覚品質と従来指標の相違 :MSE/PSNRと人間の視覚知覚の間に顕著なギャップが存在し、これらの指標の最適化は必ずしも良好な主観的品質を保証しません実用的なニーズ :現代のビデオアプリケーションは知覚品質に対する要求がますます高まり、より優れた知覚最適化手法が必要です計算複雑度の課題 :従来の符号化器で複雑な知覚指標を直接最適化することは計算コストが高すぎますエンドツーエンド圧縮 :知覚指標の柔軟な最適化が可能ですが、従来の標準との互換性がありません従来の知覚最適化手法 :PerceptQPAなどの手法の効果は限定的です知識蒸留手法 :蒸留手法は符号化器ネットワークを2回実行する必要があり、計算複雑度が高すぎます低複雑度のビット配分転送スキームを提案 :軽量な量化ステップサイズ生成モデルを通じて、エンドツーエンド画像圧縮の知覚ビット配分知識をVVC符号化器に転送します量化ステップサイズとビット比率の線形関係を確立 :ビット比率と量化ステップサイズの逆数が線形関係にあることを発見し、QPマップ生成プロセスを簡略化します計算複雑度を大幅に削減 :既存の蒸留手法と比較して、QPマップ生成時間を10分の1以下に削減します複数のデータセットで顕著な性能向上を達成 :MS-SSIMのBD-rate削減は11%を超え、同時により優れたPSNR性能を維持します入力画像が与えられたとき、VVC符号化器に適用可能なQPマップを生成し、同じビットレート制約下で、符号化結果が知覚指標(SSIM、MS-SSIMなど)でより優れた性能を得られるようにします。
手法は2つの主要段階で構成されます:
訓練段階 :知覚損失で訓練された量化ステップサイズ生成モデル推論段階 :量化ステップサイズマップを生成し、VVCのQPマップに変換アーキテクチャ設計 :積み重ねられた残差ブロックとストライド2の畳み込み層を採用出力解像度 :潜在特徴と同じ(元画像の16倍ダウンサンプリング)活性化関数 :softplusを使用して出力が正値であることを保証:
softplus(x) = ln(1 + e^x)
主流のハイパープライア設計に基づき、結合損失を最適化:
L = λD + R_main + R_hyper
ここでλは率歪みトレードオフを制御し、Dは歪み(MSEまたは知覚指標)、R_mainとR_hyperはそれぞれ量化潜在特徴とハイパープライアのビットレートに対応します。
実験を通じてビット比率と量化ステップサイズ逆数の線形関係を発見:
ここでr_kはブロックkのビット比率、QS_kは対応する量化ステップサイズです。
R-λモデルに基づき、ブロックレベルのQP計算式:
QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)
3つの知覚変種を訓練:1-SSIM、1-MS-SSIM、LPIPS、結合損失関数:
L = λ(αD_perc) + R_main + R_hyper
訓練データ :LIU4Kデータセット、1,600枚の元画像およびそれらの2×/4×双三次ダウンサンプリング版から無作為に切り取られた607,714個の256×256パッチを含むテストデータ :
Kodak画像セット:24枚の画像、約0.35MP CLIC 2022検証/テスト画像:2MP以上 従来指標 :RGB PSNR知覚指標 :SSIM、MS-SSIM、LPIPS総合評価 :BD-rate(Bjøntegaard Delta Rate)VTM-23.0 :VVC参照ソフトウェアベースラインPerceptQPA :ハイパスフィルタベースのQP適応手法蒸留 :知識蒸留手法、符号化器ネットワークを2回実行する必要がありますQP設定 :QP ∈ {37, 32, 27, 22}でレート整合最大QPオフセット :ブロック効果を軽減するため4に制限訓練設定 :Adam最適化器を使用、初期学習率1e-4、5エポック訓練ハイパーパラメータ :αはそれぞれ0.02(SSIM)、0.08(MS-SSIM)、0.04(LPIPS)に設定手法 PSNR SSIM MS-SSIM LPIPS PerceptQPA 2.85 -4.26 -11.86 -11.96 蒸留 (MS-SSIM) 2.52 -5.83 -12.74 -13.30 本手法 (MS-SSIM) 0.98 -6.19 -11.88 -10.96
手法 PSNR SSIM MS-SSIM LPIPS PerceptQPA 3.20 -2.42 -9.91 -11.51 蒸留 (MS-SSIM) 7.55 -3.61 -10.24 -11.97 本手法 (MS-SSIM) 2.46 -5.91 -11.26 -10.88
スロープを1.0から1.2に調整すると、より積極的なQP適応が実現できます:
MS-SSIM最適化:BD-rateが-11.88%から-12.47%に向上 ただしPSNR性能は若干低下:0.98%から2.24%に増加 実際のビット比率を使用した場合、逆数近似手法と比較:
知覚指標性能は若干低下 ただしPSNRはより優れた性能を維持 GPU環境 :QPマップ生成は約20ms(Kodak画像)のみCPU環境 :約700ms蒸留との比較 :時間複雑度は10分の1以下に削減QP 37での視覚評価は以下を示しています:
構造領域:知覚品質が明らかに改善 高テクスチャ領域:より低いビットレートで同様の知覚品質を生成 全体的な効果はPerceptQPAおよび蒸留と同様 PerceptQPA :ハイパスフィルタベースのQP適応、人間の視覚系の特性を考慮JNDベース手法 :刚刚可察知差異を利用したビット配分ハイパープライアアーキテクチャ :Balléらが提案した変分画像圧縮フレームワーク知覚最適化 :知覚損失で直接訓練されたエンドツーエンドモデルブロックレベル構造 :従来の符号化フレームワークに近いエンドツーエンドモデル蒸留手法 :エンドツーエンドモデルからのビット配分知識抽出特徴転送 :深層学習モデルの中間表現の利用有効性 :エンドツーエンド画像圧縮の知覚ビット配分知識をVVC符号化器に正常に転送効率性 :計算複雑度を大幅に削減し、手法の実用性を実現汎用性 :異なる知覚指標(SSIM、MS-SSIM)に対して有効LPIPS最適化効果の限定 :深層知覚指標の最適化はまだ課題が残ります帧内符号化のみ :ビデオ符号化の時間領域最適化への拡張はまだ行われていませんアーキテクチャの相違 :エンドツーエンドモデルと従来の符号化器のアーキテクチャの相違が知識転送効果を制限しますビデオ符号化への拡張 :時間領域情報を組み込んだ知覚最適化機械視覚タスク :目標検出などの下流タスク向けのビット配分アーキテクチャの整合 :従来の符号化フレームワークに近いエンドツーエンドモデルの採用革新性が強い :量化ステップサイズとビット比率の線形関係を提案し、転送プロセスを簡略化実用価値が高い :計算複雑度を大幅に削減し、実際の応用の可能性を持つ手法実験が包括的 :複数のデータセットと指標で十分な検証を実施性能が優異 :PSNR性能を維持しながら知覚指標を顕著に向上理論分析の不足 :量化ステップサイズ-ビット比率線形関係の理論的説明が欠けています適用範囲の限定 :主にSSIMとMS-SSIMに適用可能で、LPIPS効果は限定的パラメータ感度 :スロープなどのハイパーパラメータは手動調整が必要汎化能力 :異なるタイプの画像での汎化能力はさらなる検証が必要学術貢献 :従来の符号化器の知覚最適化に新しい視点を提供実用価値 :低複雑度特性により産業応用の可能性を持つ再現性 :手法の説明が明確で、実験設定が詳細ビデオストリーミング :限定帯域幅下で知覚品質を向上させる必要があるアプリケーション画像圧縮 :知覚品質要求が高い画像保存と伝送リアルタイムアプリケーション :計算リソースが限定されているが知覚最適化が必要なシーン論文は20篇の重要な文献を引用しており、ビデオ符号化標準、知覚品質評価、エンドツーエンド圧縮、知識転送などの関連分野の核心的な研究をカバーし、研究に堅実な理論的基礎を提供しています。