2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, Bajić
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic

VVC帧内符号化の知覚品質向上のためのビット配分転送

基本情報

  • 論文ID: 2510.10970
  • タイトル: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
  • 著者: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
  • 分類: eess.IV (画像・ビデオ処理)
  • 発表時期/会議: Picture Coding Symposium 2025, Aachen, Germany
  • 論文リンク: https://arxiv.org/abs/2510.10970

要約

H.266/VVC、AVS3、AV1などの最新コーデックを含む主流の画像・ビデオ符号化標準は、ブロックベースのハイブリッド符号化フレームワークを採用しています。このフレームワークは峰値信号対雑音比(PSNR)の直接最適化に便利ですが、マルチスケール構造類似度(MS-SSIM)などの知覚整合指標の最適化には困難があります。この課題に対処するため、本論文は、エンドツーエンド画像圧縮からのビット配分知識の転送を通じてVVC帧内符号化の知覚品質を向上させる低複雑度手法を提案しています。本論文では、知覚損失で訓練された軽量モデルを導入して量化ステップサイズマップを生成し、これがブロックレベルの知覚重要性を暗黙的に捕捉し、VVCのQPマップの効果的な導出を可能にします。KodakおよびCLICデータセット上の実験により、実行時間と知覚指標性能の両面で顕著な利点が示され、MS-SSIMのBD-rate削減は11%を超えています。

研究背景と動機

核心問題

従来のブロックベースビデオ符号化標準(VVCなど)は、率歪み最適化(RDO)においてMSE/PSNRの最適化を主に行いますが、これらの指標は人間の視覚知覚品質との相関性が低いです。一方、知覚整合指標(SSIM、MS-SSIM、LPIPS)は加法性とブロック独立性の欠如のため、従来のブロックレベルRDOフレームワークで効果的に適用することが困難です。

問題の重要性

  1. 知覚品質と従来指標の相違:MSE/PSNRと人間の視覚知覚の間に顕著なギャップが存在し、これらの指標の最適化は必ずしも良好な主観的品質を保証しません
  2. 実用的なニーズ:現代のビデオアプリケーションは知覚品質に対する要求がますます高まり、より優れた知覚最適化手法が必要です
  3. 計算複雑度の課題:従来の符号化器で複雑な知覚指標を直接最適化することは計算コストが高すぎます

既存手法の限界

  1. エンドツーエンド圧縮:知覚指標の柔軟な最適化が可能ですが、従来の標準との互換性がありません
  2. 従来の知覚最適化手法:PerceptQPAなどの手法の効果は限定的です
  3. 知識蒸留手法:蒸留手法は符号化器ネットワークを2回実行する必要があり、計算複雑度が高すぎます

核心貢献

  1. 低複雑度のビット配分転送スキームを提案:軽量な量化ステップサイズ生成モデルを通じて、エンドツーエンド画像圧縮の知覚ビット配分知識をVVC符号化器に転送します
  2. 量化ステップサイズとビット比率の線形関係を確立:ビット比率と量化ステップサイズの逆数が線形関係にあることを発見し、QPマップ生成プロセスを簡略化します
  3. 計算複雑度を大幅に削減:既存の蒸留手法と比較して、QPマップ生成時間を10分の1以下に削減します
  4. 複数のデータセットで顕著な性能向上を達成:MS-SSIMのBD-rate削減は11%を超え、同時により優れたPSNR性能を維持します

方法の詳細

タスク定義

入力画像が与えられたとき、VVC符号化器に適用可能なQPマップを生成し、同じビットレート制約下で、符号化結果が知覚指標(SSIM、MS-SSIMなど)でより優れた性能を得られるようにします。

モデルアーキテクチャ

全体フレームワーク

手法は2つの主要段階で構成されます:

  1. 訓練段階:知覚損失で訓練された量化ステップサイズ生成モデル
  2. 推論段階:量化ステップサイズマップを生成し、VVCのQPマップに変換

量化ステップサイズ生成モデル

  • アーキテクチャ設計:積み重ねられた残差ブロックとストライド2の畳み込み層を採用
  • 出力解像度:潜在特徴と同じ(元画像の16倍ダウンサンプリング)
  • 活性化関数:softplusを使用して出力が正値であることを保証:
    softplus(x) = ln(1 + e^x)
    

エンドツーエンド画像圧縮の基礎

主流のハイパープライア設計に基づき、結合損失を最適化:

L = λD + R_main + R_hyper

ここでλは率歪みトレードオフを制御し、Dは歪み(MSEまたは知覚指標)、R_mainとR_hyperはそれぞれ量化潜在特徴とハイパープライアのビットレートに対応します。

技術的革新点

1. 量化ステップサイズからビット比率へのマッピング

実験を通じてビット比率と量化ステップサイズ逆数の線形関係を発見:

r_k ≈ 1/QS_k

ここでr_kはブロックkのビット比率、QS_kは対応する量化ステップサイズです。

2. QP適応アルゴリズム

R-λモデルに基づき、ブロックレベルのQP計算式:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. 知覚損失最適化

3つの知覚変種を訓練:1-SSIM、1-MS-SSIM、LPIPS、結合損失関数:

L = λ(αD_perc) + R_main + R_hyper

実験設定

データセット

  1. 訓練データ:LIU4Kデータセット、1,600枚の元画像およびそれらの2×/4×双三次ダウンサンプリング版から無作為に切り取られた607,714個の256×256パッチを含む
  2. テストデータ
    • Kodak画像セット:24枚の画像、約0.35MP
    • CLIC 2022検証/テスト画像:2MP以上

評価指標

  • 従来指標:RGB PSNR
  • 知覚指標:SSIM、MS-SSIM、LPIPS
  • 総合評価:BD-rate(Bjøntegaard Delta Rate)

比較手法

  1. VTM-23.0:VVC参照ソフトウェアベースライン
  2. PerceptQPA:ハイパスフィルタベースのQP適応手法
  3. 蒸留:知識蒸留手法、符号化器ネットワークを2回実行する必要があります

実装詳細

  • QP設定:QP ∈ {37, 32, 27, 22}でレート整合
  • 最大QPオフセット:ブロック効果を軽減するため4に制限
  • 訓練設定:Adam最適化器を使用、初期学習率1e-4、5エポック訓練
  • ハイパーパラメータ:αはそれぞれ0.02(SSIM)、0.08(MS-SSIM)、0.04(LPIPS)に設定

実験結果

主要結果

Kodakデータセット結果

手法PSNRSSIMMS-SSIMLPIPS
PerceptQPA2.85-4.26-11.86-11.96
蒸留 (MS-SSIM)2.52-5.83-12.74-13.30
本手法 (MS-SSIM)0.98-6.19-11.88-10.96

CLICデータセット結果

手法PSNRSSIMMS-SSIMLPIPS
PerceptQPA3.20-2.42-9.91-11.51
蒸留 (MS-SSIM)7.55-3.61-10.24-11.97
本手法 (MS-SSIM)2.46-5.91-11.26-10.88

アブレーション実験

スロープパラメータの影響

スロープを1.0から1.2に調整すると、より積極的なQP適応が実現できます:

  • MS-SSIM最適化:BD-rateが-11.88%から-12.47%に向上
  • ただしPSNR性能は若干低下:0.98%から2.24%に増加

実際のビット比率対近似手法

実際のビット比率を使用した場合、逆数近似手法と比較:

  • 知覚指標性能は若干低下
  • ただしPSNRはより優れた性能を維持

計算複雑度分析

  • GPU環境:QPマップ生成は約20ms(Kodak画像)のみ
  • CPU環境:約700ms
  • 蒸留との比較:時間複雑度は10分の1以下に削減

視覚品質評価

QP 37での視覚評価は以下を示しています:

  • 構造領域:知覚品質が明らかに改善
  • 高テクスチャ領域:より低いビットレートで同様の知覚品質を生成
  • 全体的な効果はPerceptQPAおよび蒸留と同様

関連研究

従来の知覚最適化手法

  1. PerceptQPA:ハイパスフィルタベースのQP適応、人間の視覚系の特性を考慮
  2. JNDベース手法:刚刚可察知差異を利用したビット配分

エンドツーエンド画像圧縮

  1. ハイパープライアアーキテクチャ:Balléらが提案した変分画像圧縮フレームワーク
  2. 知覚最適化:知覚損失で直接訓練されたエンドツーエンドモデル
  3. ブロックレベル構造:従来の符号化フレームワークに近いエンドツーエンドモデル

知識転送手法

  1. 蒸留手法:エンドツーエンドモデルからのビット配分知識抽出
  2. 特徴転送:深層学習モデルの中間表現の利用

結論と考察

主要な結論

  1. 有効性:エンドツーエンド画像圧縮の知覚ビット配分知識をVVC符号化器に正常に転送
  2. 効率性:計算複雑度を大幅に削減し、手法の実用性を実現
  3. 汎用性:異なる知覚指標(SSIM、MS-SSIM)に対して有効

限界

  1. LPIPS最適化効果の限定:深層知覚指標の最適化はまだ課題が残ります
  2. 帧内符号化のみ:ビデオ符号化の時間領域最適化への拡張はまだ行われていません
  3. アーキテクチャの相違:エンドツーエンドモデルと従来の符号化器のアーキテクチャの相違が知識転送効果を制限します

今後の方向

  1. ビデオ符号化への拡張:時間領域情報を組み込んだ知覚最適化
  2. 機械視覚タスク:目標検出などの下流タスク向けのビット配分
  3. アーキテクチャの整合:従来の符号化フレームワークに近いエンドツーエンドモデルの採用

深層評価

利点

  1. 革新性が強い:量化ステップサイズとビット比率の線形関係を提案し、転送プロセスを簡略化
  2. 実用価値が高い:計算複雑度を大幅に削減し、実際の応用の可能性を持つ手法
  3. 実験が包括的:複数のデータセットと指標で十分な検証を実施
  4. 性能が優異:PSNR性能を維持しながら知覚指標を顕著に向上

不足点

  1. 理論分析の不足:量化ステップサイズ-ビット比率線形関係の理論的説明が欠けています
  2. 適用範囲の限定:主にSSIMとMS-SSIMに適用可能で、LPIPS効果は限定的
  3. パラメータ感度:スロープなどのハイパーパラメータは手動調整が必要
  4. 汎化能力:異なるタイプの画像での汎化能力はさらなる検証が必要

影響力

  1. 学術貢献:従来の符号化器の知覚最適化に新しい視点を提供
  2. 実用価値:低複雑度特性により産業応用の可能性を持つ
  3. 再現性:手法の説明が明確で、実験設定が詳細

適用シーン

  1. ビデオストリーミング:限定帯域幅下で知覚品質を向上させる必要があるアプリケーション
  2. 画像圧縮:知覚品質要求が高い画像保存と伝送
  3. リアルタイムアプリケーション:計算リソースが限定されているが知覚最適化が必要なシーン

参考文献

論文は20篇の重要な文献を引用しており、ビデオ符号化標準、知覚品質評価、エンドツーエンド圧縮、知識転送などの関連分野の核心的な研究をカバーし、研究に堅実な理論的基礎を提供しています。