Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
論文ID : 2511.17867タイトル : INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding著者 : Samuel Fernández-Menduiña, Eduardo Pavez, Antonio Ortega(南カリフォルニア大学)、Tsung-Wei Huang, Thuong Nguyen Canh, Guan-Ming Su, Peng Yin(Dolby Laboratories)分類 : eess.IV(画像・ビデオ処理)、cs.IT、math.IT投稿日時 : 2025年11月22日論文リンク : https://arxiv.org/abs/2511.17867 本論文は、ビデオ符号化における変換設計の問題に対して、低複雑度のデータ依存変換フレームワークINT-DTT+を提案しています。従来の離散三角変換(DCT-2、DST-7など)は符号化性能と計算効率のバランスを取っていますが、データ依存変換(KLTやグラフベース分離可能変換GBST)は、より優れたエネルギー圧縮を提供する一方で、計算複雑度を低減するために利用可能な対称性が不足しています。本論文はDTT+(秩一更新によるGBST族)に基づくフレームワークを構築し、まず行列グラフの秩一更新パラメータを共同推定するグラフ学習アルゴリズムを提案します。次に、DTT+の段階的構造を利用して核を基本DTTと構造化Cauchy行列に分解します。低複雑度整数DTTと疎化Cauchy行列を利用することで、INT-DTT+整数近似を構築しました。VVC標準のモード依存変換シナリオで検証した結果、INT-DTT+はVVC MTSベースラインと比較して3%以上のBD-rate削減を実現し、複雑度は整数DCT-2と同等です。
ビデオ符号化システムの変換設計は「性能-複雑度」のジレンマに直面しています:
従来のDTTの限界 : DCT-2、DST-7などの離散三角変換は高速アルゴリズムを持ちますが、特定の信号統計特性への適応性が限定的ですデータ依存変換のジレンマ : KLTは理論的に最適ですが高速実装が不足しており、分離可能KLTとGBSTは計算複雑度を低減しますが、計算量削減に利用可能な対称性がありません実用的なボトルネック : 既存の学習変換は高速アルゴリズムが不足しているため、実際の符号化器ではほとんど使用されていません符号化効率の向上 : モード依存変換(MDT)は各予測モードの残差統計特性を利用してエネルギー圧縮を向上させることができます産業応用の需要 : VVCなどの次世代符号化器は、低複雑度を維持しながら圧縮性能を向上させる必要があります理論と実践の橋渡し : 理論的に最適(KLT)と実用的に実行可能(DTT)の間のバランスを見つける必要がありますsep-KLT : n²個のパラメータを学習する必要があり、計算複雑度が高い(O(n²)乗算)で、高速アルゴリズムがありませんGBST : パラメータ数を制約して堅牢性を向上させますが、利用可能な構造が不足しています直接量化法 : 浮動小数点核を整数に直接量化しても計算複雑度を低減できません著者の先行研究 : DTT+のFFT高速アルゴリズムは大きなブロックサイズでのみ素朴な行列乗算より優れており、パラメータ学習問題は未解決です本論文の主な貢献は以下の通りです:
共同グラフ学習アルゴリズム : DTT+用のグラフ学習方法を提案し、行列グラフの秩一更新パラメータ(αr, βr, αc, βc, ir, ic)を共同推定することで、ブロック全体の共分散構造を捉えますINT-DTT+整数実装フレームワーク :DTT+の段階的分解特性(基本DTT + Cauchy行列)を利用 固有値交錯性質に基づくCauchy行列疎化戦略を設計 低複雑度整数近似を構築し、複雑度は整数DCT-2に匹敵します RDOT設計方法 : DTT+を率失真最適化変換(RDOT)フレームワークに統合し、学習された変換がVVCの既存MTS核と相補的になるようにします重み付けクラスタリング戦略 : k-meansベースのパラメータクラスタリング方法を提案し、さらに記憶要件を削減します(sep-KLTと比較して66%-94%削減)システム検証 : VVC標準のフレーム内予測残差シナリオで、3%以上のBD-rate削減を実現し、複雑度増加は1回の整数DCT-2計算に相当します入力 : 予測残差ブロック xi ∈ R^(n×n)(例:VVCフレーム内予測残差)出力 : 変換係数 yi = T^⊤ xi目標 : 変換行列Tを設計して以下を実現:
信号統計特性への適応(エネルギー圧縮性能) 低計算複雑度(整数演算、疎構造) 低記憶要件(少ないパラメータ数) 既存符号化フレームワークへの統合(RDO互換性) DTT+はDTTグラフのLaplacianの秩一更新に基づいています:
L̃(α, β, i) = βL + αeie_i^⊤, i ∈ {1,...,n}, α,β ≥ 0
ここで:
Lは基本DTTグラフのLaplacian(パスグラフはDCT-2に対応、自己ループ付きパスグラフはDST-7に対応) αは自己ループの重みを制御、βは元のグラフの辺の重みをスケール iは自己ループの位置を指定 性質1(段階的分解) : L = Udiag(λ)U^⊤ と L̃ = Ũdiag(λ̃)Ũ^⊤ が与えられたとき:
Ũ^⊤ = diag(a)C(λ̃, βλ)diag(z)U^⊤
ここでCはCauchy行列:C_ij = 1/(λ̃_i - βλ_j)
意義 : 基本DTT係数U^⊤xを先に計算し、その後Cauchy行列を通じてDTT+基に変換できます
性質2(固有値交錯) : α,β > 0のとき:
βλ_1 ≤ λ̃_1 ≤ βλ_2 ≤ ... ≤ βλ_n ≤ λ̃_n
意義 : |λ̃_j - βλ_i|は|i-j|の増加に伴い増加し、Cauchy行列係数が減衰するため、疎化が可能です
完全なブロックのLaplacianを行列グラフのデカルト積としてモデル化:
L_g(φ) = L̃(αr, βr, ir) ⊗ I + I ⊗ L̃(αc, βc, ic)
パラメータベクトル:φ = αr, αc, βr, βc, ir, ic
負の対数尤度を最小化(最尤推定と等価):
φ* = argmin_φ [-log det(L_g(φ)) + tr(L_g(φ)S)]
ここでSはサンプル共分散行列
再パラメータ化 : α²とβ²を使用してαとβを置き換え、非負制約を回避混合最適化 :
離散変数(ir, ic)に対してすべてのn²の組み合わせを列挙 各(ir, ic)の組み合わせに対して、Newton法で連続変数(αr, αc, βr, βc)を求解 勾配計算 : 秩一構造を利用して勾配を効率的に計算(方程式9-12)1. 初期化:サンプルをnt個のクラスタにランダムに分割
2. 収束まで反復:
a. 各クラスタIjに対して、φ_j*を求解し変換Tjを計算
b. RDOを通じてクラスタ割り当てを更新(方程式4)
3. 出力:学習された変換集合{Tj}
段階的性質に基づいて、変換核K(Cauchy行列に対応)を分解:
K = K_d + K_o = (I + K_o K_d^(-1))K_d = (I + F)K_d
ここで:
K_d:対角部分 K_o:非対角部分 F = K_o K_d^(-1):正規化された非対角項 利点 : Fはより疎化に適しています(対角項で除算済み)
K_dq = round(p_d K_d)/p_d
F_q = round(p_f F)/p_f
パラメータ選択:
p_d = 128(8ビット精度、標準整数変換精度) p_f = 4(3ビット精度、より積極的な疎化) ビット深度制限による切り詰めを採用 量化後、±1範囲内で核要素を微調整し、3つの指標を最適化:
直交性(U^⊤Uが単位行列に近い) 近接性(元の核との距離) ノルム(変換のエネルギー保持) HEVC/VVC整数変換設計基準に従う
入力:画像ブロックxi、整数行列K'_dqおよびF'_q
1. 基本DTT係数を計算:yi = U^⊤xi
2. 対角行列乗算:zi = K'_dq yi
3. 疎行列乗算:qi = zi + F'_q zi
出力:INT-DTT+係数qi
複雑度分析 :
ステップ1:RDOで既に計算されていると仮定(追加オーバーヘッドなし) ステップ2:n回の乗算(対角行列) ステップ3:F'_qの疎度に依存し、通常≤n²/2の操作 学習された自己ループの重みに基づいて基本変換を選択:
自己ループの重み < 0.5:DCT-2を選択(自己ループ=0) 自己ループの重み ≥ 0.5:DST-7を選択(自己ループ=1) Weyl不等式に基づき、これは固有値間隔を最大化し、Cauchy行列の減衰を最速にします
訓練セット :
CLICテストセット:878×2048から2048×2048ピクセル Kodakデータセット:512×768ピクセル テストセット :
CLIC検証セット:878×2048から2048×2048ピクセル 残差抽出 :
設定:VVC全フレーム内符号化 ブロックサイズ:8×8、16×16、32×32 選択:RD最適ブロックのみ(量化前) 予測モード:planar、DC、角度モード(合計66種類) BD-rate : VVC MTSベースラインに対する相対的な符号率削減率(低いほど良い)算術演算数 : 乗算と加算の回数記憶要件 : 核パラメータが占めるビット数直交性/近接性/ノルム : 整数核の品質指標VVC MTSベースライン : 明示的な複数変換選択(DCT-2、DST-7など組み合わせ)sep-KLT : 分離可能KLT、各モードでn²パラメータを学習DTT+ : 浮動小数点精度DTT+(8ビット量化)INT-DTT+ : 本論文で提案する整数近似サンプル数:各モード500-4000ブロック(消融実験) RDOT反復:RD代価の低下が1%未満で停止 オプティマイザ:Newton法で連続パラメータを求解 率失真トレードオフ:ℓ1ノルムを符号率プロキシとして使用し高速化 量化器:デッドゾーン量化器 エントロピー符号化:CABAC 歪み度量:PSNR 変換インデックス:VVC MTS構文信号を再利用 RDO:すべての候補変換を穷索 対角精度:p_d = 128(8ビット) 非対角精度:p_f = 4(3ビット) 疎化:係数振幅閾値に基づく 微調整範囲:±1 サンプル数 sep-KLT DTT+ INT-DTT+ 500 -2.70% -3.06% -3.01% 1000 -2.99% -3.08% -3.04% 2000 -3.21% -3.12% -3.06% 4000 -3.25% -3.13% -3.09%
主要な発見 :
DTT+とINT-DTT+は小サンプルでより堅牢(2パラメータ vs. n²パラメータ) INT-DTT+の性能損失は極小(<0.1%) すべての手法がVVC MTSベースラインを大幅に上回る サイズ sep-KLT DTT+ INT-DTT+ 8×8 -3.21% -3.12% -3.06% 16×16 -3.60% -3.64% -3.46% 32×32 -3.72% -3.96% -3.75%
主要な発見 :
大きなブロックサイズでより顕著な利得(より多くの学習可能な構造) DTT+は32×32でsep-KLTを上回る(パラメータ効率の優位性) INT-DTT+は競争力を維持 8×8ブロックの例(DCT-2ベースライン≈200操作):
INT-DTT+増分 : 約200操作(基本DTTが既に計算されていると仮定)合計 : 約400操作(ピクセル領域から直接計算)sep-KLT : 約4000操作(64×64行列乗算)複雑度削減 : sep-KLTと比較して10倍削減
核数 3 4 5 6 7 sep-KLT×1 ビット数 1152 1536 1976 2384 2784 1024
比較分析 :
6個のINT-DTT+核 ≈ 2.3個のsep-KLT核(記憶) ただし66種類のモードをカバー(sep-KLTは66個の核が必要) 実際の節減:66%-94%(クラスタリングを考慮) 核数 3 4 5 6 7 sep-KLT -2.92% -3.01% -3.06% -3.08% -3.12% DTT+ -2.89% -2.96% -3.08% -3.13% -3.14% INT-DTT+ -2.85% -3.02% -3.04% -3.06% -3.08%
主要な発見 :
6個の核で66個の独立した核の性能に匹敵 DTT+の重み付けクラスタリングはsep-KLTの角度グループ化より優れている 記憶-性能トレードオフは柔軟に調整可能 観察されたパターン:
空間的一貫性 : 隣接する角度モードのパラメータは類似方向性 :
αrは水平予測(モード18)でピーク αcは垂直予測(モード50)でピーク サイズ効果 : ブロックが大きくなると自己ループの重み↓、辺の重み↑最適位置 : 自己ループは常に最初のノード(境界ピクセル予測が最適)DST-7からplanarモードDTT+への変換核の例:
(a) 元の核 : 対角が支配的で、対角から遠い場所で急速に減衰(b) 量化後 : p_d=128、p_f=4、構造を保持(c) 整数実装 : 疎度約60%、対角付近は密集理論の検証 : 固有値交錯性質は確かに予想される減衰パターンをもたらします
符号化器のRDOプロセスでは:
VVCは既にDCT-2/DST-7係数を計算(候補変換) INT-DTT+は追加でK'_dqおよびF'_q操作のみが必要 辺際コスト:≈1回の整数DCT-2(vs. 全新規sep-KLT計算) 実用的価値 : 実際の符号化器でのオーバーヘッドは許容可能
KLTおよび変種 :Jain (1976):特定の確率過程に対する高速KLT Effors et al. (2004):KLT準最適性分析 Fan et al. (2019):信号非依存分離可能KLT グラフベース手法 :Egilmez et al. (2020):ビデオ符号化用GBST Egilmez et al. (2017):Laplacian制約下のグラフ学習 本論文:秩一更新の特殊構造に焦点 標準変換 :Strang (1999):DCT理論基礎 Han et al. (2011):予測残差用ADST Budagavi et al. (2013):HEVC核変換設計 Zhao et al. (2021):VVC変換符号化 学習変換 :Yeo et al.:低複雑度モード依存KLT Egilmez et al. (2020):パラメータ化グラフベース変換 Zou et al. (2013):RDOT設計方法 本論文:実用的低複雑度学習変換の初実装 FFTおよび変種 :Cooley-Tukey (1965):FFTアルゴリズム Puschel & Moura (2008):代数信号処理理論 構造化行列 :Cauchy行列高速アルゴリズム 本論文の先行研究 (2025):DTT+のFFT複雑度アルゴリズム 本論文:整数実装と疎化戦略 理論的貢献 : DTTからデータ依存変換への橋渡しを確立し、高速アルゴリズムの可能性を保持方法的革新 :行列グラフの共同学習がブロックレベルの統計を捉える 整数実装は段階的性質とCauchy構造を利用 RDOT設計により学習変換と固定変換が相補的 実験検証 :3%以上のBD-rate削減(顕著な改善) 複雑度は整数DCT-2と同等(実用的) 記憶要件66%-94%削減(効率的) 実用的価値 : データ依存変換を実際の符号化器で初めて実行可能にしました適用範囲 :現在はフレーム内予測残差のみで検証 フレーム間予測および他の符号化ツールは未テスト 理論的制限 :秩一更新のみを考慮(より複雑な構造は未探索) 分離可能性の仮定に基づく(非分離可能KLTが理論的に最適) 実装制約 :基本DTTが既に計算されていることが必要(RDOシナリオ) 量化精度が性能-複雑度トレードオフに影響 評価の限界 :ハードウェア実装と実際の実行時テストが未実施 VVCフレームワークでのみ検証 論文で明示的に提案されている方向:
フレーム間予測モード : 運動補償残差への拡張ハードウェア対応評価 : 実際の実行時とエネルギー消費テスト他の符号化器 : AV1、EVCなどの標準潜在的な拡張:
4. 高次更新 : 秩二以上の更新
5. 非分離可能拡張 : 低複雑度を保持する非分離可能変換
6. エンドツーエンド学習 : ニューラルネットワーク符号化器との共同最適化
7. 知覚最適化 : 知覚品質度量の統合
優雅な数学的フレームワーク : 秩一更新→段階的分解→Cauchy構造、理論的連鎖が完全証明可能な性質 : 固有値交錯性質が疎化に理論的支持を提供統一的視点 : DTTとデータ依存変換を統一フレームワークに統合複雑度の突破 : 学習変換をDTTレベルの複雑度で初めて実現RDO親和性 : 既に計算されたDTT係数を利用し、辺際コストが低い記憶効率 : パラメータが少なくクラスタリングに対応、実際の配置に適している標準互換性 : VVC MTSフレームワークにシームレスに統合多次元評価 : 性能、複雑度、記憶、堅牢性消融実験の完全性 : 訓練サンプル数、ブロックサイズ、クラスタ数比較の包括性 : sep-KLT、浮動小数点DTT+、整数近似結果の顕著性 : 3%以上のBD-rate改善はビデオ符号化分野で非常に注目すべき構造の合理性 : 問題→理論→方法→実験の論理が明確図表の豊富さ : 図3は疎化プロセスを直感的に示す記号の規範性 : 数学表現が厳密再現性 : アルゴリズムの疑似コードとパラメータ設定が詳細秩一制限 : 問題を簡略化しますが表現能力を制限する可能性があり、より高い秩の可能性は未探索分離可能性の仮定 : 理論的には非分離可能KLTがより優れていますが、本論文ではこの差を定量化していません基本DTT依存 : 性能はDCT-2/DST-7の近似能力に制限されますテストセットの単一性 : CLIC検証セットのみで、他の標準テストシーケンス(JVET CTCなど)は未テスト実時間性評価の欠如 : 操作数≠実際の実行時間、ハードウェアテストが未実施符号化器設定 : 全フレーム内のみで、実際の応用は多くがランダムアクセス設定QP範囲 : テストされた量化パラメータ範囲が明確に記載されていません失敗ケース : どのモード/コンテンツでDTT+が効果的でないかの分析がないニューラルネットワークとの比較 : 学習型符号化器(VCMなど)との比較がない理論的限界 : 性能上界または複雑度下界分析がない汎化性 : データセット間、解像度間の汎化能力が十分に検証されていません量化戦略 : p_dとp_fの選択が体系的分析に欠け、経験値のみ収束性 : RDOT反復の収束性保証が未議論Newton法 : 方程式9-12を求解する際の初期化と収束条件が記載されていません符号化器ドリフト : 整数近似の累積誤差が符号化に与える影響が評価されていません開創性 : 実用レベルのデータ依存変換を初めて実現し、符号化器設計パラダイムを変える可能性理論的価値 : 秩一更新フレームワークは他の信号処理問題にも着想を与える可能性産業的可能性 : Dolbyの参加は産業界の関心を示唆し、標準化の可能性あり即座の応用 : 既存のVVC符号化器に直接統合可能性能向上 : 商用応用で価値のある3% BD-rate改善配置可能性 : 複雑度と記憶オーバーヘッドは許容可能限界 : オフライン訓練が必要で、オンライン適応性に制限あり利点 : アルゴリズム記述が明確で、パラメータ設定が明確不足 :
コードが未公開(論文発表時点) VVCリファレンスソフトウェアの修正詳細が非公開 訓練データの前処理フロー不完全 オフライン符号化システム : コンテンツ配信、アーカイブ保存(訓練時間あり)モード依存最適化 : フレーム内符号化、テクスチャ符号化リソース制限デバイス : sep-KLTと比較してモバイルデバイスに適している標準拡張 : VVC/AV1のオプショナルツールリアルタイム符号化 : オフライン訓練のオーバーヘッドが大きい超低遅延 : INT-DTT+は符号化複雑度を増加させる汎用コンテンツ : 特定の統計特性に最適化ハードウェア符号化器 : 専用ハードウェアサポートが必要な可能性手法 パラメータ数 複雑度 性能 実用性 sep-KLT O(n²) O(n²) ベースライン 低 GBST O(n) O(n²) やや優れた 低 DTT+ (浮動小数点) O(1) O(n log n) 優れた 中 INT-DTT+ O(1) O(n) 優れた 高
独自の利点 : パラメータが少なく、複雑度が低く、性能が優れた唯一の手法
Jain (1976): "A fast Karhunen–Loève transform" - KLT高速アルゴリズムの開創的研究 Bunch et al. (1978): "Rank-one modification of symmetric eigenproblem" - 固有値交錯性質 Ortega et al. (2018): "Graph signal processing: Overview" - グラフ信号処理総説 Bross et al. (2021): "Overview of VVC standard" - VVC標準概説 Zhao et al. (2021): "Transform coding in VVC" - VVC変換符号化 Budagavi et al. (2013): "Core transform design in HEVC" - HEVC整数変換設計 Egilmez et al. (2020): "Graph-based transforms for video coding" - GBST手法 Zou et al. (2013): "Rate-distortion optimized transforms" - RDOT設計方法 著者の先行研究 (2025): "Fast DCT+: A family of fast transforms" - DTT+高速アルゴリズム 本論文はビデオ符号化変換設計分野における重要な進展であり、理論的に最適(KLT)と実用的に実行可能(DTT)の間の長年の隔たりを成功裏に埋めています。核心的な革新は秩一更新の特殊構造を利用して、データ適応性と高速アルゴリズムを結合する点 にあり、これは当分野が長期間追求しながら未達成だった目標です。
主な利点 には理論の優雅さ(完全な数学的フレームワーク)、工学的実用性(DCT相当の複雑度)、実験の充実性(多次元検証)が含まれ、これを極めて有望な実用技術にしています。主な限界 は評価の深さと広さにあり、特にハードウェア実装と複数シナリオでの汎化能力の向上が望まれます。
ビデオ符号化研究者 にとって、本論文はデータ依存変換設計の新しいパラダイムを提供し、産業実践者 にとってはINT-DTT+は符号化効率向上の配置可能なソリューションであり、理論研究者 にとっては秩一更新フレームワークが他の構造化行列問題の研究に着想を与える可能性があります。
推奨指数:9/10 - ビデオ符号化、グラフ信号処理、数値線形代数分野の研究者に強くお勧めします。