In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
論文ID : 2510.12754タイトル : A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder著者 : Diwakara Reddy, Christian Herglotz, André Kaup分類 : eess.IV(電気工学およびシステム科学-画像およびビデオ処理)、eess.SP(信号処理)発表時期 : 2025年(arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.12754 現代社会において、リアルタイムビデオストリーミングとユーザー生成コンテンツのバッテリー駆動デバイスからのストリーミング配信が普遍的になっています。リアルタイムストリーミングにはリアルタイムビデオ符号化が必要であり、ハードウェアビデオエンコーダはこのような符号化タスクに最適です。本論文では、ガウス過程回帰を用いた高レベル特徴モデルを紹介し、ハードウェアビデオエンコーダの符号化エネルギー消費を予測することができます。Pフレームと単一キーフレームに限定された評価設定では、本モデルは符号化エネルギー消費を平均絶対パーセント誤差約9%で予測できます。さらに、アブレーション研究により、空間解像度がハードウェアエンコーダの符号化エネルギー消費予測の重要な高レベル特徴であることが実証されています。本モデルの実用的応用は、異なる空間解像度、異なる符号化標準およびコーデックプリセット下でビデオ符号化に必要なエネルギーの事前推定に使用できることです。
本研究は、ハードウェアビデオエンコーダのエネルギー消費予測の問題に取り組んでいます。リアルタイムビデオストリーミングとユーザー生成コンテンツの普及、特にバッテリー駆動デバイス上での正確なエネルギー消費予測は、以下の点で重要です:
バッテリー寿命管理 エネルギー認識符号化 ビデオストリーミングのカーボンフットプリント削減 リアルタイム要件 : リアルタイムストリーミングにはリアルタイムビデオ符号化が必要であり、ハードウェアエンコーダは加速とエネルギー効率的な符号化を提供できますエネルギー効率 : バッテリー駆動のハンドヘルドデバイス上でユーザー生成コンテンツを作成する場合、エネルギー認識ビデオ符号化が重要です環境への影響 : エネルギー認識ビデオ符号化はビデオストリーミングのカーボンフットプリント削減に重要です文献調査により以下が明らかになりました:
ソフトウェアエンコーダのエネルギー消費予測モデルは多数存在しますが、ハードウェアエンコーダに関する研究は限定的です 既存のハードウェアデコーダのエネルギー消費予測モデルは、ビットストリームサイズなどの特徴が符号化前に利用不可能であるため、エンコーダに直接移植できません 複数の符号化標準とプリセットに対応できる統一モデルが不足しています 上記の限界に基づいて、本研究の動機は以下を含みます:
ハードウェアデコーダの高レベル特徴モデルをハードウェアエンコーダに拡張する 特徴モデルを修正して、符号化前に利用可能な特徴のみを含める 複数の標準とエンコーダプリセットを考慮できる統一モデルを提案する 既存モデルの拡張 : Herglotzらによるハードウェアデコーダの高レベル特徴モデルをハードウェアエンコーダに拡張特徴モデルの最適化 : 高レベル特徴モデルを修正し、符号化前に利用可能な特徴のみを含める。デコーダモデルのビットストリームサイズ特徴がエンコーダで利用不可能という問題を解決統一建模手法 : 3つの異なる標準(H.264、H.265、AV1)と2つのエンコーダプリセットを考慮した単一モデルでハードウェアエンコーダのエネルギー消費を予測高精度予測 : 平均絶対パーセント誤差約9.08%の符号化エネルギー消費予測を実現重要特徴の特定 : アブレーション研究により、空間解像度がハードウェアエンコーダのエネルギー消費予測の重要な高レベル特徴であることを実証入力 : ビデオシーケンスの高レベル特徴(解像度、フレーム数、符号化標準、プリセット、QP値など)
出力 : ハードウェアビデオエンコーダの符号化エネルギー消費予測値
制約条件 : 符号化前に取得可能な特徴のみを使用し、Pフレームと単一キーフレームの符号化シナリオに適用可能
差分エネルギー消費測定方法を採用:
E_enc = E_dynamic - E_static
ここで:
E_dynamic: 符号化プロセス中の動的エネルギー消費E_static: アイドルモード下の静的エネルギー消費モデルは9つの高レベル特徴を使用します(表I):
特徴識別子 特徴説明 x₀ オフセットエネルギー(バイアス項、常に1) x₁ 符号化フレーム数 x₂ ピクセル数(幅×高さ) x₃ 標準H264(ブール特徴) x₄ 標準H265(ブール特徴) x₅ 標準AV1(ブール特徴) x₆ プリセットultrafast(ブール特徴) x₇ プリセットslow(ブール特徴) x₈ 量子化パラメータQP
ガウス過程回帰(GPR)を用いてモデル化:
線形回帰モデル (測定ノイズ存在):
ガウス過程関数近似 :
ゼロ平均ガウス過程 :
共分散カーネル関数 (指数カーネル):
k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st
モデル出力 :
ここで g(x) ~ GP(0, Σ)
特徴選択の革新 : ビットストリームサイズなど符号化後にのみ取得可能な特徴を削除し、符号化前のエネルギー消費予測にモデルが使用可能であることを保証統一建模戦略 : 各標準に対して個別モデルを構築する方法とは異なり、ブール特徴を使用して複数の符号化標準とプリセットを統一的に処理ノイズ処理能力 : GPRは測定ノイズを処理する固有の能力を持ち、ハードウェアエネルギー消費測定シナリオに適しています信頼区間テスト : 厳密な統計手法を採用して測定結果の信頼性を確保ビデオシーケンス : AOM共通テスト条件(CTC)の自然ビデオシーケンス、カテゴリA1-A5解像度範囲 : 270p、360p、720p、1080p、2160p(4K)ビット深度処理 : 10ビット入力シーケンスを8ビットに変換(ハードウェアエンコーダの制限)フレーム数設定 : 各シーケンスから65-130フレームをランダムに選択、単一キーフレーム符号化設定 : Bフレームなしのpフレーム符号化平均絶対パーセント誤差(MAPE)を採用:
MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100
主要比較 : 線形回帰(LR)モデルアブレーション研究 : 特徴を1つずつ削除した影響分析ハードウェアプラットフォーム : NVIDIA Jetson Orin NX開発キット符号化標準 : H.264、H.265、AV1符号化プリセット : ultrafast、slowQP設定 :
H.264/H.265: 22、27、32、37 AV1: 108、132、160、184 交差検証 : 過学習を防ぐための10分割交差検証信頼区間パラメータ : α=0.99、β=0.02全体性能 : GPRモデルはMAPE = 9.08%を達成LR比較 : 線形回帰モデルのMAPE = 72.98%で、GPRに大きく劣ります訓練効率 : 訓練時間21.25秒、検証時間3.7ミリ秒アブレーション研究結果(表III)は各特徴の重要性の順序を示しています:
シナリオ 削除特徴 MAPE (%) a ピクセル数(幅×高さ) 164.70 b プリセット情報 37.38 c 符号化フレーム数 17.43 d 標準情報 10.25 e QP値 8.74
重要な発見 :
空間解像度 が最も重要な特徴であり、削除後MAPEは164.70%に急上昇しますプリセット情報 が次点で、大きな影響を与えますQP情報 削除後、精度がわずかに向上する可能性があります。これはQPとエネルギー消費の関係が一貫していないためかもしれません可視化分析により以下が発見されました:
解像度クラスタリング : 異なる解像度は明確なエネルギー消費クラスタを形成します標準差 : 4Kビデオは異なる符号化標準間でエネルギー消費の差が明らかですプリセット影響 : slowプリセットは異なる標準間でエネルギー消費の変化がより顕著ですQP関係 : H.264/H.265はQPと単調関係を示し、AV1は明確な相関性を示しません解像度主導 : 符号化エネルギー消費はビデオ解像度と高度に相関していますフレーム数線形性 : 符号化エネルギー消費はフレーム数と線形関係を示します標準差 : 異なる符号化標準のエネルギー消費差は高解像度でより明らかですGPR優位性 : GPRは線形回帰を大きく上回り、エネルギー消費予測の非線形特性を証明していますほとんどの研究はソフトウェアエンコーダ(H.265、SVT-AV1など)に集中しています 既存モデルは通常、特定の符号化設定または標準に対応しています HerglotzらはハードウェアH.265デコーダのエネルギー消費予測モデルを提案しました Kränzlerは複数標準のハードウェアデコーダモデルに拡張しました ハードウェアエンコーダのエネルギー消費予測研究は相対的に限定的であり、本論文がこのギャップを埋めています。
高レベル特徴に基づいた初のハードウェアビデオエンコーダのエネルギー消費予測モデルを提案しました 約9%のMAPEを達成し、実用的価値があります 空間解像度がエネルギー消費予測の重要な特徴であることを証明しました 線形回帰に対するGPRの大きな優位性を検証しました コンテンツ特徴の欠落 : ビデオコンテンツ関連特徴を考慮していないため、精度がさらに向上する可能性があります符号化設定の制限 : Pフレームと単一キーフレームシナリオのみを考慮していますハードウェアプラットフォームの単一性 : NVIDIAJetsonプラットフォームでのみ検証されていますプリセット選択 : 2つのプリセット(ultrafast、slow)のみを考慮していますコンテンツ認識建模 : ビデオコンテンツの複雑さなどの特徴を導入する包括的な符号化分析 : Bフレームを含む完全な符号化シナリオに拡張するマルチプラットフォーム検証 : 異なるハードウェアプラットフォームでモデルの汎用性を検証するソフトウェア・ハードウェア比較 : ハードウェアとソフトウェアエンコーダのエネルギー消費の包括的な比較分析実用的価値が高い : 実際のアプリケーションでのエネルギー消費予測ニーズを解決しています方法が科学的 : 厳密な統計テストを採用して測定の信頼性を確保しています分析が包括的 : アブレーション研究を通じて各特徴の貢献を深く分析しています革新性が強い : ハードウェアエンコーダを対象とした初の統一的な複数標準エネルギー消費予測モデルです特徴エンジニアリング : より多くのビデオコンテンツ関連特徴を考慮できますデータスケール : テストデータは相対的に限定的であり、より多くのビデオタイプに拡張できます理論分析 : エネルギー消費予測メカニズムの深い理論分析が不足していますリアルタイム性検証 : リアルタイムシナリオでのモデル性能が十分に検証されていません学術的貢献 : ハードウェアエンコーダのエネルギー消費予測研究のギャップを埋めています実用的価値 : モバイルデバイスのバッテリー管理とグリーンビデオ符号化に使用できます再現性 : 方法説明が明確で、実験設定が詳細ですモバイルデバイス : バッテリー駆動デバイスのエネルギー消費管理エッジコンピューティング : エッジビデオ処理のリソース計画グリーンコンピューティング : データセンタービデオ符号化のエネルギー消費最適化リアルタイムアプリケーション : ライブストリーミング、ビデオ会議などのリアルタイム符号化シナリオ論文は24の関連文献を引用しており、主に以下を含みます:
ビデオ符号化エネルギー効率研究(Katsenou他、2022) HEVCソフトウェアエンコーダのエネルギー消費建模(Ramasubbu他、2022) ハードウェアデコーダのエネルギー消費予測(Herglotz & Kaup、2018) ガウス過程回帰理論(Rasmussen & Williams、2006) 総合評価 : 本論文は、ハードウェアビデオエンコーダのエネルギー消費予測という重要でありながら相対的に研究が不足している分野に対して、革新的なソリューションを提案しています。方法は科学的で厳密であり、実験設計は合理的で、結果は実用的価値があります。特徴エンジニアリングと理論分析の面でまだ改善の余地がありますが、この分野の後続研究のための良好な基礎を築いています。