2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic

Un Modèle de Caractéristiques de Haut Niveau pour Prédire l'Énergie de Codage d'un Encodeur Vidéo Matériel

Informations Fondamentales

  • ID de l'article : 2510.12754
  • Titre : A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
  • Auteurs : Diwakara Reddy, Christian Herglotz, André Kaup
  • Classification : eess.IV (Génie Électrique et Sciences des Systèmes - Traitement d'Images et Vidéos), eess.SP (Traitement du Signal)
  • Date de Publication : 2025 (Prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12754

Résumé

À l'époque actuelle, la diffusion en continu de vidéos en temps réel et le contenu généré par les utilisateurs à partir d'appareils alimentés par batterie sont devenus omniprésents. La diffusion en temps réel nécessite un codage vidéo en temps réel, et les encodeurs vidéo matériels sont particulièrement adaptés à ces tâches de codage. Cet article présente un modèle de caractéristiques de haut niveau utilisant la régression par processus gaussien pour prédire la consommation énergétique du codage d'un encodeur vidéo matériel. Dans un cadre d'évaluation limité aux trames P et à une seule image-clé, le modèle peut prédire la consommation énergétique de codage avec une erreur en pourcentage absolu moyen d'environ 9 %. De plus, une étude d'ablation démontre que la résolution spatiale est une caractéristique de haut niveau clé pour la prédiction de la consommation énergétique de codage des encodeurs matériels. L'application pratique du modèle est qu'il peut être utilisé pour faire une estimation a priori de l'énergie requise pour coder la vidéo à différentes résolutions spatiales, différentes normes de codage et préréglages de codecs.

Contexte de la Recherche et Motivation

1. Problème à Résoudre

Cette recherche vise à résoudre le problème de la prédiction de la consommation énergétique des encodeurs vidéo matériels. Avec la prolifération de la diffusion vidéo en temps réel et du contenu généré par les utilisateurs, en particulier sur les appareils alimentés par batterie, la prédiction précise de la consommation énergétique de codage est importante pour :

  • La gestion de l'autonomie de la batterie
  • Le codage conscient de l'énergie
  • La réduction de l'empreinte carbone de la diffusion vidéo

2. Importance du Problème

  • Exigences en temps réel : La diffusion en temps réel nécessite un codage vidéo en temps réel, et les encodeurs matériels peuvent fournir un codage accéléré et efficace en énergie
  • Efficacité énergétique : Lors de la création de contenu généré par les utilisateurs sur des appareils portables alimentés par batterie, le codage vidéo conscient de l'énergie est crucial
  • Impact environnemental : Le codage vidéo sensible à l'énergie est important pour réduire l'empreinte carbone de la diffusion vidéo

3. Limitations des Méthodes Existantes

L'examen de la littérature révèle :

  • De nombreux modèles de prédiction de consommation énergétique pour les encodeurs logiciels, mais des recherches limitées sur les encodeurs matériels
  • Les modèles de prédiction de consommation énergétique des décodeurs matériels existants ne peuvent pas être directement transférés aux encodeurs (car des caractéristiques telles que la taille du flux de bits ne sont pas disponibles avant le codage)
  • Absence de modèle unifié capable de gérer plusieurs normes de codage et préréglages

4. Motivation de la Recherche

Sur la base des limitations susmentionnées, les motivations de cette recherche incluent :

  • Étendre le modèle de caractéristiques de haut niveau des décodeurs matériels aux encodeurs matériels
  • Modifier le modèle de caractéristiques pour inclure uniquement les caractéristiques disponibles avant le codage
  • Proposer un modèle unifié qui considère plusieurs normes et préréglages d'encodeurs

Contributions Principales

  1. Extension du Modèle Existant : Extension du modèle de caractéristiques de haut niveau de Herglotz et al. pour les décodeurs matériels aux encodeurs matériels
  2. Optimisation du Modèle de Caractéristiques : Modification du modèle de caractéristiques de haut niveau pour inclure uniquement les caractéristiques disponibles avant le codage, résolvant le problème de l'indisponibilité de la taille du flux de bits dans les modèles de décodeurs
  3. Approche de Modélisation Unifiée : Proposition d'un modèle unique pour prédire la consommation énergétique des encodeurs matériels, considérant trois normes différentes (H.264, H.265, AV1) et deux préréglages d'encodeurs
  4. Prédiction Haute Précision : Réalisation d'une prédiction de consommation énergétique de codage avec une erreur en pourcentage absolu moyen d'environ 9,08 %
  5. Identification des Caractéristiques Clés : Démonstration par étude d'ablation que la résolution spatiale est une caractéristique de haut niveau clé pour la prédiction de la consommation énergétique des encodeurs matériels

Détails de la Méthode

Définition de la Tâche

Entrée : Caractéristiques de haut niveau de la séquence vidéo (résolution, nombre de trames, norme de codage, préréglage, valeur QP, etc.) Sortie : Valeur prédite de la consommation énergétique de codage de l'encodeur vidéo matériel Contraintes : Utilisation uniquement de caractéristiques disponibles avant le codage, applicable aux scénarios de codage de trames P et d'une seule image-clé

Architecture du Modèle

1. Méthode de Mesure de la Consommation Énergétique

Adoption de la méthode de mesure différentielle de la consommation énergétique :

E_enc = E_dynamic - E_static

Où :

  • E_dynamic : Consommation énergétique dynamique pendant le processus de codage
  • E_static : Consommation énergétique statique en mode inactif

2. Définition des Caractéristiques de Haut Niveau

Le modèle utilise 9 caractéristiques de haut niveau (Tableau I) :

Identifiant de CaractéristiqueDescription de la Caractéristique
x₀Décalage énergétique (terme de biais, toujours égal à 1)
x₁Nombre de trames codées
x₂Nombre de pixels (largeur × hauteur)
x₃Norme H264 (caractéristique booléenne)
x₄Norme H265 (caractéristique booléenne)
x₅Norme AV1 (caractéristique booléenne)
x₆Préréglage ultrafast (caractéristique booléenne)
x₇Préréglage slow (caractéristique booléenne)
x₈Paramètre de quantification QP

3. Modèle de Régression par Processus Gaussien

Adoption de la régression par processus gaussien (GPR) pour la modélisation :

Modèle de régression linéaire (avec bruit de mesure) :

Ê_enc = x^T w + ε

Approximation par processus gaussien :

f(x) ~ GP(m(x), Σ)

Processus gaussien à moyenne nulle :

f(x) ~ b(x) + GP(0, Σ)

Fonction de noyau de covariance (noyau exponentiel) :

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Sortie du modèle :

Ê_enc = h(x)^T β + g(x)

g(x) ~ GP(0, Σ)

Points d'Innovation Technique

  1. Innovation dans la Sélection des Caractéristiques : Suppression des caractéristiques disponibles uniquement après le codage, telles que la taille du flux de bits, garantissant que le modèle peut être utilisé pour la prédiction de consommation énergétique avant le codage
  2. Stratégie de Modélisation Unifiée : Contrairement à l'approche consistant à construire des modèles séparés pour chaque norme, utilisation de caractéristiques booléennes pour traiter uniformément plusieurs normes de codage et préréglages
  3. Capacité de Traitement du Bruit : GPR possède naturellement la capacité à traiter le bruit de mesure, ce qui convient aux scénarios de mesure de consommation énergétique matérielle
  4. Test d'Intervalle de Confiance : Adoption de méthodes statistiques rigoureuses pour assurer la fiabilité des résultats de mesure

Configuration Expérimentale

Ensemble de Données

  • Séquences vidéo : Séquences vidéo naturelles des conditions de test communes (CTC) de l'AOM, catégories A1-A5
  • Plage de résolution : 270p, 360p, 720p, 1080p, 2160p (4K)
  • Traitement de la profondeur de bits : Conversion des séquences d'entrée 10 bits en 8 bits (limitation de l'encodeur matériel)
  • Configuration du nombre de trames : Sélection aléatoire de 65-130 trames par séquence, une seule image-clé
  • Configuration de codage : Codage de trames P sans trames B

Indicateurs d'Évaluation

Utilisation de l'erreur en pourcentage absolu moyen (MAPE) :

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Méthodes de Comparaison

  • Comparaison principale : Modèle de régression linéaire (LR)
  • Étude d'ablation : Analyse de l'impact de la suppression successive de chaque caractéristique

Détails d'Implémentation

  • Plateforme matérielle : Kit de développement NVIDIA Jetson Orin NX
  • Normes de codage : H.264, H.265, AV1
  • Préréglages de codage : ultrafast, slow
  • Configuration QP :
    • H.264/H.265 : 22, 27, 32, 37
    • AV1 : 108, 132, 160, 184
  • Validation croisée : Validation croisée 10 fois pour prévenir le surapprentissage
  • Paramètres d'intervalle de confiance : α=0,99, β=0,02

Résultats Expérimentaux

Résultats Principaux

  • Performance globale : Le modèle GPR réalise MAPE = 9,08 %
  • Comparaison LR : Le modèle de régression linéaire MAPE = 72,98 %, significativement inférieur à GPR
  • Efficacité d'entraînement : Temps d'entraînement 21,25 secondes, temps de validation 3,7 millisecondes

Expériences d'Ablation

Les résultats de l'étude d'ablation (Tableau III) montrent le classement de l'importance de chaque caractéristique :

ScénarioCaractéristique SuppriméeMAPE (%)
aNombre de pixels (largeur × hauteur)164,70
bInformation de préréglage37,38
cNombre de trames codées17,43
dInformation de norme10,25
eValeur QP8,74

Découvertes Clés :

  1. La résolution spatiale est la caractéristique la plus importante ; sa suppression entraîne une augmentation drastique de MAPE à 164,70 %
  2. L'information de préréglage vient en second lieu avec un impact significatif
  3. La suppression d'information QP améliore légèrement la précision, probablement en raison d'une relation incohérente entre QP et la consommation énergétique

Analyse de Cas

L'analyse de visualisation révèle :

  1. Clustering par résolution : Différentes résolutions forment des clusters de consommation énergétique distincts
  2. Différences de normes : Les vidéos 4K présentent des différences de consommation énergétique évidentes entre les différentes normes de codage
  3. Impact du préréglage : Le préréglage slow montre des variations de consommation énergétique plus importantes entre les différentes normes
  4. Relation QP : H.264/H.265 présentent une relation monotone avec QP, tandis que AV1 n'affiche pas de corrélation évidente

Découvertes Expérimentales

  1. Domination de la résolution : La consommation énergétique de codage est fortement corrélée à la résolution vidéo
  2. Linéarité du nombre de trames : La consommation énergétique de codage entretient une relation linéaire avec le nombre de trames
  3. Différences de normes : Les différences de consommation énergétique entre les différentes normes de codage sont plus évidentes à haute résolution
  4. Avantage de GPR : GPR surpasse significativement la régression linéaire, prouvant la nature non-linéaire de la prédiction de consommation énergétique

Travaux Connexes

Prédiction de Consommation Énergétique des Encodeurs Logiciels

  • La plupart des recherches se concentrent sur les encodeurs logiciels (tels que H.265, SVT-AV1)
  • Les modèles existants sont généralement adaptés à des configurations de codage ou des normes spécifiques

Recherche sur les Décodeurs Matériels

  • Herglotz et al. ont proposé un modèle de prédiction de consommation énergétique pour les décodeurs H.265 matériels
  • Kränzler a étendu le modèle aux décodeurs matériels multi-normes

Lacune de Recherche

La recherche sur la prédiction de consommation énergétique des encodeurs matériels est relativement limitée ; cet article comble cette lacune.

Conclusion et Discussion

Conclusions Principales

  1. Proposition du premier modèle de prédiction de consommation énergétique pour encodeurs vidéo matériels basé sur des caractéristiques de haut niveau
  2. Réalisation d'une MAPE d'environ 9 %, ayant une valeur pratique
  3. Démonstration que la résolution spatiale est une caractéristique clé pour la prédiction de consommation énergétique
  4. Vérification de l'avantage significatif de GPR par rapport à la régression linéaire

Limitations

  1. Absence de Caractéristiques de Contenu : Les caractéristiques liées au contenu vidéo ne sont pas considérées, ce qui pourrait améliorer davantage la précision
  2. Limitation de Configuration de Codage : Seuls les scénarios de trames P et d'une seule image-clé sont considérés
  3. Plateforme Matérielle Unique : Validation uniquement sur la plateforme NVIDIA Jetson
  4. Sélection de Préréglage : Seuls deux préréglages (ultrafast, slow) sont considérés

Directions Futures

  1. Modélisation Consciente du Contenu : Introduction de caractéristiques telles que la complexité du contenu vidéo
  2. Analyse de Codage Complète : Extension aux scénarios de codage complets incluant les trames B
  3. Vérification Multi-Plateforme : Vérification de la généralité du modèle sur différentes plateformes matérielles
  4. Analyse Comparative Logiciel-Matériel : Analyse comparative complète de la consommation énergétique entre encodeurs matériels et logiciels

Évaluation Approfondie

Points Forts

  1. Valeur Pratique Élevée : Résout les besoins de prédiction de consommation énergétique dans les applications réelles
  2. Méthode Scientifique : Adoption de tests statistiques rigoureux pour assurer la fiabilité des mesures
  3. Analyse Complète : Analyse approfondie de la contribution de chaque caractéristique par étude d'ablation
  4. Forte Innovativité : Premier modèle unifié multi-normes de prédiction de consommation énergétique pour encodeurs matériels

Insuffisances

  1. Ingénierie des Caractéristiques : Possibilité de considérer davantage de caractéristiques liées au contenu vidéo
  2. Taille des Données : Les données de test sont relativement limitées, extensibles à davantage de types de vidéos
  3. Analyse Théorique : Manque d'analyse théorique approfondie des mécanismes de prédiction de consommation énergétique
  4. Vérification en Temps Réel : Vérification insuffisante de la performance du modèle dans les scénarios en temps réel

Impact

  1. Contribution Académique : Comble la lacune de recherche sur la prédiction de consommation énergétique des encodeurs matériels
  2. Valeur Pratique : Peut être utilisé pour la gestion de batterie sur appareils mobiles et le codage vidéo écologique
  3. Reproductibilité : Description claire de la méthode et configuration expérimentale détaillée

Scénarios Applicables

  1. Appareils Mobiles : Gestion de consommation énergétique sur appareils alimentés par batterie
  2. Informatique en Périphérie : Planification des ressources pour le traitement vidéo en périphérie
  3. Informatique Écologique : Optimisation de la consommation énergétique du codage vidéo dans les centres de données
  4. Applications en Temps Réel : Scénarios de codage en temps réel tels que la diffusion en direct et la vidéoconférence

Références Bibliographiques

L'article cite 24 références connexes, incluant principalement :

  • Recherche sur l'efficacité énergétique du codage vidéo (Katsenou et al., 2022)
  • Modélisation de consommation énergétique des encodeurs logiciels HEVC (Ramasubbu et al., 2022)
  • Prédiction de consommation énergétique des décodeurs matériels (Herglotz & Kaup, 2018)
  • Théorie de la régression par processus gaussien (Rasmussen & Williams, 2006)

Évaluation Globale : Cet article aborde un domaine de recherche important et relativement vierge - la prédiction de consommation énergétique des encodeurs vidéo matériels - en proposant une solution innovante. La méthode est scientifiquement rigoureuse, la conception expérimentale est raisonnable et les résultats ont une valeur pratique. Bien qu'il y ait encore place à l'amélioration dans l'ingénierie des caractéristiques et l'analyse théorique, l'article jette une base solide pour les recherches futures dans ce domaine.