A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic
Un Modèle de Caractéristiques de Haut Niveau pour Prédire l'Énergie de Codage d'un Encodeur Vidéo Matériel
À l'époque actuelle, la diffusion en continu de vidéos en temps réel et le contenu généré par les utilisateurs à partir d'appareils alimentés par batterie sont devenus omniprésents. La diffusion en temps réel nécessite un codage vidéo en temps réel, et les encodeurs vidéo matériels sont particulièrement adaptés à ces tâches de codage. Cet article présente un modèle de caractéristiques de haut niveau utilisant la régression par processus gaussien pour prédire la consommation énergétique du codage d'un encodeur vidéo matériel. Dans un cadre d'évaluation limité aux trames P et à une seule image-clé, le modèle peut prédire la consommation énergétique de codage avec une erreur en pourcentage absolu moyen d'environ 9 %. De plus, une étude d'ablation démontre que la résolution spatiale est une caractéristique de haut niveau clé pour la prédiction de la consommation énergétique de codage des encodeurs matériels. L'application pratique du modèle est qu'il peut être utilisé pour faire une estimation a priori de l'énergie requise pour coder la vidéo à différentes résolutions spatiales, différentes normes de codage et préréglages de codecs.
Cette recherche vise à résoudre le problème de la prédiction de la consommation énergétique des encodeurs vidéo matériels. Avec la prolifération de la diffusion vidéo en temps réel et du contenu généré par les utilisateurs, en particulier sur les appareils alimentés par batterie, la prédiction précise de la consommation énergétique de codage est importante pour :
La gestion de l'autonomie de la batterie
Le codage conscient de l'énergie
La réduction de l'empreinte carbone de la diffusion vidéo
Exigences en temps réel : La diffusion en temps réel nécessite un codage vidéo en temps réel, et les encodeurs matériels peuvent fournir un codage accéléré et efficace en énergie
Efficacité énergétique : Lors de la création de contenu généré par les utilisateurs sur des appareils portables alimentés par batterie, le codage vidéo conscient de l'énergie est crucial
Impact environnemental : Le codage vidéo sensible à l'énergie est important pour réduire l'empreinte carbone de la diffusion vidéo
De nombreux modèles de prédiction de consommation énergétique pour les encodeurs logiciels, mais des recherches limitées sur les encodeurs matériels
Les modèles de prédiction de consommation énergétique des décodeurs matériels existants ne peuvent pas être directement transférés aux encodeurs (car des caractéristiques telles que la taille du flux de bits ne sont pas disponibles avant le codage)
Absence de modèle unifié capable de gérer plusieurs normes de codage et préréglages
Extension du Modèle Existant : Extension du modèle de caractéristiques de haut niveau de Herglotz et al. pour les décodeurs matériels aux encodeurs matériels
Optimisation du Modèle de Caractéristiques : Modification du modèle de caractéristiques de haut niveau pour inclure uniquement les caractéristiques disponibles avant le codage, résolvant le problème de l'indisponibilité de la taille du flux de bits dans les modèles de décodeurs
Approche de Modélisation Unifiée : Proposition d'un modèle unique pour prédire la consommation énergétique des encodeurs matériels, considérant trois normes différentes (H.264, H.265, AV1) et deux préréglages d'encodeurs
Prédiction Haute Précision : Réalisation d'une prédiction de consommation énergétique de codage avec une erreur en pourcentage absolu moyen d'environ 9,08 %
Identification des Caractéristiques Clés : Démonstration par étude d'ablation que la résolution spatiale est une caractéristique de haut niveau clé pour la prédiction de la consommation énergétique des encodeurs matériels
Entrée : Caractéristiques de haut niveau de la séquence vidéo (résolution, nombre de trames, norme de codage, préréglage, valeur QP, etc.)
Sortie : Valeur prédite de la consommation énergétique de codage de l'encodeur vidéo matériel
Contraintes : Utilisation uniquement de caractéristiques disponibles avant le codage, applicable aux scénarios de codage de trames P et d'une seule image-clé
Innovation dans la Sélection des Caractéristiques : Suppression des caractéristiques disponibles uniquement après le codage, telles que la taille du flux de bits, garantissant que le modèle peut être utilisé pour la prédiction de consommation énergétique avant le codage
Stratégie de Modélisation Unifiée : Contrairement à l'approche consistant à construire des modèles séparés pour chaque norme, utilisation de caractéristiques booléennes pour traiter uniformément plusieurs normes de codage et préréglages
Capacité de Traitement du Bruit : GPR possède naturellement la capacité à traiter le bruit de mesure, ce qui convient aux scénarios de mesure de consommation énergétique matérielle
Test d'Intervalle de Confiance : Adoption de méthodes statistiques rigoureuses pour assurer la fiabilité des résultats de mesure
Les résultats de l'étude d'ablation (Tableau III) montrent le classement de l'importance de chaque caractéristique :
Scénario
Caractéristique Supprimée
MAPE (%)
a
Nombre de pixels (largeur × hauteur)
164,70
b
Information de préréglage
37,38
c
Nombre de trames codées
17,43
d
Information de norme
10,25
e
Valeur QP
8,74
Découvertes Clés :
La résolution spatiale est la caractéristique la plus importante ; sa suppression entraîne une augmentation drastique de MAPE à 164,70 %
L'information de préréglage vient en second lieu avec un impact significatif
La suppression d'information QP améliore légèrement la précision, probablement en raison d'une relation incohérente entre QP et la consommation énergétique
Absence de Caractéristiques de Contenu : Les caractéristiques liées au contenu vidéo ne sont pas considérées, ce qui pourrait améliorer davantage la précision
Limitation de Configuration de Codage : Seuls les scénarios de trames P et d'une seule image-clé sont considérés
Plateforme Matérielle Unique : Validation uniquement sur la plateforme NVIDIA Jetson
Sélection de Préréglage : Seuls deux préréglages (ultrafast, slow) sont considérés
Recherche sur l'efficacité énergétique du codage vidéo (Katsenou et al., 2022)
Modélisation de consommation énergétique des encodeurs logiciels HEVC (Ramasubbu et al., 2022)
Prédiction de consommation énergétique des décodeurs matériels (Herglotz & Kaup, 2018)
Théorie de la régression par processus gaussien (Rasmussen & Williams, 2006)
Évaluation Globale : Cet article aborde un domaine de recherche important et relativement vierge - la prédiction de consommation énergétique des encodeurs vidéo matériels - en proposant une solution innovante. La méthode est scientifiquement rigoureuse, la conception expérimentale est raisonnable et les résultats ont une valeur pratique. Bien qu'il y ait encore place à l'amélioration dans l'ingénierie des caractéristiques et l'analyse théorique, l'article jette une base solide pour les recherches futures dans ce domaine.