2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup

In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.

academic

Ein hochstufiges Merkmalsmodell zur Vorhersage der Codierungsenergie eines Hardware-Videoencoders

Grundlegende Informationen

Papier-ID: 2510.12754
Titel: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
Autoren: Diwakara Reddy, Christian Herglotz, André Kaup
Klassifizierung: eess.IV (Elektrotechnik und Systemwissenschaft – Bild- und Videoverarbeitung), eess.SP (Signalverarbeitung)
Veröffentlichungsdatum: 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.12754

Zusammenfassung

In der heutigen Gesellschaft ist das Streaming von Echtzeitvideos und benutzergenerierten Inhalten von batteriebetriebenen Geräten allgegenwärtig geworden. Das Echtzeitstreaming erfordert Echtzeitvideokodierung, und Hardware-Videoencodern eignen sich hervorragend für solche Kodierungsaufgaben. Dieses Papier stellt ein hochstufiges Merkmalsmodell vor, das Gaußsche Prozessregression verwendet, um die Codierungsenergie eines Hardware-Videoencoders vorherzusagen. In einer Evaluierungseinstellung, die auf P-Frames und einen einzelnen Keyframe beschränkt ist, kann das Modell die Codierungsenergie mit einem durchschnittlichen absoluten prozentualen Fehler von etwa 9% vorhersagen. Darüber hinaus wird durch Ablationsstudien nachgewiesen, dass die räumliche Auflösung ein Schlüsselmerkmal für die Vorhersage der Codierungsenergie von Hardware-Encodern ist. Die praktische Anwendung des Modells besteht darin, dass es zur Vorhersage der für die Kodierung von Videos bei verschiedenen räumlichen Auflösungen, verschiedenen Kodierungsstandards und Codec-Voreinstellungen erforderlichen Energie verwendet werden kann.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Diese Forschung befasst sich mit dem Problem der Vorhersage des Energieverbrauchs von Hardware-Videoencodern. Mit der Verbreitung von Echtzeitvideostrom und benutzergenerierten Inhalten, insbesondere auf batteriebetriebenen Geräten, ist die genaue Vorhersage des Codierungsenergieaufwands wichtig für:

Verwaltung der Akkulaufzeit
Energiebewusste Kodierung
Verringerung des CO₂-Fußabdrucks von Videostreams und andere Aspekte.

2. Bedeutung des Problems

Echtzeitanforderungen: Das Echtzeitstreaming erfordert Echtzeitvideokodierung, und Hardware-Encoder können beschleunigte und energieeffiziente Kodierung bieten
Energieeffizienz: Bei der Erstellung benutzergenerierten Inhalts auf batteriebetriebenen tragbaren Geräten ist energiebewusste Videokodierung von entscheidender Bedeutung
Umweltauswirkungen: Energiebewusste Videokodierung ist wichtig, um den CO₂-Fußabdruck von Videostreams zu verringern

3. Einschränkungen bestehender Methoden

Die Literaturrecherche zeigt:

Es gibt mehr Modelle zur Vorhersage des Energieverbrauchs von Software-Encodern, aber begrenzte Forschung zu Hardware-Encodern
Bestehende Modelle zur Vorhersage des Energieverbrauchs von Hardware-Decodern können nicht direkt auf Encoder übertragen werden (da Merkmale wie Bitstromgröße vor der Kodierung nicht verfügbar sind)
Es fehlt ein einheitliches Modell, das mehrere Kodierungsstandards und Voreinstellungen verarbeiten kann

4. Forschungsmotivation

Basierend auf den oben genannten Einschränkungen umfasst die Forschungsmotivation dieses Papiers:

Erweiterung des hochstufigen Merkmalsmodells von Hardware-Decodern auf Hardware-Encoder
Änderung des Merkmalsmodells, um nur vor der Kodierung verfügbare Merkmale einzubeziehen
Vorschlag eines einheitlichen Modells, das mehrere Standards und Encoder-Voreinstellungen berücksichtigt

Kernbeiträge

Erweiterung bestehender Modelle: Erweiterung des hochstufigen Merkmalsmodells von Herglotz et al. für Hardware-Decoder auf Hardware-Encoder
Optimierung des Merkmalsmodells: Änderung des hochstufigen Merkmalsmodells, um nur vor der Kodierung verfügbare Merkmale einzubeziehen, was das Problem der Bitstromgrößenmerkmal in Encoder-Modellen löst
Einheitliche Modellierungsmethode: Vorschlag eines einzelnen Modells zur Vorhersage des Energieverbrauchs von Hardware-Encodern unter Berücksichtigung von drei verschiedenen Standards (H.264, H.265, AV1) und zwei Encoder-Voreinstellungen
Hochpräzisions-Vorhersage: Erreichung einer Codierungsenergieprognose mit einem durchschnittlichen absoluten prozentualen Fehler von etwa 9,08%
Identifizierung von Schlüsselmerkmalen: Nachweis durch Ablationsstudien, dass die räumliche Auflösung ein Schlüsselmerkmal für die Vorhersage der Codierungsenergie von Hardware-Encodern ist

Methodische Erklärung

Aufgabendefinition

Eingabe: Hochstufige Merkmale der Videosequenz (Auflösung, Bildanzahl, Kodierungsstandard, Voreinstellung, QP-Wert usw.) Ausgabe: Vorhersagewert der Codierungsenergie des Hardware-Videoencoders Einschränkungen: Verwendung nur vor der Kodierung verfügbarer Merkmale, anwendbar auf Kodierungsszenarien mit P-Frames und einzelnem Keyframe

Modellarchitektur

1. Energieverbrauchsmessmethode

Differenzielle Energieverbrauchsmessmethode wird verwendet:

E_enc = E_dynamic - E_static

Wobei:

E_dynamic: Dynamischer Energieverbrauch während des Kodierungsprozesses
E_static: Statischer Energieverbrauch im Leerlaufmodus

2. Definition hochstufiger Merkmale

Das Modell verwendet 9 hochstufige Merkmale (Tabelle I):

Merkmalskennzeichnung	Merkmalsbeschreibung
x₀	Versatz-Energie (Bias-Term, immer 1)
x₁	Anzahl der kodierten Frames
x₂	Pixelanzahl (Breite × Höhe)
x₃	Standard H264 (boolesches Merkmal)
x₄	Standard H265 (boolesches Merkmal)
x₅	Standard AV1 (boolesches Merkmal)
x₆	Voreinstellung ultrafast (boolesches Merkmal)
x₇	Voreinstellung slow (boolesches Merkmal)
x₈	Quantisierungsparameter QP

3. Gaußsches Prozessregressionsmodell

Gaußsche Prozessregression (GPR) wird für die Modellierung verwendet:

Lineares Regressionsmodell (mit Messunsicherheit):

Ê_enc = x^T w + ε

Gaußsche Prozessfunktionsnäherung:

f(x) ~ GP(m(x), Σ)

Gaußscher Prozess mit Nullmittelwert:

f(x) ~ b(x) + GP(0, Σ)

Kovarianz-Kernfunktion (exponentieller Kern):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Modellausgabe:

Ê_enc = h(x)^T β + g(x)

wobei g(x) ~ GP(0, Σ)

Technische Innovationspunkte

Merkmalsauswahl-Innovation: Entfernung von Merkmalen, die nur nach der Kodierung verfügbar sind (wie Bitstromgröße), um sicherzustellen, dass das Modell für die Energieprognose vor der Kodierung verwendet werden kann
Einheitliche Modellierungsstrategie: Im Gegensatz zum Aufbau separater Modelle für jeden Standard werden boolesche Merkmale verwendet, um mehrere Kodierungsstandards und Voreinstellungen einheitlich zu behandeln
Rauschbehandlungsfähigkeit: GPR hat die natürliche Fähigkeit, Messunsicherheiten zu behandeln, was sich für Szenarien der Hardware-Energiemessung eignet
Konfidenzintervall-Tests: Strenge statistische Methoden werden verwendet, um die Zuverlässigkeit der Messergebnisse zu gewährleisten

Experimentelle Einrichtung

Datensatz

Videosequenzen: Natürliche Videosequenzen aus den allgemeinen Testbedingungen (CTC) der AOM, Kategorien A1-A5
Auflösungsbereich: 270p, 360p, 720p, 1080p, 2160p (4K)
Bittiefenverarbeitung: Umwandlung von 10-Bit-Eingabesequenzen in 8-Bit (Hardware-Encoder-Einschränkung)
Bildeinstellung: Zufällige Auswahl von 65-130 Bildern pro Sequenz, einzelner Keyframe
Kodierungskonfiguration: P-Frame-Kodierung ohne B-Frames

Bewertungsmetriken

Durchschnittlicher absoluter prozentualer Fehler (MAPE) wird verwendet:

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Vergleichsmethoden

Hauptvergleich: Lineares Regressionsmodell (LR)
Ablationsstudie: Analyse der Auswirkung der schrittweisen Merkmalsbeseitigung

Implementierungsdetails

Hardware-Plattform: NVIDIA Jetson Orin NX Entwicklungs-Kit
Kodierungsstandards: H.264, H.265, AV1
Encoder-Voreinstellungen: ultrafast, slow
QP-Einstellungen:
- H.264/H.265: 22, 27, 32, 37
- AV1: 108, 132, 160, 184
Kreuzvalidierung: 10-fache Kreuzvalidierung zur Vermeidung von Überanpassung
Konfidenzintervall-Parameter: α=0,99, β=0,02

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistung: GPR-Modell erreicht MAPE = 9,08%
LR-Vergleich: Lineares Regressionsmodell MAPE = 72,98%, deutlich schlechter als GPR
Trainingseffizienz: Trainingszeit 21,25 Sekunden, Validierungszeit 3,7 Millisekunden

Ablationsstudien

Die Ergebnisse der Ablationsstudien (Tabelle III) zeigen die Wichtigkeitsreihenfolge der einzelnen Merkmale:

Szenario	Entferntes Merkmal	MAPE (%)
a	Pixelanzahl (Breite × Höhe)	164,70
b	Voreinstellungsinformationen	37,38
c	Anzahl der kodierten Frames	17,43
d	Standardinformationen	10,25
e	QP-Wert	8,74

Wichtigste Erkenntnisse:

Räumliche Auflösung ist das wichtigste Merkmal; nach Entfernung steigt MAPE dramatisch auf 164,70%
Voreinstellungsinformationen sind zweitwichtig mit signifikantem Einfluss
QP-Informationen: Nach Entfernung verbessert sich die Genauigkeit leicht, möglicherweise weil die QP-Energie-Beziehung inkonsistent ist

Fallstudienanalyse

Durch Visualisierungsanalyse wurden folgende Erkenntnisse gewonnen:

Auflösungs-Clustering: Verschiedene Auflösungen bilden deutliche Energieverbrauchscluster
Standardunterschiede: 4K-Videos zeigen deutliche Energieverbrauchsunterschiede zwischen verschiedenen Kodierungsstandards
Voreinstellungsauswirkung: Die slow-Voreinstellung zeigt signifikantere Energieverbrauchsänderungen zwischen verschiedenen Standards
QP-Beziehung: H.264/H.265 zeigen monotone Beziehung mit QP, AV1 zeigt keine offensichtliche Korrelation

Experimentelle Erkenntnisse

Auflösungsdominanz: Der Kodierungsenergieaufwand ist stark mit der Videoauflösung korreliert
Bildanzahl-Linearität: Der Kodierungsenergieaufwand zeigt lineare Beziehung zur Bildanzahl
Standardunterschiede: Energieverbrauchsunterschiede zwischen verschiedenen Kodierungsstandards sind bei höheren Auflösungen deutlicher
GPR-Vorteile: GPR ist deutlich überlegen gegenüber linearer Regression, was die nichtlineare Natur der Energieprognose beweist

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Vorschlag des ersten hochstufigen Merkmalsmodells zur Vorhersage des Energieverbrauchs von Hardware-Videoencodern
Erreichung eines MAPE von etwa 9%, was praktischen Wert hat
Nachweis, dass räumliche Auflösung ein Schlüsselmerkmal für die Energieprognose ist
Bestätigung der signifikanten Überlegenheit von GPR gegenüber linearer Regression

Einschränkungen

Fehlende Inhaltsmerkmale: Inhaltsabhängige Merkmale werden nicht berücksichtigt, was die Genauigkeit möglicherweise weiter verbessern könnte
Kodierungskonfigurationsbeschränkung: Nur P-Frames und einzelner Keyframe werden berücksichtigt
Einzelne Hardware-Plattform: Validierung nur auf der NVIDIA Jetson-Plattform
Voreinstellungsauswahl: Nur zwei Voreinstellungen (ultrafast, slow) werden berücksichtigt

Zukünftige Richtungen

Inhaltsabhängige Modellierung: Einbeziehung von Merkmalen wie Videoinhalts-Komplexität
Umfassende Kodierungsanalyse: Erweiterung auf vollständige Kodierungsszenarien mit B-Frames
Multi-Plattform-Validierung: Validierung der Modellverallgemeinerbarkeit auf verschiedenen Hardware-Plattformen
Hardware-Software-Vergleich: Umfassende Vergleichsanalyse des Energieverbrauchs zwischen Hardware- und Software-Encodern

Tiefgreifende Bewertung

Stärken

Hoher praktischer Wert: Löst tatsächliche Anforderungen an die Energieverbrauchsprognose in Anwendungen
Wissenschaftliche Methode: Verwendung strenger statistischer Tests zur Gewährleistung der Messzuverlässigkeit
Umfassende Analyse: Tiefgreifende Analyse der Merkmalsbeiträge durch Ablationsstudien
Starke Innovation: Erstes einheitliches Multi-Standard-Energieverbrauchsprognosemodell speziell für Hardware-Encoder

Mängel

Merkmalsengineering: Weitere videoinhaltsabhängige Merkmale könnten berücksichtigt werden
Datengröße: Testdaten sind relativ begrenzt und könnten auf mehr Videotypen erweitert werden
Theoretische Analyse: Fehlende tiefgreifende theoretische Analyse der Energieverbrauchsprognose-Mechanismen
Echtzeit-Validierung: Unzureichende Validierung der Modellleistung in Echtzeitszenarien

Auswirkungen

Akademischer Beitrag: Füllt die Forschungslücke bei der Energieverbrauchsprognose von Hardware-Encodern
Praktischer Wert: Kann für Batteriemanagementsysteme auf mobilen Geräten und grüne Videokodierung verwendet werden
Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung

Anwendungsszenarien

Mobile Geräte: Energieverbrauchsverwaltung auf batteriebetriebenen Geräten
Edge-Computing: Ressourcenplanung für Edge-Videoverarbeitung
Grünes Computing: Energieverbrauchsoptimierung für Videokodierung in Rechenzentren
Echtzeitanwendungen: Echtzeitkodierungsszenarien wie Live-Streaming und Videokonferenzen

Literaturverzeichnis

Das Papier zitiert 24 verwandte Literaturquellen, hauptsächlich einschließlich:

Forschung zur Videokodierungs-Energieeffizienz (Katsenou et al., 2022)
Energieverbrauchsmodellierung von HEVC-Software-Encodern (Ramasubbu et al., 2022)
Energieverbrauchsprognose für Hardware-Decoder (Herglotz & Kaup, 2018)
Theorie der Gaußschen Prozessregression (Rasmussen & Williams, 2006)

Gesamtbewertung: Dieses Papier befasst sich mit dem wichtigen und relativ unerforschten Gebiet der Energieverbrauchsprognose für Hardware-Videoencodern und schlägt eine innovative Lösung vor. Die Methode ist wissenschaftlich streng, das Experimentaldesign ist angemessen, und die Ergebnisse haben praktischen Wert. Obwohl es noch Raum für Verbesserungen im Merkmalsengineering und in der theoretischen Analyse gibt, legt das Papier eine solide Grundlage für zukünftige Forschung in diesem Bereich.