2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic

Ein hochstufiges Merkmalsmodell zur Vorhersage der Codierungsenergie eines Hardware-Videoencoders

Grundlegende Informationen

  • Papier-ID: 2510.12754
  • Titel: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
  • Autoren: Diwakara Reddy, Christian Herglotz, André Kaup
  • Klassifizierung: eess.IV (Elektrotechnik und Systemwissenschaft – Bild- und Videoverarbeitung), eess.SP (Signalverarbeitung)
  • Veröffentlichungsdatum: 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.12754

Zusammenfassung

In der heutigen Gesellschaft ist das Streaming von Echtzeitvideos und benutzergenerierten Inhalten von batteriebetriebenen Geräten allgegenwärtig geworden. Das Echtzeitstreaming erfordert Echtzeitvideokodierung, und Hardware-Videoencodern eignen sich hervorragend für solche Kodierungsaufgaben. Dieses Papier stellt ein hochstufiges Merkmalsmodell vor, das Gaußsche Prozessregression verwendet, um die Codierungsenergie eines Hardware-Videoencoders vorherzusagen. In einer Evaluierungseinstellung, die auf P-Frames und einen einzelnen Keyframe beschränkt ist, kann das Modell die Codierungsenergie mit einem durchschnittlichen absoluten prozentualen Fehler von etwa 9% vorhersagen. Darüber hinaus wird durch Ablationsstudien nachgewiesen, dass die räumliche Auflösung ein Schlüsselmerkmal für die Vorhersage der Codierungsenergie von Hardware-Encodern ist. Die praktische Anwendung des Modells besteht darin, dass es zur Vorhersage der für die Kodierung von Videos bei verschiedenen räumlichen Auflösungen, verschiedenen Kodierungsstandards und Codec-Voreinstellungen erforderlichen Energie verwendet werden kann.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Diese Forschung befasst sich mit dem Problem der Vorhersage des Energieverbrauchs von Hardware-Videoencodern. Mit der Verbreitung von Echtzeitvideostrom und benutzergenerierten Inhalten, insbesondere auf batteriebetriebenen Geräten, ist die genaue Vorhersage des Codierungsenergieaufwands wichtig für:

  • Verwaltung der Akkulaufzeit
  • Energiebewusste Kodierung
  • Verringerung des CO₂-Fußabdrucks von Videostreams und andere Aspekte.

2. Bedeutung des Problems

  • Echtzeitanforderungen: Das Echtzeitstreaming erfordert Echtzeitvideokodierung, und Hardware-Encoder können beschleunigte und energieeffiziente Kodierung bieten
  • Energieeffizienz: Bei der Erstellung benutzergenerierten Inhalts auf batteriebetriebenen tragbaren Geräten ist energiebewusste Videokodierung von entscheidender Bedeutung
  • Umweltauswirkungen: Energiebewusste Videokodierung ist wichtig, um den CO₂-Fußabdruck von Videostreams zu verringern

3. Einschränkungen bestehender Methoden

Die Literaturrecherche zeigt:

  • Es gibt mehr Modelle zur Vorhersage des Energieverbrauchs von Software-Encodern, aber begrenzte Forschung zu Hardware-Encodern
  • Bestehende Modelle zur Vorhersage des Energieverbrauchs von Hardware-Decodern können nicht direkt auf Encoder übertragen werden (da Merkmale wie Bitstromgröße vor der Kodierung nicht verfügbar sind)
  • Es fehlt ein einheitliches Modell, das mehrere Kodierungsstandards und Voreinstellungen verarbeiten kann

4. Forschungsmotivation

Basierend auf den oben genannten Einschränkungen umfasst die Forschungsmotivation dieses Papiers:

  • Erweiterung des hochstufigen Merkmalsmodells von Hardware-Decodern auf Hardware-Encoder
  • Änderung des Merkmalsmodells, um nur vor der Kodierung verfügbare Merkmale einzubeziehen
  • Vorschlag eines einheitlichen Modells, das mehrere Standards und Encoder-Voreinstellungen berücksichtigt

Kernbeiträge

  1. Erweiterung bestehender Modelle: Erweiterung des hochstufigen Merkmalsmodells von Herglotz et al. für Hardware-Decoder auf Hardware-Encoder
  2. Optimierung des Merkmalsmodells: Änderung des hochstufigen Merkmalsmodells, um nur vor der Kodierung verfügbare Merkmale einzubeziehen, was das Problem der Bitstromgrößenmerkmal in Encoder-Modellen löst
  3. Einheitliche Modellierungsmethode: Vorschlag eines einzelnen Modells zur Vorhersage des Energieverbrauchs von Hardware-Encodern unter Berücksichtigung von drei verschiedenen Standards (H.264, H.265, AV1) und zwei Encoder-Voreinstellungen
  4. Hochpräzisions-Vorhersage: Erreichung einer Codierungsenergieprognose mit einem durchschnittlichen absoluten prozentualen Fehler von etwa 9,08%
  5. Identifizierung von Schlüsselmerkmalen: Nachweis durch Ablationsstudien, dass die räumliche Auflösung ein Schlüsselmerkmal für die Vorhersage der Codierungsenergie von Hardware-Encodern ist

Methodische Erklärung

Aufgabendefinition

Eingabe: Hochstufige Merkmale der Videosequenz (Auflösung, Bildanzahl, Kodierungsstandard, Voreinstellung, QP-Wert usw.) Ausgabe: Vorhersagewert der Codierungsenergie des Hardware-Videoencoders Einschränkungen: Verwendung nur vor der Kodierung verfügbarer Merkmale, anwendbar auf Kodierungsszenarien mit P-Frames und einzelnem Keyframe

Modellarchitektur

1. Energieverbrauchsmessmethode

Differenzielle Energieverbrauchsmessmethode wird verwendet:

E_enc = E_dynamic - E_static

Wobei:

  • E_dynamic: Dynamischer Energieverbrauch während des Kodierungsprozesses
  • E_static: Statischer Energieverbrauch im Leerlaufmodus

2. Definition hochstufiger Merkmale

Das Modell verwendet 9 hochstufige Merkmale (Tabelle I):

MerkmalskennzeichnungMerkmalsbeschreibung
x₀Versatz-Energie (Bias-Term, immer 1)
x₁Anzahl der kodierten Frames
x₂Pixelanzahl (Breite × Höhe)
x₃Standard H264 (boolesches Merkmal)
x₄Standard H265 (boolesches Merkmal)
x₅Standard AV1 (boolesches Merkmal)
x₆Voreinstellung ultrafast (boolesches Merkmal)
x₇Voreinstellung slow (boolesches Merkmal)
x₈Quantisierungsparameter QP

3. Gaußsches Prozessregressionsmodell

Gaußsche Prozessregression (GPR) wird für die Modellierung verwendet:

Lineares Regressionsmodell (mit Messunsicherheit):

Ê_enc = x^T w + ε

Gaußsche Prozessfunktionsnäherung:

f(x) ~ GP(m(x), Σ)

Gaußscher Prozess mit Nullmittelwert:

f(x) ~ b(x) + GP(0, Σ)

Kovarianz-Kernfunktion (exponentieller Kern):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Modellausgabe:

Ê_enc = h(x)^T β + g(x)

wobei g(x) ~ GP(0, Σ)

Technische Innovationspunkte

  1. Merkmalsauswahl-Innovation: Entfernung von Merkmalen, die nur nach der Kodierung verfügbar sind (wie Bitstromgröße), um sicherzustellen, dass das Modell für die Energieprognose vor der Kodierung verwendet werden kann
  2. Einheitliche Modellierungsstrategie: Im Gegensatz zum Aufbau separater Modelle für jeden Standard werden boolesche Merkmale verwendet, um mehrere Kodierungsstandards und Voreinstellungen einheitlich zu behandeln
  3. Rauschbehandlungsfähigkeit: GPR hat die natürliche Fähigkeit, Messunsicherheiten zu behandeln, was sich für Szenarien der Hardware-Energiemessung eignet
  4. Konfidenzintervall-Tests: Strenge statistische Methoden werden verwendet, um die Zuverlässigkeit der Messergebnisse zu gewährleisten

Experimentelle Einrichtung

Datensatz

  • Videosequenzen: Natürliche Videosequenzen aus den allgemeinen Testbedingungen (CTC) der AOM, Kategorien A1-A5
  • Auflösungsbereich: 270p, 360p, 720p, 1080p, 2160p (4K)
  • Bittiefenverarbeitung: Umwandlung von 10-Bit-Eingabesequenzen in 8-Bit (Hardware-Encoder-Einschränkung)
  • Bildeinstellung: Zufällige Auswahl von 65-130 Bildern pro Sequenz, einzelner Keyframe
  • Kodierungskonfiguration: P-Frame-Kodierung ohne B-Frames

Bewertungsmetriken

Durchschnittlicher absoluter prozentualer Fehler (MAPE) wird verwendet:

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Vergleichsmethoden

  • Hauptvergleich: Lineares Regressionsmodell (LR)
  • Ablationsstudie: Analyse der Auswirkung der schrittweisen Merkmalsbeseitigung

Implementierungsdetails

  • Hardware-Plattform: NVIDIA Jetson Orin NX Entwicklungs-Kit
  • Kodierungsstandards: H.264, H.265, AV1
  • Encoder-Voreinstellungen: ultrafast, slow
  • QP-Einstellungen:
    • H.264/H.265: 22, 27, 32, 37
    • AV1: 108, 132, 160, 184
  • Kreuzvalidierung: 10-fache Kreuzvalidierung zur Vermeidung von Überanpassung
  • Konfidenzintervall-Parameter: α=0,99, β=0,02

Experimentelle Ergebnisse

Hauptergebnisse

  • Gesamtleistung: GPR-Modell erreicht MAPE = 9,08%
  • LR-Vergleich: Lineares Regressionsmodell MAPE = 72,98%, deutlich schlechter als GPR
  • Trainingseffizienz: Trainingszeit 21,25 Sekunden, Validierungszeit 3,7 Millisekunden

Ablationsstudien

Die Ergebnisse der Ablationsstudien (Tabelle III) zeigen die Wichtigkeitsreihenfolge der einzelnen Merkmale:

SzenarioEntferntes MerkmalMAPE (%)
aPixelanzahl (Breite × Höhe)164,70
bVoreinstellungsinformationen37,38
cAnzahl der kodierten Frames17,43
dStandardinformationen10,25
eQP-Wert8,74

Wichtigste Erkenntnisse:

  1. Räumliche Auflösung ist das wichtigste Merkmal; nach Entfernung steigt MAPE dramatisch auf 164,70%
  2. Voreinstellungsinformationen sind zweitwichtig mit signifikantem Einfluss
  3. QP-Informationen: Nach Entfernung verbessert sich die Genauigkeit leicht, möglicherweise weil die QP-Energie-Beziehung inkonsistent ist

Fallstudienanalyse

Durch Visualisierungsanalyse wurden folgende Erkenntnisse gewonnen:

  1. Auflösungs-Clustering: Verschiedene Auflösungen bilden deutliche Energieverbrauchscluster
  2. Standardunterschiede: 4K-Videos zeigen deutliche Energieverbrauchsunterschiede zwischen verschiedenen Kodierungsstandards
  3. Voreinstellungsauswirkung: Die slow-Voreinstellung zeigt signifikantere Energieverbrauchsänderungen zwischen verschiedenen Standards
  4. QP-Beziehung: H.264/H.265 zeigen monotone Beziehung mit QP, AV1 zeigt keine offensichtliche Korrelation

Experimentelle Erkenntnisse

  1. Auflösungsdominanz: Der Kodierungsenergieaufwand ist stark mit der Videoauflösung korreliert
  2. Bildanzahl-Linearität: Der Kodierungsenergieaufwand zeigt lineare Beziehung zur Bildanzahl
  3. Standardunterschiede: Energieverbrauchsunterschiede zwischen verschiedenen Kodierungsstandards sind bei höheren Auflösungen deutlicher
  4. GPR-Vorteile: GPR ist deutlich überlegen gegenüber linearer Regression, was die nichtlineare Natur der Energieprognose beweist

Verwandte Arbeiten

Energieverbrauchsprognose von Software-Encodern

  • Die meisten Forschungen konzentrieren sich auf Software-Encoder (wie H.265, SVT-AV1)
  • Bestehende Modelle sind typischerweise auf spezifische Kodierungskonfigurationen oder Standards ausgerichtet

Hardware-Decoder-Forschung

  • Herglotz et al. schlugen ein Modell zur Vorhersage des Energieverbrauchs von Hardware-H.265-Decodern vor
  • Kränzler erweiterte dies auf Hardware-Decoder-Modelle mit mehreren Standards

Forschungslücke

Die Forschung zur Energieverbrauchsprognose von Hardware-Encodern ist relativ begrenzt; dieses Papier füllt diese Lücke.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Vorschlag des ersten hochstufigen Merkmalsmodells zur Vorhersage des Energieverbrauchs von Hardware-Videoencodern
  2. Erreichung eines MAPE von etwa 9%, was praktischen Wert hat
  3. Nachweis, dass räumliche Auflösung ein Schlüsselmerkmal für die Energieprognose ist
  4. Bestätigung der signifikanten Überlegenheit von GPR gegenüber linearer Regression

Einschränkungen

  1. Fehlende Inhaltsmerkmale: Inhaltsabhängige Merkmale werden nicht berücksichtigt, was die Genauigkeit möglicherweise weiter verbessern könnte
  2. Kodierungskonfigurationsbeschränkung: Nur P-Frames und einzelner Keyframe werden berücksichtigt
  3. Einzelne Hardware-Plattform: Validierung nur auf der NVIDIA Jetson-Plattform
  4. Voreinstellungsauswahl: Nur zwei Voreinstellungen (ultrafast, slow) werden berücksichtigt

Zukünftige Richtungen

  1. Inhaltsabhängige Modellierung: Einbeziehung von Merkmalen wie Videoinhalts-Komplexität
  2. Umfassende Kodierungsanalyse: Erweiterung auf vollständige Kodierungsszenarien mit B-Frames
  3. Multi-Plattform-Validierung: Validierung der Modellverallgemeinerbarkeit auf verschiedenen Hardware-Plattformen
  4. Hardware-Software-Vergleich: Umfassende Vergleichsanalyse des Energieverbrauchs zwischen Hardware- und Software-Encodern

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Wert: Löst tatsächliche Anforderungen an die Energieverbrauchsprognose in Anwendungen
  2. Wissenschaftliche Methode: Verwendung strenger statistischer Tests zur Gewährleistung der Messzuverlässigkeit
  3. Umfassende Analyse: Tiefgreifende Analyse der Merkmalsbeiträge durch Ablationsstudien
  4. Starke Innovation: Erstes einheitliches Multi-Standard-Energieverbrauchsprognosemodell speziell für Hardware-Encoder

Mängel

  1. Merkmalsengineering: Weitere videoinhaltsabhängige Merkmale könnten berücksichtigt werden
  2. Datengröße: Testdaten sind relativ begrenzt und könnten auf mehr Videotypen erweitert werden
  3. Theoretische Analyse: Fehlende tiefgreifende theoretische Analyse der Energieverbrauchsprognose-Mechanismen
  4. Echtzeit-Validierung: Unzureichende Validierung der Modellleistung in Echtzeitszenarien

Auswirkungen

  1. Akademischer Beitrag: Füllt die Forschungslücke bei der Energieverbrauchsprognose von Hardware-Encodern
  2. Praktischer Wert: Kann für Batteriemanagementsysteme auf mobilen Geräten und grüne Videokodierung verwendet werden
  3. Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung

Anwendungsszenarien

  1. Mobile Geräte: Energieverbrauchsverwaltung auf batteriebetriebenen Geräten
  2. Edge-Computing: Ressourcenplanung für Edge-Videoverarbeitung
  3. Grünes Computing: Energieverbrauchsoptimierung für Videokodierung in Rechenzentren
  4. Echtzeitanwendungen: Echtzeitkodierungsszenarien wie Live-Streaming und Videokonferenzen

Literaturverzeichnis

Das Papier zitiert 24 verwandte Literaturquellen, hauptsächlich einschließlich:

  • Forschung zur Videokodierungs-Energieeffizienz (Katsenou et al., 2022)
  • Energieverbrauchsmodellierung von HEVC-Software-Encodern (Ramasubbu et al., 2022)
  • Energieverbrauchsprognose für Hardware-Decoder (Herglotz & Kaup, 2018)
  • Theorie der Gaußschen Prozessregression (Rasmussen & Williams, 2006)

Gesamtbewertung: Dieses Papier befasst sich mit dem wichtigen und relativ unerforschten Gebiet der Energieverbrauchsprognose für Hardware-Videoencodern und schlägt eine innovative Lösung vor. Die Methode ist wissenschaftlich streng, das Experimentaldesign ist angemessen, und die Ergebnisse haben praktischen Wert. Obwohl es noch Raum für Verbesserungen im Merkmalsengineering und in der theoretischen Analyse gibt, legt das Papier eine solide Grundlage für zukünftige Forschung in diesem Bereich.