2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic

Un Modelo de Características de Alto Nivel para Predecir la Energía de Codificación de un Codificador de Video de Hardware

Información Básica

  • ID del Artículo: 2510.12754
  • Título: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
  • Autores: Diwakara Reddy, Christian Herglotz, André Kaup
  • Clasificación: eess.IV (Ingeniería Eléctrica y Ciencias de Sistemas - Procesamiento de Imágenes y Video), eess.SP (Procesamiento de Señales)
  • Fecha de Publicación: 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12754

Resumen

En la sociedad actual, la transmisión de video en tiempo real y el contenido generado por usuarios desde dispositivos alimentados por batería se ha vuelto ubicuo. La transmisión en tiempo real requiere codificación de video en tiempo real, y los codificadores de video de hardware son muy adecuados para tales tareas de codificación. Este artículo presenta un modelo de características de alto nivel que utiliza regresión de procesos gaussianos para predecir el consumo de energía de codificación de un codificador de video de hardware. En una configuración de evaluación limitada a fotogramas P y un fotograma clave único, el modelo puede predecir el consumo de energía de codificación con un error porcentual absoluto medio de aproximadamente el 9%. Además, a través de estudios de ablación, se demuestra que la resolución espacial es una característica de alto nivel clave para la predicción del consumo de energía de codificación en codificadores de hardware. La aplicación práctica del modelo es que puede utilizarse para realizar estimaciones previas de la energía requerida para codificar video bajo diferentes resoluciones espaciales, diferentes estándares de codificación y presets de códec.

Antecedentes de Investigación y Motivación

1. Problema a Resolver

Esta investigación se dedica a resolver el problema de la predicción del consumo de energía en codificadores de video de hardware. Con la proliferación de transmisión de video en tiempo real y contenido generado por usuarios, particularmente en dispositivos alimentados por batería, la predicción precisa del consumo de energía de codificación es importante para:

  • Gestión de la vida útil de la batería
  • Codificación consciente de la energía
  • Reducción de la huella de carbono de la transmisión de video

2. Importancia del Problema

  • Requisitos de Tiempo Real: La transmisión en tiempo real requiere codificación de video en tiempo real, y los codificadores de hardware pueden proporcionar codificación acelerada y eficiente en energía
  • Eficiencia Energética: Al crear contenido generado por usuarios en dispositivos portátiles alimentados por batería, la codificación de video consciente de la energía es crucial
  • Impacto Ambiental: La codificación de video consciente de la energía es importante para reducir la huella de carbono de la transmisión de video

3. Limitaciones de los Métodos Existentes

La revisión de la literatura muestra que:

  • Existen más modelos de predicción de consumo de energía para codificadores de software, pero la investigación relacionada con codificadores de hardware es limitada
  • Los modelos existentes de predicción de consumo de energía para decodificadores de hardware no pueden transferirse directamente a codificadores (porque características como el tamaño del flujo de bits no están disponibles antes de la codificación)
  • Falta un modelo unificado que pueda manejar múltiples estándares de codificación y presets

4. Motivación de la Investigación

Basándose en las limitaciones anteriores, la motivación de esta investigación incluye:

  • Extender el modelo de características de alto nivel de decodificadores de hardware a codificadores de hardware
  • Modificar el modelo de características para incluir solo características disponibles antes de la codificación
  • Proponer un modelo unificado que considere múltiples estándares y presets de codificador

Contribuciones Principales

  1. Extensión del Modelo Existente: Extender el modelo de características de alto nivel de Herglotz et al. para decodificadores de hardware a codificadores de hardware
  2. Optimización del Modelo de Características: Modificar el modelo de características de alto nivel para incluir solo características disponibles antes de la codificación, resolviendo el problema de que características como el tamaño del flujo de bits no están disponibles en codificadores
  3. Método de Modelado Unificado: Proponer un modelo único para predecir el consumo de energía de codificadores de hardware, considerando tres estándares diferentes (H.264, H.265, AV1) y dos presets de codificador
  4. Predicción de Alta Precisión: Lograr una predicción del consumo de energía de codificación con un error porcentual absoluto medio de aproximadamente el 9.08%
  5. Identificación de Características Clave: A través de estudios de ablación, demostrar que la resolución espacial es una característica de alto nivel clave para la predicción del consumo de energía de codificación en codificadores de hardware

Explicación Detallada del Método

Definición de la Tarea

Entrada: Características de alto nivel de la secuencia de video (resolución, número de fotogramas, estándar de codificación, preset, valor QP, etc.) Salida: Valor predicho del consumo de energía de codificación del codificador de video de hardware Restricciones: Utilizar solo características disponibles antes de la codificación, aplicable a escenarios de codificación de fotogramas P y un fotograma clave único

Arquitectura del Modelo

1. Método de Medición del Consumo de Energía

Se adopta el método de medición de consumo de energía diferencial:

E_enc = E_dynamic - E_static

Donde:

  • E_dynamic: Consumo de energía dinámico durante el proceso de codificación
  • E_static: Consumo de energía estático en modo inactivo

2. Definición de Características de Alto Nivel

El modelo utiliza 9 características de alto nivel (Tabla I):

Identificador de CaracterísticaDescripción de Característica
x₀Energía de desplazamiento (término de sesgo, siempre 1)
x₁Número de fotogramas codificados
x₂Número de píxeles (ancho × alto)
x₃Estándar H264 (característica booleana)
x₄Estándar H265 (característica booleana)
x₅Estándar AV1 (característica booleana)
x₆Preset ultrafast (característica booleana)
x₇Preset slow (característica booleana)
x₈Parámetro de cuantificación QP

3. Modelo de Regresión de Procesos Gaussianos

Se adopta regresión de procesos gaussianos (GPR) para el modelado:

Modelo de Regresión Lineal (con ruido de medición):

Ê_enc = x^T w + ε

Aproximación de Función de Proceso Gaussiano:

f(x) ~ GP(m(x), Σ)

Proceso Gaussiano de Media Cero:

f(x) ~ b(x) + GP(0, Σ)

Función de Núcleo de Covarianza (núcleo exponencial):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Salida del Modelo:

Ê_enc = h(x)^T β + g(x)

Donde g(x) ~ GP(0, Σ)

Puntos de Innovación Técnica

  1. Innovación en Selección de Características: Eliminar características que solo se pueden obtener después de la codificación, como el tamaño del flujo de bits, asegurando que el modelo sea utilizable para predicción de consumo de energía antes de la codificación
  2. Estrategia de Modelado Unificado: A diferencia del enfoque de construir modelos separados para cada estándar, adoptar características booleanas para manejar unificadamente múltiples estándares de codificación y presets
  3. Capacidad de Procesamiento de Ruido: GPR posee naturalmente la capacidad de manejar ruido de medición, adecuado para escenarios de medición de consumo de energía de hardware
  4. Prueba de Intervalo de Confianza: Adoptar métodos estadísticos rigurosos para asegurar la confiabilidad de los resultados de medición

Configuración Experimental

Conjunto de Datos

  • Secuencias de Video: Secuencias de video naturales en las Condiciones de Prueba Comunes (CTC) de AOM, categorías A1-A5
  • Rango de Resolución: 270p, 360p, 720p, 1080p, 2160p (4K)
  • Procesamiento de Profundidad de Bits: Convertir secuencias de entrada de 10 bits a 8 bits (limitación del codificador de hardware)
  • Configuración de Fotogramas: Seleccionar aleatoriamente 65-130 fotogramas por secuencia, un fotograma clave único
  • Configuración de Codificación: Codificación de fotogramas P sin fotogramas B

Métricas de Evaluación

Se adopta el Error Porcentual Absoluto Medio (MAPE):

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Métodos de Comparación

  • Comparación Principal: Modelo de Regresión Lineal (LR)
  • Estudio de Ablación: Análisis del impacto de eliminar características una por una

Detalles de Implementación

  • Plataforma de Hardware: Kit de desarrollo NVIDIA Jetson Orin NX
  • Estándares de Codificación: H.264, H.265, AV1
  • Presets de Codificador: ultrafast, slow
  • Configuración de QP:
    • H.264/H.265: 22, 27, 32, 37
    • AV1: 108, 132, 160, 184
  • Validación Cruzada: Validación cruzada de 10 pliegues para prevenir sobreajuste
  • Parámetros de Intervalo de Confianza: α=0.99, β=0.02

Resultados Experimentales

Resultados Principales

  • Rendimiento General: El modelo GPR logra MAPE = 9.08%
  • Comparación LR: El modelo de regresión lineal MAPE = 72.98%, significativamente inferior a GPR
  • Eficiencia de Entrenamiento: Tiempo de entrenamiento 21.25 segundos, tiempo de validación 3.7 milisegundos

Experimentos de Ablación

Los resultados del estudio de ablación (Tabla III) muestran el orden de importancia de cada característica:

EscenarioCaracterística EliminadaMAPE (%)
aNúmero de píxeles (ancho × alto)164.70
bInformación de preset37.38
cNúmero de fotogramas codificados17.43
dInformación de estándar10.25
eValor QP8.74

Hallazgos Clave:

  1. Resolución Espacial es la característica más importante; su eliminación causa un aumento dramático en MAPE a 164.70%
  2. Información de Preset es la segunda más importante, con un impacto significativo
  3. Información de QP: Su eliminación mejora ligeramente la precisión, posiblemente porque la relación entre QP y consumo de energía es inconsistente

Análisis de Casos

A través del análisis de visualización se descubren:

  1. Agrupamiento por Resolución: Diferentes resoluciones forman agrupamientos claros de consumo de energía
  2. Diferencias de Estándar: Video 4K muestra diferencias claras de consumo de energía entre diferentes estándares de codificación
  3. Impacto de Preset: El preset slow muestra cambios de consumo de energía más significativos entre diferentes estándares
  4. Relación QP: H.264/H.265 muestran relación monótona con QP, AV1 no muestra correlación clara

Hallazgos Experimentales

  1. Resolución Dominante: El consumo de energía de codificación está altamente correlacionado con la resolución de video
  2. Linealidad de Fotogramas: El consumo de energía de codificación muestra relación lineal con el número de fotogramas
  3. Diferencias de Estándar: Las diferencias de consumo de energía entre diferentes estándares de codificación son más evidentes en resoluciones altas
  4. Ventaja de GPR: GPR es significativamente superior a la regresión lineal, demostrando la naturaleza no lineal de la predicción de consumo de energía

Trabajo Relacionado

Predicción de Consumo de Energía en Codificadores de Software

  • La mayoría de investigaciones se concentran en codificadores de software (como H.265, SVT-AV1)
  • Los modelos existentes típicamente se orientan a configuraciones de codificación o estándares específicos

Investigación de Decodificadores de Hardware

  • Herglotz et al. propusieron un modelo de predicción de consumo de energía para decodificadores H.265 de hardware
  • Kränzler extendió esto a modelos de decodificadores de hardware de múltiples estándares

Brecha de Investigación

La investigación sobre predicción de consumo de energía en codificadores de hardware es relativamente limitada; este artículo llena esta brecha.

Conclusiones y Discusión

Conclusiones Principales

  1. Se propone el primer modelo de predicción de consumo de energía para codificadores de video de hardware basado en características de alto nivel
  2. Se logra un MAPE de aproximadamente el 9%, con valor práctico
  3. Se demuestra que la resolución espacial es una característica clave para la predicción de consumo de energía
  4. Se verifica la ventaja significativa de GPR sobre la regresión lineal

Limitaciones

  1. Características de Contenido Ausentes: No se consideran características relacionadas con el contenido de video, lo que podría mejorar aún más la precisión
  2. Restricciones de Configuración de Codificación: Solo se consideran escenarios de fotogramas P y fotograma clave único
  3. Plataforma de Hardware Única: Solo se verifica en la plataforma NVIDIA Jetson
  4. Selección de Preset: Solo se consideran dos presets (ultrafast, slow)

Direcciones Futuras

  1. Modelado Consciente del Contenido: Introducir características como complejidad del contenido de video
  2. Análisis de Codificación Completo: Extender a escenarios de codificación completos que incluyan fotogramas B
  3. Verificación Multiplataforma: Verificar la generalización del modelo en diferentes plataformas de hardware
  4. Análisis Comparativo Hardware-Software: Análisis comparativo completo del consumo de energía entre codificadores de hardware y software

Evaluación Profunda

Fortalezas

  1. Valor Práctico Alto: Resuelve necesidades de predicción de consumo de energía en aplicaciones reales
  2. Método Científico: Adopta pruebas estadísticas rigurosas para asegurar la confiabilidad de las mediciones
  3. Análisis Integral: A través de estudios de ablación, analiza profundamente la contribución de cada característica
  4. Innovación Fuerte: Primer modelo unificado de múltiples estándares para predicción de consumo de energía de codificadores de hardware

Insuficiencias

  1. Ingeniería de Características: Podría considerarse más características relacionadas con el contenido de video
  2. Escala de Datos: Los datos de prueba son relativamente limitados, podrían extenderse a más tipos de video
  3. Análisis Teórico: Falta análisis teórico profundo sobre los mecanismos de predicción de consumo de energía
  4. Verificación de Tiempo Real: No se verifica suficientemente el rendimiento del modelo en escenarios en tiempo real

Impacto

  1. Contribución Académica: Llena la brecha en investigación de predicción de consumo de energía de codificadores de hardware
  2. Valor Práctico: Puede utilizarse para gestión de batería en dispositivos móviles y codificación de video ecológica
  3. Reproducibilidad: La descripción del método es clara y la configuración experimental es detallada

Escenarios Aplicables

  1. Dispositivos Móviles: Gestión de consumo de energía en dispositivos alimentados por batería
  2. Computación de Borde: Planificación de recursos para procesamiento de video en borde
  3. Computación Verde: Optimización del consumo de energía para codificación de video en centros de datos
  4. Aplicaciones en Tiempo Real: Escenarios de codificación en tiempo real como transmisión en vivo y videoconferencia

Referencias

El artículo cita 24 referencias relacionadas, que incluyen principalmente:

  • Investigación sobre eficiencia energética en codificación de video (Katsenou et al., 2022)
  • Modelado de consumo de energía en codificadores de software HEVC (Ramasubbu et al., 2022)
  • Predicción de consumo de energía en decodificadores de hardware (Herglotz & Kaup, 2018)
  • Teoría de regresión de procesos gaussianos (Rasmussen & Williams, 2006)

Evaluación General: Este artículo aborda un campo de investigación importante y relativamente vacío en la predicción del consumo de energía de codificadores de video de hardware, proponiendo una solución innovadora. El método es científicamente riguroso, el diseño experimental es razonable y los resultados tienen valor práctico. Aunque aún hay espacio para mejora en ingeniería de características y análisis teórico, sienta una base sólida para investigaciones posteriores en este campo.