2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup

In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.

academic

Un Modelo de Características de Alto Nivel para Predecir la Energía de Codificación de un Codificador de Video de Hardware

Información Básica

ID del Artículo: 2510.12754
Título: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
Autores: Diwakara Reddy, Christian Herglotz, André Kaup
Clasificación: eess.IV (Ingeniería Eléctrica y Ciencias de Sistemas - Procesamiento de Imágenes y Video), eess.SP (Procesamiento de Señales)
Fecha de Publicación: 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12754

Resumen

En la sociedad actual, la transmisión de video en tiempo real y el contenido generado por usuarios desde dispositivos alimentados por batería se ha vuelto ubicuo. La transmisión en tiempo real requiere codificación de video en tiempo real, y los codificadores de video de hardware son muy adecuados para tales tareas de codificación. Este artículo presenta un modelo de características de alto nivel que utiliza regresión de procesos gaussianos para predecir el consumo de energía de codificación de un codificador de video de hardware. En una configuración de evaluación limitada a fotogramas P y un fotograma clave único, el modelo puede predecir el consumo de energía de codificación con un error porcentual absoluto medio de aproximadamente el 9%. Además, a través de estudios de ablación, se demuestra que la resolución espacial es una característica de alto nivel clave para la predicción del consumo de energía de codificación en codificadores de hardware. La aplicación práctica del modelo es que puede utilizarse para realizar estimaciones previas de la energía requerida para codificar video bajo diferentes resoluciones espaciales, diferentes estándares de codificación y presets de códec.

Antecedentes de Investigación y Motivación

1. Problema a Resolver

Esta investigación se dedica a resolver el problema de la predicción del consumo de energía en codificadores de video de hardware. Con la proliferación de transmisión de video en tiempo real y contenido generado por usuarios, particularmente en dispositivos alimentados por batería, la predicción precisa del consumo de energía de codificación es importante para:

Gestión de la vida útil de la batería
Codificación consciente de la energía
Reducción de la huella de carbono de la transmisión de video

2. Importancia del Problema

Requisitos de Tiempo Real: La transmisión en tiempo real requiere codificación de video en tiempo real, y los codificadores de hardware pueden proporcionar codificación acelerada y eficiente en energía
Eficiencia Energética: Al crear contenido generado por usuarios en dispositivos portátiles alimentados por batería, la codificación de video consciente de la energía es crucial
Impacto Ambiental: La codificación de video consciente de la energía es importante para reducir la huella de carbono de la transmisión de video

3. Limitaciones de los Métodos Existentes

La revisión de la literatura muestra que:

Existen más modelos de predicción de consumo de energía para codificadores de software, pero la investigación relacionada con codificadores de hardware es limitada
Los modelos existentes de predicción de consumo de energía para decodificadores de hardware no pueden transferirse directamente a codificadores (porque características como el tamaño del flujo de bits no están disponibles antes de la codificación)
Falta un modelo unificado que pueda manejar múltiples estándares de codificación y presets

4. Motivación de la Investigación

Basándose en las limitaciones anteriores, la motivación de esta investigación incluye:

Extender el modelo de características de alto nivel de decodificadores de hardware a codificadores de hardware
Modificar el modelo de características para incluir solo características disponibles antes de la codificación
Proponer un modelo unificado que considere múltiples estándares y presets de codificador

Contribuciones Principales

Extensión del Modelo Existente: Extender el modelo de características de alto nivel de Herglotz et al. para decodificadores de hardware a codificadores de hardware
Optimización del Modelo de Características: Modificar el modelo de características de alto nivel para incluir solo características disponibles antes de la codificación, resolviendo el problema de que características como el tamaño del flujo de bits no están disponibles en codificadores
Método de Modelado Unificado: Proponer un modelo único para predecir el consumo de energía de codificadores de hardware, considerando tres estándares diferentes (H.264, H.265, AV1) y dos presets de codificador
Predicción de Alta Precisión: Lograr una predicción del consumo de energía de codificación con un error porcentual absoluto medio de aproximadamente el 9.08%
Identificación de Características Clave: A través de estudios de ablación, demostrar que la resolución espacial es una característica de alto nivel clave para la predicción del consumo de energía de codificación en codificadores de hardware

Explicación Detallada del Método

Definición de la Tarea

Entrada: Características de alto nivel de la secuencia de video (resolución, número de fotogramas, estándar de codificación, preset, valor QP, etc.) Salida: Valor predicho del consumo de energía de codificación del codificador de video de hardware Restricciones: Utilizar solo características disponibles antes de la codificación, aplicable a escenarios de codificación de fotogramas P y un fotograma clave único

Arquitectura del Modelo

1. Método de Medición del Consumo de Energía

Se adopta el método de medición de consumo de energía diferencial:

E_enc = E_dynamic - E_static

Donde:

E_dynamic: Consumo de energía dinámico durante el proceso de codificación
E_static: Consumo de energía estático en modo inactivo

2. Definición de Características de Alto Nivel

El modelo utiliza 9 características de alto nivel (Tabla I):

Identificador de Característica	Descripción de Característica
x₀	Energía de desplazamiento (término de sesgo, siempre 1)
x₁	Número de fotogramas codificados
x₂	Número de píxeles (ancho × alto)
x₃	Estándar H264 (característica booleana)
x₄	Estándar H265 (característica booleana)
x₅	Estándar AV1 (característica booleana)
x₆	Preset ultrafast (característica booleana)
x₇	Preset slow (característica booleana)
x₈	Parámetro de cuantificación QP

3. Modelo de Regresión de Procesos Gaussianos

Se adopta regresión de procesos gaussianos (GPR) para el modelado:

Modelo de Regresión Lineal (con ruido de medición):

Ê_enc = x^T w + ε

Aproximación de Función de Proceso Gaussiano:

f(x) ~ GP(m(x), Σ)

Proceso Gaussiano de Media Cero:

f(x) ~ b(x) + GP(0, Σ)

Función de Núcleo de Covarianza (núcleo exponencial):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Salida del Modelo:

Ê_enc = h(x)^T β + g(x)

Donde g(x) ~ GP(0, Σ)

Puntos de Innovación Técnica

Innovación en Selección de Características: Eliminar características que solo se pueden obtener después de la codificación, como el tamaño del flujo de bits, asegurando que el modelo sea utilizable para predicción de consumo de energía antes de la codificación
Estrategia de Modelado Unificado: A diferencia del enfoque de construir modelos separados para cada estándar, adoptar características booleanas para manejar unificadamente múltiples estándares de codificación y presets
Capacidad de Procesamiento de Ruido: GPR posee naturalmente la capacidad de manejar ruido de medición, adecuado para escenarios de medición de consumo de energía de hardware
Prueba de Intervalo de Confianza: Adoptar métodos estadísticos rigurosos para asegurar la confiabilidad de los resultados de medición

Configuración Experimental

Conjunto de Datos

Secuencias de Video: Secuencias de video naturales en las Condiciones de Prueba Comunes (CTC) de AOM, categorías A1-A5
Rango de Resolución: 270p, 360p, 720p, 1080p, 2160p (4K)
Procesamiento de Profundidad de Bits: Convertir secuencias de entrada de 10 bits a 8 bits (limitación del codificador de hardware)
Configuración de Fotogramas: Seleccionar aleatoriamente 65-130 fotogramas por secuencia, un fotograma clave único
Configuración de Codificación: Codificación de fotogramas P sin fotogramas B

Métricas de Evaluación

Se adopta el Error Porcentual Absoluto Medio (MAPE):

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Métodos de Comparación

Comparación Principal: Modelo de Regresión Lineal (LR)
Estudio de Ablación: Análisis del impacto de eliminar características una por una

Detalles de Implementación

Plataforma de Hardware: Kit de desarrollo NVIDIA Jetson Orin NX
Estándares de Codificación: H.264, H.265, AV1
Presets de Codificador: ultrafast, slow
Configuración de QP:
- H.264/H.265: 22, 27, 32, 37
- AV1: 108, 132, 160, 184
Validación Cruzada: Validación cruzada de 10 pliegues para prevenir sobreajuste
Parámetros de Intervalo de Confianza: α=0.99, β=0.02

Resultados Experimentales

Resultados Principales

Rendimiento General: El modelo GPR logra MAPE = 9.08%
Comparación LR: El modelo de regresión lineal MAPE = 72.98%, significativamente inferior a GPR
Eficiencia de Entrenamiento: Tiempo de entrenamiento 21.25 segundos, tiempo de validación 3.7 milisegundos

Experimentos de Ablación

Los resultados del estudio de ablación (Tabla III) muestran el orden de importancia de cada característica:

Escenario	Característica Eliminada	MAPE (%)
a	Número de píxeles (ancho × alto)	164.70
b	Información de preset	37.38
c	Número de fotogramas codificados	17.43
d	Información de estándar	10.25
e	Valor QP	8.74

Hallazgos Clave:

Resolución Espacial es la característica más importante; su eliminación causa un aumento dramático en MAPE a 164.70%
Información de Preset es la segunda más importante, con un impacto significativo
Información de QP: Su eliminación mejora ligeramente la precisión, posiblemente porque la relación entre QP y consumo de energía es inconsistente

Análisis de Casos

A través del análisis de visualización se descubren:

Agrupamiento por Resolución: Diferentes resoluciones forman agrupamientos claros de consumo de energía
Diferencias de Estándar: Video 4K muestra diferencias claras de consumo de energía entre diferentes estándares de codificación
Impacto de Preset: El preset slow muestra cambios de consumo de energía más significativos entre diferentes estándares
Relación QP: H.264/H.265 muestran relación monótona con QP, AV1 no muestra correlación clara

Hallazgos Experimentales

Resolución Dominante: El consumo de energía de codificación está altamente correlacionado con la resolución de video
Linealidad de Fotogramas: El consumo de energía de codificación muestra relación lineal con el número de fotogramas
Diferencias de Estándar: Las diferencias de consumo de energía entre diferentes estándares de codificación son más evidentes en resoluciones altas
Ventaja de GPR: GPR es significativamente superior a la regresión lineal, demostrando la naturaleza no lineal de la predicción de consumo de energía

Trabajo Relacionado

Predicción de Consumo de Energía en Codificadores de Software

La mayoría de investigaciones se concentran en codificadores de software (como H.265, SVT-AV1)
Los modelos existentes típicamente se orientan a configuraciones de codificación o estándares específicos

Investigación de Decodificadores de Hardware

Herglotz et al. propusieron un modelo de predicción de consumo de energía para decodificadores H.265 de hardware
Kränzler extendió esto a modelos de decodificadores de hardware de múltiples estándares

Brecha de Investigación

La investigación sobre predicción de consumo de energía en codificadores de hardware es relativamente limitada; este artículo llena esta brecha.

Conclusiones y Discusión

Conclusiones Principales

Se propone el primer modelo de predicción de consumo de energía para codificadores de video de hardware basado en características de alto nivel
Se logra un MAPE de aproximadamente el 9%, con valor práctico
Se demuestra que la resolución espacial es una característica clave para la predicción de consumo de energía
Se verifica la ventaja significativa de GPR sobre la regresión lineal

Limitaciones

Características de Contenido Ausentes: No se consideran características relacionadas con el contenido de video, lo que podría mejorar aún más la precisión
Restricciones de Configuración de Codificación: Solo se consideran escenarios de fotogramas P y fotograma clave único
Plataforma de Hardware Única: Solo se verifica en la plataforma NVIDIA Jetson
Selección de Preset: Solo se consideran dos presets (ultrafast, slow)

Direcciones Futuras

Modelado Consciente del Contenido: Introducir características como complejidad del contenido de video
Análisis de Codificación Completo: Extender a escenarios de codificación completos que incluyan fotogramas B
Verificación Multiplataforma: Verificar la generalización del modelo en diferentes plataformas de hardware
Análisis Comparativo Hardware-Software: Análisis comparativo completo del consumo de energía entre codificadores de hardware y software

Evaluación Profunda

Fortalezas

Valor Práctico Alto: Resuelve necesidades de predicción de consumo de energía en aplicaciones reales
Método Científico: Adopta pruebas estadísticas rigurosas para asegurar la confiabilidad de las mediciones
Análisis Integral: A través de estudios de ablación, analiza profundamente la contribución de cada característica
Innovación Fuerte: Primer modelo unificado de múltiples estándares para predicción de consumo de energía de codificadores de hardware

Insuficiencias

Ingeniería de Características: Podría considerarse más características relacionadas con el contenido de video
Escala de Datos: Los datos de prueba son relativamente limitados, podrían extenderse a más tipos de video
Análisis Teórico: Falta análisis teórico profundo sobre los mecanismos de predicción de consumo de energía
Verificación de Tiempo Real: No se verifica suficientemente el rendimiento del modelo en escenarios en tiempo real

Impacto

Contribución Académica: Llena la brecha en investigación de predicción de consumo de energía de codificadores de hardware
Valor Práctico: Puede utilizarse para gestión de batería en dispositivos móviles y codificación de video ecológica
Reproducibilidad: La descripción del método es clara y la configuración experimental es detallada

Escenarios Aplicables

Dispositivos Móviles: Gestión de consumo de energía en dispositivos alimentados por batería
Computación de Borde: Planificación de recursos para procesamiento de video en borde
Computación Verde: Optimización del consumo de energía para codificación de video en centros de datos
Aplicaciones en Tiempo Real: Escenarios de codificación en tiempo real como transmisión en vivo y videoconferencia

Referencias

El artículo cita 24 referencias relacionadas, que incluyen principalmente:

Investigación sobre eficiencia energética en codificación de video (Katsenou et al., 2022)
Modelado de consumo de energía en codificadores de software HEVC (Ramasubbu et al., 2022)
Predicción de consumo de energía en decodificadores de hardware (Herglotz & Kaup, 2018)
Teoría de regresión de procesos gaussianos (Rasmussen & Williams, 2006)

Evaluación General: Este artículo aborda un campo de investigación importante y relativamente vacío en la predicción del consumo de energía de codificadores de video de hardware, proponiendo una solución innovadora. El método es científicamente riguroso, el diseño experimental es razonable y los resultados tienen valor práctico. Aunque aún hay espacio para mejora en ingeniería de características y análisis teórico, sienta una base sólida para investigaciones posteriores en este campo.