2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup

In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.

academic

Высокоуровневая модель признаков для прогнозирования энергопотребления аппаратного видеокодера

Основная информация

ID статьи: 2510.12754
Название: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
Авторы: Diwakara Reddy, Christian Herglotz, André Kaup
Классификация: eess.IV (электротехника и системные науки — обработка изображений и видео), eess.SP (обработка сигналов)
Дата публикации: 2025 (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12754

Аннотация

В современном обществе потоковая передача видео в реальном времени и пользовательский контент с устройств, работающих от батареи, стали повсеместными. Потоковая передача в реальном времени требует кодирования видео в реальном времени, и аппаратные видеокодеры идеально подходят для таких задач кодирования. В данной статье представлена высокоуровневая модель признаков с использованием гауссовской процессной регрессии, которая может прогнозировать энергопотребление при кодировании аппаратного видеокодера. В условиях оценки, ограниченных P-кадрами и одним ключевым кадром, модель может прогнозировать энергопотребление при кодировании со средней абсолютной процентной ошибкой примерно 9%. Кроме того, исследование абляции показывает, что пространственное разрешение является ключевым высокоуровневым признаком для прогнозирования энергопотребления при кодировании аппаратного кодера. Практическое применение модели заключается в возможности предварительной оценки энергии, необходимой для кодирования видео при различных пространственных разрешениях, различных стандартах кодирования и предустановках кодека.

Предпосылки и мотивация исследования

1. Решаемая проблема

Данное исследование направлено на решение проблемы прогнозирования энергопотребления аппаратного видеокодера. С распространением потоковой передачи видео в реальном времени и пользовательского контента, особенно на устройствах, работающих от батареи, точное прогнозирование энергопотребления при кодировании имеет важное значение для:

управления временем работы батареи;
энергосознательного кодирования;
снижения углеродного следа видеопотоков.

2. Значимость проблемы

Требования к реальному времени: потоковая передача в реальном времени требует кодирования видео в реальном времени, аппаратные кодеры обеспечивают ускорение и энергоэффективное кодирование;
Энергоэффективность: при создании пользовательского контента на портативных устройствах, работающих от батареи, энергосознательное кодирование видео имеет решающее значение;
Экологическое воздействие: энергосознательное кодирование видео важно для снижения углеродного следа видеопотоков.

3. Ограничения существующих методов

Обзор литературы показывает:

существует множество моделей прогнозирования энергопотребления программных кодеров, но исследований аппаратных кодеров относительно мало;
существующие модели прогнозирования энергопотребления аппаратных декодеров не могут быть напрямую перенесены на кодеры (так как такие признаки, как размер битового потока, недоступны до кодирования);
отсутствуют унифицированные модели, способные работать с несколькими стандартами кодирования и предустановками.

4. Мотивация исследования

На основе вышеуказанных ограничений мотивация данного исследования включает:

расширение высокоуровневой модели признаков аппаратных декодеров на аппаратные кодеры;
модификацию модели признаков для включения только признаков, доступных до кодирования;
предложение унифицированной модели, учитывающей несколько стандартов и предустановок кодера.

Основной вклад

Расширение существующей модели: расширение высокоуровневой модели признаков аппаратных декодеров Herglotz и др. на аппаратные кодеры.
Оптимизация модели признаков: модификация высокоуровневой модели признаков для включения только признаков, доступных до кодирования, решение проблемы недоступности признака размера битового потока в модели декодера для кодера.
Унифицированный подход к моделированию: предложение единой модели для прогнозирования энергопотребления аппаратного кодера, учитывающей три различных стандарта (H.264, H.265, AV1) и две предустановки кодера.
Высокоточное прогнозирование: достижение прогнозирования энергопотребления при кодировании со средней абсолютной процентной ошибкой примерно 9,08%.
Идентификация ключевых признаков: доказательство посредством исследования абляции того, что пространственное разрешение является ключевым высокоуровневым признаком для прогнозирования энергопотребления аппаратного кодера.

Подробное описание методологии

Определение задачи

Входные данные: высокоуровневые признаки видеопоследовательности (разрешение, количество кадров, стандарт кодирования, предустановка, значение QP и т. д.) Выходные данные: прогнозируемое значение энергопотребления при кодировании аппаратного видеокодера Ограничения: использование только признаков, доступных до кодирования, применимость к сценариям кодирования P-кадров и одного ключевого кадра

Архитектура модели

1. Метод измерения энергопотребления

Применяется метод измерения дифференциального энергопотребления:

E_enc = E_dynamic - E_static

где:

E_dynamic: динамическое энергопотребление во время процесса кодирования;
E_static: статическое энергопотребление в режиме ожидания.

2. Определение высокоуровневых признаков

Модель использует 9 высокоуровневых признаков (таблица I):

Идентификатор признака	Описание признака
x₀	Смещение энергопотребления (член смещения, всегда равен 1)
x₁	Количество кодируемых кадров
x₂	Количество пикселей (ширина × высота)
x₃	Стандарт H264 (булев признак)
x₄	Стандарт H265 (булев признак)
x₅	Стандарт AV1 (булев признак)
x₆	Предустановка ultrafast (булев признак)
x₇	Предустановка slow (булев признак)
x₈	Параметр квантования QP

3. Модель гауссовской процессной регрессии

Для моделирования применяется гауссовская процессная регрессия (GPR):

Модель линейной регрессии (с наличием шума измерения):

Ê_enc = x^T w + ε

Аппроксимация гауссовского процесса:

f(x) ~ GP(m(x), Σ)

Гауссовский процесс с нулевым средним:

f(x) ~ b(x) + GP(0, Σ)

Функция ковариационного ядра (экспоненциальное ядро):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Выходные данные модели:

Ê_enc = h(x)^T β + g(x)

где g(x) ~ GP(0, Σ)

Технические инновационные моменты

Инновация в выборе признаков: исключение признаков, доступных только после кодирования (таких как размер битового потока), обеспечение применимости модели для прогнозирования энергопотребления до кодирования.
Стратегия унифицированного моделирования: в отличие от подхода создания отдельных моделей для каждого стандарта, использование булевых признаков для унифицированной обработки нескольких стандартов кодирования и предустановок.
Способность обработки шума: GPR естественным образом обладает способностью обработки шума измерения, что подходит для сценариев измерения энергопотребления аппаратного обеспечения.
Тестирование доверительных интервалов: применение строгих статистических методов для обеспечения надежности результатов измерения.

Экспериментальная установка

Набор данных

Видеопоследовательности: естественные видеопоследовательности из общих условий тестирования (CTC) AOM, категории A1-A5;
Диапазон разрешений: 270p, 360p, 720p, 1080p, 2160p (4K);
Обработка глубины бита: преобразование входных последовательностей с глубиной 10 бит в 8 бит (ограничение аппаратного кодера);
Установка количества кадров: случайный выбор 65-130 кадров для каждой последовательности, один ключевой кадр;
Конфигурация кодирования: кодирование P-кадров без B-кадров.

Метрики оценки

Применяется средняя абсолютная процентная ошибка (MAPE):

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Методы сравнения

Основное сравнение: модель линейной регрессии (LR);
Исследование абляции: анализ влияния поэтапного удаления признаков.

Детали реализации

Аппаратная платформа: набор разработки NVIDIA Jetson Orin NX;
Стандарты кодирования: H.264, H.265, AV1;
Предустановки кодирования: ultrafast, slow;
Установка QP:
- H.264/H.265: 22, 27, 32, 37;
- AV1: 108, 132, 160, 184;
Перекрестная проверка: 10-кратная перекрестная проверка для предотвращения переобучения;
Параметры доверительного интервала: α=0,99, β=0,02.

Результаты экспериментов

Основные результаты

Общая производительность: модель GPR достигает MAPE = 9,08%;
Сравнение с LR: модель линейной регрессии MAPE = 72,98%, значительно уступает GPR;
Эффективность обучения: время обучения 21,25 секунды, время проверки 3,7 миллисекунды.

Исследование абляции

Результаты исследования абляции (таблица III) показывают порядок важности признаков:

Сценарий	Удаленный признак	MAPE (%)
a	Количество пикселей (ширина × высота)	164,70
b	Информация о предустановке	37,38
c	Количество кодируемых кадров	17,43
d	Информация о стандарте	10,25
e	Значение QP	8,74

Ключевые выводы:

Пространственное разрешение является наиболее важным признаком; его удаление приводит к резкому увеличению MAPE до 164,70%.
Информация о предустановке занимает второе место по значимости, оказывая существенное влияние.
Удаление информации QP даже немного улучшает точность, возможно, из-за непоследовательной связи между QP и энергопотреблением.

Анализ конкретных случаев

Посредством визуализации выявлены следующие закономерности:

Кластеризация по разрешению: различные разрешения образуют явные кластеры энергопотребления;
Различия между стандартами: видео 4K показывает явные различия в энергопотреблении между различными стандартами кодирования;
Влияние предустановки: предустановка slow показывает более значительные изменения энергопотребления между различными стандартами;
Связь с QP: H.264/H.265 показывают монотонную связь с QP, AV1 не показывает явной корреляции.

Экспериментальные выводы

Доминирование разрешения: энергопотребление при кодировании высоко коррелирует с разрешением видео.
Линейность количества кадров: энергопотребление при кодировании имеет линейную связь с количеством кадров.
Различия между стандартами: различия в энергопотреблении между различными стандартами кодирования более явны при высоком разрешении.
Преимущество GPR: GPR значительно превосходит линейную регрессию, доказывая нелинейный характер прогнозирования энергопотребления.

Связанные работы

Прогнозирование энергопотребления программных кодеров

Большинство исследований сосредоточены на программных кодерах (таких как H.265, SVT-AV1);
существующие модели обычно ориентированы на конкретные конфигурации кодирования или стандарты.

Исследования аппаратных декодеров

Herglotz и др. предложили модель прогнозирования энергопотребления аппаратного декодера H.265;
Kränzler расширил модель на аппаратные декодеры нескольких стандартов.

Исследовательский пробел

Исследования прогнозирования энергопотребления аппаратных кодеров относительно ограничены; данная статья заполняет этот пробел.

Выводы и обсуждение

Основные выводы

Предложена первая модель прогнозирования энергопотребления аппаратного видеокодера на основе высокоуровневых признаков.
Достигнута MAPE примерно 9%, имеющая практическую ценность.
Доказано, что пространственное разрешение является ключевым признаком для прогнозирования энергопотребления.
Подтверждено значительное преимущество GPR по сравнению с линейной регрессией.

Ограничения

Отсутствие признаков содержимого: не учитываются признаки, связанные с содержимым видео, что может дополнительно повысить точность.
Ограничения конфигурации кодирования: рассматриваются только сценарии с P-кадрами и одним ключевым кадром.
Единая аппаратная платформа: модель проверена только на платформе NVIDIA Jetson.
Выбор предустановок: рассматриваются только две предустановки (ultrafast, slow).

Направления будущих исследований

Моделирование с учетом содержимого: введение признаков, таких как сложность видеоконтента.
Полный анализ кодирования: расширение на полные сценарии кодирования, включающие B-кадры.
Проверка на нескольких платформах: проверка универсальности модели на различных аппаратных платформах.
Комплексное сравнение программного и аппаратного обеспечения: полный анализ сравнения энергопотребления аппаратных и программных кодеров.

Глубокая оценка

Преимущества

Высокая практическая ценность: решение потребностей прогнозирования энергопотребления в практических приложениях.
Научная методология: применение строгих статистических тестов для обеспечения надежности измерений.
Комплексный анализ: глубокий анализ вклада каждого признака посредством исследования абляции.
Сильная инновационность: первая унифицированная модель прогнозирования энергопотребления для аппаратных кодеров нескольких стандартов.

Недостатки

Инженерия признаков: возможность рассмотрения большего количества признаков, связанных с содержимым видео.
Масштаб данных: относительно ограниченный объем тестовых данных, возможность расширения на большее количество типов видео.
Теоретический анализ: отсутствие глубокого теоретического анализа механизма прогнозирования энергопотребления.
Проверка в реальном времени: недостаточная проверка производительности модели в сценариях реального времени.

Влияние

Академический вклад: заполнение пробела в исследованиях прогнозирования энергопотребления аппаратных кодеров.
Практическая ценность: применимость к управлению батареей мобильных устройств и экологичному кодированию видео.
Воспроизводимость: четкое описание методологии и подробная экспериментальная установка.

Применимые сценарии

Мобильные устройства: управление энергопотреблением устройств, работающих от батареи.
Граничные вычисления: планирование ресурсов для обработки видео на граничных узлах.
Экологичные вычисления: оптимизация энергопотребления кодирования видео в центрах обработки данных.
Приложения в реальном времени: сценарии прямой трансляции, видеоконференций и другого кодирования в реальном времени.

Библиография

Статья ссылается на 24 связанные работы, включая:

исследования энергоэффективности видеокодирования (Katsenou и др., 2022);
моделирование энергопотребления программного кодера HEVC (Ramasubbu и др., 2022);
прогнозирование энергопотребления аппаратного декодера (Herglotz & Kaup, 2018);
теорию гауссовской процессной регрессии (Rasmussen & Williams, 2006).

Общая оценка: Данная статья предлагает инновационное решение для важной и относительно малоизученной области прогнозирования энергопотребления аппаратного видеокодера. Методология научна и строга, экспериментальная конструкция рациональна, результаты имеют практическую ценность. Хотя в инженерии признаков и теоретическом анализе остается место для улучшения, работа закладывает хорошую основу для последующих исследований в этой области.