2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic

Высокоуровневая модель признаков для прогнозирования энергопотребления аппаратного видеокодера

Основная информация

  • ID статьи: 2510.12754
  • Название: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
  • Авторы: Diwakara Reddy, Christian Herglotz, André Kaup
  • Классификация: eess.IV (электротехника и системные науки — обработка изображений и видео), eess.SP (обработка сигналов)
  • Дата публикации: 2025 (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.12754

Аннотация

В современном обществе потоковая передача видео в реальном времени и пользовательский контент с устройств, работающих от батареи, стали повсеместными. Потоковая передача в реальном времени требует кодирования видео в реальном времени, и аппаратные видеокодеры идеально подходят для таких задач кодирования. В данной статье представлена высокоуровневая модель признаков с использованием гауссовской процессной регрессии, которая может прогнозировать энергопотребление при кодировании аппаратного видеокодера. В условиях оценки, ограниченных P-кадрами и одним ключевым кадром, модель может прогнозировать энергопотребление при кодировании со средней абсолютной процентной ошибкой примерно 9%. Кроме того, исследование абляции показывает, что пространственное разрешение является ключевым высокоуровневым признаком для прогнозирования энергопотребления при кодировании аппаратного кодера. Практическое применение модели заключается в возможности предварительной оценки энергии, необходимой для кодирования видео при различных пространственных разрешениях, различных стандартах кодирования и предустановках кодека.

Предпосылки и мотивация исследования

1. Решаемая проблема

Данное исследование направлено на решение проблемы прогнозирования энергопотребления аппаратного видеокодера. С распространением потоковой передачи видео в реальном времени и пользовательского контента, особенно на устройствах, работающих от батареи, точное прогнозирование энергопотребления при кодировании имеет важное значение для:

  • управления временем работы батареи;
  • энергосознательного кодирования;
  • снижения углеродного следа видеопотоков.

2. Значимость проблемы

  • Требования к реальному времени: потоковая передача в реальном времени требует кодирования видео в реальном времени, аппаратные кодеры обеспечивают ускорение и энергоэффективное кодирование;
  • Энергоэффективность: при создании пользовательского контента на портативных устройствах, работающих от батареи, энергосознательное кодирование видео имеет решающее значение;
  • Экологическое воздействие: энергосознательное кодирование видео важно для снижения углеродного следа видеопотоков.

3. Ограничения существующих методов

Обзор литературы показывает:

  • существует множество моделей прогнозирования энергопотребления программных кодеров, но исследований аппаратных кодеров относительно мало;
  • существующие модели прогнозирования энергопотребления аппаратных декодеров не могут быть напрямую перенесены на кодеры (так как такие признаки, как размер битового потока, недоступны до кодирования);
  • отсутствуют унифицированные модели, способные работать с несколькими стандартами кодирования и предустановками.

4. Мотивация исследования

На основе вышеуказанных ограничений мотивация данного исследования включает:

  • расширение высокоуровневой модели признаков аппаратных декодеров на аппаратные кодеры;
  • модификацию модели признаков для включения только признаков, доступных до кодирования;
  • предложение унифицированной модели, учитывающей несколько стандартов и предустановок кодера.

Основной вклад

  1. Расширение существующей модели: расширение высокоуровневой модели признаков аппаратных декодеров Herglotz и др. на аппаратные кодеры.
  2. Оптимизация модели признаков: модификация высокоуровневой модели признаков для включения только признаков, доступных до кодирования, решение проблемы недоступности признака размера битового потока в модели декодера для кодера.
  3. Унифицированный подход к моделированию: предложение единой модели для прогнозирования энергопотребления аппаратного кодера, учитывающей три различных стандарта (H.264, H.265, AV1) и две предустановки кодера.
  4. Высокоточное прогнозирование: достижение прогнозирования энергопотребления при кодировании со средней абсолютной процентной ошибкой примерно 9,08%.
  5. Идентификация ключевых признаков: доказательство посредством исследования абляции того, что пространственное разрешение является ключевым высокоуровневым признаком для прогнозирования энергопотребления аппаратного кодера.

Подробное описание методологии

Определение задачи

Входные данные: высокоуровневые признаки видеопоследовательности (разрешение, количество кадров, стандарт кодирования, предустановка, значение QP и т. д.) Выходные данные: прогнозируемое значение энергопотребления при кодировании аппаратного видеокодера Ограничения: использование только признаков, доступных до кодирования, применимость к сценариям кодирования P-кадров и одного ключевого кадра

Архитектура модели

1. Метод измерения энергопотребления

Применяется метод измерения дифференциального энергопотребления:

E_enc = E_dynamic - E_static

где:

  • E_dynamic: динамическое энергопотребление во время процесса кодирования;
  • E_static: статическое энергопотребление в режиме ожидания.

2. Определение высокоуровневых признаков

Модель использует 9 высокоуровневых признаков (таблица I):

Идентификатор признакаОписание признака
x₀Смещение энергопотребления (член смещения, всегда равен 1)
x₁Количество кодируемых кадров
x₂Количество пикселей (ширина × высота)
x₃Стандарт H264 (булев признак)
x₄Стандарт H265 (булев признак)
x₅Стандарт AV1 (булев признак)
x₆Предустановка ultrafast (булев признак)
x₇Предустановка slow (булев признак)
x₈Параметр квантования QP

3. Модель гауссовской процессной регрессии

Для моделирования применяется гауссовская процессная регрессия (GPR):

Модель линейной регрессии (с наличием шума измерения):

Ê_enc = x^T w + ε

Аппроксимация гауссовского процесса:

f(x) ~ GP(m(x), Σ)

Гауссовский процесс с нулевым средним:

f(x) ~ b(x) + GP(0, Σ)

Функция ковариационного ядра (экспоненциальное ядро):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

Выходные данные модели:

Ê_enc = h(x)^T β + g(x)

где g(x) ~ GP(0, Σ)

Технические инновационные моменты

  1. Инновация в выборе признаков: исключение признаков, доступных только после кодирования (таких как размер битового потока), обеспечение применимости модели для прогнозирования энергопотребления до кодирования.
  2. Стратегия унифицированного моделирования: в отличие от подхода создания отдельных моделей для каждого стандарта, использование булевых признаков для унифицированной обработки нескольких стандартов кодирования и предустановок.
  3. Способность обработки шума: GPR естественным образом обладает способностью обработки шума измерения, что подходит для сценариев измерения энергопотребления аппаратного обеспечения.
  4. Тестирование доверительных интервалов: применение строгих статистических методов для обеспечения надежности результатов измерения.

Экспериментальная установка

Набор данных

  • Видеопоследовательности: естественные видеопоследовательности из общих условий тестирования (CTC) AOM, категории A1-A5;
  • Диапазон разрешений: 270p, 360p, 720p, 1080p, 2160p (4K);
  • Обработка глубины бита: преобразование входных последовательностей с глубиной 10 бит в 8 бит (ограничение аппаратного кодера);
  • Установка количества кадров: случайный выбор 65-130 кадров для каждой последовательности, один ключевой кадр;
  • Конфигурация кодирования: кодирование P-кадров без B-кадров.

Метрики оценки

Применяется средняя абсолютная процентная ошибка (MAPE):

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

Методы сравнения

  • Основное сравнение: модель линейной регрессии (LR);
  • Исследование абляции: анализ влияния поэтапного удаления признаков.

Детали реализации

  • Аппаратная платформа: набор разработки NVIDIA Jetson Orin NX;
  • Стандарты кодирования: H.264, H.265, AV1;
  • Предустановки кодирования: ultrafast, slow;
  • Установка QP:
    • H.264/H.265: 22, 27, 32, 37;
    • AV1: 108, 132, 160, 184;
  • Перекрестная проверка: 10-кратная перекрестная проверка для предотвращения переобучения;
  • Параметры доверительного интервала: α=0,99, β=0,02.

Результаты экспериментов

Основные результаты

  • Общая производительность: модель GPR достигает MAPE = 9,08%;
  • Сравнение с LR: модель линейной регрессии MAPE = 72,98%, значительно уступает GPR;
  • Эффективность обучения: время обучения 21,25 секунды, время проверки 3,7 миллисекунды.

Исследование абляции

Результаты исследования абляции (таблица III) показывают порядок важности признаков:

СценарийУдаленный признакMAPE (%)
aКоличество пикселей (ширина × высота)164,70
bИнформация о предустановке37,38
cКоличество кодируемых кадров17,43
dИнформация о стандарте10,25
eЗначение QP8,74

Ключевые выводы:

  1. Пространственное разрешение является наиболее важным признаком; его удаление приводит к резкому увеличению MAPE до 164,70%.
  2. Информация о предустановке занимает второе место по значимости, оказывая существенное влияние.
  3. Удаление информации QP даже немного улучшает точность, возможно, из-за непоследовательной связи между QP и энергопотреблением.

Анализ конкретных случаев

Посредством визуализации выявлены следующие закономерности:

  1. Кластеризация по разрешению: различные разрешения образуют явные кластеры энергопотребления;
  2. Различия между стандартами: видео 4K показывает явные различия в энергопотреблении между различными стандартами кодирования;
  3. Влияние предустановки: предустановка slow показывает более значительные изменения энергопотребления между различными стандартами;
  4. Связь с QP: H.264/H.265 показывают монотонную связь с QP, AV1 не показывает явной корреляции.

Экспериментальные выводы

  1. Доминирование разрешения: энергопотребление при кодировании высоко коррелирует с разрешением видео.
  2. Линейность количества кадров: энергопотребление при кодировании имеет линейную связь с количеством кадров.
  3. Различия между стандартами: различия в энергопотреблении между различными стандартами кодирования более явны при высоком разрешении.
  4. Преимущество GPR: GPR значительно превосходит линейную регрессию, доказывая нелинейный характер прогнозирования энергопотребления.

Связанные работы

Прогнозирование энергопотребления программных кодеров

  • Большинство исследований сосредоточены на программных кодерах (таких как H.265, SVT-AV1);
  • существующие модели обычно ориентированы на конкретные конфигурации кодирования или стандарты.

Исследования аппаратных декодеров

  • Herglotz и др. предложили модель прогнозирования энергопотребления аппаратного декодера H.265;
  • Kränzler расширил модель на аппаратные декодеры нескольких стандартов.

Исследовательский пробел

Исследования прогнозирования энергопотребления аппаратных кодеров относительно ограничены; данная статья заполняет этот пробел.

Выводы и обсуждение

Основные выводы

  1. Предложена первая модель прогнозирования энергопотребления аппаратного видеокодера на основе высокоуровневых признаков.
  2. Достигнута MAPE примерно 9%, имеющая практическую ценность.
  3. Доказано, что пространственное разрешение является ключевым признаком для прогнозирования энергопотребления.
  4. Подтверждено значительное преимущество GPR по сравнению с линейной регрессией.

Ограничения

  1. Отсутствие признаков содержимого: не учитываются признаки, связанные с содержимым видео, что может дополнительно повысить точность.
  2. Ограничения конфигурации кодирования: рассматриваются только сценарии с P-кадрами и одним ключевым кадром.
  3. Единая аппаратная платформа: модель проверена только на платформе NVIDIA Jetson.
  4. Выбор предустановок: рассматриваются только две предустановки (ultrafast, slow).

Направления будущих исследований

  1. Моделирование с учетом содержимого: введение признаков, таких как сложность видеоконтента.
  2. Полный анализ кодирования: расширение на полные сценарии кодирования, включающие B-кадры.
  3. Проверка на нескольких платформах: проверка универсальности модели на различных аппаратных платформах.
  4. Комплексное сравнение программного и аппаратного обеспечения: полный анализ сравнения энергопотребления аппаратных и программных кодеров.

Глубокая оценка

Преимущества

  1. Высокая практическая ценность: решение потребностей прогнозирования энергопотребления в практических приложениях.
  2. Научная методология: применение строгих статистических тестов для обеспечения надежности измерений.
  3. Комплексный анализ: глубокий анализ вклада каждого признака посредством исследования абляции.
  4. Сильная инновационность: первая унифицированная модель прогнозирования энергопотребления для аппаратных кодеров нескольких стандартов.

Недостатки

  1. Инженерия признаков: возможность рассмотрения большего количества признаков, связанных с содержимым видео.
  2. Масштаб данных: относительно ограниченный объем тестовых данных, возможность расширения на большее количество типов видео.
  3. Теоретический анализ: отсутствие глубокого теоретического анализа механизма прогнозирования энергопотребления.
  4. Проверка в реальном времени: недостаточная проверка производительности модели в сценариях реального времени.

Влияние

  1. Академический вклад: заполнение пробела в исследованиях прогнозирования энергопотребления аппаратных кодеров.
  2. Практическая ценность: применимость к управлению батареей мобильных устройств и экологичному кодированию видео.
  3. Воспроизводимость: четкое описание методологии и подробная экспериментальная установка.

Применимые сценарии

  1. Мобильные устройства: управление энергопотреблением устройств, работающих от батареи.
  2. Граничные вычисления: планирование ресурсов для обработки видео на граничных узлах.
  3. Экологичные вычисления: оптимизация энергопотребления кодирования видео в центрах обработки данных.
  4. Приложения в реальном времени: сценарии прямой трансляции, видеоконференций и другого кодирования в реальном времени.

Библиография

Статья ссылается на 24 связанные работы, включая:

  • исследования энергоэффективности видеокодирования (Katsenou и др., 2022);
  • моделирование энергопотребления программного кодера HEVC (Ramasubbu и др., 2022);
  • прогнозирование энергопотребления аппаратного декодера (Herglotz & Kaup, 2018);
  • теорию гауссовской процессной регрессии (Rasmussen & Williams, 2006).

Общая оценка: Данная статья предлагает инновационное решение для важной и относительно малоизученной области прогнозирования энергопотребления аппаратного видеокодера. Методология научна и строга, экспериментальная конструкция рациональна, результаты имеют практическую ценность. Хотя в инженерии признаков и теоретическом анализе остается место для улучшения, работа закладывает хорошую основу для последующих исследований в этой области.