2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic

하드웨어 비디오 인코더의 인코딩 에너지 예측을 위한 고수준 특징 모델

기본 정보

  • 논문 ID: 2510.12754
  • 제목: A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
  • 저자: Diwakara Reddy, Christian Herglotz, André Kaup
  • 분류: eess.IV (전기공학 및 시스템 과학-이미지 및 비디오 처리), eess.SP (신호 처리)
  • 발표 시간: 2025년 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.12754

초록

현대 사회에서 실시간 비디오 스트림과 사용자 생성 콘텐츠의 배터리 구동 장치로부터의 스트리밍 전송이 널리 보편화되었습니다. 실시간 스트리밍 전송은 실시간 비디오 인코딩을 필요로 하며, 하드웨어 비디오 인코더는 이러한 인코딩 작업에 매우 적합합니다. 본 논문은 가우스 프로세스 회귀를 사용하는 고수준 특징 모델을 소개하며, 이는 하드웨어 비디오 인코더의 인코딩 에너지 소비를 예측할 수 있습니다. P 프레임과 단일 키 프레임으로 제한된 평가 설정에서, 본 모델은 약 9%의 평균 절대 백분율 오차로 인코딩 에너지 소비를 예측할 수 있습니다. 또한 제거 연구를 통해 공간 해상도가 하드웨어 인코더 인코딩 에너지 소비 예측의 핵심 고수준 특징임을 입증합니다. 본 모델의 실제 응용은 서로 다른 공간 해상도, 서로 다른 인코딩 표준 및 코덱 사전 설정 하에서 인코딩된 비디오에 필요한 에너지에 대한 사전 추정에 사용될 수 있습니다.

연구 배경 및 동기

1. 해결하고자 하는 문제

본 연구는 하드웨어 비디오 인코더의 에너지 소비 예측 문제를 해결하는 데 주력합니다. 실시간 비디오 스트림과 사용자 생성 콘텐츠의 보급, 특히 배터리 구동 장치에서 정확한 인코딩 에너지 소비 예측은 다음 사항에 중요합니다:

  • 배터리 수명 관리
  • 에너지 인식 인코딩
  • 비디오 스트림의 탄소 발자국 감소

2. 문제의 중요성

  • 실시간 요구사항: 실시간 스트림 전송은 실시간 비디오 인코딩을 필요로 하며, 하드웨어 인코더는 가속화 및 에너지 효율적인 인코딩을 제공할 수 있습니다
  • 에너지 효율성: 배터리 구동 휴대용 장치에서 사용자 생성 콘텐츠를 생성할 때, 에너지 인식 비디오 인코딩이 중요합니다
  • 환경 영향: 에너지 인식 비디오 인코딩은 비디오 스트림의 탄소 발자국 감소에 중요합니다

3. 기존 방법의 한계

문헌 조사 결과:

  • 소프트웨어 인코더 에너지 소비 예측 모델이 많지만, 하드웨어 인코더 관련 연구는 제한적입니다
  • 기존 하드웨어 디코더 에너지 소비 예측 모델은 인코더에 직접 이식될 수 없습니다 (비트스트림 크기 등의 특징이 인코딩 전에 사용 불가능하기 때문)
  • 다양한 인코딩 표준 및 사전 설정을 처리할 수 있는 통합 모델이 부족합니다

4. 연구 동기

위의 한계를 바탕으로, 본 논문의 연구 동기는 다음을 포함합니다:

  • 하드웨어 디코더의 고수준 특징 모델을 하드웨어 인코더로 확장
  • 인코딩 전에 사용 가능한 특징만 포함하도록 특징 모델 수정
  • 다양한 표준 및 인코더 사전 설정을 고려할 수 있는 통합 모델 제안

핵심 기여

  1. 기존 모델 확장: Herglotz 등이 하드웨어 디코더를 위해 제안한 고수준 특징 모델을 하드웨어 인코더로 확장
  2. 특징 모델 최적화: 고수준 특징 모델을 수정하여 인코딩 전에 사용 가능한 특징만 포함하도록 함. 이는 디코더 모델에서 비트스트림 크기 특징이 인코더에서 사용 불가능한 문제를 해결합니다
  3. 통합 모델링 방법: 세 가지 서로 다른 표준(H.264, H.265, AV1)과 두 가지 인코더 사전 설정을 고려하여 하드웨어 인코더 에너지 소비를 예측하는 단일 모델 제안
  4. 고정밀 예측: 약 9.08%의 평균 절대 백분율 오차로 인코딩 에너지 소비 예측 달성
  5. 핵심 특징 식별: 제거 연구를 통해 공간 해상도가 하드웨어 인코더 에너지 소비 예측의 핵심 고수준 특징임을 입증

방법론 상세 설명

작업 정의

입력: 비디오 시퀀스의 고수준 특징 (해상도, 프레임 수, 인코딩 표준, 사전 설정, QP 값 등) 출력: 하드웨어 비디오 인코더의 인코딩 에너지 소비 예측값 제약 조건: 인코딩 전에 획득 가능한 특징만 사용, P 프레임 및 단일 키 프레임의 인코딩 시나리오에 적용

모델 아키텍처

1. 에너지 소비 측정 방법

차등 에너지 소비 측정 방법을 채택합니다:

E_enc = E_dynamic - E_static

여기서:

  • E_dynamic: 인코딩 과정 중의 동적 에너지 소비
  • E_static: 유휴 모드에서의 정적 에너지 소비

2. 고수준 특징 정의

모델은 9개의 고수준 특징을 사용합니다 (표 I):

특징 식별자특징 설명
x₀오프셋 에너지 (편향항, 항상 1)
x₁인코딩된 프레임 수
x₂픽셀 수량 (너비 × 높이)
x₃표준 H264 (부울 특징)
x₄표준 H265 (부울 특징)
x₅표준 AV1 (부울 특징)
x₆사전 설정 ultrafast (부울 특징)
x₇사전 설정 slow (부울 특징)
x₈양자화 매개변수 QP

3. 가우스 프로세스 회귀 모델

가우스 프로세스 회귀(GPR)를 모델링에 채택합니다:

선형 회귀 모델 (측정 노이즈 존재):

Ê_enc = x^T w + ε

가우스 프로세스 함수 근사:

f(x) ~ GP(m(x), Σ)

영 평균 가우스 프로세스:

f(x) ~ b(x) + GP(0, Σ)

공분산 커널 함수 (지수 커널):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

모델 출력:

Ê_enc = h(x)^T β + g(x)

여기서 g(x) ~ GP(0, Σ)

기술적 혁신 포인트

  1. 특징 선택 혁신: 비트스트림 크기 등 인코딩 후에만 획득 가능한 특징을 제거하여 인코딩 전 에너지 소비 예측에 모델을 사용할 수 있도록 보장합니다
  2. 통합 모델링 전략: 각 표준별로 별도 모델을 구축하는 방법과 달리, 부울 특징을 사용하여 다양한 인코딩 표준 및 사전 설정을 통합적으로 처리합니다
  3. 노이즈 처리 능력: GPR은 측정 노이즈를 처리하는 능력이 자연스럽게 내재되어 있으며, 하드웨어 에너지 소비 측정 시나리오에 적합합니다
  4. 신뢰 구간 테스트: 엄격한 통계 방법을 채택하여 측정 결과의 신뢰성을 보장합니다

실험 설정

데이터셋

  • 비디오 시퀀스: AOM 일반 테스트 조건(CTC)의 자연 비디오 시퀀스, 카테고리 A1-A5
  • 해상도 범위: 270p, 360p, 720p, 1080p, 2160p (4K)
  • 비트 깊이 처리: 10비트 입력 시퀀스를 8비트로 변환 (하드웨어 인코더 제한)
  • 프레임 수 설정: 각 시퀀스당 무작위로 65-130 프레임 선택, 단일 키 프레임
  • 인코딩 구성: B 프레임 없는 P 프레임 인코딩

평가 지표

평균 절대 백분율 오차(MAPE)를 채택합니다:

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

비교 방법

  • 주요 비교: 선형 회귀(LR) 모델
  • 제거 연구: 특징을 하나씩 제거하여 영향 분석

구현 세부사항

  • 하드웨어 플랫폼: NVIDIA Jetson Orin NX 개발 키트
  • 인코딩 표준: H.264, H.265, AV1
  • 인코딩 사전 설정: ultrafast, slow
  • QP 설정:
    • H.264/H.265: 22, 27, 32, 37
    • AV1: 108, 132, 160, 184
  • 교차 검증: 과적합 방지를 위한 10-폴드 교차 검증
  • 신뢰 구간 매개변수: α=0.99, β=0.02

실험 결과

주요 결과

  • 전체 성능: GPR 모델이 MAPE = 9.08% 달성
  • LR 비교: 선형 회귀 모델 MAPE = 72.98%, GPR에 비해 현저히 열등
  • 훈련 효율성: 훈련 시간 21.25초, 검증 시간 3.7밀리초

제거 실험

제거 연구 결과(표 III)는 각 특징의 중요도 순서를 보여줍니다:

시나리오제거된 특징MAPE (%)
a픽셀 수량 (너비 × 높이)164.70
b사전 설정 정보37.38
c인코딩된 프레임 수17.43
d표준 정보10.25
eQP 값8.74

핵심 발견:

  1. 공간 해상도는 가장 중요한 특징이며, 제거 후 MAPE가 164.70%로 급격히 상승합니다
  2. 사전 설정 정보가 그 다음이며, 영향이 상당합니다
  3. QP 정보 제거 후 정확도가 오히려 약간 향상되었으며, 이는 QP와 에너지 소비 간의 관계가 일관되지 않기 때문일 수 있습니다

사례 분석

시각화 분석을 통해 다음을 발견했습니다:

  1. 해상도 클러스터링: 서로 다른 해상도가 명확한 에너지 소비 클러스터를 형성합니다
  2. 표준 차이: 4K 비디오는 서로 다른 인코딩 표준 간에 명확한 에너지 소비 차이를 보입니다
  3. 사전 설정 영향: slow 사전 설정은 서로 다른 표준 간에 더 현저한 에너지 소비 변화를 보입니다
  4. QP 관계: H.264/H.265는 QP와 단조 관계를 보이지만, AV1은 명확한 상관관계를 보이지 않습니다

실험 발견

  1. 해상도 주도: 인코딩 에너지 소비는 비디오 해상도와 높은 상관관계가 있습니다
  2. 프레임 수 선형성: 인코딩 에너지 소비는 프레임 수와 선형 관계를 보입니다
  3. 표준 차이: 서로 다른 인코딩 표준의 에너지 소비 차이는 고해상도에서 더 명확합니다
  4. GPR 장점: GPR은 선형 회귀보다 현저히 우수하며, 에너지 소비 예측의 비선형 특성을 입증합니다

관련 연구

소프트웨어 인코더 에너지 소비 예측

  • 대부분의 연구는 소프트웨어 인코더(예: H.265, SVT-AV1)에 집중합니다
  • 기존 모델은 일반적으로 특정 인코딩 구성 또는 표준을 대상으로 합니다

하드웨어 디코더 연구

  • Herglotz 등이 하드웨어 H.265 디코더 에너지 소비 예측 모델을 제안합니다
  • Kränzler가 다양한 표준의 하드웨어 디코더 모델로 확장합니다

연구 공백

하드웨어 인코더 에너지 소비 예측 연구는 상대적으로 제한적이며, 본 논문이 이 공백을 채웁니다.

결론 및 논의

주요 결론

  1. 고수준 특징 기반의 첫 번째 하드웨어 비디오 인코더 에너지 소비 예측 모델을 제안합니다
  2. 약 9%의 MAPE를 달성하며, 실용적 가치가 있습니다
  3. 공간 해상도가 에너지 소비 예측의 핵심 특징임을 입증합니다
  4. 선형 회귀에 비한 GPR의 현저한 우월성을 검증합니다

한계

  1. 콘텐츠 특징 부재: 비디오 콘텐츠 관련 특징을 고려하지 않았으며, 정확도를 더욱 향상시킬 수 있습니다
  2. 인코딩 구성 제한: P 프레임 및 단일 키 프레임 시나리오만 고려합니다
  3. 하드웨어 플랫폼 단일: NVIDIA Jetson 플랫폼에서만 검증합니다
  4. 사전 설정 선택: 두 가지 사전 설정(ultrafast, slow)만 고려합니다

향후 방향

  1. 콘텐츠 인식 모델링: 비디오 콘텐츠 복잡도 등의 특징 도입
  2. 전체 인코딩 분석: B 프레임을 포함한 완전한 인코딩 시나리오로 확장
  3. 다중 플랫폼 검증: 서로 다른 하드웨어 플랫폼에서 모델 범용성 검증
  4. 소프트웨어-하드웨어 비교: 하드웨어 및 소프트웨어 인코더 에너지 소비의 전면적 비교 분석

심층 평가

장점

  1. 높은 실용 가치: 실제 응용에서의 에너지 소비 예측 요구를 해결합니다
  2. 과학적 방법: 엄격한 통계 테스트를 채택하여 측정 신뢰성을 보장합니다
  3. 포괄적 분석: 제거 연구를 통해 각 특징의 기여도를 심층 분석합니다
  4. 강한 혁신성: 하드웨어 인코더를 위한 첫 번째 통합 다중 표준 에너지 소비 예측 모델을 제안합니다

부족한 점

  1. 특징 공학: 더 많은 비디오 콘텐츠 관련 특징을 고려할 수 있습니다
  2. 데이터 규모: 테스트 데이터가 상대적으로 제한적이며, 더 많은 비디오 유형으로 확장할 수 있습니다
  3. 이론적 분석: 에너지 소비 예측 메커니즘에 대한 심층적 이론 분석이 부족합니다
  4. 실시간 성능 검증: 실시간 시나리오에서 모델 성능을 충분히 검증하지 않았습니다

영향력

  1. 학술적 기여: 하드웨어 인코더 에너지 소비 예측 연구 공백을 채웁니다
  2. 실용적 가치: 모바일 장치 배터리 관리 및 녹색 비디오 인코딩에 사용될 수 있습니다
  3. 재현성: 방법 설명이 명확하고 실험 설정이 상세합니다

적용 시나리오

  1. 모바일 장치: 배터리 구동 장치의 에너지 소비 관리
  2. 엣지 컴퓨팅: 엣지 비디오 처리의 리소스 계획
  3. 녹색 컴퓨팅: 데이터 센터 비디오 인코딩의 에너지 소비 최적화
  4. 실시간 응용: 라이브 스트리밍, 화상 회의 등 실시간 인코딩 시나리오

참고문헌

논문은 24편의 관련 문헌을 인용하며, 주요 내용은 다음을 포함합니다:

  • 비디오 인코딩 에너지 효율 연구 (Katsenou 등, 2022)
  • HEVC 소프트웨어 인코더 에너지 소비 모델링 (Ramasubbu 등, 2022)
  • 하드웨어 디코더 에너지 소비 예측 (Herglotz & Kaup, 2018)
  • 가우스 프로세스 회귀 이론 (Rasmussen & Williams, 2006)

종합 평가: 본 논문은 하드웨어 비디오 인코더 에너지 소비 예측이라는 중요하면서도 상대적으로 공백이 있는 연구 분야에 대해 혁신적인 솔루션을 제안합니다. 방법은 과학적이고 엄밀하며, 실험 설계는 합리적이고, 결과는 실용적 가치가 있습니다. 특징 공학 및 이론적 분석 측면에서 개선의 여지가 있지만, 해당 분야의 후속 연구를 위한 견고한 기초를 마련했습니다.