2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup

In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.

academic

نموذج ميزات عالي المستوى للتنبؤ بطاقة الترميز لمشفر فيديو الأجهزة

المعلومات الأساسية

معرّف الورقة: 2510.12754
العنوان: نموذج ميزات عالي المستوى للتنبؤ بطاقة الترميز لمشفر فيديو الأجهزة
المؤلفون: Diwakara Reddy, Christian Herglotz, André Kaup
التصنيف: eess.IV (الهندسة الكهربائية وعلوم الأنظمة - معالجة الصور والفيديو)، eess.SP (معالجة الإشارات)
تاريخ النشر: 2025 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2510.12754

الملخص

في المجتمع المعاصر، أصبح بث الفيديو في الوقت الفعلي والمحتوى الذي ينشئه المستخدمون من الأجهزة التي تعمل بالبطارية منتشراً في كل مكان. يتطلب البث في الوقت الفعلي ترميز فيديو في الوقت الفعلي، وتتمتع مشفرات الفيديو بالأجهزة بملاءمة خاصة لمهام الترميز هذه. تقدم هذه الورقة نموذج ميزات عالي المستوى باستخدام انحدار العملية الغاوسية يمكنه التنبؤ باستهلاك الطاقة في الترميز لمشفر فيديو الأجهزة. في إعداد التقييم المقتصر على إطارات P وإطار رئيسي واحد، يمكن للنموذج التنبؤ باستهلاك طاقة الترميز بمتوسط خطأ نسبة مئوية مطلقة يبلغ حوالي 9%. علاوة على ذلك، تثبت دراسة الاستئصال أن الدقة المكانية هي ميزة عالية المستوى حاسمة للتنبؤ باستهلاك الطاقة في ترميز الأجهزة. التطبيق العملي للنموذج هو أنه يمكن استخدامه لتقدير مسبق للطاقة المطلوبة لترميز الفيديو في دقة مكانية مختلفة وأنماط ترميز مختلفة وإعدادات برنامج ترميز مختلفة.

خلفية البحث والدافع

1. المشكلة المراد حلها

يسعى هذا البحث إلى حل مشكلة التنبؤ باستهلاك الطاقة في مشفرات فيديو الأجهزة. مع انتشار بث الفيديو في الوقت الفعلي والمحتوى الذي ينشئه المستخدمون، خاصة على الأجهزة التي تعمل بالبطارية، يعتبر التنبؤ الدقيق باستهلاك طاقة الترميز ذا أهمية حاسمة لـ:

إدارة عمر البطارية
الترميز الواعي بالطاقة
تقليل البصمة الكربونية لبث الفيديو

2. أهمية المشكلة

متطلبات الوقت الفعلي: يتطلب البث في الوقت الفعلي ترميز فيديو في الوقت الفعلي، حيث توفر مشفرات الأجهزة تسريعاً وترميزاً فعالاً من حيث الطاقة
كفاءة الطاقة: عند إنشاء محتوى ينشئه المستخدمون على الأجهزة المحمولة التي تعمل بالبطارية، يعتبر ترميز الفيديو الواعي بالطاقة حاسماً
التأثير البيئي: يعتبر ترميز الفيديو الحساس للطاقة مهماً لتقليل البصمة الكربونية لبث الفيديو

3. قيود الطرق الموجودة

يُظهر البحث الأدبي أن:

نماذج التنبؤ باستهلاك الطاقة للمشفرات البرمجية أكثر شيوعاً، لكن البحث المتعلق بمشفرات الأجهزة محدود
لا يمكن نقل نماذج التنبؤ باستهلاك الطاقة لفك تشفير الأجهزة الموجودة مباشرة إلى المشفرات (لأن ميزات مثل حجم البث غير متاحة قبل الترميز)
يوجد نقص في النماذج الموحدة التي يمكنها التعامل مع معايير ترميز وإعدادات متعددة

4. دافع البحث

بناءً على القيود المذكورة أعلاه، تتضمن دوافع البحث في هذه الورقة:

توسيع نموذج الميزات العالي المستوى لفك تشفير الأجهزة إلى مشفرات الأجهزة
تعديل نموذج الميزات ليشمل فقط الميزات المتاحة قبل الترميز
اقتراح نموذج موحد يأخذ في الاعتبار معايير وإعدادات مشفر متعددة

المساهمات الأساسية

توسيع النموذج الموجود: توسيع نموذج الميزات العالي المستوى لـ Herglotz وآخرين لفك تشفير الأجهزة إلى مشفرات الأجهزة
تحسين نموذج الميزات: تعديل نموذج الميزات العالي المستوى ليشمل فقط الميزات المتاحة قبل الترميز، مما يحل مشكلة عدم توفر ميزة حجم البث في نموذج فك التشفير
طريقة نمذجة موحدة: اقتراح نموذج واحد للتنبؤ باستهلاك طاقة مشفر الأجهزة، مع الأخذ في الاعتبار ثلاثة معايير مختلفة (H.264 و H.265 و AV1) وإعدادي مشفر
تنبؤ عالي الدقة: تحقيق التنبؤ باستهلاك طاقة الترميز بمتوسط خطأ نسبة مئوية مطلقة يبلغ حوالي 9.08%
تحديد الميزات الحاسمة: إثبات من خلال دراسة الاستئصال أن الدقة المكانية هي ميزة عالية المستوى حاسمة للتنبؤ باستهلاك الطاقة في مشفرات الأجهزة

شرح الطريقة

تعريف المهمة

المدخلات: ميزات عالية المستوى لتسلسل الفيديو (الدقة والإطارات ومعيار الترميز والإعداد وقيمة QP وغيرها) المخرجات: قيمة التنبؤ باستهلاك طاقة الترميز لمشفر الفيديو بالأجهزة القيود: استخدام الميزات المتاحة فقط قبل الترميز، والتطبيق على سيناريوهات ترميز إطارات P وإطار رئيسي واحد

بنية النموذج

1. طريقة قياس استهلاك الطاقة

استخدام طريقة قياس الطاقة التفاضلية:

E_enc = E_dynamic - E_static

حيث:

E_dynamic: استهلاك الطاقة الديناميكية أثناء عملية الترميز
E_static: استهلاك الطاقة الثابتة في وضع الخمول

2. تعريف الميزات العالية المستوى

يستخدم النموذج 9 ميزات عالية المستوى (الجدول الأول):

معرّف الميزة	وصف الميزة
x₀	استهلاك الطاقة المعوض (حد ثابت، يساوي دائماً 1)
x₁	عدد الإطارات المرمزة
x₂	عدد البكسل (العرض × الارتفاع)
x₃	معيار H264 (ميزة منطقية)
x₄	معيار H265 (ميزة منطقية)
x₅	معيار AV1 (ميزة منطقية)
x₆	الإعداد ultrafast (ميزة منطقية)
x₇	الإعداد slow (ميزة منطقية)
x₈	معامل التكمية QP

3. نموذج انحدار العملية الغاوسية

استخدام انحدار العملية الغاوسية (GPR) للنمذجة:

نموذج الانحدار الخطي (مع وجود ضوضاء القياس):

Ê_enc = x^T w + ε

تقريب دالة العملية الغاوسية:

f(x) ~ GP(m(x), Σ)

العملية الغاوسية ذات المتوسط الصفري:

f(x) ~ b(x) + GP(0, Σ)

دالة نواة التغاير (النواة الأسية):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

مخرجات النموذج:

Ê_enc = h(x)^T β + g(x)

حيث g(x) ~ GP(0, Σ)

نقاط الابتكار التقني

ابتكار اختيار الميزات: إزالة الميزات التي تتطلب الحصول عليها بعد الترميز مثل حجم البث، مما يضمن إمكانية استخدام النموذج للتنبؤ بالطاقة قبل الترميز
استراتيجية النمذجة الموحدة: بدلاً من بناء نماذج منفصلة لكل معيار، استخدام ميزات منطقية للتعامل الموحد مع معايير ترميز وإعدادات متعددة
قدرة معالجة الضوضاء: يتمتع انحدار العملية الغاوسية بقدرة طبيعية على معالجة ضوضاء القياس، وهو مناسب لسيناريوهات قياس طاقة الأجهزة
اختبار فترة الثقة: استخدام طرق إحصائية صارمة لضمان موثوقية نتائج القياس

إعداد التجربة

مجموعة البيانات

تسلسلات الفيديو: تسلسلات الفيديو الطبيعية من الشروط الاختبارية العامة (CTC) من AOM، الفئات A1-A5
نطاق الدقة: 270p و 360p و 720p و 1080p و 2160p (4K)
معالجة عمق البت: تحويل تسلسلات الإدخال بعمق 10 بت إلى 8 بت (قيد الأجهزة)
إعداد الإطارات: اختيار عشوائي لـ 65-130 إطار لكل تسلسل، إطار رئيسي واحد
التكوين الترميزي: ترميز إطارات P بدون إطارات B

مؤشرات التقييم

استخدام متوسط الخطأ النسبة المئوية المطلقة (MAPE):

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

طرق المقارنة

المقارنة الرئيسية: نموذج الانحدار الخطي (LR)
دراسة الاستئصال: تحليل تأثير إزالة الميزات واحدة تلو الأخرى

تفاصيل التنفيذ

منصة الأجهزة: مجموعة NVIDIA Jetson Orin NX للتطوير
معايير الترميز: H.264 و H.265 و AV1
إعدادات الترميز: ultrafast و slow
إعدادات QP:
- H.264/H.265: 22 و 27 و 32 و 37
- AV1: 108 و 132 و 160 و 184
التحقق المتقاطع: التحقق المتقاطع بـ 10 طيات لمنع الإفراط في التدريب
معاملات فترة الثقة: α=0.99 و β=0.02

نتائج التجربة

النتائج الرئيسية

الأداء الإجمالي: يحقق نموذج GPR MAPE = 9.08%
مقارنة LR: نموذج الانحدار الخطي MAPE = 72.98%، أقل بكثير من GPR
كفاءة التدريب: وقت التدريب 21.25 ثانية، وقت التحقق 3.7 ميلي ثانية

تجارب الاستئصال

تظهر نتائج دراسة الاستئصال (الجدول الثالث) ترتيب أهمية كل ميزة:

السيناريو	الميزة المزالة	MAPE (%)
a	عدد البكسل (العرض × الارتفاع)	164.70
b	معلومات الإعداد	37.38
c	عدد الإطارات المرمزة	17.43
d	معلومات المعيار	10.25
e	قيمة QP	8.74

الاكتشافات الرئيسية:

الدقة المكانية هي الميزة الأكثر أهمية، وإزالتها تؤدي إلى ارتفاع حاد في MAPE إلى 164.70%
معلومات الإعداد تأتي في المرتبة الثانية، مع تأثير كبير
إزالة معلومات QP تؤدي في الواقع إلى تحسن طفيف في الدقة، ربما لأن العلاقة بين QP واستهلاك الطاقة غير متسقة

تحليل الحالات

من خلال التحليل البصري تم اكتشاف:

تجميع الدقة: تشكل دقة مختلفة تجميعات واضحة لاستهلاك الطاقة
الاختلافات المعيارية: يظهر فيديو 4K اختلافات واضحة في استهلاك الطاقة بين معايير ترميز مختلفة
تأثير الإعداد: يظهر إعداد slow تغييرات أكثر وضوحاً في استهلاك الطاقة عبر معايير مختلفة
علاقة QP: يُظهر H.264/H.265 علاقة رتيبة مع QP، بينما AV1 لا يظهر ارتباطاً واضحاً

نتائج التجربة

هيمنة الدقة: يرتبط استهلاك طاقة الترميز ارتباطاً وثيقاً بدقة الفيديو
خطية عدد الإطارات: يرتبط استهلاك طاقة الترميز بعلاقة خطية مع عدد الإطارات
اختلافات المعيار: تكون اختلافات استهلاك الطاقة بين معايير ترميز مختلفة أكثر وضوحاً في الدقة العالية
مزايا GPR: يتفوق انحدار العملية الغاوسية بشكل كبير على الانحدار الخطي، مما يثبت الطبيعة غير الخطية للتنبؤ باستهلاك الطاقة

الأعمال ذات الصلة

التنبؤ باستهلاك الطاقة للمشفرات البرمجية

تركز معظم الدراسات على المشفرات البرمجية (مثل H.265 و SVT-AV1)
عادة ما تستهدف النماذج الموجودة تكوينات ترميز أو معايير محددة

بحث فك تشفير الأجهزة

اقترح Herglotz وآخرون نموذج التنبؤ باستهلاك الطاقة لفك تشفير H.265 بالأجهزة
وسع Kränzler النموذج إلى نماذج فك تشفير أجهزة متعددة المعايير

الفجوات البحثية

يعتبر البحث في التنبؤ باستهلاك الطاقة لمشفرات الأجهزة محدوداً نسبياً، وتملأ هذه الورقة هذه الفجوة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

اقتراح أول نموذج للتنبؤ باستهلاك الطاقة لمشفر فيديو الأجهزة بناءً على ميزات عالية المستوى
تحقيق MAPE بحوالي 9%، وهو ذو قيمة عملية
إثبات أن الدقة المكانية هي ميزة حاسمة للتنبؤ باستهلاك الطاقة
التحقق من الميزة الكبيرة لانحدار العملية الغاوسية مقارنة بالانحدار الخطي

القيود

غياب ميزات المحتوى: لم يتم الأخذ في الاعتبار ميزات متعلقة بمحتوى الفيديو، مما قد يحسن الدقة بشكل أكبر
قيود التكوين الترميزي: يتم الأخذ في الاعتبار فقط سيناريوهات إطارات P وإطار رئيسي واحد
منصة أجهزة واحدة: تم التحقق من النموذج فقط على منصة NVIDIA Jetson
اختيار الإعداد: يتم الأخذ في الاعتبار فقط إعدادين (ultrafast و slow)

الاتجاهات المستقبلية

النمذجة الحساسة للمحتوى: إدراج ميزات مثل تعقيد محتوى الفيديو
التحليل الترميزي الشامل: التوسع إلى سيناريوهات ترميز كاملة تتضمن إطارات B
التحقق من منصات متعددة: التحقق من عمومية النموذج على منصات أجهزة مختلفة
المقارنة بين البرمجيات والأجهزة: تحليل شامل لمقارنة استهلاك الطاقة بين مشفرات الأجهزة والبرمجيات

التقييم المتعمق

المزايا

قيمة عملية عالية: حل متطلبات التنبؤ باستهلاك الطاقة في التطبيقات الفعلية
طريقة علمية: استخدام اختبارات إحصائية صارمة لضمان موثوقية القياس
تحليل شامل: تحليل عميق لمساهمة كل ميزة من خلال دراسة الاستئصال
قوة الابتكار: أول نموذج موحد متعدد المعايير للتنبؤ باستهلاك الطاقة لمشفرات الأجهزة

أوجه القصور

هندسة الميزات: يمكن الأخذ في الاعتبار المزيد من الميزات المتعلقة بمحتوى الفيديو
حجم البيانات: البيانات المختبرة نسبياً محدودة، ويمكن توسيعها إلى أنواع فيديو أكثر
التحليل النظري: نقص التحليل النظري العميق لآلية التنبؤ باستهلاك الطاقة
التحقق من الوقت الفعلي: لم يتم التحقق الكافي من أداء النموذج في السيناريوهات في الوقت الفعلي

التأثير

المساهمة الأكاديمية: ملء الفجوة في البحث عن التنبؤ باستهلاك الطاقة لمشفرات الأجهزة
القيمة العملية: يمكن استخدامها في إدارة البطارية للأجهزة المحمولة والترميز الأخضر للفيديو
قابلية التكرار: وصف الطريقة واضح، وإعداد التجربة مفصل

السيناريوهات القابلة للتطبيق

الأجهزة المحمولة: إدارة استهلاك الطاقة للأجهزة التي تعمل بالبطارية
الحوسبة الطرفية: تخطيط الموارد لمعالجة الفيديو الطرفية
الحوسبة الخضراء: تحسين استهلاك الطاقة لترميز الفيديو في مراكز البيانات
التطبيقات في الوقت الفعلي: سيناريوهات البث المباشر والمؤتمرات الفيديو والترميز في الوقت الفعلي

المراجع

تستشهد الورقة بـ 24 مرجعاً ذا صلة، تتضمن بشكل أساسي:

أبحاث كفاءة الطاقة في ترميز الفيديو (Katsenou وآخرون، 2022)
نمذجة استهلاك الطاقة لمشفرات HEVC البرمجية (Ramasubbu وآخرون، 2022)
التنبؤ باستهلاك الطاقة لفك تشفير الأجهزة (Herglotz & Kaup، 2018)
نظرية انحدار العملية الغاوسية (Rasmussen & Williams، 2006)

التقييم الإجمالي: تعالج هذه الورقة مجال بحثي مهم وفارغ نسبياً وهو التنبؤ باستهلاك الطاقة لمشفرات فيديو الأجهزة، وتقترح حلاً مبتكراً. الطريقة علمية وصارمة، والتصميم التجريبي معقول، والنتائج ذات قيمة عملية. على الرغم من وجود مجال للتحسين في هندسة الميزات والتحليل النظري، فإن الورقة تضع أساساً جيداً للبحث اللاحق في هذا المجال.