A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder
Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic
نموذج ميزات عالي المستوى للتنبؤ بطاقة الترميز لمشفر فيديو الأجهزة
في المجتمع المعاصر، أصبح بث الفيديو في الوقت الفعلي والمحتوى الذي ينشئه المستخدمون من الأجهزة التي تعمل بالبطارية منتشراً في كل مكان. يتطلب البث في الوقت الفعلي ترميز فيديو في الوقت الفعلي، وتتمتع مشفرات الفيديو بالأجهزة بملاءمة خاصة لمهام الترميز هذه. تقدم هذه الورقة نموذج ميزات عالي المستوى باستخدام انحدار العملية الغاوسية يمكنه التنبؤ باستهلاك الطاقة في الترميز لمشفر فيديو الأجهزة. في إعداد التقييم المقتصر على إطارات P وإطار رئيسي واحد، يمكن للنموذج التنبؤ باستهلاك طاقة الترميز بمتوسط خطأ نسبة مئوية مطلقة يبلغ حوالي 9%. علاوة على ذلك، تثبت دراسة الاستئصال أن الدقة المكانية هي ميزة عالية المستوى حاسمة للتنبؤ باستهلاك الطاقة في ترميز الأجهزة. التطبيق العملي للنموذج هو أنه يمكن استخدامه لتقدير مسبق للطاقة المطلوبة لترميز الفيديو في دقة مكانية مختلفة وأنماط ترميز مختلفة وإعدادات برنامج ترميز مختلفة.
يسعى هذا البحث إلى حل مشكلة التنبؤ باستهلاك الطاقة في مشفرات فيديو الأجهزة. مع انتشار بث الفيديو في الوقت الفعلي والمحتوى الذي ينشئه المستخدمون، خاصة على الأجهزة التي تعمل بالبطارية، يعتبر التنبؤ الدقيق باستهلاك طاقة الترميز ذا أهمية حاسمة لـ:
توسيع النموذج الموجود: توسيع نموذج الميزات العالي المستوى لـ Herglotz وآخرين لفك تشفير الأجهزة إلى مشفرات الأجهزة
تحسين نموذج الميزات: تعديل نموذج الميزات العالي المستوى ليشمل فقط الميزات المتاحة قبل الترميز، مما يحل مشكلة عدم توفر ميزة حجم البث في نموذج فك التشفير
طريقة نمذجة موحدة: اقتراح نموذج واحد للتنبؤ باستهلاك طاقة مشفر الأجهزة، مع الأخذ في الاعتبار ثلاثة معايير مختلفة (H.264 و H.265 و AV1) وإعدادي مشفر
تنبؤ عالي الدقة: تحقيق التنبؤ باستهلاك طاقة الترميز بمتوسط خطأ نسبة مئوية مطلقة يبلغ حوالي 9.08%
تحديد الميزات الحاسمة: إثبات من خلال دراسة الاستئصال أن الدقة المكانية هي ميزة عالية المستوى حاسمة للتنبؤ باستهلاك الطاقة في مشفرات الأجهزة
المدخلات: ميزات عالية المستوى لتسلسل الفيديو (الدقة والإطارات ومعيار الترميز والإعداد وقيمة QP وغيرها)
المخرجات: قيمة التنبؤ باستهلاك طاقة الترميز لمشفر الفيديو بالأجهزة
القيود: استخدام الميزات المتاحة فقط قبل الترميز، والتطبيق على سيناريوهات ترميز إطارات P وإطار رئيسي واحد
تستشهد الورقة بـ 24 مرجعاً ذا صلة، تتضمن بشكل أساسي:
أبحاث كفاءة الطاقة في ترميز الفيديو (Katsenou وآخرون، 2022)
نمذجة استهلاك الطاقة لمشفرات HEVC البرمجية (Ramasubbu وآخرون، 2022)
التنبؤ باستهلاك الطاقة لفك تشفير الأجهزة (Herglotz & Kaup، 2018)
نظرية انحدار العملية الغاوسية (Rasmussen & Williams، 2006)
التقييم الإجمالي: تعالج هذه الورقة مجال بحثي مهم وفارغ نسبياً وهو التنبؤ باستهلاك الطاقة لمشفرات فيديو الأجهزة، وتقترح حلاً مبتكراً. الطريقة علمية وصارمة، والتصميم التجريبي معقول، والنتائج ذات قيمة عملية. على الرغم من وجود مجال للتحسين في هندسة الميزات والتحليل النظري، فإن الورقة تضع أساساً جيداً للبحث اللاحق في هذا المجال.