2025-11-24T06:34:18.178807

A High-Level Feature Model to Predict the Encoding Energy of a Hardware Video Encoder

Reddy, Herglotz, Kaup
In today's society, live video streaming and user generated content streamed from battery powered devices are ubiquitous. Live streaming requires real-time video encoding, and hardware video encoders are well suited for such an encoding task. In this paper, we introduce a high-level feature model using Gaussian process regression that can predict the encoding energy of a hardware video encoder. In an evaluation setup restricted to only P-frames and a single keyframe, the model can predict the encoding energy with a mean absolute percentage error of approximately 9%. Further, we demonstrate with an ablation study that spatial resolution is a key high-level feature for encoding energy prediction of a hardware encoder. A practical application of our model is that it can be used to perform a prior estimation of the energy required to encode a video at various spatial resolutions, with different coding standards and codec presets.
academic

हार्डवेयर वीडियो एनकोडर की एन्कोडिंग ऊर्जा की भविष्यवाणी के लिए एक उच्च-स्तरीय फीचर मॉडल

मूल जानकारी

  • पेपर ID: 2510.12754
  • शीर्षक: हार्डवेयर वीडियो एनकोडर की एन्कोडिंग ऊर्जा की भविष्यवाणी के लिए एक उच्च-स्तरीय फीचर मॉडल
  • लेखक: दिवाकर रेड्डी, क्रिश्चियन हर्गलोट्ज़, आंद्रे काउप
  • वर्गीकरण: eess.IV (विद्युत अभियांत्रिकी और प्रणाली विज्ञान - छवि और वीडियो प्रसंस्करण), eess.SP (सिग्नल प्रसंस्करण)
  • प्रकाशन समय: 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12754

सारांश

आज के समाज में, रीयल-टाइम वीडियो स्ट्रीमिंग और उपयोगकर्ता-जनित सामग्री बैटरी से चलने वाले उपकरणों से स्ट्रीम ट्रांसमिशन सर्वव्यापी हो गई है। रीयल-टाइम स्ट्रीमिंग के लिए रीयल-टाइम वीडियो एन्कोडिंग की आवश्यकता होती है, और हार्डवेयर वीडियो एनकोडर ऐसे एन्कोडिंग कार्यों के लिए अत्यधिक उपयुक्त हैं। यह पेपर गॉसियन प्रक्रिया प्रतिगमन का उपयोग करके एक उच्च-स्तरीय फीचर मॉडल प्रस्तुत करता है जो हार्डवेयर वीडियो एनकोडर की एन्कोडिंग ऊर्जा खपत की भविष्यवाणी कर सकता है। केवल P फ्रेम और एकल कीफ्रेम तक सीमित मूल्यांकन सेटिंग में, मॉडल एन्कोडिंग ऊर्जा खपत की भविष्यवाणी कर सकता है जिसमें लगभग 9% की औसत निरपेक्ष प्रतिशत त्रुटि है। इसके अलावा, विलोपन अध्ययन के माध्यम से यह प्रदर्शित किया गया है कि स्थानिक संकल्प हार्डवेयर एनकोडर की एन्कोडिंग ऊर्जा खपत भविष्यवाणी के लिए एक महत्वपूर्ण उच्च-स्तरीय फीचर है। इस मॉडल का व्यावहारिक अनुप्रयोग विभिन्न स्थानिक संकल्प, विभिन्न एन्कोडिंग मानकों और कोडेक प्रीसेट के तहत एन्कोडेड वीडियो के लिए आवश्यक ऊर्जा का पूर्व अनुमान लगाने के लिए है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समाधान किए जाने वाली समस्या

यह अनुसंधान हार्डवेयर वीडियो एनकोडर की ऊर्जा खपत भविष्यवाणी की समस्या को हल करने के लिए समर्पित है। रीयल-टाइम वीडियो स्ट्रीमिंग और उपयोगकर्ता-जनित सामग्री के प्रसार के साथ, विशेष रूप से बैटरी से चलने वाले उपकरणों पर, सटीक एन्कोडिंग ऊर्जा खपत की भविष्यवाणी के लिए महत्वपूर्ण है:

  • बैटरी जीवन प्रबंधन
  • ऊर्जा-जागरूक एन्कोडिंग
  • वीडियो स्ट्रीमिंग के कार्बन पदचिह्न को कम करना

2. समस्या की महत्ता

  • रीयल-टाइम आवश्यकता: रीयल-टाइम स्ट्रीमिंग के लिए रीयल-टाइम वीडियो एन्कोडिंग की आवश्यकता होती है, हार्डवेयर एनकोडर त्वरण और ऊर्जा-कुशल एन्कोडिंग प्रदान कर सकते हैं
  • ऊर्जा दक्षता: बैटरी से चलने वाले हैंडहेल्ड उपकरणों पर उपयोगकर्ता-जनित सामग्री बनाते समय ऊर्जा-जागरूक वीडियो एन्कोडिंग महत्वपूर्ण है
  • पर्यावरणीय प्रभाव: ऊर्जा-सचेत वीडियो एन्कोडिंग वीडियो स्ट्रीमिंग के कार्बन पदचिह्न को कम करने के लिए महत्वपूर्ण है

3. मौजूदा तरीकों की सीमाएं

साहित्य सर्वेक्षण से पता चलता है:

  • सॉफ्टवेयर एनकोडर की ऊर्जा खपत भविष्यवाणी मॉडल अधिक हैं, लेकिन हार्डवेयर एनकोडर संबंधित अनुसंधान सीमित है
  • मौजूदा हार्डवेयर डिकोडर की ऊर्जा खपत भविष्यवाणी मॉडल सीधे एनकोडर में स्थानांतरित नहीं किए जा सकते (क्योंकि बिटस्ट्रीम आकार जैसी विशेषताएं एन्कोडिंग से पहले उपलब्ध नहीं हैं)
  • कई एन्कोडिंग मानकों और प्रीसेट को संभालने में सक्षम एकीकृत मॉडल की कमी है

4. अनुसंधान प्रेरणा

उपरोक्त सीमाओं के आधार पर, इस पेपर की अनुसंधान प्रेरणा में शामिल हैं:

  • हार्डवेयर डिकोडर के उच्च-स्तरीय फीचर मॉडल को हार्डवेयर एनकोडर तक विस्तारित करना
  • फीचर मॉडल को संशोधित करना ताकि केवल एन्कोडिंग से पहले उपलब्ध विशेषताएं शामिल हों
  • विभिन्न मानकों और एनकोडर प्रीसेट पर विचार करने वाले एकीकृत मॉडल का प्रस्ताव करना

मुख्य योगदान

  1. मौजूदा मॉडल का विस्तार: हर्गलोट्ज़ आदि द्वारा हार्डवेयर डिकोडर के लिए प्रस्तावित उच्च-स्तरीय फीचर मॉडल को हार्डवेयर एनकोडर तक विस्तारित करना
  2. फीचर मॉडल अनुकूलन: उच्च-स्तरीय फीचर मॉडल को संशोधित करना, केवल एन्कोडिंग से पहले उपलब्ध विशेषताओं को शामिल करना, डिकोडर मॉडल में बिटस्ट्रीम आकार की विशेषता एनकोडर में उपलब्ध न होने की समस्या को हल करना
  3. एकीकृत मॉडलिंग दृष्टिकोण: हार्डवेयर एनकोडर की ऊर्जा खपत की भविष्यवाणी के लिए एकल मॉडल का प्रस्ताव करना, तीन विभिन्न मानकों (H.264, H.265, AV1) और दो एनकोडर प्रीसेट पर विचार करना
  4. उच्च सटीकता भविष्यवाणी: लगभग 9.08% की औसत निरपेक्ष प्रतिशत त्रुटि के साथ एन्कोडिंग ऊर्जा खपत भविष्यवाणी प्राप्त करना
  5. महत्वपूर्ण फीचर पहचान: विलोपन अध्ययन के माध्यम से यह प्रदर्शित करना कि स्थानिक संकल्प हार्डवेयर एनकोडर की ऊर्जा खपत भविष्यवाणी के लिए एक महत्वपूर्ण उच्च-स्तरीय फीचर है

विधि विवरण

कार्य परिभाषा

इनपुट: वीडियो अनुक्रम की उच्च-स्तरीय विशेषताएं (संकल्प, फ्रेम संख्या, एन्कोडिंग मानक, प्रीसेट, QP मान आदि) आउटपुट: हार्डवेयर वीडियो एनकोडर की एन्कोडिंग ऊर्जा खपत की भविष्यवाणी मूल्य बाधाएं: केवल एन्कोडिंग से पहले प्राप्त विशेषताओं का उपयोग करना, P फ्रेम और एकल कीफ्रेम के एन्कोडिंग परिदृश्य के लिए लागू

मॉडल आर्किटेक्चर

1. ऊर्जा खपत माप विधि

अंतर ऊर्जा खपत माप विधि का उपयोग:

E_enc = E_dynamic - E_static

जहां:

  • E_dynamic: एन्कोडिंग प्रक्रिया के दौरान गतिशील ऊर्जा खपत
  • E_static: निष्क्रिय मोड में स्थिर ऊर्जा खपत

2. उच्च-स्तरीय फीचर परिभाषा

मॉडल 9 उच्च-स्तरीय विशेषताओं का उपयोग करता है (तालिका I):

फीचर पहचानकर्ताफीचर विवरण
x₀ऑफसेट ऊर्जा खपत (पूर्वाग्रह पद, हमेशा 1)
x₁एन्कोडेड फ्रेम की संख्या
x₂पिक्सल की संख्या (चौड़ाई × ऊंचाई)
x₃मानक H264 (बूलियन फीचर)
x₄मानक H265 (बूलियन फीचर)
x₅मानक AV1 (बूलियन फीचर)
x₆प्रीसेट ultrafast (बूलियन फीचर)
x₇प्रीसेट slow (बूलियन फीचर)
x₈परिमाणीकरण पैरामीटर QP

3. गॉसियन प्रक्रिया प्रतिगमन मॉडल

गॉसियन प्रक्रिया प्रतिगमन (GPR) का उपयोग करके मॉडलिंग:

रैखिक प्रतिगमन मॉडल (माप शोर के साथ):

Ê_enc = x^T w + ε

गॉसियन प्रक्रिया फ़ंक्शन सन्निकटन:

f(x) ~ GP(m(x), Σ)

शून्य माध्य गॉसियन प्रक्रिया:

f(x) ~ b(x) + GP(0, Σ)

सहप्रसरण कर्नेल फ़ंक्शन (घातीय कर्नेल):

k(x_p, x_q) = σ²_f exp(-|x_p - x_q|/l) + σ²_n · δ_st

मॉडल आउटपुट:

Ê_enc = h(x)^T β + g(x)

जहां g(x) ~ GP(0, Σ)

तकनीकी नवाचार बिंदु

  1. फीचर चयन नवाचार: बिटस्ट्रीम आकार जैसी एन्कोडिंग के बाद प्राप्त विशेषताओं को हटाना, यह सुनिश्चित करना कि मॉडल एन्कोडिंग से पहले की ऊर्जा खपत भविष्यवाणी के लिए उपयोगी है
  2. एकीकृत मॉडलिंग रणनीति: प्रत्येक मानक के लिए अलग-अलग मॉडल बनाने के तरीके के विपरीत, बूलियन विशेषताओं का उपयोग करके कई एन्कोडिंग मानकों और प्रीसेट को एकीकृत रूप से संभालना
  3. शोर प्रसंस्करण क्षमता: GPR स्वाभाविक रूप से माप शोर को संभालने की क्षमता रखता है, जो हार्डवेयर ऊर्जा खपत माप परिदृश्य के लिए उपयुक्त है
  4. आत्मविश्वास अंतराल परीक्षण: माप परिणामों की विश्वसनीयता सुनिश्चित करने के लिए कठोर सांख्यिकीय विधियों का उपयोग करना

प्रायोगिक सेटअप

डेटासेट

  • वीडियो अनुक्रम: AOM सामान्य परीक्षण शर्तों (CTC) में प्राकृतिक वीडियो अनुक्रम, श्रेणी A1-A5
  • संकल्प श्रेणी: 270p, 360p, 720p, 1080p, 2160p (4K)
  • बिट गहराई प्रसंस्करण: 10-बिट इनपुट अनुक्रमों को 8-बिट में परिवर्तित करना (हार्डवेयर एनकोडर सीमा)
  • फ्रेम संख्या सेटिंग: प्रत्येक अनुक्रम के लिए यादृच्छिक रूप से 65-130 फ्रेम, एकल कीफ्रेम
  • एन्कोडिंग कॉन्फ़िगरेशन: B फ्रेम के बिना P फ्रेम एन्कोडिंग

मूल्यांकन मेट्रिक्स

औसत निरपेक्ष प्रतिशत त्रुटि (MAPE) का उपयोग:

MAPE = (1/B) × Σ|E_true,i - E_est,i|/E_true,i × 100

तुलनात्मक विधियां

  • मुख्य तुलना: रैखिक प्रतिगमन (LR) मॉडल
  • विलोपन अध्ययन: विशेषताओं को एक-एक करके हटाने का प्रभाव विश्लेषण

कार्यान्वयन विवरण

  • हार्डवेयर प्लेटफॉर्म: NVIDIA Jetson Orin NX विकास किट
  • एन्कोडिंग मानक: H.264, H.265, AV1
  • एन्कोडिंग प्रीसेट: ultrafast, slow
  • QP सेटिंग:
    • H.264/H.265: 22, 27, 32, 37
    • AV1: 108, 132, 160, 184
  • क्रॉस-वेलिडेशन: ओवरफिटिंग को रोकने के लिए 10-फोल्ड क्रॉस-वेलिडेशन
  • आत्मविश्वास अंतराल पैरामीटर: α=0.99, β=0.02

प्रायोगिक परिणाम

मुख्य परिणाम

  • समग्र प्रदर्शन: GPR मॉडल MAPE = 9.08% प्राप्त करता है
  • LR तुलना: रैखिक प्रतिगमन मॉडल MAPE = 72.98%, GPR से काफी कम
  • प्रशिक्षण दक्षता: प्रशिक्षण समय 21.25 सेकंड, सत्यापन समय 3.7 मिलीसेकंड

विलोपन प्रयोग

विलोपन अध्ययन परिणाम (तालिका III) प्रत्येक फीचर के महत्व की रैंकिंग दिखाते हैं:

परिदृश्यहटाई गई विशेषताMAPE (%)
aपिक्सल संख्या (चौड़ाई × ऊंचाई)164.70
bप्रीसेट जानकारी37.38
cएन्कोडेड फ्रेम संख्या17.43
dमानक जानकारी10.25
eQP मान8.74

मुख्य निष्कर्ष:

  1. स्थानिक संकल्प सबसे महत्वपूर्ण फीचर है, हटाने के बाद MAPE तेजी से 164.70% तक बढ़ जाता है
  2. प्रीसेट जानकारी दूसरे स्थान पर है, प्रभाव महत्वपूर्ण है
  3. QP जानकारी हटाने के बाद सटीकता में थोड़ी सुधार होता है, संभवतः QP और ऊर्जा खपत के बीच असंगत संबंध के कारण

केस विश्लेषण

दृश्य विश्लेषण के माध्यम से खोजें:

  1. संकल्प क्लस्टरिंग: विभिन्न संकल्प स्पष्ट ऊर्जा खपत क्लस्टर बनाते हैं
  2. मानक अंतर: 4K वीडियो विभिन्न एन्कोडिंग मानकों के बीच स्पष्ट ऊर्जा खपत अंतर दिखाता है
  3. प्रीसेट प्रभाव: slow प्रीसेट विभिन्न मानकों के बीच अधिक परिवर्तनशील ऊर्जा खपत दिखाता है
  4. QP संबंध: H.264/H.265 QP के साथ एकरस संबंध दिखाता है, AV1 कोई स्पष्ट सहसंबंध नहीं दिखाता है

प्रायोगिक निष्कर्ष

  1. संकल्प प्रभावी: एन्कोडिंग ऊर्जा खपत वीडियो संकल्प से अत्यधिक संबंधित है
  2. फ्रेम संख्या रैखिक: एन्कोडिंग ऊर्जा खपत फ्रेम संख्या के साथ रैखिक संबंध दिखाता है
  3. मानक अंतर: विभिन्न एन्कोडिंग मानकों की ऊर्जा खपत में अंतर उच्च संकल्प पर अधिक स्पष्ट है
  4. GPR लाभ: GPR रैखिक प्रतिगमन से काफी बेहतर है, ऊर्जा खपत भविष्यवाणी की गैर-रैखिक प्रकृति को साबित करता है

संबंधित कार्य

सॉफ्टवेयर एनकोडर की ऊर्जा खपत भविष्यवाणी

  • अधिकांश अनुसंधान सॉफ्टवेयर एनकोडर (जैसे H.265, SVT-AV1) पर केंद्रित हैं
  • मौजूदा मॉडल आमतौर पर विशिष्ट एन्कोडिंग कॉन्फ़िगरेशन या मानक के लिए होते हैं

हार्डवेयर डिकोडर अनुसंधान

  • हर्गलोट्ज़ आदि ने हार्डवेयर H.265 डिकोडर की ऊर्जा खपत भविष्यवाणी मॉडल का प्रस्ताव दिया
  • क्रांज़लर ने कई मानकों के हार्डवेयर डिकोडर मॉडल तक विस्तार किया

अनुसंधान अंतराल

हार्डवेयर एनकोडर की ऊर्जा खपत भविष्यवाणी अनुसंधान अपेक्षाकृत सीमित है, यह पेपर इस अंतराल को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. हार्डवेयर वीडियो एनकोडर की ऊर्जा खपत भविष्यवाणी के लिए पहला उच्च-स्तरीय फीचर-आधारित मॉडल प्रस्तावित किया
  2. लगभग 9% की MAPE प्राप्त की, जिसका व्यावहारिक मूल्य है
  3. साबित किया कि स्थानिक संकल्प ऊर्जा खपत भविष्यवाणी के लिए एक महत्वपूर्ण फीचर है
  4. रैखिक प्रतिगमन की तुलना में GPR के महत्वपूर्ण लाभ को सत्यापित किया

सीमाएं

  1. सामग्री विशेषताओं की कमी: वीडियो सामग्री संबंधित विशेषताओं पर विचार नहीं किया गया, जो सटीकता को और बढ़ा सकता है
  2. एन्कोडिंग कॉन्फ़िगरेशन सीमा: केवल P फ्रेम और एकल कीफ्रेम परिदृश्य पर विचार किया गया
  3. हार्डवेयर प्लेटफॉर्म एकल: केवल NVIDIA Jetson प्लेटफॉर्म पर सत्यापित
  4. प्रीसेट चयन: केवल दो प्रीसेट (ultrafast, slow) पर विचार किया गया

भविष्य की दिशाएं

  1. सामग्री-जागरूक मॉडलिंग: वीडियो सामग्री जटिलता जैसी विशेषताओं को शामिल करना
  2. व्यापक एन्कोडिंग विश्लेषण: B फ्रेम युक्त पूर्ण एन्कोडिंग परिदृश्य तक विस्तार करना
  3. बहु-प्लेटफॉर्म सत्यापन: विभिन्न हार्डवेयर प्लेटफॉर्म पर मॉडल की सामान्यता को सत्यापित करना
  4. सॉफ्टवेयर-हार्डवेयर तुलना: हार्डवेयर और सॉफ्टवेयर एनकोडर की ऊर्जा खपत की व्यापक तुलना विश्लेषण

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: वास्तविक अनुप्रयोगों में ऊर्जा खपत भविष्यवाणी की आवश्यकता को हल करता है
  2. वैज्ञानिक विधि: माप विश्वसनीयता सुनिश्चित करने के लिए कठोर सांख्यिकीय परीक्षण का उपयोग करता है
  3. व्यापक विश्लेषण: विलोपन अध्ययन के माध्यम से प्रत्येक फीचर के योगदान का गहन विश्लेषण
  4. मजबूत नवाचार: हार्डवेयर एनकोडर के लिए पहली बार एकीकृत बहु-मानक ऊर्जा खपत भविष्यवाणी मॉडल

कमियां

  1. फीचर इंजीनियरिंग: अधिक वीडियो सामग्री संबंधित विशेषताओं पर विचार किया जा सकता है
  2. डेटा स्केल: परीक्षण डेटा अपेक्षाकृत सीमित है, अधिक वीडियो प्रकारों तक विस्तार किया जा सकता है
  3. सैद्धांतिक विश्लेषण: ऊर्जा खपत भविष्यवाणी तंत्र के गहन सैद्धांतिक विश्लेषण की कमी
  4. रीयल-टाइम सत्यापन: रीयल-टाइम परिदृश्य में मॉडल के प्रदर्शन का पूर्ण सत्यापन नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: हार्डवेयर एनकोडर की ऊर्जा खपत भविष्यवाणी अनुसंधान अंतराल को भरता है
  2. व्यावहारिक मूल्य: मोबाइल उपकरणों की बैटरी प्रबंधन और हरित वीडियो एन्कोडिंग के लिए उपयोग किया जा सकता है
  3. पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, प्रायोगिक सेटअप विस्तृत है

लागू परिदृश्य

  1. मोबाइल उपकरण: बैटरी से चलने वाले उपकरणों की ऊर्जा खपत प्रबंधन
  2. एज कंप्यूटिंग: एज वीडियो प्रसंस्करण के लिए संसाधन योजना
  3. हरित कंप्यूटिंग: डेटा सेंटर वीडियो एन्कोडिंग की ऊर्जा खपत अनुकूलन
  4. रीयल-टाइम अनुप्रयोग: लाइव स्ट्रीमिंग, वीडियो कॉन्फ्रेंसिंग आदि रीयल-टाइम एन्कोडिंग परिदृश्य

संदर्भ

पेपर 24 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

  • वीडियो एन्कोडिंग ऊर्जा दक्षता अनुसंधान (कात्सेनु आदि, 2022)
  • HEVC सॉफ्टवेयर एनकोडर ऊर्जा मॉडलिंग (रामसुब्बु आदि, 2022)
  • हार्डवेयर डिकोडर की ऊर्जा खपत भविष्यवाणी (हर्गलोट्ज़ और काउप, 2018)
  • गॉसियन प्रक्रिया प्रतिगमन सिद्धांत (रास्मुसेन और विलियम्स, 2006)

समग्र मूल्यांकन: यह पेपर हार्डवेयर वीडियो एनकोडर की ऊर्जा खपत भविष्यवाणी के इस महत्वपूर्ण और अपेक्षाकृत खाली अनुसंधान क्षेत्र के लिए एक नवीन समाधान प्रस्तावित करता है। विधि वैज्ञानिक रूप से कठोर है, प्रायोगिक डिजाइन तर्कसंगत है, और परिणामों का व्यावहारिक मूल्य है। हालांकि फीचर इंजीनियरिंग और सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन यह इस क्षेत्र के बाद के अनुसंधान के लिए एक अच्छी नींव प्रदान करता है।