2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, SÃ¡nchez

The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.

academic

Android पर AI मॉडल्स के अनुमान के लिए हार्डवेयर अनुकूलन

मूल जानकारी

पेपर ID: 2511.13453
शीर्षक: Android पर AI मॉडल्स के अनुमान के लिए हार्डवेयर अनुकूलन
लेखक: Iulius Gherasim, Carlos García Sánchez (कॉम्प्लूटेंस विश्वविद्यालय, मैड्रिड)
वर्गीकरण: cs.LG (मशीन लर्निंग), cs.PF (प्रदर्शन)
प्रकाशन तिथि: 17 नवंबर 2025 (arXiv सबमिशन)
पेपर लिंक: https://arxiv.org/abs/2511.13453

सारांश

यह पेपर Android सिस्टम पर AI मॉडल्स के हार्डवेयर अनुकूलित अनुमान की जांच करता है। मोबाइल कंप्यूटिंग में AI मॉडल्स के व्यापक एकीकरण (वर्चुअल सहायकों से लेकर उन्नत छवि प्रसंस्करण तक) के लिए, शोधकर्ता दो महत्वपूर्ण कार्यों पर केंद्रित हैं: वस्तु पहचान (YOLO श्रृंखला) और छवि वर्गीकरण (ResNet)। विभिन्न मॉडल परिमाणीकरण योजनाओं और डिवाइस त्वरकों (GPU और NPU) के उपयोग का मूल्यांकन करके, इस पेपर का मुख्य उद्देश्य न्यूनतम सटीकता हानि और अधिकतम अनुमान त्वरण के बीच सर्वोत्तम संतुलन प्राप्त करने वाले कॉन्फ़िगरेशन संयोजन को अनुभवजन्य रूप से निर्धारित करना है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समाधान की जाने वाली समस्याएं

मोबाइल डिवाइस पर AI मॉडल्स के व्यापक अनुप्रयोग के साथ, मॉडल सटीकता सुनिश्चित करते हुए कम विलंबता और उच्च प्रतिक्रियाशीलता अनुमान कैसे प्राप्त करें, यह एक मुख्य चुनौती बन गई है। विशेष रूप से शामिल हैं:

मोबाइल डिवाइस की विषम हार्डवेयर आर्किटेक्चर (CPU, GPU, NPU) का पूर्ण उपयोग कैसे करें
सटीकता और गति के बीच संतुलन के लिए उपयुक्त मॉडल परिमाणीकरण योजना कैसे चुनें
विभिन्न AI कार्यों (वर्गीकरण बनाम पहचान) के लिए निष्पादन कॉन्फ़िगरेशन कैसे अनुकूलित करें

2. समस्या की महत्ता

ऊर्जा खपत: Google ने अनुमान लगाया कि 2019-2021 के बीच AI संबंधित कार्य इसकी कुल ऊर्जा खपत का 10-15% थे, जिसमें अनुमान चरण 60% ऊर्जा खपत करता है; Meta ने बताया कि अनुमान AI ऊर्जा खपत का 70% है
वृद्धि प्रवृत्ति: Google की ऊर्जा खपत वार्षिक 21% बढ़ रही है, Meta 32% तक पहुंच गया है
उपयोगकर्ता अनुभव: मोबाइल AI प्रदर्शन एक मुख्य विभेदकारी कारक बन गया है, जिसे कठोर वास्तविक समय और सटीकता आवश्यकताओं को पूरा करने की आवश्यकता है

3. मौजूदा विधियों की सीमाएं

प्रारंभिक समाधान मुख्य रूप से GPU ऑफलोडिंग कंप्यूटिंग पर निर्भर थे, लेकिन विशेष NPU त्वरकों का पूर्ण उपयोग नहीं किया
मोबाइल डिवाइस की विषम आर्किटेक्चर के लिए व्यवस्थित अनुकूलन अनुसंधान की कमी
विभिन्न कार्यों और हार्डवेयर के लिए परिमाणीकरण योजना चयन में अनुभवजन्य मार्गदर्शन की कमी

4. अनुसंधान प्रेरणा

MLPerf बेंचमार्क परीक्षण सिद्धांतों को अपनाते हुए, वाणिज्यिक Android डिवाइस पर प्रदर्शन का व्यवस्थित मूल्यांकन करना
औद्योगिक मानक मॉडल्स (वर्गीकरण के लिए ResNet, पहचान के लिए YOLO) को प्रतिनिधि मूल्यांकन के रूप में चुनना
मोबाइल AI अनुमान अनुकूलन में अनुभवजन्य अनुसंधान के अंतराल को भरना

मुख्य योगदान

व्यवस्थित हार्डवेयर मूल्यांकन: पहली बार वाणिज्यिक Android डिवाइस (Samsung Galaxy Tab S9) पर CPU, GPU, NPU तीनों कंप्यूटिंग इकाइयों के AI अनुमान कार्यों में प्रदर्शन का व्यवस्थित मूल्यांकन
परिमाणीकरण योजना विश्लेषण: 7 परिमाणीकरण योजनाओं (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) की विभिन्न हार्डवेयर पर सटीकता-गति संतुलन की व्यापक तुलना
कार्य-विशिष्ट अनुकूलन सुझाव:
- ResNet वर्गीकरण कार्य के लिए: NPU + INT8 परिमाणीकरण 130× त्वरण प्राप्त कर सकता है, सटीकता हानि <3%
- YOLO पहचान कार्य के लिए: NPU + FP16 परिमाणीकरण सर्वोत्तम है, INT8 द्वारा लाई गई 6.5 mAP सटीकता हानि से बचता है
Pareto सीमांत विश्लेषण: बहु-उद्देश्य अनुकूलन दृष्टिकोण प्रदान करता है, सटीकता-विलंबता स्थान में विभिन्न कॉन्फ़िगरेशन के सर्वोत्तम संतुलन बिंदुओं को स्पष्ट करता है
व्यावहारिक निष्कर्ष:
- NPU सभी कॉन्फ़िगरेशन में सर्वोत्तम प्रदर्शन करता है, अधिकतम 298× त्वरण (YOLOv8x) तक पहुंच सकता है
- गतिशील परिमाणीकरण NPU पर विफल हो जाता है, हार्डवेयर संगतता समस्याओं को प्रकट करता है
- CPU मल्टीथ्रेड स्केलेबिलिटी सीमित है (अधिकतम 3.4×), असमान कोर आर्किटेक्चर के कारण

विधि विवरण

कार्य परिभाषा

यह अनुसंधान दो मुख्य कंप्यूटर दृष्टि कार्यों पर केंद्रित है:

छवि वर्गीकरण: एकल छवि इनपुट, वर्ग लेबल और आत्मविश्वास आउटपुट (ResNet श्रृंखला का उपयोग)
वस्तु पहचान: एकल छवि इनपुट, कई सीमांकन बॉक्स, वर्ग और आत्मविश्वास आउटपुट (YOLO श्रृंखला का उपयोग)

लक्ष्य Android मोबाइल डिवाइस पर हार्डवेयर कॉन्फ़िगरेशन और परिमाणीकरण योजना संयोजन का सर्वोत्तम संयोजन खोजना है।

प्रायोगिक आर्किटेक्चर

हार्डवेयर प्लेटफॉर्म

डिवाइस: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): 8-कोर big.LITTLE कॉन्फ़िगरेशन

3 छोटे कोर: ARM Cortex-A510 @ 2.0 GHz
4 मध्यम कोर: 2×Cortex-A710 + 2×Cortex-A715 @ 2.8 GHz
1 बड़ा कोर: Cortex-X3 @ 3.36 GHz

GPU: Qualcomm Adreno 740

12 शेडर प्रसंस्करण इकाइयां @ 719 MHz
FP32 और FP16 सटीकता निष्पादन का समर्थन करता है

NPU (Hexagon प्रोसेसर):

विशेष टेंसर, स्केलर, वेक्टर संचालन इकाइयां
साझा आंतरिक मेमोरी आर्किटेक्चर
Micro Tile Inferencing तकनीक का समर्थन करता है (मॉडल परतों को विभाजित और समानांतर निष्पादन)

सॉफ्टवेयर पर्यावरण

फ्रेमवर्क: LiteRT (TensorFlow Lite का ब्रांड परिवर्तन)

CPU/GPU: LiteRT Next 2.0.2
NPU: LiteRT 1.4.0 (2.0.2 संस्करण NPU पाइपलाइन समस्याओं के कारण)

मॉडल रूपांतरण प्रवाह:

PyTorch मॉडल → ONNX प्रारूप → TFLite प्रारूप

PyTorch अंतर्निहित निर्यात उपकरण का उपयोग करके ONNX उत्पन्न करना
Katsuya Hyodo के onnx2tf पैकेज का उपयोग करके TFLite में रूपांतरण
onnx2tf रूपांतरण चरण में परिमाणीकरण पूर्ण किया जाता है

परिमाणीकरण योजना विवरण

यह अनुसंधान 7 परिमाणीकरण कॉन्फ़िगरेशन का मूल्यांकन करता है (तालिका II देखें):

योजना नाम	I/O डेटा प्रकार	संचालन सटीकता	सक्रियण मान	वजन
FP32	FP32	FP32	FP32	FP32
FP16	FP32	FP32	FP32	FP16
INT8	FP32	INT8	INT8	INT8
INT16	FP32	INT8	INT16	INT16
FINT8	INT8	INT8	INT8	INT8
FINT16	INT16	INT8	INT16	INT16
DYN	FP32	मिश्रित	FP32	मिश्रित

मुख्य तकनीकी बिंदु:

स्थिर परिमाणीकरण: वजन को ऑफलाइन लक्ष्य डेटा प्रकार में परिवर्तित किया जाता है (जैसे INT8), निश्चित भंडारण
गतिशील परिमाणीकरण(DYN): वजन 8-बिट में संग्रहीत होते हैं, लेकिन सक्रियण मान रनटाइम पर परिमाणित होते हैं, रनटाइम ओवरहेड प्रस्तुत करते हैं लेकिन सटीकता बेहतर रहती है
INT16 सीमा: LiteRT में अनुकूलित INT16 कर्नेल कार्यान्वयन की कमी है, जिससे प्रदर्शन बहुत खराब हो जाता है

तकनीकी नवाचार बिंदु

मिश्रित फ्रेमवर्क विधि: सॉफ्टवेयर संगतता बाधाओं के लिए, LiteRT Next (CPU/GPU) और मानक LiteRT (NPU) के मिश्रित दृष्टिकोण को अपनाते हुए, व्यापक मूल्यांकन सुनिश्चित करता है
व्यवस्थित कॉन्फ़िगरेशन स्पेस अन्वेषण:
- 3 हार्डवेयर × 7 परिमाणीकरण × कई मॉडल आकार
- 5 ResNet वेरिएंट को कवर करता है (18/34/50/101/152)
- 5 YOLOv8 वेरिएंट को कवर करता है (n/s/m/l/x)
- 5 YOLO11 वेरिएंट को कवर करता है (n/s/m/l/x)
Pareto अनुकूलन दृष्टिकोण: एकल सर्वोत्तम का पीछा नहीं करता, बल्कि सटीकता-विलंबता संतुलन का Pareto सीमांत प्रदान करता है, बहु-उद्देश्य निर्णय समर्थन करता है
फ्रेमवर्क रूपांतरण हानि परिमाणीकरण: PyTorch से LiteRT रूपांतरण द्वारा प्रस्तुत सटीकता हानि को स्पष्ट रूप से मापता है (ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)

प्रायोगिक सेटअप

डेटासेट

ResNet वर्गीकरण: मानक ImageNet सत्यापन सेट का उपयोग
YOLO पहचान: COCO सत्यापन सेट का उपयोग

मूल्यांकन मेट्रिक्स

अनुमान विलंबता: औसत अनुमान समय (मिलीसेकंड)
त्वरण अनुपात: FP32 CPU सिंगल-थ्रेड बेसलाइन के सापेक्ष गति सुधार गुणक
वर्गीकरण सटीकता: Top-1 सटीकता (ResNet)
पहचान सटीकता: mean Average Precision (mAP) @ IoU=0.5:0.95 (YOLO)
सटीकता हानि: FP32 बेसलाइन के सापेक्ष सटीकता में कमी प्रतिशत

तुलना कॉन्फ़िगरेशन

निष्पादन डिवाइस:

CPU-SC: CPU सिंगल-थ्रेड
CPU-MC: CPU मल्टीथ्रेड (8-कोर)
GPU32: GPU FP32 मोड
GPU16: GPU FP16 मोड
NPU: तंत्रिका प्रसंस्करण इकाई

परिमाणीकरण योजनाएं: FP32, FP16, INT8, INT16, FINT8, FINT16, DYN

कार्यान्वयन विवरण

मॉडल निष्पादन और परिणाम रिकॉर्ड करने के लिए कस्टम Android एप्लिकेशन विकसित करना
प्रत्येक कॉन्फ़िगरेशन के लिए कई बार अनुमान निष्पादित करके औसत लेना
mAP की गणना के लिए pycocotools का उपयोग
वर्गीकरण सटीकता मूल्यांकन के लिए मानक top-1 विधि का उपयोग

प्रायोगिक परिणाम

मुख्य परिणाम

ResNet प्रदर्शन

ResNet18 अनुमान समय (मिलीसेकंड):

कॉन्फ़िगरेशन	CPU-SC	CPU-MC	GPU32	GPU16	NPU
FP32	79.06	26.34	13.68	5.54	1.20
INT8	23.26	5.63	21.77	22.68	0.61

मुख्य निष्कर्ष:

NPU FP32 पर 65.9× त्वरण प्राप्त करता है, INT8 पर 129.6× त्वरण तक पहुंचता है
INT16 परिमाणीकरण बहुत खराब प्रदर्शन करता है (>800ms), बाद के विश्लेषण से बाहर रखा गया
FINT8 परिमाणीकरण सटीकता में आपदाजनक गिरावट 0.08% Top-1 तक, भी बाहर रखा गया

ResNet50 प्रदर्शन विश्लेषण:

NPU + INT8: 121.5× त्वरण, केवल 0.41% सटीकता हानि
GPU16 मोड GPU32 की तुलना में लगभग 2× त्वरण प्रदान करता है
CPU मल्टीथ्रेड अधिकतम 3.4× त्वरण (INT8), सैद्धांतिक 8× से बहुत कम

परिमाणीकरण प्रभाव (तालिका X):

मॉडल	INT8 सटीकता हानि	DYN सटीकता हानि
ResNet18	2.94%	0.10%
ResNet50	0.41%	0.19%
ResNet152	0.20%	0.07%

प्रवृत्ति: बड़े मॉडल INT8 परिमाणीकरण के लिए अधिक मजबूत हैं, सटीकता हानि 2.94% से 0.20% तक गिरती है

YOLO प्रदर्शन

YOLOv8n अनुमान समय तुलना:

NPU सर्वोत्तम प्रदर्शन प्रदर्शित करता है
FP32: 29× त्वरण
INT8: 46.8× त्वरण
विलंबता ResNet से अधिक है (उच्च कार्य जटिलता)

YOLO सटीकता हानि (तालिका XII):

मॉडल	INT8 हानि(mAP)	DYN हानि(mAP)
YOLOv8n	6.5	0.1
YOLOv8s	6.2	0.0
YOLOv8x	6.1	0.1

मुख्य अंतर्दृष्टि:

INT8 पहचान कार्य के लिए महत्वपूर्ण नुकसान है (औसत 6.5 mAP हानि)
गतिशील परिमाणीकरण लगभग बिना नुकसान है (≤0.1 mAP)
पहचान कार्य को अधिक जानकारी की आवश्यकता है (स्थान + वर्गीकरण), परिमाणीकरण के लिए अधिक संवेदनशील

YOLO11 बनाम YOLOv8:

YOLO11 छोटे मॉडल पर YOLOv8 से बेहतर सटीकता है
NPU निष्पादन थोड़ा धीमा है (अधिक जटिल आर्किटेक्चर)
गतिशील परिमाणीकरण NPU पर पूरी तरह विफल हो जाता है
INT8 हानि औसत 7.2 mAP तक थोड़ी बढ़ जाती है

विलोपन प्रयोग

CPU मल्टीथ्रेड स्केलेबिलिटी (तालिका XV)

मॉडल	FP32	FP16	INT8	DYN
ResNet18	3.0×	3.0×	14.0×	10.6×
ResNet50	2.0×	2.0×	9.5×	7.2×
YOLOv8x	2.7×	2.1×	13.4×	10.1×

विश्लेषण:

INT8 सर्वोत्तम मल्टीथ्रेड त्वरण प्रदान करता है
फ्लोटिंग पॉइंट सटीकता स्केलेबिलिटी खराब है (2-3×)
असमान कोर आर्किटेक्चर समानांतर दक्षता को सीमित करता है

GPU सटीकता मोड प्रभाव (तालिका VIII)

ResNet50 पर GPU32 बनाम GPU16:

परिमाणीकरण योजना GPU गति पर न्यूनतम प्रभाव डालती है
GPU16 मोड स्थिर 2× त्वरण प्रदान करता है
बड़े मॉडल GPU16 पर अधिक लाभ दिखाते हैं

NPU गतिशील परिमाणीकरण विफलता विश्लेषण

गतिशील परिमाणीकरण मॉडल में मिश्रित सटीकता परतें होती हैं
NPU में रनटाइम डेटा प्रकार रूपांतरण समर्थन की कमी है
NPU-CPU डेटा ट्रांसफर की आवश्यकता होती है
गंभीर प्रदर्शन गिरावट की ओर जाता है (ResNet50: केवल 2.3× त्वरण बनाम INT8 का 121.5×)

Pareto सीमांत विश्लेषण

ResNet Pareto सीमांत (चित्र 6):

INT8 कॉन्फ़िगरेशन सीमांत पर प्रभुत्व: विलंबता में बड़ी कमी, स्वीकार्य सटीकता हानि
सर्वोत्तम कॉन्फ़िगरेशन: NPU + INT8, सभी ResNet आकारों के लिए उपयुक्त
FP16 GPU पर सटीकता-गति संतुलन बिंदु प्रदान करता है

YOLO Pareto सीमांत (चित्र 7):

FP16 कॉन्फ़िगरेशन सीमांत पर प्रभुत्व: INT8 सटीकता हानि बहुत बड़ी है
सर्वोत्तम कॉन्फ़िगरेशन: NPU + FP16
YOLO11s छोटे मॉडल में उत्कृष्ट प्रदर्शन करता है
बड़े मॉडल (l/x) में YOLOv8 और YOLO11 में अंतर कम हो जाता है

प्रायोगिक निष्कर्ष सारांश

NPU पूर्ण लाभ: सभी परिस्थितियों में NPU सर्वोत्तम प्रदर्शन प्रदान करता है, अधिकतम 298× त्वरण (YOLOv8x + INT8)
कार्य-विशिष्ट परिमाणीकरण रणनीति:
- वर्गीकरण कार्य (ResNet): INT8 सर्वोत्तम
- पहचान कार्य (YOLO): FP16 सर्वोत्तम
हार्डवेयर विशेषताएं:
- GPU: परिमाणीकरण प्रभाव छोटा, FP16 मोड महत्वपूर्ण
- CPU: मल्टीथ्रेड स्केलेबिलिटी सीमित, INT8 सर्वोत्तम समानांतरता प्रदान करता है
- NPU: गतिशील परिमाणीकरण समर्थन नहीं करता, स्थिर अनुकूलन की आवश्यकता है
मॉडल आकार प्रभाव:
- बड़े मॉडल परिमाणीकरण के लिए अधिक मजबूत हैं
- GPU बड़े मॉडल पर उच्च त्वरण अनुपात (YOLOv8x: 39×)
फ्रेमवर्क रूपांतरण हानि: नजरअंदाज करने योग्य नहीं (1-2%), अनुकूलन विचार में शामिल करने की आवश्यकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

NPU सर्वोत्तम निष्पादन डिवाइस है: CPU सिंगल-कोर बेसलाइन की तुलना में 120× तक त्वरण, कम विलंबता किनारे AI में इसकी महत्वपूर्ण भूमिका की पुष्टि करता है
सर्वोत्तम परिमाणीकरण संतुलन समस्या है:
- ResNet: INT8 सर्वोत्तम, NPU पर गति लाभ सटीकता हानि से अधिक है
- YOLO: FP16 सर्वोत्तम, INT8 सटीकता हानि (6.5 mAP) स्वीकार्य नहीं है
- GPU: परिमाणीकरण गति पर न्यूनतम प्रभाव, FP16 सटीकता और गति संतुलित करता है
मॉडल प्रदर्शन और स्केलेबिलिटी:
- YOLO11s Pareto सीमांत पर उत्कृष्ट प्रदर्शन करता है, FP16 परिमाणीकरण में सर्वोत्तम गति/सटीकता संतुलन प्रदान करता है
- YOLO11 छोटे मॉडल पर YOLOv8 से अधिक सटीक है, लेकिन जटिलता थोड़ी बढ़ी है
सिस्टम सीमा पहचान:
- गतिशील परिमाणीकरण NPU पर विफल (मूल समर्थन की कमी)
- CPU मल्टीथ्रेड स्केलेबिलिटी खराब (अधिकतम 3.4×), असमान कोर आर्किटेक्चर के कारण
- फ्रेमवर्क रूपांतरण लगभग 1% सटीकता हानि प्रस्तुत करता है

सीमाएं

एकल हार्डवेयर प्लेटफॉर्म: केवल Snapdragon 8 Gen 2 पर परीक्षण, निष्कर्ष अन्य SoC के लिए सामान्यीकरण की पुष्टि नहीं की गई
सीमित कार्य श्रेणी: केवल कंप्यूटर दृष्टि (वर्गीकरण और पहचान) को कवर करता है, NLP, भाषण आदि अन्य AI कार्य शामिल नहीं
ऊर्जा खपत विश्लेषण की कमी: शक्ति खपत मापा नहीं गया, Pareto विश्लेषण ऊर्जा दक्षता आयाम शामिल नहीं करता
सॉफ्टवेयर संस्करण निर्भरता: NPU को पुराने LiteRT 1.4.0 की आवश्यकता है, प्रदर्शन को प्रभावित कर सकता है
स्थिर कार्य भार: गतिशील बैच प्रसंस्करण, मॉडल स्विचिंग आदि वास्तविक अनुप्रयोग परिदृश्य विचार नहीं किए गए
INT16 मूल्यांकन अधूरा: LiteRT अनुकूलित कर्नेल की कमी के कारण जल्दी बाहर रखा गया, गहन विश्लेषण नहीं किया गया

भविष्य की दिशाएं

ऊर्जा एकीकरण: शक्ति खपत के साथ तीन-आयामी Pareto विश्लेषण (सटीकता-विलंबता-ऊर्जा दक्षता) पूरा करना
सॉफ्टवेयर अनुकूलन:
- NPU गतिशील परिमाणीकरण संगतता समस्या को कम करना
- फ्रेमवर्क रूपांतरण सटीकता हानि को समाप्त करना
कार्य विस्तार: MLPerf बेंचमार्क में अन्य कार्य (NLP, छवि विभाजन) का अनुसंधान
हार्डवेयर सामान्यीकरण: कई मोबाइल SoC पर निष्कर्ष सत्यापन
परिमाणीकरण जागरूक प्रशिक्षण: INT8 सटीकता हानि को कम करने के लिए प्रशिक्षण समय परिमाणीकरण अन्वेषण
वास्तविक समय अनुप्रयोग: वीडियो स्ट्रीम, बहु-मॉडल समवर्ती आदि वास्तविक परिदृश्य मूल्यांकन

गहन मूल्यांकन

लाभ

कठोर प्रायोगिक डिजाइन:
- व्यवस्थित कॉन्फ़िगरेशन स्पेस अन्वेषण (3 हार्डवेयर × 7 परिमाणीकरण × 15 मॉडल वेरिएंट)
- स्पष्ट बेसलाइन और तुलना आयाम
- विश्वसनीयता सुनिश्चित करने के लिए कई माप औसत
उच्च व्यावहारिक मूल्य:
- वाणिज्यिक डिवाइस और औद्योगिक मानक मॉडल के लिए
- कार्यकारी कॉन्फ़िगरेशन सुझाव प्रदान करता है
- वास्तविक तैनाती समस्याओं की पहचान करता है (जैसे गतिशील परिमाणीकरण विफलता)
गहन विश्लेषण:
- Pareto सीमांत बहु-उद्देश्य निर्णय समर्थन प्रदान करता है
- परिमाणीकरण फ्रेमवर्क रूपांतरण हानि को मापता है
- हार्डवेयर विशेषताओं को प्रकट करता है (जैसे CPU असमान आर्किटेक्चर प्रभाव)
विस्तृत परिणाम:
- बड़ी मात्रा में मात्रात्मक डेटा (कई तालिकाएं)
- स्पष्ट दृश्य (Pareto ग्राफ, गति तुलना ग्राफ)
- विभिन्न मॉडल आकारों में प्रवृत्ति विश्लेषण
विधि पारदर्शिता:
- हार्डवेयर विनिर्देश विस्तृत विवरण
- सॉफ्टवेयर संस्करण और रूपांतरण प्रवाह स्पष्ट
- सीमाओं को स्वीकार करता है (जैसे सॉफ्टवेयर संगतता समस्याएं)

कमियां

सीमित सामान्यीकरण:
- एकल हार्डवेयर प्लेटफॉर्म (Snapdragon 8 Gen 2)
- अन्य मोबाइल चिप्स (जैसे Apple A श्रृंखला, Huawei Kirin) के लिए निष्कर्ष लागू करने की संभावना अज्ञात
ऊर्जा खपत अनुपस्थित:
- शीर्षक "अनुकूलन" पर जोर देता है लेकिन शक्ति खपत मापा नहीं गया
- मोबाइल डिवाइस के लिए, ऊर्जा दक्षता गति जितनी महत्वपूर्ण है
- Pareto विश्लेषण अधूरा है
सांख्यिकीय महत्व:
- आत्मविश्वास अंतराल या मानक विचलन रिपोर्ट नहीं किए गए
- महत्व परीक्षण की कमी
- कई रन के नमूना आकार स्पष्ट नहीं
अपर्याप्त तुलना:
- अन्य परिमाणीकरण विधियों (जैसे परिमाणीकरण जागरूक प्रशिक्षण) से तुलना नहीं
- अन्य मोबाइल AI फ्रेमवर्क (जैसे NCNN, MNN) से तुलना नहीं
- क्लाउड अनुमान के साथ विलंबता तुलना की कमी
वास्तविक परिदृश्य सरलीकरण:
- एकल छवि अनुमान, बैच प्रसंस्करण विचार नहीं
- मॉडल वार्मअप, कैश प्रभाव परीक्षण नहीं
- Android सिस्टम अन्य प्रक्रियाओं के हस्तक्षेप को अनदेखा करता है
कमजोर सैद्धांतिक व्याख्या:
- NPU INT8 पर उत्कृष्ट प्रदर्शन क्यों करता है इसका आर्किटेक्चर स्तर व्याख्या की कमी
- CPU मल्टीथ्रेड स्केलेबिलिटी खराब होने के गहरे कारण विश्लेषण अपर्याप्त
- विलंबता भविष्यवाणी मॉडल स्थापित नहीं किया गया

प्रभाव

क्षेत्र में योगदान:

मोबाइल AI अनुमान अनुकूलन में अनुभवजन्य अनुसंधान अंतराल भरता है
मोबाइल विकास के लिए कॉन्फ़िगरेशन चयन मार्गदर्शन प्रदान करता है
वाणिज्यिक हार्डवेयर की वास्तविक प्रदर्शन विशेषताओं को प्रकट करता है

व्यावहारिक मूल्य:

Android अनुप्रयोग विकास के लिए सीधे लागू
ResNet या YOLO तैनाती करते समय निर्णय समर्थन
Snapdragon 8 Gen 2 AI प्रदर्शन मूल्यांकन

पुनरुत्पादनीयता:

वाणिज्यिक डिवाइस और सार्वजनिक मॉडल का उपयोग
रूपांतरण प्रवाह विस्तृत विवरण
लेकिन कोड ओपन सोर्स की कमी (उल्लेख नहीं)

अपेक्षित प्रभाव:

मध्यम प्रभाव: विशिष्ट प्लेटफॉर्म पर अनुभवजन्य अनुसंधान
मोबाइल AI समुदाय के लिए मूल्यवान
LiteRT आदि फ्रेमवर्क NPU समर्थन सुधार को प्रेरित कर सकता है

लागू परिदृश्य

सबसे उपयुक्त:

Android अनुप्रयोग विकास: ResNet या YOLO डिवाइस पर तैनाती की आवश्यकता वाले विकास के लिए
मॉडल चयन: सटीकता और विलंबता के बीच संतुलन करते समय निर्णय समर्थन
हार्डवेयर मूल्यांकन: Snapdragon 8 Gen 2 AI प्रदर्शन मूल्यांकन
परिमाणीकरण रणनीति चयन: कार्य प्रकार के आधार पर परिमाणीकरण योजना चुनना

अनुपयुक्त:

अन्य मोबाइल प्लेटफॉर्म: iOS, अन्य Android SoC को पुनः मूल्यांकन की आवश्यकता है
गैर-दृष्टि कार्य: NLP, भाषण आदि को अतिरिक्त अनुसंधान की आवश्यकता है
क्लाउड तैनाती: हार्डवेयर विशेषताएं पूरी तरह भिन्न हैं
वास्तविक समय वीडियो: निरंतर फ्रेम प्रसंस्करण विचार नहीं किए गए

विस्तार दिशाएं:

इस पेपर के निष्कर्षों के आधार पर ऊर्जा खपत अनुकूलन
AutoML हार्डवेयर जागरूक खोज के लिए इनपुट के रूप में
किनारे AI चिप डिजाइन मार्गदर्शन

संदर्भ

मुख्य उद्धरण:

MLPerf बेंचमार्क: Reddi et al. (2020) - "MLPerf अनुमान बेंचमार्क", इस पेपर द्वारा अपनाए गए मूल्यांकन सिद्धांतों को परिभाषित करता है
ऊर्जा खपत अनुसंधान:
- Google पर्यावरण रिपोर्ट (2023): AI ऊर्जा खपत का 10-15%
- Meta स्थिरता रिपोर्ट (2023): अनुमान AI ऊर्जा खपत का 70%
ResNet: He et al. (2016) - "छवि पहचान के लिए गहरे अवशिष्ट शिक्षा", ILSVRC 2015 चैंपियन
YOLO: Ramos & Sappa (2025) - "वस्तु पहचान के लिए एक दशक का आप केवल एक बार देखते हैं (yolo): समीक्षा"
Edge-to-Cloud: Moreschini et al. (2024) - "किनारे से क्लाउड उपकरण: बहुवचन साहित्य समीक्षा"

समग्र मूल्यांकन: यह मोबाइल AI अनुमान अनुकूलन के लिए मूल्यवान कॉन्फ़िगरेशन मार्गदर्शन प्रदान करने वाला एक ठोस अनुभवजन्य अनुसंधान पेपर है। इसके मुख्य लाभ कठोर प्रायोगिक डिजाइन और विस्तृत मात्रात्मक परिणामों में हैं, जो NPU के लाभ और कार्य-विशिष्ट परिमाणीकरण रणनीति को स्पष्ट रूप से प्रकट करते हैं। मुख्य कमी एकल हार्डवेयर प्लेटफॉर्म तक सीमित सामान्यीकरण है, और ऊर्जा खपत विश्लेषण की कमी है। Android मोबाइल विकास और किनारे AI शोधकर्ताओं के लिए उच्च संदर्भ मूल्य है, लेकिन निष्कर्षों को व्यापक हार्डवेयर और कार्यों पर सत्यापन की आवश्यकता है। अनुशंसित भविष्य कार्य ऊर्जा खपत माप, अन्य प्लेटफॉर्म और कार्यों तक विस्तार, और प्रायोगिक कोड को ओपन सोर्स करना है ताकि पुनरुत्पादनीयता में सुधार हो।