Hardware optimization on Android for inference of AI models
Gherasim, Sánchez
The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
academic
Android पर AI मॉडल्स के अनुमान के लिए हार्डवेयर अनुकूलन
यह पेपर Android सिस्टम पर AI मॉडल्स के हार्डवेयर अनुकूलित अनुमान की जांच करता है। मोबाइल कंप्यूटिंग में AI मॉडल्स के व्यापक एकीकरण (वर्चुअल सहायकों से लेकर उन्नत छवि प्रसंस्करण तक) के लिए, शोधकर्ता दो महत्वपूर्ण कार्यों पर केंद्रित हैं: वस्तु पहचान (YOLO श्रृंखला) और छवि वर्गीकरण (ResNet)। विभिन्न मॉडल परिमाणीकरण योजनाओं और डिवाइस त्वरकों (GPU और NPU) के उपयोग का मूल्यांकन करके, इस पेपर का मुख्य उद्देश्य न्यूनतम सटीकता हानि और अधिकतम अनुमान त्वरण के बीच सर्वोत्तम संतुलन प्राप्त करने वाले कॉन्फ़िगरेशन संयोजन को अनुभवजन्य रूप से निर्धारित करना है।
मोबाइल डिवाइस पर AI मॉडल्स के व्यापक अनुप्रयोग के साथ, मॉडल सटीकता सुनिश्चित करते हुए कम विलंबता और उच्च प्रतिक्रियाशीलता अनुमान कैसे प्राप्त करें, यह एक मुख्य चुनौती बन गई है। विशेष रूप से शामिल हैं:
मोबाइल डिवाइस की विषम हार्डवेयर आर्किटेक्चर (CPU, GPU, NPU) का पूर्ण उपयोग कैसे करें
सटीकता और गति के बीच संतुलन के लिए उपयुक्त मॉडल परिमाणीकरण योजना कैसे चुनें
विभिन्न AI कार्यों (वर्गीकरण बनाम पहचान) के लिए निष्पादन कॉन्फ़िगरेशन कैसे अनुकूलित करें
ऊर्जा खपत: Google ने अनुमान लगाया कि 2019-2021 के बीच AI संबंधित कार्य इसकी कुल ऊर्जा खपत का 10-15% थे, जिसमें अनुमान चरण 60% ऊर्जा खपत करता है; Meta ने बताया कि अनुमान AI ऊर्जा खपत का 70% है
वृद्धि प्रवृत्ति: Google की ऊर्जा खपत वार्षिक 21% बढ़ रही है, Meta 32% तक पहुंच गया है
उपयोगकर्ता अनुभव: मोबाइल AI प्रदर्शन एक मुख्य विभेदकारी कारक बन गया है, जिसे कठोर वास्तविक समय और सटीकता आवश्यकताओं को पूरा करने की आवश्यकता है
व्यवस्थित हार्डवेयर मूल्यांकन: पहली बार वाणिज्यिक Android डिवाइस (Samsung Galaxy Tab S9) पर CPU, GPU, NPU तीनों कंप्यूटिंग इकाइयों के AI अनुमान कार्यों में प्रदर्शन का व्यवस्थित मूल्यांकन
परिमाणीकरण योजना विश्लेषण: 7 परिमाणीकरण योजनाओं (FP32, FP16, INT8, INT16, FINT8, FINT16, Dynamic) की विभिन्न हार्डवेयर पर सटीकता-गति संतुलन की व्यापक तुलना
कार्य-विशिष्ट अनुकूलन सुझाव:
ResNet वर्गीकरण कार्य के लिए: NPU + INT8 परिमाणीकरण 130× त्वरण प्राप्त कर सकता है, सटीकता हानि <3%
YOLO पहचान कार्य के लिए: NPU + FP16 परिमाणीकरण सर्वोत्तम है, INT8 द्वारा लाई गई 6.5 mAP सटीकता हानि से बचता है
Pareto सीमांत विश्लेषण: बहु-उद्देश्य अनुकूलन दृष्टिकोण प्रदान करता है, सटीकता-विलंबता स्थान में विभिन्न कॉन्फ़िगरेशन के सर्वोत्तम संतुलन बिंदुओं को स्पष्ट करता है
व्यावहारिक निष्कर्ष:
NPU सभी कॉन्फ़िगरेशन में सर्वोत्तम प्रदर्शन करता है, अधिकतम 298× त्वरण (YOLOv8x) तक पहुंच सकता है
गतिशील परिमाणीकरण NPU पर विफल हो जाता है, हार्डवेयर संगतता समस्याओं को प्रकट करता है
CPU मल्टीथ्रेड स्केलेबिलिटी सीमित है (अधिकतम 3.4×), असमान कोर आर्किटेक्चर के कारण
यह अनुसंधान 7 परिमाणीकरण कॉन्फ़िगरेशन का मूल्यांकन करता है (तालिका II देखें):
योजना नाम
I/O डेटा प्रकार
संचालन सटीकता
सक्रियण मान
वजन
FP32
FP32
FP32
FP32
FP32
FP16
FP32
FP32
FP32
FP16
INT8
FP32
INT8
INT8
INT8
INT16
FP32
INT8
INT16
INT16
FINT8
INT8
INT8
INT8
INT8
FINT16
INT16
INT8
INT16
INT16
DYN
FP32
मिश्रित
FP32
मिश्रित
मुख्य तकनीकी बिंदु:
स्थिर परिमाणीकरण: वजन को ऑफलाइन लक्ष्य डेटा प्रकार में परिवर्तित किया जाता है (जैसे INT8), निश्चित भंडारण
गतिशील परिमाणीकरण(DYN): वजन 8-बिट में संग्रहीत होते हैं, लेकिन सक्रियण मान रनटाइम पर परिमाणित होते हैं, रनटाइम ओवरहेड प्रस्तुत करते हैं लेकिन सटीकता बेहतर रहती है
INT16 सीमा: LiteRT में अनुकूलित INT16 कर्नेल कार्यान्वयन की कमी है, जिससे प्रदर्शन बहुत खराब हो जाता है
मिश्रित फ्रेमवर्क विधि: सॉफ्टवेयर संगतता बाधाओं के लिए, LiteRT Next (CPU/GPU) और मानक LiteRT (NPU) के मिश्रित दृष्टिकोण को अपनाते हुए, व्यापक मूल्यांकन सुनिश्चित करता है
व्यवस्थित कॉन्फ़िगरेशन स्पेस अन्वेषण:
3 हार्डवेयर × 7 परिमाणीकरण × कई मॉडल आकार
5 ResNet वेरिएंट को कवर करता है (18/34/50/101/152)
5 YOLOv8 वेरिएंट को कवर करता है (n/s/m/l/x)
5 YOLO11 वेरिएंट को कवर करता है (n/s/m/l/x)
Pareto अनुकूलन दृष्टिकोण: एकल सर्वोत्तम का पीछा नहीं करता, बल्कि सटीकता-विलंबता संतुलन का Pareto सीमांत प्रदान करता है, बहु-उद्देश्य निर्णय समर्थन करता है
फ्रेमवर्क रूपांतरण हानि परिमाणीकरण: PyTorch से LiteRT रूपांतरण द्वारा प्रस्तुत सटीकता हानि को स्पष्ट रूप से मापता है (ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)
MLPerf बेंचमार्क परीक्षण: यह पेपर ML अनुमान प्रणालियों का मूल्यांकन करने के लिए MLPerf सिद्धांतों को अपनाता है, एम्बेडेड डिवाइस से डेटा सेंटर तक, सॉफ्टवेयर फ्रेमवर्क और आर्किटेक्चर तटस्थ मूल्यांकन प्राप्त करता है
मोबाइल AI फ्रेमवर्क विकास:
PyTorch, ONNX, TensorFlow: सामान्य AI विकास फ्रेमवर्क
TensorFlow Lite → LiteRT: मोबाइल अंत हल्के रनटाइम
LiteRT Next: त्वरक ऑफलोडिंग का मूल समर्थन
विषम कंप्यूटिंग प्रतिमान:
Edge-to-Cloud मॉडल: किनारे स्थानीय प्रसंस्करण विलंबता अनुकूलन, जटिल कार्य क्लाउड ऑफलोडिंग
DSA (Domain-Specific Architecture): NPU विशेष टेंसर संचालन त्वरक के रूप में
MLPerf बेंचमार्क: Reddi et al. (2020) - "MLPerf अनुमान बेंचमार्क", इस पेपर द्वारा अपनाए गए मूल्यांकन सिद्धांतों को परिभाषित करता है
ऊर्जा खपत अनुसंधान:
Google पर्यावरण रिपोर्ट (2023): AI ऊर्जा खपत का 10-15%
Meta स्थिरता रिपोर्ट (2023): अनुमान AI ऊर्जा खपत का 70%
ResNet: He et al. (2016) - "छवि पहचान के लिए गहरे अवशिष्ट शिक्षा", ILSVRC 2015 चैंपियन
YOLO: Ramos & Sappa (2025) - "वस्तु पहचान के लिए एक दशक का आप केवल एक बार देखते हैं (yolo): समीक्षा"
Edge-to-Cloud: Moreschini et al. (2024) - "किनारे से क्लाउड उपकरण: बहुवचन साहित्य समीक्षा"
समग्र मूल्यांकन: यह मोबाइल AI अनुमान अनुकूलन के लिए मूल्यवान कॉन्फ़िगरेशन मार्गदर्शन प्रदान करने वाला एक ठोस अनुभवजन्य अनुसंधान पेपर है। इसके मुख्य लाभ कठोर प्रायोगिक डिजाइन और विस्तृत मात्रात्मक परिणामों में हैं, जो NPU के लाभ और कार्य-विशिष्ट परिमाणीकरण रणनीति को स्पष्ट रूप से प्रकट करते हैं। मुख्य कमी एकल हार्डवेयर प्लेटफॉर्म तक सीमित सामान्यीकरण है, और ऊर्जा खपत विश्लेषण की कमी है। Android मोबाइल विकास और किनारे AI शोधकर्ताओं के लिए उच्च संदर्भ मूल्य है, लेकिन निष्कर्षों को व्यापक हार्डवेयर और कार्यों पर सत्यापन की आवश्यकता है। अनुशंसित भविष्य कार्य ऊर्जा खपत माप, अन्य प्लेटफॉर्म और कार्यों तक विस्तार, और प्रायोगिक कोड को ओपन सोर्स करना है ताकि पुनरुत्पादनीयता में सुधार हो।