2025-11-20T22:43:14.952401

Hardware optimization on Android for inference of AI models

Gherasim, Sánchez
The pervasive integration of Artificial Intelligence models into contemporary mobile computing is notable across numerous use cases, from virtual assistants to advanced image processing. Optimizing the mobile user experience involves minimal latency and high responsiveness from deployed AI models with challenges from execution strategies that fully leverage real time constraints to the exploitation of heterogeneous hardware architecture. In this paper, we research and propose the optimal execution configurations for AI models on an Android system, focusing on two critical tasks: object detection (YOLO family) and image classification (ResNet). These configurations evaluate various model quantization schemes and the utilization of on device accelerators, specifically the GPU and NPU. Our core objective is to empirically determine the combination that achieves the best trade-off between minimal accuracy degradation and maximal inference speed-up.
academic

تحسين الأجهزة على نظام Android لاستدلال نماذج الذكاء الاصطناعي

المعلومات الأساسية

  • معرّف الورقة: 2511.13453
  • العنوان: Hardware optimization on Android for inference of AI models
  • المؤلفون: Iulius Gherasim, Carlos García Sánchez (جامعة مدريد المستقلة)
  • التصنيف: cs.LG (تعلم الآلة)، cs.PF (الأداء)
  • تاريخ النشر: 17 نوفمبر 2025 (تقديم arXiv)
  • رابط الورقة: https://arxiv.org/abs/2511.13453

الملخص

تبحث هذه الورقة في مسألة تحسين الأجهزة لاستدلال نماذج الذكاء الاصطناعي على نظام Android. بالنظر إلى الاندماج الواسع لنماذج الذكاء الاصطناعي في الحوسبة المحمولة (من المساعدات الافتراضية إلى معالجة الصور المتقدمة)، يركز الباحثون على مهمتين رئيسيتين: كشف الأجسام (سلسلة YOLO) وتصنيف الصور (ResNet). من خلال تقييم خطط كمية مختلفة واستخدام معجلات الأجهزة (GPU و NPU)، الهدف الأساسي للورقة هو تحديد التكوينات المثلى التي تحقق أفضل توازن بين الحد الأدنى من فقدان الدقة والحد الأقصى من تسريع الاستدلال.

خلفية البحث والدافع

1. المشكلة المراد حلها

مع الانتشار الواسع لنماذج الذكاء الاصطناعي على الأجهزة المحمولة، أصبح تحقيق الاستدلال منخفض الكمون وعالي الاستجابة مع الحفاظ على دقة النموذج تحديًا رئيسيًا. يتضمن ذلك بشكل محدد:

  • كيفية الاستفادة الكاملة من البنية المعمارية غير المتجانسة للأجهزة المحمولة (CPU و GPU و NPU)
  • كيفية اختيار خطة كمية مناسبة توازن بين الدقة والسرعة
  • كيفية تحسين تكوين التنفيذ لمهام الذكاء الاصطناعي المختلفة (التصنيف مقابل الكشف)

2. أهمية المشكلة

  • استهلاك الطاقة: تقدر Google أن المهام المتعلقة بالذكاء الاصطناعي استهلكت 10-15% من إجمالي استهلاكها للطاقة خلال 2019-2021، حيث استهلكت مرحلة الاستدلال 60% من الطاقة؛ تقرير Meta يشير إلى أن الاستدلال يستهلك 70% من طاقة الذكاء الاصطناعي
  • اتجاهات النمو: نمو استهلاك الطاقة السنوي في Google بنسبة 21%، وفي Meta بنسبة 32%
  • تجربة المستخدم: أصبحت أداء الذكاء الاصطناعي المحمول عاملاً تمييزيًا أساسيًا، مما يتطلب تلبية متطلبات صارمة للوقت الفعلي والدقة

3. قيود الطرق الموجودة

  • اعتمدت الحلول المبكرة بشكل أساسي على تفريغ GPU للحسابات، لكنها لم تستفد بشكل كامل من معجلات NPU المتخصصة
  • نقص الدراسات المنهجية لتحسين البنية المعمارية غير المتجانسة للأجهزة المحمولة
  • اختيار خطط الكمية يفتقر إلى التوجيه التجريبي لمهام وأجهزة مختلفة

4. دافع البحث

  • اعتماد مبادئ معيار MLPerf، تقييم الأداء بشكل منهجي على أجهزة Android التجارية
  • اختيار نماذج معايير صناعية (ResNet للتصنيف، YOLO للكشف) كتقييم تمثيلي
  • ملء الفراغ في البحث التجريبي لتحسين استدلال الذكاء الاصطناعي على الأجهزة المحمولة

المساهمات الأساسية

  1. تقييم الأجهزة المنهجي: أول تقييم منهجي على جهاز Android تجاري (Samsung Galaxy Tab S9) لأداء ثلاث وحدات حسابية (CPU و GPU و NPU) في مهام استدلال الذكاء الاصطناعي
  2. تحليل خطط الكمية: مقارنة شاملة لسبع خطط كمية (FP32 و FP16 و INT8 و INT16 و FINT8 و FINT16 و Dynamic) في توازن الدقة والسرعة عبر أجهزة مختلفة
  3. توصيات تحسين خاصة بالمهام:
    • لمهام تصنيف ResNet: NPU + INT8 يحقق تسريعًا بمعامل 130×، مع فقدان دقة <3%
    • لمهام كشف YOLO: NPU + FP16 هو الأمثل، تجنبًا لفقدان دقة 6.5 mAP من INT8
  4. تحليل حدود Pareto: توفير منظور تحسين متعدد الأهداف، توضيح نقاط التوازن المثلى لتكوينات مختلفة في فضاء الدقة-الكمون
  5. النتائج العملية:
    • NPU يحقق أفضل أداء في جميع التكوينات، مع تسريع يصل إلى 298× (YOLOv8x)
    • فشل الكمية الديناميكية على NPU، يكشف عن مشاكل التوافقية مع الأجهزة
    • توسع CPU متعدد الخيوط محدود (أقصى 3.4×)، يعزى إلى بنية النوى غير المتماثلة

شرح الطريقة

تعريف المهام

يركز هذا البحث على مهمتي رؤية الحاسوب الأساسيتين:

  1. تصنيف الصور: إدخال صورة واحدة، إخراج تسمية الفئة والثقة (باستخدام سلسلة ResNet)
  2. كشف الأجسام: إدخال صورة واحدة، إخراج عدة صناديق حدود وفئات وثقة (باستخدام سلسلة YOLO)

الهدف هو إيجاد أفضل مزيج من تكوين الأجهزة وخطة الكمية على جهاز محمول يعمل بنظام Android.

البنية التجريبية

منصة الأجهزة

الجهاز: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)

CPU (Kryo): تكوين big.LITTLE بـ 8 نوى

  • 3 نوى صغيرة: ARM Cortex-A510 @ 2.0 GHz
  • 4 نوى متوسطة: 2×Cortex-A710 + 2×Cortex-A715 @ 2.8 GHz
  • 1 نواة كبيرة: Cortex-X3 @ 3.36 GHz

GPU: Qualcomm Adreno 740

  • 12 وحدة معالجة تظليل @ 719 MHz
  • دعم تنفيذ دقة FP32 و FP16

NPU (معالج Hexagon):

  • وحدات عمليات موتر وعددية وموجهة متخصصة
  • بنية ذاكرة داخلية مشتركة
  • دعم تقنية Micro Tile Inferencing (تقسيم طبقات النموذج والتنفيذ المتوازي)

البيئة البرمجية

الإطار: LiteRT (إعادة تسمية TensorFlow Lite)

  • CPU/GPU: LiteRT Next 2.0.2
  • NPU: LiteRT 1.4.0 (بسبب مشاكل خط أنابيب NPU في الإصدار 2.0.2)

تدفق تحويل النموذج:

نموذج PyTorch → صيغة ONNX → صيغة TFLite
  • استخدام أداة التصدير المدمجة في PyTorch لإنشاء ONNX
  • استخدام حزمة onnx2tf من Katsuya Hyodo للتحويل إلى TFLite
  • الكمية تتم في مرحلة تحويل onnx2tf

شرح تفصيلي لخطط الكمية

يقيّم هذا البحث سبع تكوينات كمية (انظر الجدول II):

اسم الخطةنوع بيانات الإدخال/الإخراجدقة العمليةالقيم المنشطةالأوزان
FP32FP32FP32FP32FP32
FP16FP32FP32FP32FP16
INT8FP32INT8INT8INT8
INT16FP32INT8INT16INT16
FINT8INT8INT8INT8INT8
FINT16INT16INT8INT16INT16
DYNFP32مختلطFP32مختلط

نقاط تقنية رئيسية:

  1. الكمية الثابتة: تحويل الأوزان دون الاتصال إلى نوع البيانات المستهدف (مثل INT8)، التخزين الثابت
  2. الكمية الديناميكية (DYN): تخزين الأوزان بـ 8 بت، لكن القيم المنشطة تُكمى في وقت التشغيل، مما يقدم عبء وقت التشغيل لكن الدقة أفضل
  3. قيود INT16: LiteRT يفتقر إلى تطبيق نوى INT16 محسّن، مما يؤدي إلى أداء سيئة جدًا

نقاط الابتكار التقني

  1. نهج الإطار المختلط: بالنظر إلى قيود التوافقية البرمجية، اعتماد نهج مختلط من LiteRT Next (CPU/GPU) و LiteRT القياسي (NPU)، مما يضمن تقييمًا شاملاً
  2. استكشاف فضاء التكوين المنهجي:
    • 3 أجهزة × 7 خطط كمية × أحجام نماذج متعددة
    • تغطية 5 متغيرات ResNet (18/34/50/101/152)
    • تغطية 5 متغيرات YOLOv8 (n/s/m/l/x)
    • تغطية 5 متغيرات YOLO11 (n/s/m/l/x)
  3. منظور تحسين Pareto: عدم السعي للحصول على أمثل واحد، بل توفير حدود Pareto لتوازن الدقة-الكمون، دعم القرار متعدد الأهداف
  4. قياس فقدان تحويل الإطار: قياس واضح لفقدان الدقة الناجم عن تحويل PyTorch إلى LiteRT (ResNet: 0.83-1.77%; YOLO11: 0.2-0.4 mAP)

إعداد التجارب

مجموعات البيانات

  • تصنيف ResNet: استخدام مجموعة التحقق القياسية ImageNet
  • كشف YOLO: استخدام مجموعة التحقق COCO

مقاييس التقييم

  1. كمون الاستدلال: متوسط وقت الاستدلال (ميلي ثانية)
  2. معامل التسريع: تحسن السرعة بالنسبة إلى خط الأساس FP32 CPU أحادي الخيط
  3. دقة التصنيف: دقة Top-1 (ResNet)
  4. دقة الكشف: متوسط الدقة (mAP) @ IoU=0.5:0.95 (YOLO)
  5. فقدان الدقة: انخفاض الدقة بالنسبة إلى خط الأساس FP32

التكوينات المقارنة

أجهزة التنفيذ:

  • CPU-SC: CPU أحادي الخيط
  • CPU-MC: CPU متعدد الخيوط (8 نوى)
  • GPU32: وضع GPU FP32
  • GPU16: وضع GPU FP16
  • NPU: وحدة المعالجة العصبية

خطط الكمية: FP32 و FP16 و INT8 و INT16 و FINT8 و FINT16 و DYN

تفاصيل التطبيق

  • تطوير تطبيق Android مخصص لتنفيذ النموذج وتسجيل النتائج
  • تنفيذ عدة استدلالات لكل تكوين وأخذ المتوسط
  • استخدام pycocotools لحساب mAP
  • استخدام طريقة top-1 القياسية لتقييم دقة التصنيف

نتائج التجارب

النتائج الرئيسية

أداء ResNet

وقت استدلال ResNet18 (ميلي ثانية):

التكوينCPU-SCCPU-MCGPU32GPU16NPU
FP3279.0626.3413.685.541.20
INT823.265.6321.7722.680.61

النتائج الرئيسية:

  • NPU يحقق تسريعًا بمعامل 65.9× على FP32، و 129.6× على INT8
  • أداء كمية INT16 سيئة جدًا (>800ms)، تم استبعادها من التحليل اللاحق
  • كمية FINT8 تؤدي إلى انخفاض كارثي في الدقة إلى 0.08% Top-1، تم استبعادها أيضًا

تحليل أداء ResNet50:

  • NPU + INT8: تسريع بمعامل 121.5×، فقدان دقة فقط 0.41%
  • وضع GPU16 مقابل GPU32 يوفر تسريعًا بحوالي
  • أقصى تسريع CPU متعدد الخيوط 3.4× (INT8)، أقل بكثير من النظري 8×

تأثير الكمية (الجدول X):

النموذجفقدان دقة INT8فقدان دقة DYN
ResNet182.94%0.10%
ResNet500.41%0.19%
ResNet1520.20%0.07%

الاتجاه: النماذج الأكبر أكثر قوة لكمية INT8، مع انخفاض فقدان الدقة من 2.94% إلى 0.20%

أداء YOLO

مقارنة وقت استدلال YOLOv8n:

  • NPU يظهر أفضل أداء
  • FP32: تسريع بمعامل 29×
  • INT8: تسريع بمعامل 46.8×
  • الكمون أعلى من ResNet (تعقيد المهمة أكبر)

فقدان دقة YOLO (الجدول XII):

النموذجفقدان INT8 (mAP)فقدان DYN (mAP)
YOLOv8n6.50.1
YOLOv8s6.20.0
YOLOv8x6.10.1

الرؤى الرئيسية:

  • INT8 يسبب ضررًا كبيرًا لمهام الكشف (متوسط فقدان 6.5 mAP)
  • الكمية الديناميكية تقريبًا بدون خسارة (≤0.1 mAP)
  • مهام الكشف تتطلب معلومات أكثر (التوضع + التصنيف)، أكثر حساسية للكمية

YOLO11 مقابل YOLOv8:

  • YOLO11 دقة أعلى على النماذج الصغيرة
  • تنفيذ NPU أبطأ قليلاً (بنية أكثر تعقيدًا)
  • فشل الكمية الديناميكية على NPU
  • فقدان INT8 يزيد قليلاً إلى متوسط 7.2 mAP

التجارب الاستئصالية

توسع CPU متعدد الخيوط (الجدول XV)

النموذجFP32FP16INT8DYN
ResNet183.0×3.0×14.0×10.6×
ResNet502.0×2.0×9.5×7.2×
YOLOv8x2.7×2.1×13.4×10.1×

التحليل:

  • INT8 يوفر أفضل تسريع متعدد الخيوط
  • توسع دقة الفاصلة العائمة ضعيف (2-3×)
  • بنية النوى غير المتماثلة تحد من كفاءة التوازي

تأثير وضع دقة GPU (الجدول VIII)

GPU32 مقابل GPU16 على ResNet50:

  • تأثير خطة الكمية على سرعة GPU ضئيل جدًا
  • وضع GPU16 يوفر تسريعًا مستقرًا بمعامل
  • النماذج الأكبر لها ميزة أكبر على GPU16

تحليل فشل الكمية الديناميكية على NPU

  • نماذج الكمية الديناميكية تحتوي على طبقات دقة مختلطة
  • NPU يفتقر إلى دعم تحويل نوع البيانات في وقت التشغيل
  • يتطلب نقل بيانات متكرر NPU-CPU
  • يؤدي إلى تدهور أداء خطير (ResNet50: فقط 2.3× تسريع مقابل 121.5× لـ INT8)

تحليل حدود Pareto

حدود Pareto لـ ResNet (الشكل 6):

  • تكوينات INT8 تهيمن على الحدود: انخفاض كبير في الكمون، فقدان دقة مقبول
  • التكوين الأمثل: NPU + INT8، ينطبق على جميع متغيرات ResNet
  • FP16 على GPU يوفر نقطة توازن بين الدقة والسرعة

حدود Pareto لـ YOLO (الشكل 7):

  • تكوينات FP16 تهيمن على الحدود: فقدان دقة INT8 كبير جدًا
  • التكوين الأمثل: NPU + FP16
  • YOLO11s يظهر أداء متميزة في النماذج الصغيرة
  • الفرق بين YOLOv8 و YOLO11 يتقلص في النماذج الكبيرة (l/x)

ملخص النتائج التجريبية

  1. أفضلية NPU المطلقة: NPU يوفر أفضل أداء في جميع السيناريوهات، مع تسريع أقصى بمعامل 298× (YOLOv8x + INT8)
  2. استراتيجيات كمية خاصة بالمهام:
    • مهام التصنيف (ResNet): INT8 أمثل
    • مهام الكشف (YOLO): FP16 أمثل
  3. خصائص الأجهزة:
    • GPU: تأثير الكمية صغير، وضع FP16 حاسم
    • CPU: توسع متعدد الخيوط محدود، INT8 يوفر أفضل توازي
    • NPU: لا يدعم الكمية الديناميكية، يتطلب تحسين ثابت
  4. تأثير حجم النموذج:
    • النماذج الأكبر أكثر قوة للكمية
    • GPU يحقق نسبة تسريع أعلى على النماذج الكبيرة (YOLOv8x: 39×)
  5. فقدان تحويل الإطار: انخفاض دقة غير مهمل (1-2%)، يجب تضمينه في الاعتبار التحسين

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. معايير MLPerf: تعتمد هذه الورقة على مبادئ MLPerf لتقييم أنظمة استدلال ML، من الأجهزة المدمجة إلى مراكز البيانات، مما يحقق تقييمًا محايدًا للإطار والبنية المعمارية
  2. تطور إطارات الذكاء الاصطناعي المحمول:
    • PyTorch و ONNX و TensorFlow: أطر عمل تطوير ذكاء اصطناعي عامة
    • TensorFlow Lite → LiteRT: وقت تشغيل خفيف الوزن للأجهزة المحمولة
    • LiteRT Next: دعم أصلي لتفريغ المعجلات
  3. نماذج الحوسبة غير المتجانسة:
    • نموذج Edge-to-Cloud: معالجة محلية على الحافة لتحسين الكمون، تفريغ المهام المعقدة للسحابة
    • DSA (بنية مجال متخصصة): NPU كمعجل عمليات موتر متخصص
  4. تقنيات الكمية:
    • كمية ما بعد التدريب (تستخدمها هذه الورقة)
    • تدريب يدرك الكمية
    • استراتيجيات دقة مختلطة

المزايا النسبية للورقة

  1. تقييم منهجي: أول تقييم شامل على جهاز Android تجاري لثلاث أجهزة CPU/GPU/NPU
  2. توجيه تجريبي: توفير توصيات تكوين محددة لمهام مختلفة، وليس تحليل نظري
  3. منظور Pareto: طريقة تحسين متعددة الأهداف، تكشف عن فضاء توازن الدقة-السرعة
  4. اكتشاف المشاكل: تحديد مشاكل التوافقية الديناميكية للكمية على NPU، وتوسع CPU وغيرها من مشاكل النشر الفعلية
  5. الصلة الصناعية: اختيار نماذج معايير MLPerf، النتائج قابلة للتطبيق مباشرة في بيئة الإنتاج

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. NPU هو أفضل جهاز تنفيذ: مقارنة بخط الأساس CPU أحادي النواة، يحقق تسريعًا يصل إلى 120×، مما يؤكد دوره الحاسم في ذكاء الحافة منخفض الكمون
  2. الكمية المثلى هي مسألة توازن:
    • ResNet: INT8 أمثل، مكاسب السرعة على NPU تتجاوز فقدان الدقة
    • YOLO: FP16 أمثل، فقدان دقة INT8 (6.5 mAP) غير مقبول
    • GPU: تأثير الكمية على السرعة ضئيل، FP16 يوازن بين الدقة والسرعة
  3. أداء النموذج والتوسع:
    • YOLO11s يظهر أداء متميزة على حدود Pareto، مع كمية FP16 يوفر أفضل توازن سرعة/دقة
    • YOLO11 دقة أعلى على النماذج الصغيرة من YOLOv8، لكن التعقيد أكبر قليلاً
  4. تحديد قيود النظام:
    • فشل الكمية الديناميكية على NPU (نقص الدعم الأصلي)
    • توسع CPU متعدد الخيوط ضعيف (أقصى 3.4×)، يعزى إلى بنية النوى غير المتماثلة
    • تحويل الإطار يقدم حوالي 1% فقدان دقة

القيود

  1. منصة أجهزة واحدة: اختبار فقط على Snapdragon 8 Gen 2، قابلية التعميم على SoCs أخرى لم تتحقق
  2. نطاق مهام محدود: تغطية فقط رؤية الحاسوب (التصنيف والكشف)، لم تشمل معالجة اللغات الطبيعية والكلام وغيرها من مهام الذكاء الاصطناعي
  3. نقص تحليل الطاقة: لم يتم قياس استهلاك الطاقة، تحليل Pareto لم يشمل بعد الكفاءة الطاقية
  4. اعتماد إصدار البرنامج: NPU يتطلب استخدام LiteRT 1.4.0 القديم، قد يؤثر على الأداء
  5. حمل عمل ثابت: لم يتم الأخذ في الاعتبار معالجة الدفعات الديناميكية وتبديل النموذج وغيرها من السيناريوهات التطبيقية الفعلية
  6. تقييم INT16 غير مكتمل: تم الاستبعاد المبكر بسبب نقص نوى LiteRT المحسّنة، لم يتم تحليل متعمق

الاتجاهات المستقبلية

  1. دمج الطاقة: إكمال تحليل Pareto ثلاثي الأبعاد يتضمن الطاقة (الدقة-الكمون-الكفاءة الطاقية)
  2. تحسين البرنامج:
    • تخفيف مشاكل التوافقية الديناميكية للكمية على NPU
    • القضاء على فقدان دقة تحويل الإطار
  3. توسع المهام: دراسة مهام أخرى في معايير MLPerf (معالجة اللغات الطبيعية، تقسيم الصور)
  4. تعميم الأجهزة: التحقق من الاستنتاجات على عدة SoCs محمولة
  5. تدريب يدرك الكمية: استكشاف كمية وقت التدريب لتقليل فقدان دقة INT8
  6. تطبيقات في الوقت الفعلي: تقييم تدفقات الفيديو والنماذج المتزامنة وغيرها من السيناريوهات الفعلية

التقييم المتعمق

المزايا

  1. تصميم تجريبي صارم:
    • استكشاف منهجي لفضاء التكوين (3 أجهزة × 7 خطط كمية × 15 متغير نموذج)
    • خطوط أساس واضحة وأبعاد مقارنة
    • قياسات متعددة وأخذ المتوسط لضمان الموثوقية
  2. قيمة عملية عالية:
    • استهداف الأجهزة التجارية والنماذج المعايير الصناعية
    • توفير توصيات تكوين قابلة للتطبيق
    • تحديد مشاكل النشر الفعلية (مثل فشل الكمية الديناميكية)
  3. تحليل متعمق:
    • حدود Pareto توفر دعم قرار متعدد الأهداف
    • قياس فقدان تحويل الإطار والكمية
    • الكشف عن خصائص الأجهزة (مثل تأثير بنية النوى غير المتماثلة على CPU)
  4. نتائج مفصلة:
    • بيانات كمية وفيرة (جداول متعددة)
    • تصور واضح (رسوم بيانية Pareto ومقارنة السرعة)
    • تحليل اتجاهات لأحجام نماذج مختلفة
  5. شفافية الطريقة:
    • وصف مفصل لمواصفات الأجهزة
    • توضيح إصدارات البرنامج وتدفق التحويل
    • الاعتراف بالقيود (مثل مشاكل التوافقية البرمجية)

أوجه القصور

  1. قابلية التعميم محدودة:
    • منصة أجهزة واحدة (Snapdragon 8 Gen 2)
    • قابلية تطبيق الاستنتاجات على رقائق محمولة أخرى (مثل Apple A series و Huawei Kirin) غير معروفة
  2. نقص الطاقة:
    • العنوان يؤكد "التحسين" لكن لم يتم قياس استهلاك الطاقة
    • بالنسبة للأجهزة المحمولة، الكفاءة الطاقية مهمة مثل السرعة
    • تحليل Pareto غير مكتمل
  3. الدلالة الإحصائية:
    • لم يتم الإبلاغ عن فترات الثقة أو الانحراف المعياري
    • نقص اختبارات الدلالة
    • عدد العينات للتشغيلات المتعددة غير واضح
  4. مقارنة غير كافية:
    • عدم المقارنة مع طرق كمية أخرى (مثل تدريب يدرك الكمية)
    • عدم المقارنة مع أطر عمل ذكاء اصطناعي محمولة أخرى (مثل NCNN و MNN)
    • نقص المقارنة مع كمون الاستدلال السحابي
  5. تبسيط السيناريوهات الفعلية:
    • استدلال صورة واحدة، لم يتم الأخذ في الاعتبار معالجة الدفعات
    • لم يتم اختبار إحماء النموذج وتأثيرات الذاكرة المؤقتة
    • تجاهل تأثير العمليات الأخرى في نظام Android
  6. شرح نظري ضعيف:
    • نقص شرح على مستوى البنية المعمارية لسبب تفوق NPU في INT8
    • تحليل غير كافي للأسباب الأساسية لضعف توسع CPU متعدد الخيوط
    • عدم وجود نموذج تنبؤ الكمون

التأثير

المساهمة في المجال:

  • ملء الفراغ في البحث التجريبي لتحسين استدلال الذكاء الاصطناعي على الأجهزة المحمولة
  • توفير دليل اختيار التكوين لمطوري الأجهزة المحمولة
  • الكشف عن خصائص الأداء الفعلية للأجهزة التجارية

القيمة العملية:

  • قابلة للتطبيق مباشرة على تطوير تطبيقات Android
  • مساعدة في اتخاذ قرار استراتيجية نشر النموذج
  • تحديد اتجاهات التحسين لأطر عمل مثل LiteRT

القابلية للتكرار:

  • استخدام أجهزة تجارية ونماذج عامة
  • وصف مفصل لتدفق التحويل
  • لكن لم يتم ذكر فتح الكود المصدري

التأثير المتوقع:

  • تأثير متوسط: بحث تجريبي خاص بمنصة محددة
  • قيمة لمجتمع الذكاء الاصطناعي المحمول
  • قد يدفع تحسينات في أطر عمل مثل LiteRT لدعم NPU بشكل أفضل

السيناريوهات المناسبة

الأنسب لـ:

  1. تطوير تطبيقات Android: المطورون الذين يحتاجون إلى نشر ResNet أو YOLO على الأجهزة
  2. اختيار النموذج: دعم القرار عند الموازنة بين الدقة والكمون
  3. تقييم الأجهزة: تقييم أداء الذكاء الاصطناعي على Snapdragon 8 Gen 2
  4. اختيار استراتيجية الكمية: اختيار خطة الكمية بناءً على نوع المهمة

غير مناسب لـ:

  1. منصات محمولة أخرى: iOS وأجهزة SoC أخرى تتطلب إعادة تقييم
  2. مهام غير بصرية: معالجة اللغات الطبيعية والكلام وغيرها تتطلب بحث إضافي
  3. نشر سحابي: خصائص الأجهزة مختلفة تماماً
  4. معالجة فيديو في الوقت الفعلي: لم يتم الأخذ في الاعتبار معالجة الإطارات المستمرة

اتجاهات التوسع:

  • دمج نتائج هذه الورقة لتحسين الكفاءة الطاقية
  • بمثابة مدخل لبحث AutoML الحساس للأجهزة
  • توجيه تصميم رقائق ذكاء اصطناعي حدودية

المراجع

الاستشهادات الرئيسية:

  1. معايير MLPerf: Reddi et al. (2020) - "MLPerf inference benchmark"، يحدد مبادئ التقييم المعتمدة في هذه الورقة
  2. أبحاث الطاقة:
    • تقرير Google البيئي (2023): الذكاء الاصطناعي يستهلك 10-15% من الطاقة
    • تقرير Meta للاستدامة (2023): الاستدلال يستهلك 70% من طاقة الذكاء الاصطناعي
  3. ResNet: He et al. (2016) - "Deep Residual Learning for Image Recognition"، فائز ILSVRC 2015
  4. YOLO: Ramos & Sappa (2025) - "A decade of you only look once (yolo) for object detection: A review"
  5. Edge-to-Cloud: Moreschini et al. (2024) - "Edge to cloud tools: A multivocal literature review"

التقييم الشامل: هذه ورقة بحثية تجريبية قوية توفر إرشادات تكوين قيمة لتحسين استدلال الذكاء الاصطناعي على الأجهزة المحمولة. تكمن المزايا الرئيسية في التصميم التجريبي المنهجي والنتائج الكمية المفصلة، مع الكشف الواضح عن أفضلية NPU واستراتيجيات الكمية الخاصة بالمهام. أوجه القصور الرئيسية هي قابلية التعميم المحدودة على منصة أجهزة واحدة ونقص تحليل الطاقة. بالنسبة لمطوري Android والباحثين في ذكاء الحافة، لها قيمة مرجعية عالية، لكن الاستنتاجات تحتاج إلى التحقق على منصات ومهام أوسع. يُنصح بأن يشمل العمل المستقبلي قياسات الطاقة وتوسيع المنصات والمهام، وفتح الكود المصدري لتحسين القابلية للتكرار.