تبحث هذه الورقة في مسألة تحسين الأجهزة لاستدلال نماذج الذكاء الاصطناعي على نظام Android. بالنظر إلى الاندماج الواسع لنماذج الذكاء الاصطناعي في الحوسبة المحمولة (من المساعدات الافتراضية إلى معالجة الصور المتقدمة)، يركز الباحثون على مهمتين رئيسيتين: كشف الأجسام (سلسلة YOLO) وتصنيف الصور (ResNet). من خلال تقييم خطط كمية مختلفة واستخدام معجلات الأجهزة (GPU و NPU)، الهدف الأساسي للورقة هو تحديد التكوينات المثلى التي تحقق أفضل توازن بين الحد الأدنى من فقدان الدقة والحد الأقصى من تسريع الاستدلال.
مع الانتشار الواسع لنماذج الذكاء الاصطناعي على الأجهزة المحمولة، أصبح تحقيق الاستدلال منخفض الكمون وعالي الاستجابة مع الحفاظ على دقة النموذج تحديًا رئيسيًا. يتضمن ذلك بشكل محدد:
يركز هذا البحث على مهمتي رؤية الحاسوب الأساسيتين:
الهدف هو إيجاد أفضل مزيج من تكوين الأجهزة وخطة الكمية على جهاز محمول يعمل بنظام Android.
الجهاز: Samsung Galaxy Tab S9 SoC: Qualcomm Snapdragon 8 Gen 2 (SM8550-AC)
CPU (Kryo): تكوين big.LITTLE بـ 8 نوى
GPU: Qualcomm Adreno 740
NPU (معالج Hexagon):
الإطار: LiteRT (إعادة تسمية TensorFlow Lite)
تدفق تحويل النموذج:
نموذج PyTorch → صيغة ONNX → صيغة TFLite
يقيّم هذا البحث سبع تكوينات كمية (انظر الجدول II):
| اسم الخطة | نوع بيانات الإدخال/الإخراج | دقة العملية | القيم المنشطة | الأوزان |
|---|---|---|---|---|
| FP32 | FP32 | FP32 | FP32 | FP32 |
| FP16 | FP32 | FP32 | FP32 | FP16 |
| INT8 | FP32 | INT8 | INT8 | INT8 |
| INT16 | FP32 | INT8 | INT16 | INT16 |
| FINT8 | INT8 | INT8 | INT8 | INT8 |
| FINT16 | INT16 | INT8 | INT16 | INT16 |
| DYN | FP32 | مختلط | FP32 | مختلط |
نقاط تقنية رئيسية:
أجهزة التنفيذ:
خطط الكمية: FP32 و FP16 و INT8 و INT16 و FINT8 و FINT16 و DYN
وقت استدلال ResNet18 (ميلي ثانية):
| التكوين | CPU-SC | CPU-MC | GPU32 | GPU16 | NPU |
|---|---|---|---|---|---|
| FP32 | 79.06 | 26.34 | 13.68 | 5.54 | 1.20 |
| INT8 | 23.26 | 5.63 | 21.77 | 22.68 | 0.61 |
النتائج الرئيسية:
تحليل أداء ResNet50:
تأثير الكمية (الجدول X):
| النموذج | فقدان دقة INT8 | فقدان دقة DYN |
|---|---|---|
| ResNet18 | 2.94% | 0.10% |
| ResNet50 | 0.41% | 0.19% |
| ResNet152 | 0.20% | 0.07% |
الاتجاه: النماذج الأكبر أكثر قوة لكمية INT8، مع انخفاض فقدان الدقة من 2.94% إلى 0.20%
مقارنة وقت استدلال YOLOv8n:
فقدان دقة YOLO (الجدول XII):
| النموذج | فقدان INT8 (mAP) | فقدان DYN (mAP) |
|---|---|---|
| YOLOv8n | 6.5 | 0.1 |
| YOLOv8s | 6.2 | 0.0 |
| YOLOv8x | 6.1 | 0.1 |
الرؤى الرئيسية:
YOLO11 مقابل YOLOv8:
| النموذج | FP32 | FP16 | INT8 | DYN |
|---|---|---|---|---|
| ResNet18 | 3.0× | 3.0× | 14.0× | 10.6× |
| ResNet50 | 2.0× | 2.0× | 9.5× | 7.2× |
| YOLOv8x | 2.7× | 2.1× | 13.4× | 10.1× |
التحليل:
GPU32 مقابل GPU16 على ResNet50:
حدود Pareto لـ ResNet (الشكل 6):
حدود Pareto لـ YOLO (الشكل 7):
المساهمة في المجال:
القيمة العملية:
القابلية للتكرار:
التأثير المتوقع:
الأنسب لـ:
غير مناسب لـ:
اتجاهات التوسع:
الاستشهادات الرئيسية:
التقييم الشامل: هذه ورقة بحثية تجريبية قوية توفر إرشادات تكوين قيمة لتحسين استدلال الذكاء الاصطناعي على الأجهزة المحمولة. تكمن المزايا الرئيسية في التصميم التجريبي المنهجي والنتائج الكمية المفصلة، مع الكشف الواضح عن أفضلية NPU واستراتيجيات الكمية الخاصة بالمهام. أوجه القصور الرئيسية هي قابلية التعميم المحدودة على منصة أجهزة واحدة ونقص تحليل الطاقة. بالنسبة لمطوري Android والباحثين في ذكاء الحافة، لها قيمة مرجعية عالية، لكن الاستنتاجات تحتاج إلى التحقق على منصات ومهام أوسع. يُنصح بأن يشمل العمل المستقبلي قياسات الطاقة وتوسيع المنصات والمهام، وفتح الكود المصدري لتحسين القابلية للتكرار.