2025-11-13T15:25:11.338171

Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks

Athanasiadis, Tampouratzis, Papaefstathiou
The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.
academic

إطار عمل موفر للطاقة على FPGA للشبكات العصبية الالتفافية غير المكممة

المعلومات الأساسية

  • معرّف الورقة: 2510.13362
  • العنوان: Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks
  • المؤلفون: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
  • المؤسسات: ¹جامعة أرسطو بسالونيك، ²الجامعة الهيلينية الدولية
  • التصنيف: cs.AR (معمارية الحاسوب)
  • رابط الورقة: https://arxiv.org/abs/2510.13362

الملخص

مع تزايد متطلبات المعالجة في الوقت الفعلي في تطبيقات الذكاء الاصطناعي، خاصة تلك التي تتضمن الشبكات العصبية الالتفافية (CNNs)، يزداد الطلب على حلول حسابية فعالة. غالباً ما تفشل المعالجات التقليدية في تحقيق التوازن بين الأداء واستهلاك الطاقة والكمون، خاصة في الأنظمة المدمجة ومنصات الحوسبة الطرفية. توفر المصفوفات المنطقية القابلة للبرمجة بالحقل (FPGAs) بديلاً واعداً يجمع بين الأداء العالية والكفاءة الطاقية والقابلية للإعادة. يقترح الإطار المقدم في هذه الورقة معالجة المتطلبات الحسابية المعقدة لشبكات CNN على FPGA مع الحفاظ على الدقة الكاملة لجميع معاملات الشبكة العصبية. يستند الإطار إلى إطار عمل Darknet CNN المستخدم على نطاق واسع، مما يسمح للمصممين باستخدام مدخلات مشابهة لـ Darknet لتنفيذ شبكات CNN بكفاءة في الأنظمة غير المتجانسة التي تحتوي على وحدة معالجة مركزية و FPGA. بالمقارنة مع أطر عمل FPGA التي تدعم التكميم، يهدف هذا الحل إلى توفير أداء و/أو كفاءة طاقية مماثلة دون تقليل دقة الشبكة العصبية.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث إلى حلها هي كيفية تنفيذ الشبكات العصبية الالتفافية غير المكممة بكفاءة على FPGA، مع تحقيق أداء عالية وكفاءة طاقية مع الحفاظ على معاملات بدقة كاملة.

أهمية المشكلة

  1. تزايد متطلبات المعالجة في الوقت الفعلي: تطبيقات الذكاء الاصطناعي، خاصة تطبيقات CNN، تتطلب معالجة متزايدة في الوقت الفعلي
  2. قيود المعالجات التقليدية: تعاني وحدات المعالجة المركزية التقليدية من عدم كفاية في تحقيق التوازن بين الأداء واستهلاك الطاقة والكمون
  3. تحديات الأنظمة المدمجة والحوسبة الطرفية: تحتاج الأجهزة ذات الموارد المحدودة إلى حلول حسابية أكثر كفاءة

قيود الطرق الموجودة

  1. فقدان الدقة في طرق التكميم: تركز أطر عمل FPGA الموجودة بشكل أساسي على النماذج المكممة، وعلى الرغم من تقليلها لاستخدام الموارد والطاقة، فإنها غالباً ما تضحي بالدقة
  2. تعقيد التصميم: نقص في عمليات التصميم سهلة الاستخدام وفعالة
  3. المقايضة بين الأداء والدقة: صعوبة تحقيق أداء عالية وكفاءة طاقية مع الحفاظ على الدقة الكاملة

الدافع البحثي

تطوير إطار عمل قادر على تنفيذ شبكات CNN غير المكممة على FPGA، مع الحفاظ على دقة النموذج العالية وتحقيق أداء وكفاءة طاقية متفوقة.

المساهمات الأساسية

  1. الحفاظ على الدقة: من خلال تجنب التكميم والاحتفاظ بالدقة الكاملة، يهدف الإطار إلى الحفاظ على دقة نموذج CNN
  2. إنتاجية التصميم والمرونة العالية: بناءً على إطار عمل Darknet CNN المستخدم على نطاق واسع، مع تنفيذ نقي بلغة C/C++، يدعم مجموعة كاملة من FPGA من الصغيرة إلى الكبيرة
  3. الأداء العالية: الاستفادة الكاملة من التوازي في أي FPGA لتسريع عملية استدلال CNN، مما يضمن معالجة فعالة وفي الوقت المناسب
  4. تحسين كفاءة الطاقة: تحسين كفاءة الطاقة لاستدلال CNN على FPGA، مناسب للتطبيقات الحساسة للطاقة

شرح الطريقة

تعريف المهمة

المهمة المدروسة في هذه الورقة هي تنفيذ استدلال CNN غير المكمم بكفاءة على FPGA، حيث يكون الإدخال ملف تكوين نموذج CNN (بصيغة مشابهة لـ Darknet)، والمخرجات هي تنفيذ CNN عالي الأداء على نظام غير متجانس يتضمن وحدة معالجة مركزية و FPGA.

معمارية الإطار

وفقاً للشكل 1، يعتمد الإطار على معمارية التصميم التالية:

  1. معالجة الإدخال: استيراد ملف cfg جديد إلى الأداة
  2. المعالجة المسبقة: استخدام OpenMP للمعالجة المسبقة المتوازية
  3. محلل البيانات: تحليل بنية الشبكة، وتحديد طبقات الالتفاف وطبقات إلغاء الالتفاف والطبقات الأخرى
  4. محرك الحساب: محرك حساب HLS مبتكر كمكون أساسي
  5. المعالجة المتوازية: استخدام OpenMP للمعالجة المتوازية
  6. تنفيذ FPGA: التنفيذ النهائي للشبكة العصبية على FPGA

محرك الحساب المبتكر HLS

الفكرة الأساسية للتصميم

يستخدم محرك الحساب المبتكر تقنية التوليف عالي المستوى (HLS)، القادرة على تنفيذ عمليات حسابية متعددة في دورة ساعة واحدة، مما يحقق إنتاجية وأداء عالية نسبياً.

تفاصيل التنفيذ التقني

كما هو موضح في الشكل 2، يتعامل نواة FPGA HLS بشكل أساسي مع مهام الضرب المصفوفي، وهو أساس جميع تنفيذات CNN تقريباً:

  1. تحسين الذاكرة: الاستفادة من ذاكرة BRAM الداخلية مع تدفقات HLS لتحسين أنماط الوصول إلى الذاكرة على الشريحة
  2. آلية معالجة التدفق:
    • تنفيذ تدفق بيانات مستمر بين عناصر المعالجة، دون الحاجة إلى تخزين وسيط في BRAM
    • تقليل الكمون والنفقات العامة للموارد
    • دعم تنفيذ خط الأنابيب وتعزيز التوازي
    • نقل البيانات مباشرة بين عمليات المنتج والمستهلك
  3. استخدام قنوات الذاكرة المتعددة:
    • الاستفادة من مكتبات الذاكرة المتعددة والقنوات المخصصة المتصلة بـ FPGA الحديثة
    • إدراج تعليمات HLS المناسبة لتوزيع نقل البيانات على عدد قابل للتخصيص من مكتبات/قنوات الذاكرة
    • الاستفادة الكاملة من عرض النطاق الترددي المتاح لكل واجهة ذاكرة
  4. نقل البيانات عالي النطاق الترددي: يتم نقل البيانات بين وحدة المعالجة المركزية و FPGA بعرض البيانات الكامل (512 بت) في كل دورة ساعة، مما يضمن اتصالات إنتاجية عالية بين عناصر المعالجة ونظام الذاكرة الفرعي

نقاط الابتكار التقني

  1. الحفاظ على الدقة الكاملة: على عكس طرق التكميم الموجودة، يحافظ هذا الإطار على الدقة الكاملة لجميع المعاملات
  2. تحسين معالجة التدفق: آلية معالجة التدفق المبتكرة تقلل الاعتماد على BRAM وتحسن كفاءة استخدام الموارد
  3. الوصول إلى الذاكرة متعدد القنوات: الاستفادة الكاملة من خصائص قنوات الذاكرة المتعددة في FPGA الحديثة
  4. عملية التصميم المستندة إلى Darknet: توفير واجهة تصميم مألوفة وسهلة الاستخدام

إعداد التجارب

منصة الأجهزة

  • FPGA عالي الأداء: AMD Alveo U55C
  • FPGA مدمج: Kria KR260
  • وحدات معالجة مركزية للمقارنة: Intel Xeon E5-2620 v4 (8 أنوية) و ARM Cortex-A53 (4 أنوية)
  • GPU للمقارنة: NVIDIA T4

تكوين الاختبار

  • أبعاد المصفوفة: M=2048, K=4096, N=16384
  • نوع البيانات: FP32 (عدد عشري بدقة 32 بت)
  • الغرض من الاختبار: اختيار أبعاد مصفوفة غير ذروة الأداء لعرض مرونة الطريقة

مؤشرات التقييم

  1. الأداء: GFLOPS (مليارات العمليات الحسابية بالفاصلة العائمة في الثانية)
  2. كفاءة الطاقة: GFLOPS/Watt
  3. نسبة التسريع: تحسن الأداء بالنسبة للتنفيذ المرجعي والتنفيذ المتوازي للمعالج

نتائج التجارب

نتائج الأداء الرئيسية

FPGA المدمج (Kria KR260)

  • بالنسبة للتنفيذ المرجعي: تحسن في الأداء بمقدار رتبتين من حيث الحجم
  • بالنسبة لـ ARM 4 أنوية CPU: تحسن في الأداء بمقدار 9 مرات
  • تحسن كفاءة الطاقة: تحسن بمقدار 9 مرات مقارنة بأفضل تنفيذ متوازي للمعالج

FPGA عالي الأداء (Alveo U55C)

  • بالنسبة للتنفيذ المرجعي: تحسن في الأداء بحوالي 3 رتب من حيث الحجم
  • بالنسبة لـ Intel Xeon CPU: تحسن في الأداء بمقدار 10 مرات
  • تحسن كفاءة الطاقة: تحسن بمقدار 34 مرة مقارنة بأفضل تنفيذ متوازي للمعالج
  • بالنسبة لـ NVIDIA T4 GPU: تحسن في كفاءة الطاقة بمقدار 3 مرات (على الرغم من أن T4 يستخدم عملية تصنيع أكثر تقدماً بـ 12 نانومتر، بينما U55C بـ 16 نانومتر)

النتائج الرئيسية

  1. تحسن أداء كبير: تحقيق تحسن في الأداء بمقدار رتب من حيث الحجم على جميع منصات الاختبار
  2. أداء كفاءة طاقية متفوقة: خاصة تحقيق تحسن في كفاءة الطاقة بمقدار 34 مرة على Alveo U55C
  3. الميزة التقنية: حتى في ظل عيب عملية التصنيع، لا تزال تتفوق على كفاءة الطاقة لـ GPU
  4. التحقق من الاتساق: نتائج التجارب على أبعاد مصفوفة مختلفة متطابقة تماماً مع النتائج الموضحة في الشكل 3

الأعمال ذات الصلة

تستشهد الورقة بالأعمال ذات الصلة التالية:

  1. Xu وآخرون (2024): FLARE - معجل CNN بدقة كاملة وقليل الطاقة على أساس FPGA، مع بنية قابلة لإعادة التشكيل
  2. Chen وآخرون (2021): إطار عمل التعلم لشبكات عصبية مكممة بـ n بت موجهة لـ FPGA
  3. Latotzke وآخرون (2022): تصميم معجل CNN بدقة مختلطة عالي الإنتاجية على FPGA

يكمن الفرق الرئيسي بين هذه الورقة والأعمال ذات الصلة في التركيز على التنفيذ غير المكمم، مع تحقيق أداء عالية وكفاءة طاقية مع الحفاظ على الدقة الكاملة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. حل ناجح للاحتياجات الحرجة: يحل هذا البحث بنجاح الاحتياجات الحرجة للتنفيذ الفعال لـ CNN في البيئات المقيدة بالطاقة
  2. الأداء وكفاءة الطاقة معاً: يجمع إطار عمل FPGA CNN غير المكمم المقترح بنجاح بين الأداء العالية وكفاءة الطاقة
  3. ضمان الدقة: تحقيق دقة عالية من خلال الحفاظ على الدقة الكاملة لمعاملات الشبكة، دون الإضرار باستخدام الموارد أو الطاقة
  4. التحقق التجريبي من الفعالية: تتحقق نتائج التجارب من فعالية الإطار، مما يظهر تسريعاً كبيراً لمعالجة الاستدلال وتقليلاً كبيراً في استخدام الطاقة

القيود

  1. نطاق الاختبار: تركزت التجارب بشكل أساسي على عمليات الضرب المصفوفي، ولم يتم عرض نتائج الاختبار التفصيلية لشبكات CNN الكاملة
  2. التحقق من الدقة: على الرغم من الادعاء بالحفاظ على الدقة، إلا أن هناك نقصاً في بيانات المقارنة المحددة للدقة
  3. نطاق الانطباق: قد يكون انطباق الإطار محدوداً بموارد FPGA والمتطلبات المحددة للتطبيق

الاتجاهات المستقبلية

لم تذكر الورقة بشكل صريح اتجاهات بحثية محددة في المستقبل، لكن يمكن الاستدلال على ما يلي:

  1. اختبار والتحقق من شبكات CNN الأوسع نطاقاً
  2. تحسين كفاءة الطاقة بشكل أكبر
  3. دعم المزيد من أنواع طبقات الشبكات العصبية

التقييم المتعمق

المميزات

  1. الابتكار التقني:
    • تحقيق تنفيذ FPGA CNN عالي الأداء مع الحفاظ على الدقة الكاملة
    • تصميم محرك حساب HLS مبتكر، يستفيد بشكل فعال من معالجة التدفق وقنوات الذاكرة المتعددة
  2. كفاية التجارب:
    • إجراء اختبارات شاملة على منصات أجهزة متعددة
    • تضمين تجارب مقارنة مع وحدات المعالجة المركزية و GPU
    • قياس تفصيلي لمؤشرات الأداء وكفاءة الطاقة
  3. القيمة العملية:
    • بناءً على إطار عمل Darknet المستخدم على نطاق واسع، سهل التبني
    • دعم مجموعة كاملة من FPGA من الصغيرة إلى الكبيرة
    • مناسب لسيناريوهات التطبيقات الحساسة للطاقة
  4. قوة النتائج:
    • تحقيق تحسن في الأداء بمقدار رتب من حيث الحجم
    • أداء متفوقة على مؤشرات متعددة
    • حتى في ظل عيب العملية، لا تزال تتفوق على كفاءة الطاقة لـ GPU

أوجه القصور

  1. عدم كفاية التحقق من الاكتمال:
    • نقص في نتائج الاختبار من طرف إلى طرف لشبكات CNN الكاملة
    • عدم توفير بيانات التحقق المحددة من الحفاظ على الدقة
    • تركز الاختبار بشكل أساسي على مستوى الضرب المصفوفي
  2. اختيار معايير المقارنة:
    • قد لا يكون التنفيذ المرجعي محسناً بشكل كافٍ
    • نقص في المقارنة مع أطر عمل FPGA CNN المتقدمة الأخرى
  3. عدم كفاية التفاصيل التقنية:
    • وصف استراتيجيات التحسين المحددة لتنفيذ HLS غير كافٍ
    • نقص بيانات استخدام الموارد
    • تحليل كفاءة استخدام عرض النطاق الترددي للذاكرة غير كافٍ
  4. تحليل الانطباق:
    • عدم مناقشة كافية لقيود الطريقة ونطاق الانطباق
    • تحليل غير كافٍ لقابلية التوسع لشبكات CNN بأحجام مختلفة

تقييم التأثير

  1. المساهمة الأكاديمية:
    • توفير حل جديد لتنفيذ FPGA CNN غير المكمم
    • تحقيق أداء عالية مع الحفاظ على الدقة، له قيمة نظرية مهمة
  2. القيمة العملية:
    • بناءً على سلسلة أدوات ناضجة، سهل التنفيذ الهندسي
    • مناسب لتطبيقات الحوسبة الطرفية والذكاء الاصطناعي المدمج
  3. القابلية للتكرار:
    • بناءً على أدوات HLS القياسية وإطار عمل Darknet مفتوح المصدر
    • مسار تقني نسبياً واضح، مع قابلية معينة للتكرار

السيناريوهات المناسبة

  1. تطبيقات الذكاء الاصطناعي الطرفية: سيناريوهات حساسة للطاقة وذات متطلبات عالية للدقة
  2. معالجة الصور في الوقت الفعلي: مهام معالجة الرؤية التي تتطلب كمون منخفض وأداء عالية
  3. الأنظمة المدمجة: الأجهزة ذات الموارد المحدودة التي تحتاج إلى قدرات الذكاء الاصطناعي
  4. الأتمتة الصناعية: تطبيقات الذكاء الاصطناعي الصناعية ذات المتطلبات العالية للموثوقية والدقة

المراجع

1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24

2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.

3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.


التقييم الشامل: هذه ورقة ذات قيمة عملية في مجال معجلات FPGA CNN، تقترح حلاً مبتكراً يحافظ على الدقة الكاملة، والنتائج التجريبية مثيرة للإعجاب. ومع ذلك، لا تزال هناك مجالات للتحسن في التحقق من الاكتمال ووصف التفاصيل التقنية. بالنسبة لسيناريوهات تطبيقات الذكاء الاصطناعي التي تتطلب دقة عالية، يتمتع هذا الإطار بآفاق تطبيق مهمة.