2025-11-11T08:28:09.570070

Improving deep neural network performance through sampling

Ghantasala, Li, Jaiswal et al.
Energy efficient sampling with probabilistic neurons or p-bits has been demonstrated in the context of Boltzmann machines and it is natural to ask if these approaches can be extended to the field of generative AI where energy costs have become prohibitively large. However, this very active field is dominated by feedforward deep neural networks (DNNs) which primarily use multi-bit deterministic neurons with no role for sampling. In this paper we first show that it is feasible to obtain superior accuracy through the use of multiple samples generated by probabilistic networks. This possibility raises the question of which option is energetically preferable for improving accuracy: generating more samples, or adding more bits to a single deterministic sample. We provide a simple expression that can be used to estimate these energy tradeoffs and illustrate it with results for different algorithms and architectures.
academic

تحسين أداء الشبكات العصبية العميقة من خلال العينات

المعلومات الأساسية

  • معرّف الورقة: 2507.07763
  • العنوان: تحسين أداء الشبكات العصبية العميقة من خلال العينات
  • المؤلفون: Lakshmi A. Ghantasala, Ming-Che Li, Risi Jaiswal, Behtash Behin-Aein, Joseph Makin, Shreyas Sen, Supriyo Datta
  • التصنيف: cond-mat.dis-nn
  • تاريخ النشر: 27 أكتوبر 2025 (نسخة arXiv المسبقة)
  • المؤسسة: كلية الهندسة الكهربائية وهندسة الحاسوب بجامعة بوردو
  • رابط الورقة: https://arxiv.org/abs/2507.07763

الملخص

تستكشف هذه الورقة إمكانية توسيع طرق العينات الموفرة للطاقة للنيورونات الاحتمالية (p-bits) من آلات بولتزمان إلى مجال الذكاء الاصطناعي التوليدي. بالنظر إلى أن الشبكات العصبية العميقة الحالية تستخدم بشكل أساسي نيورونات حتمية متعددة البتات وتفتقر إلى آليات العينات، تثبت الورقة أولاً أن العينات المتعددة الناتجة من الشبكات الاحتمالية يمكن أن تحقق دقة أفضل. ثم تطرح سؤالاً أساسياً: لتحسين الدقة، هل إنتاج عينات أكثر أم زيادة عدد البتات في العينة الحتمية الواحدة أكثر كفاءة من حيث الطاقة؟ تقدم الورقة تعبيراً بسيطاً لتقدير المقايضة في الطاقة، وتتحقق منه من خلال نتائج التجارب على خوارزميات وبنى معمارية مختلفة.

خلفية البحث والدافع

خلفية المشكلة

  1. أزمة الطاقة: تكاليف الطاقة للذكاء الاصطناعي التوليدي وصلت إلى مستويات مرعبة، مما يتطلب حلولاً لتحسين كفاءة الطاقة
  2. الاختلافات التكنولوجية: ثبت أن النيورونات الاحتمالية (p-bits) في آلات بولتزمان توفر مزايا كفاءة طاقة كبيرة، لكن الشبكات العصبية العميقة ذات التغذية الأمامية لا تزال تستخدم بشكل أساسي نيورونات حتمية متعددة البتات
  3. غياب العينات: تفتقر بنى DNN السائدة الحالية إلى آليات العينات، مما يحد من قدراتها في الاستدلال الاحتمالي

دافع البحث

  1. توسيع تطبيقات p-bits: توسيع مزايا كفاءة الطاقة المثبتة في الحوسبة الإيزينج إلى مجال التعلم الآلي
  2. المقايضة بين الطاقة والدقة: تحليل منهجي لعلاقة المقايضة في الطاقة بين عدد العينات ودقة البتات
  3. إطار تقييم موحد: إنشاء إطار عام لتقييم الطاقة ينطبق على تطبيقات DNN الاحتمالية المختلفة

المساهمات الأساسية

  1. اقتراح إطار عمل DNN احتمالي (p-DNN): دمج p-bits في الشبكات العصبية العميقة ذات التغذية الأمامية، لتحقيق الاستدلال القائم على العينات
  2. تطوير طريقة تدريب واعية بالعينات: تحسين أداء الشبكات الاحتمالية بشكل كبير من خلال استراتيجية تدريب متوسط العينات المتعددة
  3. إنشاء إطار تحليل الطاقة: اقتراح نموذج طاقة العمليات الأساسية العام الذي يمكن تقييم المقايضات في الطاقة لبنى وخوارزميات مختلفة
  4. التحقق من الجدوى العملية: التحقق من دقة التحليل النظري من خلال تطبيق FPGA، مما يثبت القيمة العملية للطريقة
  5. توفير رؤى كمية: إثبات أن عينتين فقط يمكن أن تتفوق على الخط الأساسي الحتمي، و10 عينات يمكن أن تطابق دقة نموذج حتمي بـ 3 بتات

شرح الطريقة

تعريف المهمة

تبحث هذه الورقة عن كيفية إدخال آليات العينات الاحتمالية في الشبكات العصبية العميقة لتحقيق مقايضة أفضل بين الطاقة والدقة. يتضمن ذلك بشكل محدد:

  • الإدخال: DNN حتمي تقليدي متعدد البتات
  • الإخراج: p-DNN احتمالي قادر على إنشاء عينات متعددة وتحسين الأداء من خلال المتوسط
  • القيود: تحسين كفاءة الطاقة الإجمالية مع الحفاظ على الدقة أو تحسينها

البنية المعمارية

1. الكتل الأساسية لـ p-DNN

تعرّف الورقة وحدة العملية الأساسية لـ p-DNN (الشكل 1)، مع نموذج الطاقة:

ϵEO=nbwϵwM+(n+1)baϵaM+ϵS(n,ba,bw)+ϵN\epsilon_{EO} = n b_w \epsilon_{wM} + (n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N

حيث:

  • ϵwM,ϵaM\epsilon_{wM}, \epsilon_{aM}: طاقة الوصول إلى الذاكرة للأوزان والتفعيلات
  • ϵS\epsilon_S: طاقة الحساب المشبكي
  • ϵN\epsilon_N: طاقة النيورون
  • nn: عدد الاتصالات الواردة
  • bw,bab_w, b_a: عدد بتات الأوزان والتفعيلات

2. نموذج الطاقة متعدد العينات

بالنسبة لـ T عينة، يتم تصحيح نموذج الطاقة إلى:

ϵEO=nbwϵwM+T[(n+1)baϵaM+ϵS(n,ba,bw)+ϵN]\epsilon_{EO} = n b_w \epsilon_{wM} + T[(n+1) b_a \epsilon_{aM} + \epsilon_S(n, b_a, b_w) + \epsilon_N]

يشير هذا إلى أن التكلفة الحدية للعينات المتعددة منخفضة نسبياً عندما تهيمن طاقة تحميل الأوزان.

3. استراتيجية التدريب الواعية بالعينات

  • الانتشار الأمامي: إضافة عشوائية إلى دوال التفعيل لكل طبقة، مما ينتج عنه عينات متعددة
  • حساب الخسارة: حساب الخسارة بناءً على نتائج متوسط العينات المتعددة
  • الانتشار العكسي: استخدام مقدّر المسار المباشر للتعامل مع تدرجات التفعيلات العشوائية

نقاط الابتكار التقني

1. التبسيط من MAC إلى AC

تبسيط عمليات الضرب والتراكم التقليدية (MAC) إلى عمليات التراكم (AC):

  • الحتمية: w1x1+w2x2+...+wnxnw_1x_1 + w_2x_2 + ... + w_nx_n (تتطلب الضرب)
  • الاحتمالية: التراكم الانتقائي لمجموعات فرعية من الأوزان (تتطلب الجمع فقط)

2. دالة تفعيل p-bit

استخدام شكل دالة التفعيل الاحتمالي b=sign(tanh(W)rand{1,+1})b = \text{sign}(\tanh(W) - \text{rand}\{-1,+1\})، حيث يوفر الرقم العشوائي العشوائية للعينات.

3. طريقة حقن الضوضاء

إضافة ضوضاء إلى النموذج الحتمي المدرب بالفعل للحصول على فوائد العينات دون الحاجة إلى إعادة التدريب.

إعداد التجارب

مجموعات البيانات

  1. CIFAR-10: لمهام تصنيف الصور، 50,000 صورة تدريب، 10,000 صورة اختبار
  2. CelebA: لتوليد صور الوجوه، 162,770 صورة تدريب، معاد تحجيمها إلى 64×64×3
  3. MNIST: لمهام توليد الأرقام في تجارب التحقق من FPGA

مؤشرات التقييم

  • مهام التصنيف: الدقة (Accuracy)
  • مهام التوليد: مسافة Fréchet Inception (FID)
  • مؤشرات الطاقة: الطاقة لكل استدلال (J/inference)، نسبة كسب الطاقة

طرق المقارنة

  • خط أساس DNN حتمي بـ 32 بت
  • نماذج مكممة بأرقام بتات مختلفة (1-bit, 3-bit، إلخ)
  • طرق تدفق البتات العشوائية

تفاصيل التطبيق

  • المحسّن: محسّن ADAM
  • معدل التعلم: 1e-3 (التصنيف)، 1e-4 (التوليد)
  • عدد الحقب: 1000 حقبة
  • حجم الدفعة: 64
  • تهيئة الأوزان: تهيئة Glorot

نتائج التجارب

النتائج الرئيسية

1. أداء تصنيف الصور

  • عينة واحدة: يمكن لـ p-DNN أن يطابق دقة خط الأساس الحتمي بـ 32 بت
  • عينتان: تتفوق على أداء خط الأساس الحتمي
  • 10 عينات: تصل إلى مستوى دقة نموذج حتمي بـ 3 بتات

2. جودة توليد الصور

  • التدريب الواعي بالعينات: يحسن بشكل كبير جودة الصور المولدة، مع درجات FID قريبة من خط الأساس بـ 32 بت
  • تطابق التدريب والاختبار: أفضل النتائج عند استخدام نفس عدد العينات في التدريب والاختبار
  • التحسن التدريجي: تحسن مستمر في جودة الصور مع زيادة عدد العينات

3. نتائج تحليل الطاقة

  • هيمنة الذاكرة: تحددها بشكل أساسي عمليات الوصول إلى الذاكرة، مع نسبة منخفضة من طاقة الحساب
  • مزايا العينات: في سيناريو DRAM، تضيف عينة واحدة إضافية فقط 0.7% من الطاقة، لكن يمكنها تحسين الدقة بنسبة 2%
  • الفائدة الإجمالية: مع تسامح دقة بنسبة 1%، يمكن لـ p-DNN تحقيق تقليل في الطاقة بأكثر من مرتين مقارنة بـ DNN بـ 32 بت

تجارب الاستئصال

1. مقارنة دوال التفعيل

  • Sigmoid مقابل Tanh: تظهر دالتا التفعيل أداءً متشابهاً في النماذج الاحتمالية
  • الاختلاف الحتمي: يظهر نموذج Tanh الحتمي أداءً أضعف، مما يبرز قوة النموذج الاحتمالي

2. التحقق من حقن الضوضاء

  • بدون إعادة تدريب: يمكن لحقن الضوضاء البسيط الحصول على تحسن في الأداء مع عينتين
  • التحسن الرتيب: يظهر تحسن الأداء رتابة، مما يثبت استقرار الطريقة

نتائج التحقق من FPGA

  • التحقق من الطاقة: تطابق الطاقة المقاسة بشكل كبير مع التنبؤات النظرية (2.5x مقابل 2.3x كسب)
  • الكفاءة الهندسية: انخفاض استخدام CLB LUT المرتبط بـ MAC بمقدار 2.9 مرات
  • تكلفة RNG: يمكن تجاهل تكلفة الطاقة والمساحة لمولد الأرقام العشوائية في النظام الكامل

الأعمال ذات الصلة

p-bits وحوسبة Ising

  • تطبيقات آلة بولتزمان: ثبت أن p-bits توفر مزايا كفاءة طاقة كبيرة في مشاكل التحسين والعينات
  • التطبيقات الهندسية: تطبيقات p-bits الفيزيائية بناءً على s-MTJ وثنائيات Zener وغيرها
  • إعادة استخدام البنية: يمكن استخدام أجهزة BM الموجودة مباشرة لتطبيقات p-DNN

تكميم الشبكات العصبية

  • تكميم الأوزان: تم إجراء عمل كبير لتقليل دقة الأوزان إلى 4 بتات أو أقل
  • تكميم التفعيل: يعتبر تكميم التفعيل أكثر صعوبة، وعادة ما يكون من الصعب الانخفاض إلى أقل من 8 بتات دون فقدان الأداء
  • الشبكات الثنائية: طرق الشبكات الثنائية مثل BinaryConnect و Binarized Neural Networks بـ 1 بت

الحوسبة العشوائية

  • حساب تدفق البتات العشوائية: الطريقة التقليدية لتمثيل الإشارات المستمرة باستخدام تدفقات البتات العشوائية
  • الاختلاف الأساسي: آلية العينات في p-DNN تختلف من حيث المبدأ عن حساب تدفق البتات العشوائية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. التحقق من الجدوى: يمكن للعينات الاحتمالية تحسين أداء DNN بشكل فعال، مع تحقيق فوائد كبيرة من خلال عدد قليل من العينات
  2. مزايا الطاقة: في أنظمة الذكاء الاصطناعي الحديثة التي تهيمن عليها الذاكرة، يمكن تجاهل تكلفة الحساب للعينات تقريباً
  3. قابلية التعديل في وقت التشغيل: يمكن لـ p-DNN تعديل عدد العينات ديناميكياً في وقت التشغيل، مما يوازن بشكل مرن بين الطاقة والدقة
  4. الملاءمة للأجهزة: يمكن لبنى أجهزة p-bit الموجودة دعم تطبيقات p-DNN مباشرة

القيود

  1. متطلبات العينات: قد تتطلب بعض المهام عدداً كبيراً من العينات لتحقيق الأداء المثالي
  2. تعقيد التدريب: يزيد التدريب الواعي بالعينات من تعقيد عملية التدريب
  3. الاعتماد على الذاكرة: تعتمد مزايا الطاقة إلى حد كبير على هيمنة تكلفة الوصول إلى الذاكرة
  4. نطاق التطبيق: تم التحقق بشكل أساسي من مهام الرؤية، والقابلية للتطبيق في المجالات الأخرى تحتاج إلى مزيد من التحقق

الاتجاهات المستقبلية

  1. تطبيقات نماذج اللغة الكبيرة: توسيع p-DNN إلى نماذج أكبر مثل LLMs
  2. التطبيقات التناظرية: استكشاف تطبيقات p-bit المستندة إلى الدوائر التناظرية لتقليل الطاقة بشكل أكبر
  3. التكامل مع الحوسبة داخل الذاكرة: الجمع مع بنى الحوسبة داخل الذاكرة لتعظيم مزايا كفاءة الطاقة
  4. استراتيجيات العينات المتقدمة: تطوير طرق لدمج العينات تتجاوز المتوسط البسيط

التقييم المتعمق

المزايا

  1. الابتكار القوي: أول دراسة منهجية لإدخال p-bits في DNN ذات التغذية الأمامية، مما يفتح اتجاهاً بحثياً جديداً
  2. النظرية الصلبة: توفير إطار تحليل طاقة شامل بقابلية عامة وقابلية توسع قوية
  3. التجارب الشاملة: تغطي مهام متعددة مثل التصنيف والتوليد، مع التحقق من الجدوى العملية من خلال FPGA
  4. القيمة العملية العالية: توفير حل تحسين قابل للتطبيق في سياق أزمة الطاقة الحالية للذكاء الاصطناعي
  5. التحليل العميق: تحليل عميق لمقايضة الطاقة بين الذاكرة والحساب، مما يوفر رؤى مهمة

أوجه القصور

  1. قيود الحجم: تركز التجارب بشكل أساسي على نماذج صغيرة نسبياً، مع عدم وضوح أداء النماذج الكبيرة
  2. تغطية المهام: تركز بشكل أساسي على مهام الرؤية، مع عدم وضوح القابلية للتطبيق في مجالات أخرى مثل معالجة اللغات الطبيعية
  3. خطوط الأساس المقارنة: المقارنة مع أحدث طرق التكميم والضغط غير كافية
  4. التحليل النظري: نقص التفسير النظري العميق لسبب تحقيق عينات قليلة تحسناً كبيراً

التأثير

  1. القيمة الأكاديمية: توفير أفكار وطرق جديدة لدمج الحوسبة الاحتمالية والتعلم العميق
  2. الأهمية الهندسية: ذات أهمية توجيهية كبيرة في تصميم أجهزة الذكاء الاصطناعي، خاصة في تحسين كفاءة الطاقة
  3. آفاق الصناعة: آفاق تطبيق واسعة في تطبيقات الذكاء الاصطناعي على الأجهزة المحمولة والحوسبة الطرفية

السيناريوهات المعمول بها

  1. البيئات المحدودة الموارد: الأجهزة المحمولة وأجهزة IoT وغيرها من السيناريوهات الحساسة للطاقة
  2. الاستدلال في الوقت الفعلي: التطبيقات التي تتطلب المرونة في الموازنة بين الكمون والدقة
  3. النشر على نطاق واسع: سيناريوهات مثل مراكز البيانات التي تتطلب معالجة طلبات ضخمة
  4. الحوسبة الطرفية: الأجهزة الطرفية حيث تكون النطاقات الترددية وموارد الحساب محدودة

المراجع

تستشهد الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:

  • Li et al. 2025 ISSCC: تطبيق QMC بـ 65nm ASIC
  • Hubara et al.: العمل الرائد في الشبكات العصبية المكممة
  • Courbariaux et al.: الشبكات العصبية الثنائية BinaryConnect
  • Jacob et al.: طريقة التدريب بالتكميم الصحيح

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات مهمة في مجال التقاطع بين الحوسبة الاحتمالية والتعلم العميق. لا تقتصر الورقة على اقتراح حل تقني مبتكر، بل توفر أيضاً إطار تحليل نظري شامل والتحقق من التجارب، مع قيمة أكاديمية وعملية قوية. على الرغم من وجود مجال للتحسين في بعض الجوانب، فإن الورقة بشكل عام تمثل تقدماً مهماً في هذا المجال.