يشكل ظهور الذكاء الاصطناعي التوليدي في مهام مثل التعرف التلقائي على الكلام (ASR) تحديات شديدة في استهلاك الطاقة. بينما توفر دوائر ASIC كفاءة عالية، إلا أنها تفتقر إلى القابلية للبرمجة للتكيف مع تطور الخوارزميات. لحل هذه المقايضة، تقدم هذه الورقة تنفيذاً وتقييماً للنوى الحسابية الأساسية لـ Whisper على IMAX (مسرع مصفوفة خطية حبيبية خشنة عام CGLA). وفقاً لمعرفة المؤلفين، هذا هو أول عمل ينفذ نوى Whisper على CGRA ويقارنها مع CPU و GPU. من خلال التصميم المشترك للأجهزة والبرامج، يقيّم المؤلفون النظام باستخدام نموذج أولي FPGA ويتنبأون بأداء ASIC بتقنية 28nm. تظهر النتائج كفاءة طاقة متفوقة: بالنسبة لنموذج Q8_0، يتنبأ ASIC بكفاءة أعلى بـ 1.90 مرة من NVIDIA Jetson AGX Orin و 9.83 مرات أعلى من NVIDIA RTX 4090. يضع هذا العمل CGLA كمنصة واعدة لـ ASR المستدام على أجهزة الحافة محدودة الطاقة.
يتناول هذا البحث أزمة استهلاك الطاقة التي تواجهها أنظمة التعرف التلقائي على الكلام المدفوعة بالذكاء الاصطناعي. مع الاستخدام الواسع لنماذج ASR المتقدمة مثل Whisper (المساعدات الذكية، النسخ الفوري، التطبيقات الطبية)، تؤدي متطلبات الحوسبة إلى زيادة حادة في استهلاك الطاقة في مراكز البيانات. تتنبأ الوكالة الدولية للطاقة بأن استهلاك الكهرباء في مراكز البيانات قد يتضاعف بحلول عام 2030 إلى 945 TWh، وهو ما يتجاوز قليلاً إجمالي الاستهلاك السنوي للكهرباء في اليابان.
يقترح المؤلفون استخدام معجل IMAX بمعمارية CGLA (مصفوفة خطية حبيبية خشنة)، محاولة إيجاد أفضل توازن بين كفاءة ASIC والقابلية للبرمجة في GPGPU. يحقق IMAX من خلال ترتيب خطي لوحدات المعالجة (PE) وموديولات الذاكرة المحلية (LMM)، امتصاص أنماط الوصول إلى الذاكرة غير المنتظمة مع الحفاظ على إنتاجية عالية وكفاءة الطاقة.
الهدف: تنفيذ فعال للنوى الحسابية الأساسية لنموذج Whisper ASR (بشكل أساسي عمليات الضرب النقطي) على معجل IMAX CGLA
المدخلات: ملف صوتي بطول حوالي 10 ثوان (jfk.wav)
المخرجات: نتيجة النسخ النصي
القيود:
كما هو موضح في الشكل 2، يتم تنفيذ IMAX3 كتكوين 8 قنوات، مُنشر على FPGA AMD Versal VPK180:
تحتوي كل قناة IMAX على:
تحسين نواة الضرب النقطي FP16:
استراتيجية التنفيذ المختلطة (معالجة المتجهات بطول متغير):
نواة Q8_0: إعادة استخدام تنفيذ نواة التكميم من الأعمال السابقة
تقنية إزالة الحشو:
اختيار حجم LMM (الجدول II):
كما هو موضح في الجدول III، تتضمن منصات المقارنة:
نموذج FP16 (تنفيذ خيطين):
نموذج Q8_0 (تنفيذ خيطين):
التحليل: يوفر IMAX ASIC تسريعاً واضحاً مقارنة بتنفيذ CPU المدمج، لكن السرعة المطلقة لا تضاهي GPU (GPU يمتلك موارد حوسبة متوازية واسعة النطاق)
نموذج FP16 (تنفيذ خيطين):
نموذج Q8_0 (تنفيذ خيطين):
النتائج الرئيسية:
PDP نموذج FP16 (خيطين):
PDP نموذج Q8_0 (خيطين):
التحليل:
الخلاصة: 32KB LMM هو تكوين كفاءة الطاقة الأمثل، مما يتحقق من صحة اختيارات التصميم
تحليل وقت التنفيذ:
الرؤى الرئيسية:
تغطية النوى للنماذج الأكبر (بعد التحسين):
| النموذج | الحجم | عدد العمليات | تغطية 32KB | تغطية 64KB |
|---|---|---|---|---|
| tiny | 78MB | 477,153 | 93.80% | 93.80% |
| base | 148MB | 644,690 | 66.54% | 94.17% |
| small | 488MB | 1,920,955 | 66.52% | 94.36% |
الاكتشافات:
الطرق المتخصصة (ASIC/FPGA):
ميزة هذا العمل: IMAX معمارية عامة، غير مرتبطة بمهام ذكاء اصطناعي محددة، قادرة على التكيف السريع مع تغيرات الخوارزميات
تحديات CGRA التقليدية:
ابتكار IMAX:
تطبيقات IMAX السابقة:
وفقاً لمعرفة المؤلفين، هذا العمل هو أول تنفيذ وتقييم أجهزة لـ Whisper على CGRA، ملء الفراغ في هذا المجال.
الأنسب:
غير مناسب:
تستشهد هذه الورقة بـ 27 مرجعاً مهماً، تشمل المراجع الرئيسية:
هذا العمل هو مساهمة ابتكارية في مجال تسريع أجهزة ASR، يستكشف لأول مرة تطبيق معمارية CGLA على نموذج Whisper. من خلال التصميم المشترك المنظم للأجهزة والبرامج، يثبت المؤلفون أن IMAX يتمتع بميزة كفاءة طاقة كبيرة مقارنة بـ GPU (أعلى بـ 9.83 مرات من RTX 4090 على نموذج Q8_0). بينما توجد قيود مثل عدم دقة طريقة تقييم الطاقة وعدم مضاهاة الأداء المطلقة لـ GPU، فإن الطريقة لها قيمة عملية مهمة وأهمية بحثية في سيناريوهات الأجهزة الطرفية محدودة الطاقة. اختيار 32KB LMM الأمثل، وتحسن تغطية النوى بنسبة 93.80% الذي تحققه تقنية إزالة الحشو، وتحليل قابلية التوسع للنماذج الأكبر، كلها تعكس رؤى هندسية عميقة من قبل المؤلفين. إذا تمكن العمل المستقبلي من إجراء تصنيع ASIC فعلي والتحقق من القياسات الدقيقة للطاقة، فسيعزز بشكل كبير الإقناع والتأثير.