Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
- معرّف الورقة: 2509.18355
- العنوان: نظام SoC قائم على Chiplet مع RISC-V وتسريع ذكاء اصطناعي معياري
- المؤلفون: Suhas Suresh Bharadwaj (معهد بيرلا للتكنولوجيا والعلوم، بيلاني – دبي)، Prerana Ramkumar (جامعة الشارقة الأمريكية)
- التصنيف: cs.AR (معمارية الحاسوب)، cs.AI (الذكاء الاصطناعي)
- وقت النشر/المؤتمر: لم يتم تحديد معلومات المؤتمر بوضوح
- رابط الورقة: https://arxiv.org/abs/2509.18355
تقترح هذه الورقة معمارية نظام SoC قائمة على RISC-V وتكنولوجيا chiplet مبتكرة، وتعالج تحديات التوازن بين الأداء العالية والكفاءة في استهلاك الطاقة والفعالية من حيث التكلفة لأجهزة الذكاء الاصطناعي الطرفية. يدمج التصميم أربع ابتكارات رئيسية على طبقة سيليكون بحجم 30 ملم × 30 ملم: تنظيم الجهد والتردد الديناميكي التكيفي عبر chiplets (DVFS)، وتوسيع بروتوكول UCIe الذي يدرك الذكاء الاصطناعي، والأمان التشفيري الموزع، وترحيل الحمل الذكي المدفوع بالمستشعرات. تُظهر النتائج التجريبية أن التكوين المُحسّن للذكاء الاصطناعي حقق انخفاضاً في الكمون بنسبة 14.7% وزيادة في الإنتاجية بنسبة 17.3% وتقليلاً في استهلاك الطاقة بنسبة 16.2% مقارنة بتطبيق chiplet الأساسي، مع تحسن إجمالي في الكفاءة بنسبة 40.1%.
تتطلب منصات الذكاء الاصطناعي الطرفية تلبية متطلبات أداء صارمة، بما في ذلك كمون من طرف إلى طرف أقل من الميلي ثانية وغلاف طاقة أقل من 2 واط، مع تنفيذ شبكات عميقة متزايدة التعقيد مثل MobileNetV2 و ResNet-50. ومع ذلك، تواجه أساليب نظام SoC أحادي التصميم التقليدية تحديات في التصنيع والإنتاجية.
- الطلب في السوق: يُتوقع وجود 500 مليار جهاز بحلول عام 2030، حيث ستحتل منصات الذكاء الاصطناعي الطرفية حصة مهمة
- التحديات التكنولوجية: في عقد العمليات المتقدمة، تكون الإنتاجية منخفضة جداً (أقل من 16%) لمساحات رقاقة بمئات الملليمترات المربعة
- متطلبات التطبيقات: تفرض المجالات مثل القيادة الذاتية والأتمتة الصناعية والرعاية الطبية متطلبات صارمة على قدرات الاستدلال في الوقت الفعلي
- نظام SoC أحادي: إنتاجية تصنيع منخفضة في عقد العمليات المتقدمة، مع اقتصاديات سيئة
- DVFS التقليدي: وقت تحويل الجهد طويل (مستوى عشرات الميلي ثانية)، مما يحد من التعديل الدقيق
- التكامل الأمني: يشكل تكامل chiplets متعددة الموردين مخاطر أمنية، بما في ذلك التزييف والاستنساخ والتلاعب بسلسلة التوريد
توفر تكنولوجيا التكامل ثنائي الأبعاد والنصف (2.5D) القائمة على chiplet بديلاً عملياً من خلال تقسيم نظام SoC كبير إلى رقاقات أصغر غير متجانسة، متصلة من خلال ترابطات طبقة سيليكون عالية الكثافة.
- اقتراح معمارية نظام SoC قائمة على RISC-V وتكنولوجيا chiplet: تدمج chiplet معالج RISC-V بتقنية 7 نانومتر، ومسرعات ذكاء اصطناعي مزدوجة بتقنية 5 نانومتر (كل منها 15 TOPS INT8)، وذاكرة HBM3 بسعة 16 جيجابايت، ومتحكم إدارة طاقة متخصص
- تطبيق أربع ابتكارات نظام رئيسية:
- نظام DVFS تكيفي عبر chiplets
- توسيع بروتوكول UCIe الذي يدرك الذكاء الاصطناعي
- إطار عمل أمان تشفيري موزع
- نظام إدارة حرارة ذكي
- التحقق من تحسينات الأداء الكبيرة: تحقيق انخفاض في الكمون بنسبة 14.7% وزيادة في الإنتاجية بنسبة 17.3% وتقليل في استهلاك الطاقة بنسبة 16.2% مقارنة بتطبيق chiplet الأساسي
- إثبات قدرة المعالجة في الوقت الفعلي: الحفاظ على قدرة الوقت الفعلي أقل من 5 ميلي ثانية عبر جميع أحمال العمل المختبرة
يستخدم النظام معمارية chiplet معيارية على طبقة سيليكون بحجم 30 ملم × 30 ملم، تتضمن:
- chiplet معالج RISC-V: 5 ملم × 5 ملم، تقنية 7 نانومتر، مع توسيع متجه مخصص مدمج
- chiplet مسرع الذكاء الاصطناعي: مزدوج 6 ملم × 4 ملم، تقنية 5 نانومتر، يوفر كل منها 15 TOPS INT8
- ذاكرة HBM3: سعة 16 جيجابايت، عرض نطاق 819 جيجابايت/ثانية
- chiplet الإدخال/الإخراج وإدارة الطاقة: 7 ملم × 3 ملم
- متحكم الأمان: 3 ملم × 2 ملم
يستخدم وصلات chiplet بين الرقاقات UCIe 2.0 لتحقيق اتصال chiplet:
- عرض النطاق: ~30 جيجابايت/ثانية
- الكمون: <2 نانوثانية
- دعم البروتوكول: معالجة متزامنة لحركة ذاكرة CXL وبروتوكولات البيانات المتدفقة الأخرى
- الميزات الموسعة: FLITs متدفقة، والجلب المتنبأ به، ونقل الاستشعار المضغوط
الخصائص التقنية:
- استخدام منظمات على الرقاقة لتحقيق تبديل جهد بسرعة النانوثانية
- التنبؤ بمراحل أحمال العمل وإعادة تخصيص الطاقة من خلال جزر جهد دقيقة الحبيبات
- التغلب على قيود وقت تحويل الجهد التقليدي البالغ عشرات الميلي ثانية
تحسينات الأداء:
- تقليل استهلاك الطاقة بنسبة 12% لأحمال العمل كثيفة الذاكرة
- تأثير الأداء مهمل
نقاط التصميم:
- مكدس اتصال كامل بين الرقاقات بناءً على مواصفات UCIe 2.0
- يتضمن الطبقة الفيزيائية وطبقة التكيف وطبقة البروتوكول
- يدعم وحدات التحكم في التدفق المتدفقة ونقل الاستشعار المضغوط
- يوفر معمارية موحدة لإدارة النظام والتصحيح والاختبار
السياسات الأمنية:
- استخدام بروتوكول الحسابات متعددة الأطراف (MPC) القائم على الشجرة
- معمارية أمان لامركزية تتجنب نقطة الفشل الواحدة
- دمج وصلات تشفيرية وهويات تشفيرية لكل chiplet
- إطار عمل أمان موزع قابل للتوسع في بيئة بدون ثقة
الطريقة التنبؤية:
- ترحيل حمل مدفوع بالمستشعرات
- تجاوز إدارة الحرارة التفاعلية البحتة (تقييد الأداء فقط عند الوصول إلى درجة حرارة حرجة)
- التنبؤ الذكي وتوزيع الحمل الاستباقي
تم تطوير محاكي قائم على Python لتقييم تصميم chiplet RISC-V SoC:
- نمذجة كمون الترابط واستهلاك الطاقة وسلوك الاختناق الحراري
- تطبيق تحجيم الكفاءة من حيث الطاقة من خلال عامل تحجيم جهد ثابت
- المعاملات مستمدة من مواصفات UCIe وأبحاث تحجيم الطاقة والقياسات المبلغ عنها في الأدبيات
تم تعريف أربعة سيناريوهات اختبار:
| السيناريو | الكمون (ميكروثانية) | عرض النطاق (جيجابت/ثانية) | الطاقة الأساسية (ميلي واط) | طاقة الاتصال (ميلي واط/ميلي ثانية) | عامل الكفاءة |
|---|
| نظام SoC أحادي | 0.0 | ∞ | 1500 | 0.0 | 1.0 |
| Chiplet أساسي | 1.5 | 16.0 | 1200 | 35 | 0.95 |
| Chiplet محسّن للذكاء الاصطناعي | 0.8 | 24.0 | 1100 | 25 | 0.90 |
| تكامل سيء | 8.0 | 8.0 | 1800 | 80 | 1.10 |
تم اختيار مهام استدلال طرفية تمثيلية من معايير MLPerf Tiny:
| حمل العمل | الحسابات الأساسية (ميلي ثانية) | حجم الإدخال (ميجابايت) | عامل التعقيد | كفاءة المعالجة الدفعية |
|---|
| MobileNetV2 | 3.5 | 0.57 | 0.8 | 0.85 |
| ResNet-50 | 12.0 | 0.57 | 1.2 | 0.90 |
| فيديو في الوقت الفعلي | 2.0 | 0.30 | 1.0 | 0.70 |
- كمون الاستدلال: وقت إكمال الاستدلال الواحد
- الإنتاجية: GFLOPs/ثانية أو صور/ثانية
- استهلاك الطاقة: ميلي واط
- كفاءة الطاقة: TOPS/واط
- قابلية التوسع: تأثيرات حجم الدفعة
| المعمارية | الكمون (ميلي ثانية) | الإنتاجية (صور/ثانية) | استهلاك الطاقة (ميلي واط) |
|---|
| نظام SoC أحادي | 4.7 ± 0.2 | 213 | 1284 |
| Chiplet أساسي | 4.8 ± 0.2 | 208 | 1026 |
| محسّن للذكاء الاصطناعي | 4.1 ± 0.3 | 244 | 860 |
| تكامل سيء | 6.2 ± 0.3 | 163 | 1776 |
حقق التكوين المحسّن للذكاء الاصطناعي مقارنة بتطبيق chiplet الأساسي:
- انخفاض الكمون: من 4.8 ميلي ثانية إلى 4.1 ميلي ثانية (≈انخفاض بنسبة 14.7%)
- زيادة الإنتاجية: من 208 صور/ثانية إلى 244 صور/ثانية (≈زيادة بنسبة 17.3%)
- تقليل استهلاك الطاقة: من 1026 ميلي واط إلى 860 ميلي واط (≈تقليل بنسبة 16.2%)
- تحسن كفاءة الطاقة: من 0.203 TOPS/واط إلى 0.284 TOPS/واط (≈تحسن بنسبة 40.1%)
- مقاييس كفاءة الطاقة: ≈3.5 ميلي جول لكل استدلال MobileNetV2 (860 ميلي واط / 244 صور/ثانية)
- قدرة الوقت الفعلي: جميع أحمال العمل المختبرة تلبي متطلبات أقل من 5 ميلي ثانية
- توسع المعالجة الدفعية: في نطاق حجم الدفعة 1-32، يحافظ التحسين للذكاء الاصطناعي على أعلى إنتاجية
- مزايا المعمارية: يمكن لتصميم chiplet المعياري تحقيق كثافة حسابية قريبة من النظام الأحادي
- فعالية التكلفة: تحقيق كفاءة التكلفة والقابلية للتوسع والقابلية للترقية مع الحفاظ على الأداء
- ضمان الوقت الفعلي: أداء متسقة عبر جميع أحمال العمل
- تحسين استهلاك الطاقة: تقليل كبير في استهلاك الطاقة دون التضحية بالأداء
- منصات الذكاء الاصطناعي الطرفية: دعم الاستدلال في الوقت الفعلي للأنظمة المستقلة والأتمتة الصناعية والرعاية الطبية
- تكنولوجيا Chiplet: تكنولوجيا التكامل 2.5D تحقق ترابط رقاقات غير متجانسة من خلال طبقة سيليكون
- مسرعات الذكاء الاصطناعي: مسرعات استدلال ذكاء اصطناعي بتقنية 5 نانومتر تحقق كفاءة تصل إلى 95.6 TOPS/واط
- تكنولوجيا الذاكرة: توفر HBM3 عرض نطاق يصل إلى 819 جيجابايت/ثانية لتخفيف اختناق DRAM الخارجي
- تحسين على مستوى النظام: حل شامل يجمع بين DVFS وتحسين UCIe والأمان الموزع وإدارة الحرارة
- الأداء في الوقت الفعلي: التركيز على متطلبات الاستدلال في الوقت الفعلي للذكاء الاصطناعي الطرفي
- التصميم المعياري: معمارية chiplet توازن بين الأداء والتكلفة والقابلية للترقية
- الجدوى التقنية: معمارية نظام SoC قائمة على RISC-V وتكنولوجيا chiplet تحل بنجاح مشكلة التوازن بين الأداء والكفاءة والتكلفة لأجهزة الذكاء الاصطناعي الطرفية
- تحسينات الأداء الكبيرة: تحقيق تحسينات شاملة في الأداء واستهلاك الطاقة والكفاءة من خلال تكامل أربع ابتكارات رئيسية
- القيمة العملية: توفير حل عملي لتطبيقات أجهزة الذكاء الاصطناعي الطرفية من الجيل القادم
- التحقق بالمحاكاة: تستند النتائج إلى محاكي Python، وتفتقر إلى التحقق من الأجهزة الفعلية
- نطاق أحمال العمل: يقتصر الاختبار على ثلاثة أحمال عمل ذكاء اصطناعي محددة
- تحليل التكلفة: لم يتم توفير تحليل تكلفة تصنيع مفصل
- الموثوقية طويلة الأجل: لم يتم تقييم الموثوقية والاستقرار أثناء التشغيل طويل الأجل
- النماذج الأولية للأجهزة: تطوير نموذج أولي للأجهزة الفعلية للتحقق
- التقييم الموسع: اختبار الأداء على نطاق أوسع من أحمال العمل للذكاء الاصطناعي
- تحسين التصنيع: البحث عن تحسينات إضافية في تصنيع وتكامل chiplets
- التوحيد القياسي: دفع تطوير معايير ترابط chiplet والأمان
- الابتكار النظامي: اقتراح حل شامل يجمع بين أربع ابتكارات تقنية رئيسية، يعالج بشكل منهجي مشاكل متعددة في تصميم chiplet
- التوجه العملي: التركيز على الاحتياجات الفعلية للذكاء الاصطناعي الطرفي، مع الاهتمام بالأداء في الوقت الفعلي وكفاءة استهلاك الطاقة
- التقييم الكمي: توفير بيانات أداء مفصلة وتحليل مقارن، مع نتائج مقنعة
- العمق التقني: يغطي طبقات متعددة من معمارية الأجهزة إلى تحسينات على مستوى النظام
- قيود التحقق: التحقق بالمحاكاة فقط، مع نقص التطبيق والاختبار على الأجهزة الفعلية
- مصادر المعاملات: قد تكون دقة وتمثيل بعض معاملات المحاكاة موضع تساؤل
- نقص تحليل التكلفة: لم يتم توفير تحليل اقتصادي مفصل ومقارنة تكاليف التصنيع
- التحقق من الأمان: لم يتم التحقق الكافي من الفعالية الفعلية لإطار العمل الأمني الموزع
- المساهمة الأكاديمية: توفير مرجع مهم لتصميم معمارية chiplet في تطبيقات الذكاء الاصطناعي الطرفية
- الدفع التكنولوجي: قد يدفع تطوير توسيع بروتوكول UCIe ومعايير أمان chiplet
- القيمة الصناعية: توفير حل عملي لتطوير تكنولوجيا chiplet في صناعة أشباه الموصلات
- اتجاهات البحث: توفير إطار عمل أساسي وطرق تقييم للأبحاث ذات الصلة اللاحقة
- أجهزة الذكاء الاصطناعي الطرفية: تطبيقات مثل القيادة الذاتية والأتمتة الصناعية والمراقبة الذكية التي تتطلب استدلال ذكاء اصطناعي في الوقت الفعلي
- الحوسبة عالية الأداء: سيناريوهات تتطلب قدرة حسابية معيارية وقابلة للتوسع
- التطبيقات الحساسة للتكلفة: تطبيقات تجارية تتطلب توازن بين الأداء والتكلفة
- تطوير النماذج الأولية: توفير مرجع لمزيد من البحث والتطوير في معمارية chiplet
تستشهد الورقة بـ 19 مرجعاً ذا صلة، تغطي مجالات متعددة ذات صلة بما في ذلك الذكاء الاصطناعي الطرفي وتكنولوجيا chiplet و DVFS والمعمارية الأمنية، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة بحثية ذات قيمة مهمة في مجال معمارية الحاسوب، تقترح تصميم معمارية chiplet مبتكرة لتطبيقات الذكاء الاصطناعي الطرفية. على الرغم من وجود قيود في جوانب التحقق العملي، فإن الابتكارات التقنية المنهجية والتحليل التفصيلي للأداء توفران مساهمة مهمة لتطوير هذا المجال.