2025-11-18T21:55:13.846797

Chiplet-Based RISC-V SoC with Modular AI Acceleration

Ramkumar, Bharadwaj

Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.

academic

نظام SoC قائم على Chiplet مع RISC-V وتسريع ذكاء اصطناعي معياري

المعلومات الأساسية

معرّف الورقة: 2509.18355
العنوان: نظام SoC قائم على Chiplet مع RISC-V وتسريع ذكاء اصطناعي معياري
المؤلفون: Suhas Suresh Bharadwaj (معهد بيرلا للتكنولوجيا والعلوم، بيلاني – دبي)، Prerana Ramkumar (جامعة الشارقة الأمريكية)
التصنيف: cs.AR (معمارية الحاسوب)، cs.AI (الذكاء الاصطناعي)
وقت النشر/المؤتمر: لم يتم تحديد معلومات المؤتمر بوضوح
رابط الورقة: https://arxiv.org/abs/2509.18355

الملخص

تقترح هذه الورقة معمارية نظام SoC قائمة على RISC-V وتكنولوجيا chiplet مبتكرة، وتعالج تحديات التوازن بين الأداء العالية والكفاءة في استهلاك الطاقة والفعالية من حيث التكلفة لأجهزة الذكاء الاصطناعي الطرفية. يدمج التصميم أربع ابتكارات رئيسية على طبقة سيليكون بحجم 30 ملم × 30 ملم: تنظيم الجهد والتردد الديناميكي التكيفي عبر chiplets (DVFS)، وتوسيع بروتوكول UCIe الذي يدرك الذكاء الاصطناعي، والأمان التشفيري الموزع، وترحيل الحمل الذكي المدفوع بالمستشعرات. تُظهر النتائج التجريبية أن التكوين المُحسّن للذكاء الاصطناعي حقق انخفاضاً في الكمون بنسبة 14.7% وزيادة في الإنتاجية بنسبة 17.3% وتقليلاً في استهلاك الطاقة بنسبة 16.2% مقارنة بتطبيق chiplet الأساسي، مع تحسن إجمالي في الكفاءة بنسبة 40.1%.

خلفية البحث والدافع

تعريف المشكلة

تتطلب منصات الذكاء الاصطناعي الطرفية تلبية متطلبات أداء صارمة، بما في ذلك كمون من طرف إلى طرف أقل من الميلي ثانية وغلاف طاقة أقل من 2 واط، مع تنفيذ شبكات عميقة متزايدة التعقيد مثل MobileNetV2 و ResNet-50. ومع ذلك، تواجه أساليب نظام SoC أحادي التصميم التقليدية تحديات في التصنيع والإنتاجية.

أهمية المشكلة

الطلب في السوق: يُتوقع وجود 500 مليار جهاز بحلول عام 2030، حيث ستحتل منصات الذكاء الاصطناعي الطرفية حصة مهمة
التحديات التكنولوجية: في عقد العمليات المتقدمة، تكون الإنتاجية منخفضة جداً (أقل من 16%) لمساحات رقاقة بمئات الملليمترات المربعة
متطلبات التطبيقات: تفرض المجالات مثل القيادة الذاتية والأتمتة الصناعية والرعاية الطبية متطلبات صارمة على قدرات الاستدلال في الوقت الفعلي

قيود الأساليب الموجودة

نظام SoC أحادي: إنتاجية تصنيع منخفضة في عقد العمليات المتقدمة، مع اقتصاديات سيئة
DVFS التقليدي: وقت تحويل الجهد طويل (مستوى عشرات الميلي ثانية)، مما يحد من التعديل الدقيق
التكامل الأمني: يشكل تكامل chiplets متعددة الموردين مخاطر أمنية، بما في ذلك التزييف والاستنساخ والتلاعب بسلسلة التوريد

دافع البحث

توفر تكنولوجيا التكامل ثنائي الأبعاد والنصف (2.5D) القائمة على chiplet بديلاً عملياً من خلال تقسيم نظام SoC كبير إلى رقاقات أصغر غير متجانسة، متصلة من خلال ترابطات طبقة سيليكون عالية الكثافة.

المساهمات الأساسية

اقتراح معمارية نظام SoC قائمة على RISC-V وتكنولوجيا chiplet: تدمج chiplet معالج RISC-V بتقنية 7 نانومتر، ومسرعات ذكاء اصطناعي مزدوجة بتقنية 5 نانومتر (كل منها 15 TOPS INT8)، وذاكرة HBM3 بسعة 16 جيجابايت، ومتحكم إدارة طاقة متخصص
تطبيق أربع ابتكارات نظام رئيسية:
- نظام DVFS تكيفي عبر chiplets
- توسيع بروتوكول UCIe الذي يدرك الذكاء الاصطناعي
- إطار عمل أمان تشفيري موزع
- نظام إدارة حرارة ذكي
التحقق من تحسينات الأداء الكبيرة: تحقيق انخفاض في الكمون بنسبة 14.7% وزيادة في الإنتاجية بنسبة 17.3% وتقليل في استهلاك الطاقة بنسبة 16.2% مقارنة بتطبيق chiplet الأساسي
إثبات قدرة المعالجة في الوقت الفعلي: الحفاظ على قدرة الوقت الفعلي أقل من 5 ميلي ثانية عبر جميع أحمال العمل المختبرة

شرح الطريقة

تصميم معمارية النظام

المعمارية الشاملة

يستخدم النظام معمارية chiplet معيارية على طبقة سيليكون بحجم 30 ملم × 30 ملم، تتضمن:

chiplet معالج RISC-V: 5 ملم × 5 ملم، تقنية 7 نانومتر، مع توسيع متجه مخصص مدمج
chiplet مسرع الذكاء الاصطناعي: مزدوج 6 ملم × 4 ملم، تقنية 5 نانومتر، يوفر كل منها 15 TOPS INT8
ذاكرة HBM3: سعة 16 جيجابايت، عرض نطاق 819 جيجابايت/ثانية
chiplet الإدخال/الإخراج وإدارة الطاقة: 7 ملم × 3 ملم
متحكم الأمان: 3 ملم × 2 ملم

نظام ترابط UCIe

يستخدم وصلات chiplet بين الرقاقات UCIe 2.0 لتحقيق اتصال chiplet:

عرض النطاق: ~30 جيجابايت/ثانية
الكمون: <2 نانوثانية
دعم البروتوكول: معالجة متزامنة لحركة ذاكرة CXL وبروتوكولات البيانات المتدفقة الأخرى
الميزات الموسعة: FLITs متدفقة، والجلب المتنبأ به، ونقل الاستشعار المضغوط

الابتكارات التقنية الرئيسية

1. DVFS التكيفي عبر Chiplet

الخصائص التقنية:

استخدام منظمات على الرقاقة لتحقيق تبديل جهد بسرعة النانوثانية
التنبؤ بمراحل أحمال العمل وإعادة تخصيص الطاقة من خلال جزر جهد دقيقة الحبيبات
التغلب على قيود وقت تحويل الجهد التقليدي البالغ عشرات الميلي ثانية

تحسينات الأداء:

تقليل استهلاك الطاقة بنسبة 12% لأحمال العمل كثيفة الذاكرة
تأثير الأداء مهمل

2. توسيع بروتوكول UCIe الذي يدرك الذكاء الاصطناعي

نقاط التصميم:

مكدس اتصال كامل بين الرقاقات بناءً على مواصفات UCIe 2.0
يتضمن الطبقة الفيزيائية وطبقة التكيف وطبقة البروتوكول
يدعم وحدات التحكم في التدفق المتدفقة ونقل الاستشعار المضغوط
يوفر معمارية موحدة لإدارة النظام والتصحيح والاختبار

3. إطار عمل الأمان الموزع (AuthenTree)

السياسات الأمنية:

استخدام بروتوكول الحسابات متعددة الأطراف (MPC) القائم على الشجرة
معمارية أمان لامركزية تتجنب نقطة الفشل الواحدة
دمج وصلات تشفيرية وهويات تشفيرية لكل chiplet
إطار عمل أمان موزع قابل للتوسع في بيئة بدون ثقة

4. إدارة الحرارة الذكية

الطريقة التنبؤية:

ترحيل حمل مدفوع بالمستشعرات
تجاوز إدارة الحرارة التفاعلية البحتة (تقييد الأداء فقط عند الوصول إلى درجة حرارة حرجة)
التنبؤ الذكي وتوزيع الحمل الاستباقي

إعداد التجربة

إطار العمل للمحاكاة

تم تطوير محاكي قائم على Python لتقييم تصميم chiplet RISC-V SoC:

نمذجة كمون الترابط واستهلاك الطاقة وسلوك الاختناق الحراري
تطبيق تحجيم الكفاءة من حيث الطاقة من خلال عامل تحجيم جهد ثابت
المعاملات مستمدة من مواصفات UCIe وأبحاث تحجيم الطاقة والقياسات المبلغ عنها في الأدبيات

السيناريوهات المختبرة

تم تعريف أربعة سيناريوهات اختبار:

السيناريو	الكمون (ميكروثانية)	عرض النطاق (جيجابت/ثانية)	الطاقة الأساسية (ميلي واط)	طاقة الاتصال (ميلي واط/ميلي ثانية)	عامل الكفاءة
نظام SoC أحادي	0.0	∞	1500	0.0	1.0
Chiplet أساسي	1.5	16.0	1200	35	0.95
Chiplet محسّن للذكاء الاصطناعي	0.8	24.0	1100	25	0.90
تكامل سيء	8.0	8.0	1800	80	1.10

أحمال العمل

تم اختيار مهام استدلال طرفية تمثيلية من معايير MLPerf Tiny:

حمل العمل	الحسابات الأساسية (ميلي ثانية)	حجم الإدخال (ميجابايت)	عامل التعقيد	كفاءة المعالجة الدفعية
MobileNetV2	3.5	0.57	0.8	0.85
ResNet-50	12.0	0.57	1.2	0.90
فيديو في الوقت الفعلي	2.0	0.30	1.0	0.70

مقاييس التقييم

كمون الاستدلال: وقت إكمال الاستدلال الواحد
الإنتاجية: GFLOPs/ثانية أو صور/ثانية
استهلاك الطاقة: ميلي واط
كفاءة الطاقة: TOPS/واط
قابلية التوسع: تأثيرات حجم الدفعة

نتائج التجربة

النتائج الرئيسية

معيار MobileNetV2 (حجم الدفعة = 1)

المعمارية	الكمون (ميلي ثانية)	الإنتاجية (صور/ثانية)	استهلاك الطاقة (ميلي واط)
نظام SoC أحادي	4.7 ± 0.2	213	1284
Chiplet أساسي	4.8 ± 0.2	208	1026
محسّن للذكاء الاصطناعي	4.1 ± 0.3	244	860
تكامل سيء	6.2 ± 0.3	163	1776

تحليل تحسينات الأداء

حقق التكوين المحسّن للذكاء الاصطناعي مقارنة بتطبيق chiplet الأساسي:

انخفاض الكمون: من 4.8 ميلي ثانية إلى 4.1 ميلي ثانية (≈انخفاض بنسبة 14.7%)
زيادة الإنتاجية: من 208 صور/ثانية إلى 244 صور/ثانية (≈زيادة بنسبة 17.3%)
تقليل استهلاك الطاقة: من 1026 ميلي واط إلى 860 ميلي واط (≈تقليل بنسبة 16.2%)
تحسن كفاءة الطاقة: من 0.203 TOPS/واط إلى 0.284 TOPS/واط (≈تحسن بنسبة 40.1%)

الأداء عبر أحمال العمل

مقاييس كفاءة الطاقة: ≈3.5 ميلي جول لكل استدلال MobileNetV2 (860 ميلي واط / 244 صور/ثانية)
قدرة الوقت الفعلي: جميع أحمال العمل المختبرة تلبي متطلبات أقل من 5 ميلي ثانية
توسع المعالجة الدفعية: في نطاق حجم الدفعة 1-32، يحافظ التحسين للذكاء الاصطناعي على أعلى إنتاجية

النتائج التجريبية

مزايا المعمارية: يمكن لتصميم chiplet المعياري تحقيق كثافة حسابية قريبة من النظام الأحادي
فعالية التكلفة: تحقيق كفاءة التكلفة والقابلية للتوسع والقابلية للترقية مع الحفاظ على الأداء
ضمان الوقت الفعلي: أداء متسقة عبر جميع أحمال العمل
تحسين استهلاك الطاقة: تقليل كبير في استهلاك الطاقة دون التضحية بالأداء

الأعمال ذات الصلة

اتجاهات البحث الرئيسية

منصات الذكاء الاصطناعي الطرفية: دعم الاستدلال في الوقت الفعلي للأنظمة المستقلة والأتمتة الصناعية والرعاية الطبية
تكنولوجيا Chiplet: تكنولوجيا التكامل 2.5D تحقق ترابط رقاقات غير متجانسة من خلال طبقة سيليكون
مسرعات الذكاء الاصطناعي: مسرعات استدلال ذكاء اصطناعي بتقنية 5 نانومتر تحقق كفاءة تصل إلى 95.6 TOPS/واط
تكنولوجيا الذاكرة: توفر HBM3 عرض نطاق يصل إلى 819 جيجابايت/ثانية لتخفيف اختناق DRAM الخارجي

نقاط الابتكار في هذه الورقة

تحسين على مستوى النظام: حل شامل يجمع بين DVFS وتحسين UCIe والأمان الموزع وإدارة الحرارة
الأداء في الوقت الفعلي: التركيز على متطلبات الاستدلال في الوقت الفعلي للذكاء الاصطناعي الطرفي
التصميم المعياري: معمارية chiplet توازن بين الأداء والتكلفة والقابلية للترقية

الخلاصة والنقاش

الاستنتاجات الرئيسية

الجدوى التقنية: معمارية نظام SoC قائمة على RISC-V وتكنولوجيا chiplet تحل بنجاح مشكلة التوازن بين الأداء والكفاءة والتكلفة لأجهزة الذكاء الاصطناعي الطرفية
تحسينات الأداء الكبيرة: تحقيق تحسينات شاملة في الأداء واستهلاك الطاقة والكفاءة من خلال تكامل أربع ابتكارات رئيسية
القيمة العملية: توفير حل عملي لتطبيقات أجهزة الذكاء الاصطناعي الطرفية من الجيل القادم

القيود

التحقق بالمحاكاة: تستند النتائج إلى محاكي Python، وتفتقر إلى التحقق من الأجهزة الفعلية
نطاق أحمال العمل: يقتصر الاختبار على ثلاثة أحمال عمل ذكاء اصطناعي محددة
تحليل التكلفة: لم يتم توفير تحليل تكلفة تصنيع مفصل
الموثوقية طويلة الأجل: لم يتم تقييم الموثوقية والاستقرار أثناء التشغيل طويل الأجل

الاتجاهات المستقبلية

النماذج الأولية للأجهزة: تطوير نموذج أولي للأجهزة الفعلية للتحقق
التقييم الموسع: اختبار الأداء على نطاق أوسع من أحمال العمل للذكاء الاصطناعي
تحسين التصنيع: البحث عن تحسينات إضافية في تصنيع وتكامل chiplets
التوحيد القياسي: دفع تطوير معايير ترابط chiplet والأمان

التقييم المتعمق

المزايا

الابتكار النظامي: اقتراح حل شامل يجمع بين أربع ابتكارات تقنية رئيسية، يعالج بشكل منهجي مشاكل متعددة في تصميم chiplet
التوجه العملي: التركيز على الاحتياجات الفعلية للذكاء الاصطناعي الطرفي، مع الاهتمام بالأداء في الوقت الفعلي وكفاءة استهلاك الطاقة
التقييم الكمي: توفير بيانات أداء مفصلة وتحليل مقارن، مع نتائج مقنعة
العمق التقني: يغطي طبقات متعددة من معمارية الأجهزة إلى تحسينات على مستوى النظام

أوجه القصور

قيود التحقق: التحقق بالمحاكاة فقط، مع نقص التطبيق والاختبار على الأجهزة الفعلية
مصادر المعاملات: قد تكون دقة وتمثيل بعض معاملات المحاكاة موضع تساؤل
نقص تحليل التكلفة: لم يتم توفير تحليل اقتصادي مفصل ومقارنة تكاليف التصنيع
التحقق من الأمان: لم يتم التحقق الكافي من الفعالية الفعلية لإطار العمل الأمني الموزع

التأثير

المساهمة الأكاديمية: توفير مرجع مهم لتصميم معمارية chiplet في تطبيقات الذكاء الاصطناعي الطرفية
الدفع التكنولوجي: قد يدفع تطوير توسيع بروتوكول UCIe ومعايير أمان chiplet
القيمة الصناعية: توفير حل عملي لتطوير تكنولوجيا chiplet في صناعة أشباه الموصلات
اتجاهات البحث: توفير إطار عمل أساسي وطرق تقييم للأبحاث ذات الصلة اللاحقة

السيناريوهات المعمول بها

أجهزة الذكاء الاصطناعي الطرفية: تطبيقات مثل القيادة الذاتية والأتمتة الصناعية والمراقبة الذكية التي تتطلب استدلال ذكاء اصطناعي في الوقت الفعلي
الحوسبة عالية الأداء: سيناريوهات تتطلب قدرة حسابية معيارية وقابلة للتوسع
التطبيقات الحساسة للتكلفة: تطبيقات تجارية تتطلب توازن بين الأداء والتكلفة
تطوير النماذج الأولية: توفير مرجع لمزيد من البحث والتطوير في معمارية chiplet

المراجع

تستشهد الورقة بـ 19 مرجعاً ذا صلة، تغطي مجالات متعددة ذات صلة بما في ذلك الذكاء الاصطناعي الطرفي وتكنولوجيا chiplet و DVFS والمعمارية الأمنية، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: هذه ورقة بحثية ذات قيمة مهمة في مجال معمارية الحاسوب، تقترح تصميم معمارية chiplet مبتكرة لتطبيقات الذكاء الاصطناعي الطرفية. على الرغم من وجود قيود في جوانب التحقق العملي، فإن الابتكارات التقنية المنهجية والتحليل التفصيلي للأداء توفران مساهمة مهمة لتطوير هذا المجال.