2025-11-18T21:55:13.846797

Chiplet-Based RISC-V SoC with Modular AI Acceleration

Ramkumar, Bharadwaj
Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
academic

Chiplet-आधारित RISC-V SoC मॉड्यूलर AI त्वरण के साथ

मूल जानकारी

  • पेपर ID: 2509.18355
  • शीर्षक: Chiplet-Based RISC-V SoC with Modular AI Acceleration
  • लेखक: Suhas Suresh Bharadwaj (बिड़ला प्रौद्योगिकी और विज्ञान संस्थान, पिलानी – दुबई), Prerana Ramkumar (शारजाह की अमेरिकी विश्वविद्यालय)
  • वर्गीकरण: cs.AR (कंप्यूटर आर्किटेक्चर), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन समय/सम्मेलन: स्पष्ट सम्मेलन जानकारी उपलब्ध नहीं
  • पेपर लिंक: https://arxiv.org/abs/2509.18355

सारांश

यह पेपर एक नवीन chiplet-आधारित RISC-V SoC आर्किटेक्चर प्रस्तावित करता है जो मॉड्यूलर AI त्वरण और बुद्धिमान प्रणाली-स्तरीय अनुकूलन के माध्यम से edge AI उपकरणों में उच्च प्रदर्शन, ऊर्जा दक्षता और लागत-प्रभावशीलता के बीच संतुलन की चुनौती को संबोधित करता है। यह डिज़ाइन 30mm×30mm सिलिकॉन इंटरपोज़र पर चार प्रमुख नवाचारों को एकीकृत करता है: अनुकूली क्रॉस-chiplet गतिशील वोल्टेज आवृत्ति समायोजन (DVFS), AI-जागरूक UCIe प्रोटोकॉल विस्तार, वितरित क्रिप्टोग्राफिक सुरक्षा और बुद्धिमान सेंसर-संचालित भार माइग्रेशन। प्रायोगिक परिणाम दर्शाते हैं कि मूल chiplet कार्यान्वयन की तुलना में, AI-अनुकूलित कॉन्फ़िगरेशन 14.7% विलंबता में कमी, 17.3% थ्रूपुट वृद्धि और 16.2% बिजली खपत में कमी प्राप्त करता है, जिससे कुल दक्षता में 40.1% सुधार होता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

Edge AI प्लेटफॉर्मों को सख्त प्रदर्शन आवश्यकताओं को पूरा करना होगा, जिसमें सबमिलीसेकंड अंत-से-अंत विलंबता और 2W से कम की बिजली खपत शामिल है, साथ ही MobileNetV2 और ResNet-50 जैसे तेजी से जटिल गहन नेटवर्क को निष्पादित करना होगा। हालांकि, पारंपरिक मोनोलिथिक सिस्टम-ऑन-चिप (SoC) दृष्टिकोण विनिर्माण और उपज चुनौतियों का सामना करते हैं।

समस्या की महत्ता

  1. बाजार की मांग: 2030 तक 5000 बिलियन उपकरणों का अनुमान है, जिनमें edge AI प्लेटफॉर्म महत्वपूर्ण हिस्सा लेंगे
  2. तकनीकी चुनौतियां: उन्नत प्रक्रिया नोड्स पर, सैकड़ों वर्ग मिलीमीटर चिप क्षेत्र की उपज अत्यंत कम है (16% से कम)
  3. अनुप्रयोग आवश्यकताएं: स्वायत्त वाहन, औद्योगिक स्वचालन, चिकित्सा आदि क्षेत्रों में वास्तविक समय अनुमान क्षमता के लिए सख्त आवश्यकताएं हैं

मौजूदा पद्धतियों की सीमाएं

  1. मोनोलिथिक SoC: उन्नत प्रक्रिया नोड्स पर विनिर्माण उपज कम है, आर्थिक रूप से प्रतिकूल है
  2. पारंपरिक DVFS: वोल्टेज रूपांतरण समय लंबा है (दसियों माइक्रोसेकंड स्तर), जो सूक्ष्म समायोजन को सीमित करता है
  3. सुरक्षा एकीकरण: बहु-आपूर्तिकर्ता chiplet एकीकरण सुरक्षा जोखिम लाता है, जिसमें नकली, क्लोनिंग और आपूर्ति श्रृंखला में हेराफेरी शामिल है

अनुसंधान प्रेरणा

Chiplet-आधारित 2.5D एकीकरण तकनीक बड़े SoC को छोटे विषम चिप्स में विघटित करके, उच्च-घनत्व इंटरपोज़र इंटरकनेक्ट के माध्यम से, एक व्यावहारिक विकल्प प्रदान करती है।

मुख्य योगदान

  1. Chiplet-आधारित RISC-V SoC आर्किटेक्चर प्रस्तावित किया: 7nm RISC-V CPU chiplet, दोहरी 5nm AI त्वरक (प्रत्येक 15 TOPS INT8), 16GB HBM3 मेमोरी और समर्पित बिजली प्रबंधन नियंत्रक को एकीकृत करता है
  2. चार प्रमुख प्रणाली नवाचार लागू किए:
    • अनुकूली क्रॉस-chiplet DVFS प्रणाली
    • AI-जागरूक UCIe प्रोटोकॉल विस्तार
    • वितरित क्रिप्टोग्राफिक सुरक्षा ढांचा
    • बुद्धिमान थर्मल प्रबंधन प्रणाली
  3. महत्वपूर्ण प्रदर्शन सुधार सत्यापित किए: मूल chiplet कार्यान्वयन की तुलना में, 14.7% विलंबता में कमी, 17.3% थ्रूपुट वृद्धि, 16.2% बिजली खपत में कमी प्राप्त करता है
  4. वास्तविक समय प्रसंस्करण क्षमता सिद्ध की: सभी परीक्षण कार्यभार पर 5ms से कम वास्तविक समय क्षमता बनाए रखता है

विधि विवरण

प्रणाली आर्किटेक्चर डिज़ाइन

समग्र आर्किटेक्चर

प्रणाली 30mm×30mm सिलिकॉन इंटरपोज़र के मॉड्यूलर chiplet आर्किटेक्चर का उपयोग करती है, जिसमें शामिल है:

  • RISC-V CPU chiplet: 5mm×5mm, 7nm प्रक्रिया, एम्बेडेड कस्टम वेक्टर विस्तार के साथ
  • AI त्वरक chiplet: दोहरी 6mm×4mm, 5nm प्रक्रिया, प्रत्येक 15 TOPS INT8 कम्प्यूटिंग शक्ति प्रदान करता है
  • HBM3 मेमोरी: 16GB क्षमता, 819 GB/s बैंडविड्थ
  • I/O और बिजली प्रबंधन chiplet: 7mm×3mm
  • सुरक्षा नियंत्रक: 3mm×2mm

UCIe इंटरकनेक्ट प्रणाली

Chiplet संचार के लिए UCIe 2.0 चिप-से-चिप लिंक का उपयोग करता है:

  • बैंडविड्थ: ~30 GB/s
  • विलंबता: <2ns
  • प्रोटोकॉल समर्थन: CXL मेमोरी ट्रैफिक और अन्य स्ट्रीमिंग डेटा प्रोटोकॉल को एक साथ संभालता है
  • विस्तारित कार्यक्षमता: स्ट्रीमिंग FLITs, भविष्यसूचक प्रीफेचिंग और संपीड़न-जागरूक ट्रांसमिशन

मुख्य तकनीकी नवाचार

1. अनुकूली क्रॉस-Chiplet DVFS

तकनीकी विशेषताएं:

  • नैनोसेकंड-स्तरीय वोल्टेज स्विचिंग के लिए ऑन-चिप नियामक का उपयोग करता है
  • कार्यभार चरण की भविष्यवाणी करता है और सूक्ष्म-दानेदार वोल्टेज द्वीपों के माध्यम से बिजली को पुनः आवंटित करता है
  • पारंपरिक DVFS की दसियों माइक्रोसेकंड वोल्टेज रूपांतरण समय सीमा को दूर करता है

प्रदर्शन सुधार:

  • मेमोरी-गहन कार्यभार के लिए 12% ऊर्जा खपत में कमी
  • प्रदर्शन प्रभाव नगण्य है

2. AI-जागरूक UCIe प्रोटोकॉल विस्तार

डिज़ाइन बिंदु:

  • UCIe 2.0 विनिर्देश के आधार पर पूर्ण चिप-से-चिप संचार स्टैक
  • भौतिक परत, अनुकूलन परत और प्रोटोकॉल परत शामिल है
  • स्ट्रीमिंग नियंत्रण इकाइयों और संपीड़न-जागरूक ट्रांसमिशन का समर्थन करता है
  • प्रणाली-स्तरीय प्रबंधनीयता, डिबगिंग और परीक्षण के लिए मानकीकृत आर्किटेक्चर प्रदान करता है

3. वितरित सुरक्षा ढांचा (AuthenTree)

सुरक्षा नीति:

  • वृक्ष-आधारित बहु-पक्षीय कम्प्यूटेशन (MPC) प्रोटोकॉल का उपयोग करता है
  • विकेंद्रीकृत सुरक्षा आर्किटेक्चर, एकल विफलता बिंदु से बचता है
  • प्रत्येक chiplet के लिए क्रिप्टोग्राफिक लिंक और क्रिप्टोग्राफिक पहचान को एकीकृत करता है
  • शून्य-विश्वास वातावरण में स्केलेबल वितरित सुरक्षा ढांचा

4. बुद्धिमान थर्मल प्रबंधन

भविष्यसूचक दृष्टिकोण:

  • सेंसर-संचालित भार माइग्रेशन पर आधारित
  • शुद्ध प्रतिक्रियाशील थर्मल प्रबंधन से परे (केवल महत्वपूर्ण तापमान तक पहुंचने के बाद प्रदर्शन को सीमित करता है)
  • बुद्धिमान भविष्यवाणी और सक्रिय भार वितरण

प्रायोगिक सेटअप

सिमुलेशन ढांचा

Chiplet RISC-V SoC डिज़ाइन का मूल्यांकन करने के लिए Python-आधारित सिम्युलेटर विकसित किया गया:

  • इंटरकनेक्ट विलंबता, बिजली खपत और थर्मल थ्रॉटलिंग व्यवहार को मॉडल करता है
  • निश्चित वोल्टेज स्केलिंग कारक के माध्यम से बिजली दक्षता स्केलिंग लागू करता है
  • पैरामीटर UCIe विनिर्देश, बिजली स्केलिंग अनुसंधान और साहित्य-रिपोर्ट किए गए माप से आते हैं

परीक्षण परिदृश्य

चार परीक्षण परिदृश्य परिभाषित किए गए:

परिदृश्यविलंबता(μs)बैंडविड्थ(Gbps)आधार बिजली(mW)संचार बिजली(mW/ms)दक्षता कारक
मोनोलिथिक SoC0.015000.01.0
मूल Chiplet1.516.01200350.95
AI-अनुकूलित Chiplet0.824.01100250.90
खराब एकीकरण8.08.01800801.10

कार्यभार

MLPerf Tiny बेंचमार्क से प्रतिनिधि edge अनुमान कार्य चुने गए:

कार्यभारआधार कम्प्यूटिंग(ms)इनपुट आकार(MB)जटिलता कारकबैच दक्षता
MobileNetV23.50.570.80.85
ResNet-5012.00.571.20.90
वास्तविक समय वीडियो2.00.301.00.70

मूल्यांकन मेट्रिक्स

  • अनुमान विलंबता: एकल अनुमान पूर्ण होने का समय
  • थ्रूपुट: GFLOPs/s या images/s
  • बिजली खपत: mW
  • ऊर्जा दक्षता: TOPS/W
  • स्केलेबिलिटी: बैच आकार प्रभाव

प्रायोगिक परिणाम

मुख्य परिणाम

MobileNetV2 बेंचमार्क (बैच आकार=1)

आर्किटेक्चरविलंबता(ms)थ्रूपुट(imgs/s)बिजली खपत(mW)
मोनोलिथिक SoC4.7 ± 0.22131284
मूल Chiplet4.8 ± 0.22081026
AI-अनुकूलित4.1 ± 0.3244860
खराब एकीकरण6.2 ± 0.31631776

प्रदर्शन सुधार विश्लेषण

AI-अनुकूलित कॉन्फ़िगरेशन मूल chiplet कार्यान्वयन की तुलना में:

  • विलंबता में कमी: 4.8ms से 4.1ms तक (≈14.7% कमी)
  • थ्रूपुट वृद्धि: 208 images/s से 244 images/s तक (≈17.3% वृद्धि)
  • बिजली खपत में कमी: 1026mW से 860mW तक (≈16.2% कमी)
  • ऊर्जा दक्षता वृद्धि: 0.203 TOPS/W से 0.284 TOPS/W तक (≈40.1% वृद्धि)

क्रॉस-कार्यभार प्रदर्शन

  • ऊर्जा दक्षता मेट्रिक्स: ≈3.5 mJ प्रति MobileNetV2 अनुमान (860 mW / 244 images/s)
  • वास्तविक समय क्षमता: सभी परीक्षण कार्यभार 5ms से कम आवश्यकता को पूरा करते हैं
  • बैच प्रसंस्करण स्केलिंग: बैच आकार 1-32 की सीमा में, AI-अनुकूलित हमेशा उच्चतम थ्रूपुट बनाए रखता है

प्रायोगिक निष्कर्ष

  1. आर्किटेक्चर लाभ: मॉड्यूलर chiplet डिज़ाइन मोनोलिथिक के करीब कम्प्यूटिंग घनत्व प्राप्त कर सकता है
  2. लागत-प्रभावशीलता: प्रदर्शन बनाए रखते हुए लागत दक्षता, स्केलेबिलिटी और अपग्रेडेबिलिटी प्राप्त करता है
  3. वास्तविक समय गारंटी: सभी कार्यभार में सुसंगत प्रदर्शन
  4. बिजली अनुकूलन: प्रदर्शन का त्याग किए बिना महत्वपूर्ण बिजली खपत में कमी

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. Edge AI प्लेटफॉर्म: स्वायत्त प्रणाली, औद्योगिक स्वचालन, चिकित्सा आदि क्षेत्रों में वास्तविक समय अनुमान का समर्थन करता है
  2. Chiplet तकनीक: 2.5D एकीकरण तकनीक सिलिकॉन इंटरपोज़र के माध्यम से विषम चिप्स को इंटरकनेक्ट करती है
  3. AI त्वरक: 5nm AI अनुमान त्वरक 95.6 TOPS/W तक दक्षता प्राप्त करता है
  4. मेमोरी तकनीक: HBM3 बाहरी DRAM बाधा को कम करने के लिए 819 GB/s तक बैंडविड्थ प्रदान करता है

इस पेपर के नवाचार बिंदु

  1. प्रणाली-स्तरीय अनुकूलन: DVFS, UCIe अनुकूलन, वितरित सुरक्षा और थर्मल प्रबंधन का व्यापक समाधान
  2. वास्तविक समय प्रदर्शन: Edge AI के वास्तविक समय अनुमान आवश्यकताओं पर ध्यान केंद्रित करता है
  3. मॉड्यूलर डिज़ाइन: प्रदर्शन, लागत और अपग्रेडेबिलिटी को संतुलित करने वाली chiplet आर्किटेक्चर

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: Chiplet-आधारित RISC-V SoC आर्किटेक्चर edge AI उपकरणों में प्रदर्शन-दक्षता-लागत संतुलन समस्या को सफलतापूर्वक हल करता है
  2. महत्वपूर्ण प्रदर्शन सुधार: चार प्रमुख नवाचारों का एकीकरण व्यापक प्रदर्शन, बिजली और दक्षता सुधार प्राप्त करता है
  3. व्यावहारिक मूल्य: अगली पीढ़ी के edge AI उपकरण अनुप्रयोगों के लिए व्यवहार्य समाधान प्रदान करता है

सीमाएं

  1. सिमुलेशन सत्यापन: परिणाम Python सिम्युलेटर पर आधारित हैं, वास्तविक हार्डवेयर सत्यापन की कमी है
  2. कार्यभार सीमा: परीक्षण केवल तीन विशिष्ट AI कार्यभार तक सीमित है
  3. लागत विश्लेषण: विस्तृत विनिर्माण लागत तुलना विश्लेषण प्रदान नहीं किया गया है
  4. दीर्घकालीन विश्वसनीयता: दीर्घकालीन संचालन की विश्वसनीयता और स्थिरता का मूल्यांकन नहीं किया गया है

भविष्य की दिशाएं

  1. हार्डवेयर प्रोटोटाइप: सत्यापन के लिए वास्तविक हार्डवेयर प्रोटोटाइप विकसित करना
  2. विस्तारित मूल्यांकन: व्यापक AI कार्यभार पर प्रदर्शन का परीक्षण करना
  3. विनिर्माण अनुकूलन: Chiplet विनिर्माण और एकीकरण के आगे अनुकूलन का अनुसंधान करना
  4. मानकीकरण: Chiplet इंटरकनेक्ट और सुरक्षा मानकों के विकास को बढ़ावा देना

गहन मूल्यांकन

शक्तियां

  1. प्रणालीगत नवाचार: चार प्रमुख तकनीकी नवाचारों का व्यापक समाधान प्रस्तावित करता है, जो chiplet डिज़ाइन में कई महत्वपूर्ण समस्याओं को व्यवस्थित रूप से हल करता है
  2. व्यावहारिक अभिविन्यास: Edge AI की वास्तविक आवश्यकताओं के लिए, वास्तविक समय प्रदर्शन और बिजली दक्षता पर ध्यान केंद्रित करता है
  3. परिमाणित मूल्यांकन: विस्तृत प्रदर्शन डेटा और तुलनात्मक विश्लेषण प्रदान करता है, परिणाम प्रेरक हैं
  4. तकनीकी गहराई: हार्डवेयर आर्किटेक्चर से प्रणाली-स्तरीय अनुकूलन तक कई स्तरों को कवर करता है

कमियां

  1. सत्यापन सीमाएं: केवल सिमुलेशन सत्यापन पर आधारित है, वास्तविक हार्डवेयर कार्यान्वयन और परीक्षण की कमी है
  2. पैरामीटर स्रोत: कुछ सिमुलेशन पैरामीटर की सटीकता और प्रतिनिधित्व में समस्याएं हो सकती हैं
  3. लागत विश्लेषण अपर्याप्त: विस्तृत आर्थिक विश्लेषण और विनिर्माण लागत तुलना प्रदान नहीं की गई है
  4. सुरक्षा सत्यापन: वितरित सुरक्षा ढांचे की वास्तविक प्रभावशीलता पूरी तरह से सत्यापित नहीं की गई है

प्रभाव

  1. शैक्षणिक योगदान: Edge AI अनुप्रयोगों में chiplet आर्किटेक्चर डिज़ाइन के लिए महत्वपूर्ण संदर्भ प्रदान करता है
  2. तकनीकी प्रवर्तन: UCIe प्रोटोकॉल विस्तार और chiplet सुरक्षा मानकों के विकास को बढ़ावा दे सकता है
  3. औद्योगिक मूल्य: अर्धचालक उद्योग के chiplet तकनीक विकास के लिए व्यावहारिक समाधान प्रदान करता है
  4. अनुसंधान दिशा: संबंधित अनुसंधान के लिए मूल ढांचा और मूल्यांकन विधि प्रदान करता है

लागू परिदृश्य

  1. Edge AI उपकरण: स्वायत्त वाहन, औद्योगिक स्वचालन, स्मार्ट निगरानी आदि जो वास्तविक समय AI अनुमान की आवश्यकता होती है
  2. उच्च-प्रदर्शन कम्प्यूटिंग: मॉड्यूलर, स्केलेबल कम्प्यूटिंग क्षमता की आवश्यकता वाले परिदृश्य
  3. लागत-संवेदनशील अनुप्रयोग: प्रदर्शन और लागत को संतुलित करने की आवश्यकता वाले व्यावसायिक अनुप्रयोग
  4. प्रोटोटाइप विकास: Chiplet आर्किटेक्चर के आगे अनुसंधान और विकास के लिए संदर्भ

संदर्भ

पेपर 19 संबंधित संदर्भों का हवाला देता है, जो edge AI, chiplet तकनीक, DVFS, सुरक्षा आर्किटेक्चर आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।


समग्र मूल्यांकन: यह कंप्यूटर आर्किटेक्चर क्षेत्र में महत्वपूर्ण मूल्य वाला एक अनुसंधान पेपर है, जो edge AI अनुप्रयोगों के लिए नवीन chiplet आर्किटेक्चर डिज़ाइन प्रस्तावित करता है। हालांकि वास्तविक सत्यापन में सीमाएं हैं, लेकिन इसके प्रणालीगत तकनीकी नवाचार और विस्तृत प्रदर्शन विश्लेषण इस क्षेत्र के विकास में महत्वपूर्ण योगदान प्रदान करते हैं।