Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
- Papier-ID: 2509.18355
- Titel: Chiplet-Based RISC-V SoC with Modular AI Acceleration
- Autoren: Suhas Suresh Bharadwaj (Birla Institute of Technology and Science, Pilani – Dubai), Prerana Ramkumar (American University of Sharjah)
- Klassifizierung: cs.AR (Computerarchitektur), cs.AI (Künstliche Intelligenz)
- Veröffentlichungszeit/Konferenz: Keine explizite Konferenzinformation
- Papierlink: https://arxiv.org/abs/2509.18355
Dieses Papier präsentiert eine neuartige chiplet-basierte RISC-V SoC-Architektur, die die Herausforderung der Ausgewogenheit zwischen Hochleistung, Energieeffizienz und Kosteneffektivität für Edge-AI-Geräte durch modulare KI-Beschleunigung und intelligente systemweite Optimierungen adressiert. Das Design integriert vier Schlüsselinnovationen auf einem 30 mm × 30 mm Silizium-Interposer: adaptive chiplet-übergreifende dynamische Spannungs- und Frequenzregelung (DVFS), KI-bewusste UCIe-Protokollerweiterung, verteilte kryptografische Sicherheit und intelligente sensorgesteuerte Lastmigration. Experimentelle Ergebnisse zeigen, dass die KI-optimierte Konfiguration im Vergleich zur grundlegenden Chiplet-Implementierung eine Latenzreduktion von 14,7 %, einen Durchsatzanstieg von 17,3 % und eine Leistungsreduktion von 16,2 % erreicht, mit einer Gesamteffizienzverbesserung von 40,1 %.
Edge-AI-Plattformen müssen strenge Leistungsanforderungen erfüllen, einschließlich Sub-Millisekunden-End-to-End-Latenz und Leistungshülle unter 2 W, während gleichzeitig zunehmend komplexe Deep Networks wie MobileNetV2 und ResNet-50 ausgeführt werden. Traditionelle monolithische System-on-Chip (SoC)-Ansätze sind jedoch mit Herstellungs- und Ausbeute-Herausforderungen konfrontiert.
- Marktbedarf: Bis 2030 werden schätzungsweise 500 Milliarden Geräte erwartet, wobei Edge-AI-Plattformen einen bedeutenden Anteil ausmachen werden
- Technische Herausforderungen: Bei fortgeschrittenen Prozesstechnologien ist die Ausbeute für Chipflächen von mehreren hundert Quadratmillimetern extrem niedrig (unter 16 %)
- Anwendungsanforderungen: Autonomes Fahren, Industrieautomation und medizinische Anwendungen stellen strenge Anforderungen an Echtzeit-Inferenzfähigkeiten
- Monolithische SoCs: Niedrige Herstellungsausbeute bei fortgeschrittenen Prozesstechnologien, schlechte Wirtschaftlichkeit
- Traditionelle DVFS: Lange Spannungsumschaltzeiten (Größenordnung Dutzende Mikrosekunden) begrenzen feinkörnige Anpassung
- Sicherheitsintegration: Multi-Vendor-Chiplet-Integration birgt Sicherheitsrisiken, einschließlich Fälschung, Klonen und Supply-Chain-Manipulation
Die 2,5D-Integrationstechnologie auf Chiplet-Basis bietet durch die Zerlegung großer SoCs in kleinere heterogene Chips mit hochdichter Interposer-Verbindung eine praktische Alternative.
- Vorschlag einer chiplet-basierten RISC-V SoC-Architektur: Integration eines 7-nm-RISC-V-CPU-Chiplets, dualer 5-nm-KI-Beschleuniger (je 15 TOPS INT8), 16-GB-HBM3-Speicher und dediziertem Stromversorgungsverwaltungscontroller
- Implementierung von vier Schlüsselsysteminnovationen:
- Adaptives chiplet-übergreifendes DVFS-System
- KI-bewusste UCIe-Protokollerweiterung
- Verteiltes kryptografisches Sicherheitsframework
- Intelligentes Wärmemanagementsystem
- Validierung signifikanter Leistungsverbesserungen: Im Vergleich zur grundlegenden Chiplet-Implementierung Latenzreduktion von 14,7 %, Durchsatzsteigerung von 17,3 %, Leistungsreduktion von 16,2 %
- Nachweis von Echtzeit-Verarbeitungsfähigkeiten: Aufrechterhaltung von Sub-5-ms-Echtzeitfähigkeit bei allen getesteten Arbeitslasten
Das System nutzt eine modulare Chiplet-Architektur auf einem 30 mm × 30 mm Silizium-Interposer, bestehend aus:
- RISC-V CPU-Chiplet: 5 mm × 5 mm, 7-nm-Prozess, mit eingebetteter benutzerdefinierter Vektererweiterung
- KI-Beschleuniger-Chiplet: Dual 6 mm × 4 mm, 5-nm-Prozess, je 15 TOPS INT8 Rechenleistung
- HBM3-Speicher: 16-GB-Kapazität, 819 GB/s Bandbreite
- I/O- und Stromversorgungsverwaltungs-Chiplet: 7 mm × 3 mm
- Sicherheitscontroller: 3 mm × 2 mm
Verwendung von UCIe 2.0 Chip-zu-Chip-Links für Chiplet-Kommunikation:
- Bandbreite: ~30 GB/s
- Latenz: <2 ns
- Protokollunterstützung: Gleichzeitige Verarbeitung von CXL-Speicherdatenverkehr und anderen Streaming-Datenprotokollen
- Erweiterte Funktionen: Streaming-FLITs, prädiktives Prefetching und komprimierte Sensordatenübertragung
Technische Merkmale:
- Verwendung von On-Chip-Reglern für Nanosekundenbereich-Spannungsumschaltung
- Vorhersage von Arbeitslastphasen und Umverteilung der Leistung durch feinkörnige Spannungsinseln
- Überwindung der Begrenzung durch traditionelle DVFS-Spannungsumschaltzeiten im Mikrosekundenbereich
Leistungsverbesserungen:
- Energieverbrauchsreduktion von 12 % bei speicherintensiven Arbeitslasten
- Vernachlässigbare Leistungsauswirkungen
Designpunkte:
- Vollständiger Chip-zu-Chip-Kommunikationsstapel basierend auf UCIe 2.0-Spezifikation
- Umfasst physikalische Schicht, Adaptationsschicht und Protokollschicht
- Unterstützt Streaming-Steuereinheiten und komprimierte Sensordatenübertragung
- Bietet standardisierte Architektur für systemweite Verwaltbarkeit, Debugging und Testen
Sicherheitsstrategie:
- Verwendung eines baumbasierten Multi-Party-Computation (MPC)-Protokolls
- Dezentralisierte Sicherheitsarchitektur, vermeidung von Single Points of Failure
- Integration kryptografischer Links und kryptografischer Identitäten für jedes Chiplet
- Skalierbares verteiltes Sicherheitsframework in Zero-Trust-Umgebungen
Prädiktiver Ansatz:
- Sensorgesteuerte Lastmigration
- Über rein reaktives Wärmemanagementsystem hinaus (nur Leistungsdrosselung bei kritischer Temperatur)
- Intelligente Vorhersage und proaktive Lastverteilung
Entwicklung eines Python-basierten Simulators zur Evaluierung des Chiplet-RISC-V-SoC-Designs:
- Modellierung von Verbindungslatenzen, Leistung und Wärmedrosselungsverhalten
- Anwendung von Leistungseffizienz-Skalierung durch feste Spannungsskalierungsfaktoren
- Parameter aus UCIe-Spezifikation, Leistungsskalierungsforschung und literaturgemeldeten Messungen
Definition von vier Testszenarien:
| Szenario | Latenz (μs) | Bandbreite (Gbps) | Basisleistung (mW) | Kommunikationsleistung (mW/ms) | Effizienzfaktor |
|---|
| Monolithisches SoC | 0,0 | ∞ | 1500 | 0,0 | 1,0 |
| Basis-Chiplet | 1,5 | 16,0 | 1200 | 35 | 0,95 |
| KI-optimiertes Chiplet | 0,8 | 24,0 | 1100 | 25 | 0,90 |
| Schlechte Integration | 8,0 | 8,0 | 1800 | 80 | 1,10 |
Auswahl repräsentativer Edge-Inferenzaufgaben aus MLPerf Tiny-Benchmarks:
| Arbeitslast | Basisberechnung (ms) | Eingabegröße (MB) | Komplexitätsfaktor | Batch-Effizienz |
|---|
| MobileNetV2 | 3,5 | 0,57 | 0,8 | 0,85 |
| ResNet-50 | 12,0 | 0,57 | 1,2 | 0,90 |
| Echtzeit-Video | 2,0 | 0,30 | 1,0 | 0,70 |
- Inferenzlatenz: Abschlusszeit einer einzelnen Inferenz
- Durchsatz: GFLOPs/s oder Bilder/s
- Leistung: mW
- Energieeffizienz: TOPS/W
- Skalierbarkeit: Batch-Größen-Effekte
| Architektur | Latenz (ms) | Durchsatz (Bilder/s) | Leistung (mW) |
|---|
| Monolithisches SoC | 4,7 ± 0,2 | 213 | 1284 |
| Basis-Chiplet | 4,8 ± 0,2 | 208 | 1026 |
| KI-optimiert | 4,1 ± 0,3 | 244 | 860 |
| Schlechte Integration | 6,2 ± 0,3 | 163 | 1776 |
KI-optimierte Konfiguration im Vergleich zur grundlegenden Chiplet-Implementierung:
- Latenzreduktion: Von 4,8 ms auf 4,1 ms (≈14,7 % Reduktion)
- Durchsatzsteigerung: Von 208 Bilder/s auf 244 Bilder/s (≈17,3 % Steigerung)
- Leistungsreduktion: Von 1026 mW auf 860 mW (≈16,2 % Reduktion)
- Effizienzsteigerung: Von 0,203 TOPS/W auf 0,284 TOPS/W (≈40,1 % Steigerung)
- Effizienzmetriken: ≈3,5 mJ pro MobileNetV2-Inferenz (860 mW / 244 Bilder/s)
- Echtzeitfähigkeit: Alle getesteten Arbeitslasten erfüllen Sub-5-ms-Anforderung
- Batch-Skalierung: Bei Batch-Größen von 1–32 behält KI-Optimierung konsistent höchsten Durchsatz
- Architekturvorteil: Modulares Chiplet-Design kann nahezu monolithische Rechendichte erreichen
- Kosteneffizienz: Kosteneffizienz, Skalierbarkeit und Aufrüstbarkeit bei Beibehaltung der Leistung
- Echtzeitgarantie: Konsistente Leistung über alle Arbeitslasten hinweg
- Leistungsoptimierung: Signifikante Leistungsreduktion ohne Leistungsopfer
- Edge-AI-Plattformen: Unterstützung von Echtzeit-Inferenz für autonome Systeme, Industrieautomation, medizinische Anwendungen
- Chiplet-Technologie: 2,5D-Integrationstechnologie ermöglicht heterogene Chip-Verbindung über Silizium-Interposer
- KI-Beschleuniger: 5-nm-KI-Inferenz-Beschleuniger erreichen bis zu 95,6 TOPS/W Effizienz
- Speichertechnologie: HBM3 bietet bis zu 819 GB/s Bandbreite zur Behebung von externem DRAM-Engpass
- Systemweite Optimierung: Umfassende Lösung kombiniert DVFS, UCIe-Optimierung, verteilte Sicherheit und Wärmemanagementsystem
- Echtzeitperformance: Fokus auf Echtzeit-Inferenzanforderungen für Edge-AI
- Modulares Design: Chiplet-Architektur balanciert Leistung, Kosten und Aufrüstbarkeit
- Technische Machbarkeit: Chiplet-basierte RISC-V-SoC-Architektur löst erfolgreich das Leistungs-Effizienz-Kosten-Ausgleichsproblem für Edge-AI-Geräte
- Signifikante Leistungsverbesserung: Integration von vier Schlüsselinnovationen erreicht umfassende Verbesserungen in Leistung, Leistung und Effizienz
- Praktischer Wert: Bietet praktikable Lösung für nächste Generation von Edge-AI-Geräten
- Simulationsverifikation: Ergebnisse basieren auf Python-Simulator, fehlt echte Hardwareverifikation
- Arbeitslasten-Bereich: Tests begrenzt auf drei spezifische KI-Arbeitslasten
- Kostenanalyse: Keine detaillierte Herstellungskostenvergleichsanalyse
- Langzeitverlässlichkeit: Langzeitbetriebszuverlässigkeit und Stabilität nicht bewertet
- Hardware-Prototyp: Entwicklung echter Hardware-Prototypen zur Verifikation
- Erweiterte Evaluierung: Leistungstests über breitere KI-Arbeitslasten
- Herstellungsoptimierung: Weitere Optimierung von Chiplet-Herstellung und Integration
- Standardisierung: Förderung der Entwicklung von Chiplet-Verbindungs- und Sicherheitsstandards
- Systemische Innovation: Präsentiert umfassende Lösung mit vier Schlüsseltechnologieinnovationen, adressiert systematisch mehrere kritische Probleme im Chiplet-Design
- Praxisorientierung: Fokussiert auf tatsächliche Edge-AI-Anforderungen, konzentriert sich auf Echtzeitperformance und Energieeffizienz
- Quantitative Evaluierung: Bietet detaillierte Leistungsdaten und Vergleichsanalyse mit überzeugenden Ergebnissen
- Technische Tiefe: Umfasst mehrere Ebenen von Hardwarearchitektur bis systemweite Optimierung
- Verifikationsbeschränkungen: Nur Simulationsverifikation, fehlt echte Hardwareimplementierung und Tests
- Parameterquellen: Genauigkeit und Repräsentativität einiger Simulationsparameter möglicherweise fragwürdig
- Unzureichende Kostenanalyse: Keine detaillierte Wirtschaftlichkeitsanalyse und Herstellungskostenvergleich
- Sicherheitsverifikation: Praktische Effektivität des verteilten Sicherheitsframeworks nicht ausreichend verifiziert
- Akademischer Beitrag: Bietet wichtige Referenz für Chiplet-Architektur-Design in Edge-AI-Anwendungen
- Technologischer Antrieb: Könnte Entwicklung von UCIe-Protokollerweiterung und Chiplet-Sicherheitsstandards fördern
- Industrieller Wert: Bietet praktische Lösung für Chiplet-Technologieentwicklung in Halbleiterindustrie
- Forschungsrichtung: Bietet grundlegendes Framework und Bewertungsmethoden für nachfolgende verwandte Forschung
- Edge-AI-Geräte: Autonomes Fahren, Industrieautomation, intelligente Überwachung und andere Anwendungen, die Echtzeit-KI-Inferenz erfordern
- Hochleistungsrechnen: Szenarien, die modulare, skalierbare Rechenleistung benötigen
- Kostensensitive Anwendungen: Kommerzielle Anwendungen, die Leistung und Kosten ausgleichen müssen
- Prototypentwicklung: Bietet Referenz für weitere Forschung und Entwicklung von Chiplet-Architektur
Das Papier zitiert 19 relevante Arbeiten, die mehrere verwandte Bereiche abdecken, einschließlich Edge-AI, Chiplet-Technologie, DVFS und Sicherheitsarchitektur, und bietet damit eine solide theoretische Grundlage für die Forschung.
Gesamtbewertung: Dies ist ein Forschungspapier von bedeutendem Wert im Bereich Computerarchitektur, das ein innovatives Chiplet-Architektur-Design für Edge-AI-Anwendungen präsentiert. Obwohl es Einschränkungen bei der praktischen Verifikation gibt, bieten seine systemische technische Innovation und detaillierte Leistungsanalyse wichtige Beiträge zur Entwicklung dieses Feldes.