2025-11-18T21:55:13.846797

Chiplet-Based RISC-V SoC with Modular AI Acceleration

Ramkumar, Bharadwaj
Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
academic

SoC RISC-V Basato su Chiplet con Accelerazione AI Modulare

Informazioni Fondamentali

  • ID Articolo: 2509.18355
  • Titolo: Chiplet-Based RISC-V SoC with Modular AI Acceleration
  • Autori: Suhas Suresh Bharadwaj (Birla Institute of Technology and Science, Pilani – Dubai), Prerana Ramkumar (American University of Sharjah)
  • Classificazione: cs.AR (Architettura dei Calcolatori), cs.AI (Intelligenza Artificiale)
  • Data di Pubblicazione/Conferenza: Informazioni sulla conferenza non esplicitamente indicate
  • Link dell'Articolo: https://arxiv.org/abs/2509.18355

Riassunto

Questo articolo propone una nuova architettura SoC RISC-V basata su chiplet che affronta le sfide dell'equilibrio tra prestazioni elevate, efficienza energetica e convenienza economica per dispositivi AI edge. Il progetto integra quattro innovazioni chiave su un substrato di silicio di 30mm×30mm: regolazione adattiva della tensione e frequenza dinamica (DVFS) tra chiplet, estensione del protocollo UCIe consapevole dell'AI, sicurezza crittografica distribuita e migrazione intelligente dei carichi guidata da sensori. I risultati sperimentali mostrano che la configurazione ottimizzata per l'AI raggiunge una riduzione della latenza del 14,7%, un aumento della velocità effettiva del 17,3% e una riduzione del consumo energetico del 16,2% rispetto all'implementazione chiplet di base, con un miglioramento complessivo dell'efficienza del 40,1%.

Contesto di Ricerca e Motivazione

Definizione del Problema

Le piattaforme AI edge devono soddisfare rigorosi requisiti di prestazione, inclusa una latenza end-to-end sub-millisecondo e un budget energetico inferiore a 2W, mentre eseguono reti neurali profonde sempre più complesse come MobileNetV2 e ResNet-50. Tuttavia, gli approcci tradizionali dei sistemi su chip (SoC) monolitici affrontano sfide di produzione e resa.

Importanza del Problema

  1. Domanda di Mercato: Si prevede che entro il 2030 ci saranno 500 miliardi di dispositivi, con le piattaforme AI edge che occuperanno una quota significativa
  2. Sfide Tecnologiche: Nei nodi di processo avanzati, la resa per aree di chip di centinaia di millimetri quadrati è estremamente bassa (inferiore al 16%)
  3. Requisiti Applicativi: Settori come la guida autonoma, l'automazione industriale e la medicina richiedono capacità di inferenza in tempo reale rigorose

Limitazioni degli Approcci Esistenti

  1. SoC Monolitici: Resa di produzione bassa nei nodi di processo avanzati, scarsa economicità
  2. DVFS Tradizionale: Tempo di conversione della tensione lungo (scala dei decine di microsecondi), limitando l'adattamento granulare
  3. Integrazione della Sicurezza: L'integrazione di chiplet multi-fornitore comporta rischi di sicurezza, inclusi contraffazione, clonazione e manomissione della catena di approvvigionamento

Motivazione della Ricerca

La tecnologia di integrazione 2.5D basata su chiplet offre un'alternativa pratica decomponendo grandi SoC in chip eterogenei più piccoli interconnessi attraverso un substrato ad alta densità.

Contributi Principali

  1. Propone un'architettura SoC RISC-V basata su chiplet: Integra un chiplet CPU RISC-V a 7nm, due acceleratori AI a 5nm (ciascuno con 15 TOPS INT8), memoria HBM3 da 16GB e un controller di gestione dell'alimentazione dedicato
  2. Implementa quattro innovazioni chiave del sistema:
    • Sistema DVFS adattivo tra chiplet
    • Estensione del protocollo UCIe consapevole dell'AI
    • Framework di sicurezza crittografica distribuita
    • Sistema di gestione termica intelligente
  3. Verifica miglioramenti significativi delle prestazioni: Raggiunge una riduzione della latenza del 14,7%, un aumento della velocità effettiva del 17,3% e una riduzione del consumo energetico del 16,2% rispetto all'implementazione chiplet di base
  4. Dimostra capacità di elaborazione in tempo reale: Mantiene capacità in tempo reale sub-5ms su tutti i carichi di lavoro testati

Dettagli Metodologici

Progettazione dell'Architettura di Sistema

Architettura Generale

Il sistema utilizza un'architettura modulare di chiplet su substrato di silicio di 30mm×30mm, contenente:

  • Chiplet CPU RISC-V: 5mm×5mm, processo a 7nm, con estensione vettoriale personalizzata integrata
  • Chiplet Acceleratore AI: Doppio 6mm×4mm, processo a 5nm, fornisce 15 TOPS INT8 di potenza di calcolo ciascuno
  • Memoria HBM3: Capacità di 16GB, larghezza di banda di 819 GB/s
  • Chiplet I/O e Gestione dell'Alimentazione: 7mm×3mm
  • Controller di Sicurezza: 3mm×2mm

Sistema di Interconnessione UCIe

Utilizza i link tra chip UCIe 2.0 per la comunicazione tra chiplet:

  • Larghezza di banda: ~30 GB/s
  • Latenza: <2ns
  • Supporto Protocolli: Gestisce simultaneamente il traffico di memoria CXL e altri protocolli di streaming
  • Funzionalità Estese: FLITs in streaming, prefetch predittivo e trasmissione con compressione consapevole

Innovazioni Tecnologiche Chiave

1. DVFS Adattivo tra Chiplet

Caratteristiche Tecniche:

  • Utilizza regolatori on-chip per commutazione di tensione a livello di nanosecondi
  • Predice le fasi del carico di lavoro e ridistribuisce la potenza attraverso isole di tensione a grana fine
  • Supera il limite del tempo di conversione della tensione di decine di microsecondi del DVFS tradizionale

Miglioramenti di Prestazione:

  • Riduzione del consumo energetico del 12% per carichi di lavoro ad alta intensità di memoria
  • Impatto sulle prestazioni trascurabile

2. Estensione del Protocollo UCIe Consapevole dell'AI

Punti di Progettazione:

  • Stack di comunicazione tra chip completo basato sulla specifica UCIe 2.0
  • Include livello fisico, livello di adattamento e livello di protocollo
  • Supporta unità di controllo di streaming e trasmissione con compressione consapevole
  • Fornisce architettura standardizzata per gestibilità, debug e test a livello di sistema

3. Framework di Sicurezza Distribuita (AuthenTree)

Strategia di Sicurezza:

  • Utilizza protocollo di calcolo multi-parte (MPC) basato su albero
  • Architettura di sicurezza decentralizzata, evita singoli punti di guasto
  • Integra link crittografici e identità crittografiche per ogni chiplet
  • Framework di sicurezza distribuita scalabile in ambiente zero-trust

4. Gestione Termica Intelligente

Approccio Predittivo:

  • Migrazione dei carichi guidata da sensori
  • Va oltre la gestione termica puramente reattiva (limitazione delle prestazioni solo dopo il raggiungimento della temperatura critica)
  • Previsione intelligente e allocazione proattiva dei carichi

Configurazione Sperimentale

Framework di Simulazione

È stato sviluppato un simulatore basato su Python per valutare il progetto SoC RISC-V chiplet:

  • Modella la latenza di interconnessione, il consumo energetico e il comportamento del throttling termico
  • Applica il ridimensionamento dell'efficienza energetica attraverso fattori di ridimensionamento della tensione fissa
  • I parametri provengono dalle specifiche UCIe, dalla ricerca sul ridimensionamento della potenza e dalle misurazioni riportate in letteratura

Scenari di Test

Sono stati definiti quattro scenari di test:

ScenarioLatenza(μs)Larghezza di Banda(Gbps)Potenza di Base(mW)Potenza di Comunicazione(mW/ms)Fattore di Efficienza
SoC Monolitico0,015000,01,0
Chiplet di Base1,516,01200350,95
Chiplet Ottimizzato per AI0,824,01100250,90
Integrazione Scadente8,08,01800801,10

Carichi di Lavoro

Sono stati selezionati compiti di inferenza edge rappresentativi dal benchmark MLPerf Tiny:

Carico di LavoroCalcolo di Base(ms)Dimensione Input(MB)Fattore di ComplessitàEfficienza Batch
MobileNetV23,50,570,80,85
ResNet-5012,00,571,20,90
Video in Tempo Reale2,00,301,00,70

Metriche di Valutazione

  • Latenza di Inferenza: Tempo di completamento dell'inferenza singola
  • Velocità Effettiva: GFLOPs/s o immagini/s
  • Consumo Energetico: mW
  • Efficienza Energetica: TOPS/W
  • Scalabilità: Effetti della dimensione del batch

Risultati Sperimentali

Risultati Principali

Benchmark MobileNetV2 (Dimensione Batch=1)

ArchitetturaLatenza(ms)Velocità Effettiva(imgs/s)Consumo Energetico(mW)
SoC Monolitico4,7 ± 0,22131284
Chiplet di Base4,8 ± 0,22081026
Ottimizzato per AI4,1 ± 0,3244860
Integrazione Scadente6,2 ± 0,31631776

Analisi del Miglioramento delle Prestazioni

La configurazione ottimizzata per l'AI rispetto all'implementazione chiplet di base:

  • Riduzione della Latenza: Da 4,8ms a 4,1ms (≈14,7% di riduzione)
  • Aumento della Velocità Effettiva: Da 208 immagini/s a 244 immagini/s (≈17,3% di aumento)
  • Riduzione del Consumo Energetico: Da 1026mW a 860mW (≈16,2% di riduzione)
  • Miglioramento dell'Efficienza Energetica: Da 0,203 TOPS/W a 0,284 TOPS/W (≈40,1% di miglioramento)

Prestazioni tra Carichi di Lavoro

  • Metriche di Efficienza Energetica: ≈3,5 mJ per inferenza MobileNetV2 (860 mW / 244 immagini/s)
  • Capacità in Tempo Reale: Tutti i carichi di lavoro testati soddisfano il requisito sub-5ms
  • Scalabilità Batch: Su intervalli di dimensione batch 1-32, l'ottimizzazione per l'AI mantiene costantemente la velocità effettiva più elevata

Risultati Sperimentali

  1. Vantaggi Architetturali: Il progetto modulare di chiplet raggiunge una densità di calcolo quasi equivalente a quella monolitica
  2. Convenienza Economica: Raggiunge efficienza di costo, scalabilità e aggiornabilità mantenendo le prestazioni
  3. Garanzie in Tempo Reale: Prestazioni coerenti su tutti i carichi di lavoro
  4. Ottimizzazione Energetica: Riduzione significativa del consumo energetico senza sacrificare le prestazioni

Lavori Correlati

Direzioni di Ricerca Principali

  1. Piattaforme AI Edge: Supportano inferenza in tempo reale per sistemi autonomi, automazione industriale, medicina e altri settori
  2. Tecnologia Chiplet: La tecnologia di integrazione 2.5D realizza l'interconnessione di chip eterogenei attraverso substrati di silicio
  3. Acceleratori AI: Acceleratori di inferenza AI a 5nm raggiungono un'efficienza fino a 95,6 TOPS/W
  4. Tecnologia di Memoria: HBM3 fornisce larghezza di banda fino a 819 GB/s alleviando i colli di bottiglia della DRAM esterna

Punti di Innovazione di Questo Articolo

  1. Ottimizzazione a Livello di Sistema: Soluzione completa che combina DVFS, ottimizzazione UCIe, sicurezza distribuita e gestione termica
  2. Prestazioni in Tempo Reale: Focalizzato sui requisiti di inferenza in tempo reale dell'AI edge
  3. Progettazione Modulare: Architettura chiplet che bilancia prestazioni, costi e aggiornabilità

Conclusioni e Discussione

Conclusioni Principali

  1. Fattibilità Tecnica: L'architettura SoC RISC-V basata su chiplet risolve con successo il problema dell'equilibrio tra prestazioni, efficienza e costi per dispositivi AI edge
  2. Miglioramenti Significativi delle Prestazioni: L'integrazione di quattro innovazioni chiave realizza miglioramenti complessivi di prestazioni, consumo energetico ed efficienza
  3. Valore Pratico: Fornisce una soluzione pratica per l'applicazione di dispositivi AI edge di prossima generazione

Limitazioni

  1. Verifica Simulata: I risultati si basano su un simulatore Python, mancando della verifica su hardware reale
  2. Intervallo di Carichi di Lavoro: I test sono limitati a tre carichi di lavoro AI specifici
  3. Analisi dei Costi: Non fornisce un'analisi dettagliata dei costi di produzione comparativi
  4. Affidabilità a Lungo Termine: Non valuta l'affidabilità e la stabilità dell'operazione a lungo termine

Direzioni Future

  1. Prototipo Hardware: Sviluppare prototipi hardware reali per la verifica
  2. Valutazione Estesa: Testare le prestazioni su una gamma più ampia di carichi di lavoro AI
  3. Ottimizzazione della Produzione: Ricercare ulteriori ottimizzazioni nella produzione e integrazione di chiplet
  4. Standardizzazione: Promuovere lo sviluppo di standard per l'interconnessione di chiplet e la sicurezza

Valutazione Approfondita

Punti di Forza

  1. Innovazione Sistematica: Propone una soluzione completa di quattro innovazioni tecnologiche chiave, affrontando sistematicamente molteplici problemi critici nella progettazione di chiplet
  2. Orientamento Pratico: Affronta i requisiti effettivi dell'AI edge, focalizzandosi sulle prestazioni in tempo reale e sull'efficienza energetica
  3. Valutazione Quantitativa: Fornisce dati di prestazione dettagliati e analisi comparative con risultati convincenti
  4. Profondità Tecnica: Copre molteplici livelli dall'architettura hardware all'ottimizzazione a livello di sistema

Carenze

  1. Limitazioni di Verifica: Basato solo su verifica simulata, mancando dell'implementazione e dei test su hardware reale
  2. Fonte dei Parametri: L'accuratezza e la rappresentatività di alcuni parametri di simulazione potrebbero presentare problemi
  3. Analisi dei Costi Insufficiente: Non fornisce un'analisi economica dettagliata e un confronto dei costi di produzione
  4. Verifica della Sicurezza: L'effetto effettivo del framework di sicurezza distribuita non è stato sufficientemente verificato

Impatto

  1. Contributo Accademico: Fornisce importanti riferimenti per la progettazione di architetture chiplet nelle applicazioni AI edge
  2. Promozione Tecnologica: Potrebbe promuovere lo sviluppo di estensioni del protocollo UCIe e standard di sicurezza chiplet
  3. Valore Industriale: Fornisce soluzioni pratiche per lo sviluppo della tecnologia chiplet nell'industria dei semiconduttori
  4. Direzione di Ricerca: Fornisce framework di base e metodi di valutazione per la ricerca correlata successiva

Scenari Applicabili

  1. Dispositivi AI Edge: Applicazioni come guida autonoma, automazione industriale, sorveglianza intelligente che richiedono inferenza AI in tempo reale
  2. Calcolo ad Alte Prestazioni: Scenari che richiedono capacità di calcolo modulare e scalabile
  3. Applicazioni Sensibili ai Costi: Applicazioni commerciali che necessitano di bilanciare prestazioni e costi
  4. Sviluppo di Prototipi: Fornisce riferimenti per ulteriore ricerca e sviluppo di architetture chiplet

Bibliografia

L'articolo cita 19 riferimenti correlati, coprendo molteplici aree correlate incluse AI edge, tecnologia chiplet, DVFS e architetture di sicurezza, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di importante valore nel campo dell'architettura dei calcolatori, che propone un innovativo progetto di architettura chiplet per applicazioni AI edge. Sebbene presenti limitazioni nella verifica pratica, le sue innovazioni tecnologiche sistematiche e l'analisi dettagliata delle prestazioni forniscono importanti contributi allo sviluppo di questo campo.