2025-11-18T21:55:13.846797

Chiplet-Based RISC-V SoC with Modular AI Acceleration

Ramkumar, Bharadwaj
Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
academic

SoC RISC-V Basado en Chiplets con Aceleración Modular de IA

Información Básica

  • ID del Artículo: 2509.18355
  • Título: SoC RISC-V Basado en Chiplets con Aceleración Modular de IA
  • Autores: Suhas Suresh Bharadwaj (Instituto Birla de Tecnología y Ciencia, Pilani – Dubái), Prerana Ramkumar (Universidad Americana de Sharjah)
  • Clasificación: cs.AR (Arquitectura de Computadoras), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación/Conferencia: Información de conferencia no especificada explícitamente
  • Enlace del Artículo: https://arxiv.org/abs/2509.18355

Resumen

Este artículo propone una arquitectura novedosa de SoC RISC-V basada en chiplets que aborda el desafío del equilibrio entre alto rendimiento, eficiencia energética y rentabilidad en dispositivos de IA en el perímetro mediante aceleración modular de IA y optimización inteligente a nivel de sistema. El diseño integra cuatro innovaciones clave en un interposer de silicio de 30mm×30mm: regulación adaptativa de voltaje y frecuencia dinámicos (DVFS) entre chiplets, extensión del protocolo UCIe consciente de IA, seguridad criptográfica distribuida y migración de carga inteligente impulsada por sensores. Los resultados experimentales demuestran que la configuración optimizada para IA logra una reducción de latencia del 14,7%, un aumento de rendimiento del 17,3% y una reducción de consumo de energía del 16,2% en comparación con la implementación de chiplet base, con una mejora general de eficiencia del 40,1%.

Antecedentes y Motivación de la Investigación

Definición del Problema

Las plataformas de IA en el perímetro deben cumplir con requisitos de rendimiento estrictos, incluyendo latencia de extremo a extremo en el rango de submilisegundos y envolventes de potencia inferiores a 2W, mientras ejecutan redes profundas cada vez más complejas como MobileNetV2 y ResNet-50. Sin embargo, los enfoques tradicionales de sistemas en chip (SoC) monolíticos enfrentan desafíos de fabricación y rendimiento.

Importancia del Problema

  1. Demanda de Mercado: Se proyecta que habrá 500 mil millones de dispositivos para 2030, con plataformas de IA en el perímetro ocupando una cuota importante
  2. Desafíos Técnicos: En nodos de proceso avanzados, el rendimiento de fabricación para áreas de chip de cientos de milímetros cuadrados es extremadamente bajo (inferior al 16%)
  3. Requisitos de Aplicación: Campos como conducción autónoma, automatización industrial y medicina requieren capacidades estrictas de inferencia en tiempo real

Limitaciones de Métodos Existentes

  1. SoC Monolítico: Bajo rendimiento de fabricación en nodos de proceso avanzados, economía deficiente
  2. DVFS Tradicional: Tiempo de conversión de voltaje largo (escala de decenas de microsegundos), limitando ajustes refinados
  3. Integración de Seguridad: La integración de chiplets de múltiples proveedores introduce riesgos de seguridad, incluyendo falsificación, clonación y manipulación de la cadena de suministro

Motivación de la Investigación

La tecnología de integración 2.5D basada en chiplets proporciona una alternativa práctica al descomponer SoC grandes en chips heterogéneos más pequeños interconectados a través de interposers de alta densidad.

Contribuciones Principales

  1. Propuesta de Arquitectura SoC RISC-V Basada en Chiplets: Integración de chiplet CPU RISC-V de 7nm, acelerador dual de IA de 5nm (15 TOPS INT8 cada uno), memoria HBM3 de 16GB y controlador de gestión de energía dedicado
  2. Implementación de Cuatro Innovaciones Clave del Sistema:
    • Sistema DVFS adaptativo entre chiplets
    • Extensión del protocolo UCIe consciente de IA
    • Marco de seguridad criptográfica distribuida
    • Sistema de gestión térmica inteligente
  3. Verificación de Mejoras de Rendimiento Significativas: Logro de reducción de latencia del 14,7%, aumento de rendimiento del 17,3%, reducción de consumo de energía del 16,2% en comparación con la implementación de chiplet base
  4. Demostración de Capacidad de Procesamiento en Tiempo Real: Mantenimiento de capacidad en tiempo real inferior a 5ms en todas las cargas de trabajo de prueba

Explicación Detallada de Métodos

Diseño de Arquitectura del Sistema

Arquitectura General

El sistema adopta una arquitectura modular de chiplets con interposer de silicio de 30mm×30mm, que contiene:

  • Chiplet CPU RISC-V: 5mm×5mm, proceso de 7nm, con extensión vectorial personalizada integrada
  • Chiplet Acelerador de IA: Dual 6mm×4mm, proceso de 5nm, proporcionando 15 TOPS INT8 cada uno
  • Memoria HBM3: Capacidad de 16GB, ancho de banda de 819 GB/s
  • Chiplet de E/S y Gestión de Energía: 7mm×3mm
  • Controlador de Seguridad: 3mm×2mm

Sistema de Interconexión UCIe

Implementación de comunicación entre chiplets mediante enlaces UCIe 2.0:

  • Ancho de Banda: ~30 GB/s
  • Latencia: <2ns
  • Soporte de Protocolo: Manejo simultáneo de tráfico de memoria CXL y otros protocolos de datos en flujo
  • Funcionalidades Extendidas: FLITs en flujo, prefetch predictivo y transmisión consciente de compresión

Innovaciones Técnicas Clave

1. DVFS Adaptativo Entre Chiplets

Características Técnicas:

  • Uso de reguladores en chip para conmutación de voltaje a escala de nanosegundos
  • Predicción de fases de carga de trabajo y reasignación de potencia a través de islas de voltaje de grano fino
  • Superación de limitaciones de tiempo de conversión de voltaje de decenas de microsegundos del DVFS tradicional

Mejoras de Rendimiento:

  • Reducción de consumo energético del 12% en cargas de trabajo intensivas en memoria
  • Impacto de rendimiento negligible

2. Extensión del Protocolo UCIe Consciente de IA

Puntos de Diseño:

  • Pila completa de comunicación entre chiplets basada en especificación UCIe 2.0
  • Inclusión de capas física, de adaptación y de protocolo
  • Soporte para unidades de control de flujo y transmisión consciente de compresión
  • Arquitectura estandarizada para capacidad de gestión, depuración y prueba a nivel de sistema

3. Marco de Seguridad Distribuida (AuthenTree)

Estrategia de Seguridad:

  • Adopción de protocolo de computación multiparte (MPC) basado en árbol
  • Arquitectura de seguridad descentralizada, evitando punto único de fallo
  • Integración de rutas criptográficas e identidades criptográficas para cada chiplet
  • Marco de seguridad distribuida escalable en entorno de confianza cero

4. Gestión Térmica Inteligente

Enfoque Predictivo:

  • Migración de carga impulsada por sensores
  • Más allá de gestión térmica puramente reactiva (limitación de rendimiento solo después de alcanzar temperatura crítica)
  • Predicción inteligente y asignación proactiva de carga

Configuración Experimental

Marco de Simulación

Desarrollo de simulador basado en Python para evaluar el diseño de SoC RISC-V con chiplets:

  • Modelado de latencia de interconexión, consumo de energía y comportamiento de limitación térmica
  • Aplicación de escalado de eficiencia energética a través de factores de escalado de voltaje fijos
  • Parámetros procedentes de especificaciones UCIe, investigación de escalado de potencia y mediciones reportadas en literatura

Escenarios de Prueba

Definición de cuatro escenarios de prueba:

EscenarioLatencia(μs)Ancho de Banda(Gbps)Potencia Base(mW)Potencia de Comunicación(mW/ms)Factor de Eficiencia
SoC Monolítico0,015000,01,0
Chiplet Base1,516,01200350,95
Chiplet Optimizado para IA0,824,01100250,90
Integración Deficiente8,08,01800801,10

Cargas de Trabajo

Selección de tareas representativas de inferencia en el perímetro del conjunto de pruebas MLPerf Tiny:

Carga de TrabajoComputación Base(ms)Tamaño de Entrada(MB)Factor de ComplejidadEficiencia de Lote
MobileNetV23,50,570,80,85
ResNet-5012,00,571,20,90
Vídeo en Tiempo Real2,00,301,00,70

Métricas de Evaluación

  • Latencia de Inferencia: Tiempo de finalización de inferencia única
  • Rendimiento: GFLOPs/s o imágenes/s
  • Consumo de Energía: mW
  • Eficiencia Energética: TOPS/W
  • Escalabilidad: Efectos del tamaño de lote

Resultados Experimentales

Resultados Principales

Prueba Comparativa MobileNetV2 (Tamaño de Lote=1)

ArquitecturaLatencia(ms)Rendimiento(imgs/s)Consumo de Energía(mW)
SoC Monolítico4,7 ± 0,22131284
Chiplet Base4,8 ± 0,22081026
Optimizado para IA4,1 ± 0,3244860
Integración Deficiente6,2 ± 0,31631776

Análisis de Mejora de Rendimiento

La configuración optimizada para IA en comparación con la implementación de chiplet base:

  • Reducción de Latencia: De 4,8ms a 4,1ms (≈reducción del 14,7%)
  • Aumento de Rendimiento: De 208 imágenes/s a 244 imágenes/s (≈aumento del 17,3%)
  • Reducción de Consumo de Energía: De 1026mW a 860mW (≈reducción del 16,2%)
  • Mejora de Eficiencia Energética: De 0,203 TOPS/W a 0,284 TOPS/W (≈mejora del 40,1%)

Rendimiento Entre Cargas de Trabajo

  • Métrica de Eficiencia Energética: ≈3,5 mJ por inferencia de MobileNetV2 (860 mW / 244 imágenes/s)
  • Capacidad en Tiempo Real: Todas las cargas de trabajo de prueba cumplen con requisito inferior a 5ms
  • Escalado de Lotes: En rango de tamaño de lote 1-32, la optimización para IA mantiene consistentemente el rendimiento más alto

Hallazgos Experimentales

  1. Ventajas de Arquitectura: El diseño modular de chiplets puede lograr densidad de computación cercana a la monolítica
  2. Rentabilidad: Logro de eficiencia de costos, escalabilidad y capacidad de actualización mientras se mantiene el rendimiento
  3. Garantía en Tiempo Real: Rendimiento consistente entre todas las cargas de trabajo
  4. Optimización de Energía: Reducción significativa de consumo de energía sin sacrificar rendimiento

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Plataformas de IA en el Perímetro: Soporte para inferencia en tiempo real en sistemas autónomos, automatización industrial, medicina y otros campos
  2. Tecnología de Chiplets: Tecnología de integración 2.5D que realiza interconexión de chips heterogéneos a través de interposers de silicio
  3. Aceleradores de IA: Aceleradores de inferencia de IA de 5nm que logran eficiencia de hasta 95,6 TOPS/W
  4. Tecnología de Memoria: HBM3 proporciona ancho de banda de hasta 819 GB/s aliviando cuello de botella de DRAM externo

Puntos de Innovación de Este Artículo

  1. Optimización a Nivel de Sistema: Solución integral que combina DVFS, optimización UCIe, seguridad distribuida y gestión térmica
  2. Rendimiento en Tiempo Real: Enfoque en requisitos de inferencia en tiempo real para IA en el perímetro
  3. Diseño Modular: Arquitectura de chiplets que equilibra rendimiento, costo y capacidad de actualización

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: La arquitectura SoC RISC-V basada en chiplets resuelve exitosamente el problema del equilibrio entre rendimiento, eficiencia y costo en dispositivos de IA en el perímetro
  2. Mejoras de Rendimiento Significativas: La integración de cuatro innovaciones clave logra mejoras integrales en rendimiento, consumo de energía y eficiencia
  3. Valor Práctico: Proporciona una solución viable para aplicaciones de dispositivos de IA en el perímetro de próxima generación

Limitaciones

  1. Verificación por Simulación: Los resultados se basan en simulador Python, careciendo de verificación de hardware real
  2. Rango de Cargas de Trabajo: Las pruebas se limitan a tres cargas de trabajo de IA específicas
  3. Análisis de Costos: No proporciona análisis detallado de comparación de costos de fabricación
  4. Confiabilidad a Largo Plazo: No evalúa confiabilidad y estabilidad de operación a largo plazo

Direcciones Futuras

  1. Prototipo de Hardware: Desarrollo de prototipo de hardware real para verificación
  2. Evaluación Extendida: Prueba de rendimiento en cargas de trabajo de IA más amplias
  3. Optimización de Fabricación: Investigación de optimizaciones adicionales en fabricación e integración de chiplets
  4. Estandarización: Promoción del desarrollo de estándares de interconexión de chiplets y seguridad

Evaluación Profunda

Fortalezas

  1. Innovación Sistemática: Propuesta de solución integral de cuatro innovaciones técnicas clave que abordan sistemáticamente múltiples problemas clave en diseño de chiplets
  2. Orientación Práctica: Enfoque en requisitos reales de IA en el perímetro, con atención a rendimiento en tiempo real y eficiencia energética
  3. Evaluación Cuantificada: Proporciona datos de rendimiento detallados y análisis comparativo con resultados convincentes
  4. Profundidad Técnica: Cubre múltiples niveles desde arquitectura de hardware hasta optimización a nivel de sistema

Deficiencias

  1. Limitaciones de Verificación: Verificación solo basada en simulación, careciendo de implementación y prueba de hardware real
  2. Fuentes de Parámetros: La precisión y representatividad de algunos parámetros de simulación pueden ser cuestionables
  3. Análisis de Costos Insuficiente: No proporciona análisis económico detallado y comparación de costos de fabricación
  4. Verificación de Seguridad: Los efectos reales del marco de seguridad distribuida no han sido suficientemente verificados

Impacto

  1. Contribución Académica: Proporciona referencia importante para diseño de arquitectura de chiplets en aplicaciones de IA en el perímetro
  2. Impulso Tecnológico: Puede impulsar desarrollo de extensiones de protocolo UCIe y estándares de seguridad de chiplets
  3. Valor Industrial: Proporciona solución práctica para desarrollo de tecnología de chiplets en industria de semiconductores
  4. Dirección de Investigación: Proporciona marco base y métodos de evaluación para investigación relacionada posterior

Escenarios Aplicables

  1. Dispositivos de IA en el Perímetro: Aplicaciones como conducción autónoma, automatización industrial, vigilancia inteligente que requieren inferencia de IA en tiempo real
  2. Computación de Alto Rendimiento: Escenarios que requieren capacidad de computación modular y escalable
  3. Aplicaciones Sensibles al Costo: Aplicaciones comerciales que requieren equilibrio entre rendimiento y costo
  4. Desarrollo de Prototipos: Proporciona referencia para investigación y desarrollo adicional de arquitectura de chiplets

Referencias

El artículo cita 19 referencias relacionadas, cubriendo múltiples campos relacionados incluyendo IA en el perímetro, tecnología de chiplets, DVFS y arquitectura de seguridad, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de valor importante en el campo de la arquitectura de computadoras, que propone un diseño innovador de arquitectura de chiplets para aplicaciones de IA en el perímetro. Aunque existen limitaciones en la verificación práctica, sus innovaciones técnicas sistemáticas y análisis de rendimiento detallado proporcionan contribuciones importantes para el desarrollo de este campo.