2025-11-18T21:55:13.846797

Chiplet-Based RISC-V SoC with Modular AI Acceleration

Ramkumar, Bharadwaj
Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
academic

Chiplet-Based RISC-V SoC с модульным ускорением ИИ

Основная информация

  • ID статьи: 2509.18355
  • Название: Chiplet-Based RISC-V SoC with Modular AI Acceleration
  • Авторы: Suhas Suresh Bharadwaj (Birla Institute of Technology and Science, Pilani – Dubai), Prerana Ramkumar (American University of Sharjah)
  • Классификация: cs.AR (Компьютерная архитектура), cs.AI (Искусственный интеллект)
  • Время публикации/конференция: Информация о конференции не указана явно
  • Ссылка на статью: https://arxiv.org/abs/2509.18355

Аннотация

В данной работе предложена новая архитектура RISC-V SoC на основе chiplet, которая решает проблему баланса между высокой производительностью, энергоэффективностью и экономической целесообразностью для пограничных устройств ИИ посредством модульного ускорения ИИ и интеллектуальной оптимизации на уровне системы. Конструкция интегрирует четыре ключевых инновации на кремниевом интерпозере размером 30×30 мм: адаптивную динамическую регулировку напряжения и частоты между chiplet (DVFS), расширение протокола UCIe с учётом ИИ, распределённую криптографическую безопасность и интеллектуальную миграцию нагрузки, управляемую датчиками. Экспериментальные результаты показывают, что оптимизированная конфигурация ИИ достигает снижения задержки на 14,7%, увеличения пропускной способности на 17,3% и снижения энергопотребления на 16,2% по сравнению с базовой реализацией chiplet, при этом общая эффективность повышается на 40,1%.

Исследовательский контекст и мотивация

Определение проблемы

Платформы пограничного ИИ должны удовлетворять строгим требованиям производительности, включая сквозную задержку в субмиллисекундном диапазоне и энергопотребление менее 2 Вт при выполнении всё более сложных глубоких сетей, таких как MobileNetV2 и ResNet-50. Однако традиционные подходы к монолитным системам на кристалле (SoC) сталкиваются с проблемами производства и выхода годных изделий.

Значимость проблемы

  1. Рыночный спрос: К 2030 году ожидается 500 миллиардов устройств, значительная доля которых будет приходиться на платформы пограничного ИИ
  2. Технические вызовы: На передовых технологических узлах выход годных изделий для кристаллов площадью в сотни квадратных миллиметров крайне низок (менее 16%)
  3. Требования приложений: Автономные транспортные средства, промышленная автоматизация, здравоохранение и другие области предъявляют строгие требования к возможностям вывода в реальном времени

Ограничения существующих подходов

  1. Монолитные SoC: Низкий выход годных изделий на передовых технологических узлах, плохая экономическая целесообразность
  2. Традиционный DVFS: Длительное время переключения напряжения (десятки микросекунд), ограничивающее тонкозернистую регулировку
  3. Интеграция безопасности: Интеграция chiplet от нескольких поставщиков создаёт риски безопасности, включая подделку, клонирование и манипуляции цепочкой поставок

Исследовательская мотивация

Технология 2.5D интеграции на основе chiplet предоставляет практическую альтернативу путём разложения крупных SoC на меньшие гетерогенные кристаллы, соединённые через высокоплотный интерпозер.

Основные вклады

  1. Предложена архитектура RISC-V SoC на основе chiplet: Интегрирует 7-нм RISC-V CPU chiplet, двойные 5-нм ускорители ИИ (по 15 TOPS INT8 каждый), 16 ГБ памяти HBM3 и специализированный контроллер управления питанием
  2. Реализованы четыре ключевых системных инновации:
    • Адаптивная система DVFS между chiplet
    • Расширение протокола UCIe с учётом ИИ
    • Распределённая криптографическая структура безопасности
    • Интеллектуальная система управления тепловым режимом
  3. Подтверждено значительное повышение производительности: Достигнуто снижение задержки на 14,7%, увеличение пропускной способности на 17,3%, снижение энергопотребления на 16,2% по сравнению с базовой реализацией chiplet
  4. Доказана возможность обработки в реальном времени: Сохранение возможности работы в реальном времени (менее 5 мс) на всех тестовых рабочих нагрузках

Подробное описание методологии

Проектирование системной архитектуры

Общая архитектура

Система использует модульную архитектуру chiplet на кремниевом интерпозере размером 30×30 мм, включающую:

  • RISC-V CPU chiplet: 5×5 мм, технология 7 нм, с встроенным пользовательским векторным расширением
  • Ускорители ИИ chiplet: Двойные 6×4 мм, технология 5 нм, каждый обеспечивает 15 TOPS INT8
  • Память HBM3: Ёмкость 16 ГБ, пропускная способность 819 ГБ/с
  • Chiplet ввода-вывода и управления питанием: 7×3 мм
  • Контроллер безопасности: 3×2 мм

Система взаимосвязи UCIe

Использует межкристальные каналы UCIe 2.0 для связи между chiplet:

  • Пропускная способность: ~30 ГБ/с
  • Задержка: <2 нс
  • Поддержка протокола: Одновременная обработка трафика памяти CXL и других потоковых протоколов данных
  • Расширенные функции: Потоковые FLIT, предсказательная предвыборка и сжимающая передача, осведомлённая о восприятии

Ключевые технологические инновации

1. Адаптивный межchiplet DVFS

Характеристики технологии:

  • Использование встроенных регуляторов для переключения напряжения в наносекундном диапазоне
  • Предсказание фаз рабочей нагрузки и перераспределение мощности через тонкозернистые островки напряжения
  • Преодоление ограничений традиционного DVFS с временем переключения напряжения в десятки микросекунд

Повышение производительности:

  • Снижение энергопотребления на 12% для рабочих нагрузок, интенсивных по памяти
  • Пренебрежимо малое влияние на производительность

2. Расширение протокола UCIe с учётом ИИ

Ключевые моменты проектирования:

  • Полный стек связи между кристаллами на основе спецификации UCIe 2.0
  • Включает физический уровень, уровень адаптации и уровень протокола
  • Поддержка потоковых управляющих единиц и сжимающей передачи, осведомлённой о восприятии
  • Предоставление стандартизированной архитектуры для управляемости, отладки и тестирования на уровне системы

3. Распределённая структура безопасности (AuthenTree)

Политика безопасности:

  • Использование протокола многостороннего вычисления (MPC) на основе дерева
  • Децентрализованная архитектура безопасности, избегающая единой точки отказа
  • Интеграция криптографических каналов и криптографических идентификаторов для каждого chiplet
  • Масштабируемая распределённая структура безопасности в среде нулевого доверия

4. Интеллектуальное управление тепловым режимом

Предсказательный подход:

  • Миграция нагрузки, управляемая датчиками
  • Выход за рамки чисто реактивного управления тепловым режимом (ограничение производительности только после достижения критической температуры)
  • Интеллектуальное предсказание и активное распределение нагрузки

Экспериментальная установка

Структура моделирования

Разработан симулятор на основе Python для оценки конструкции chiplet RISC-V SoC:

  • Моделирование задержки взаимосвязи, энергопотребления и поведения теплового дросселирования
  • Применение масштабирования энергоэффективности через фиксированные коэффициенты масштабирования напряжения
  • Параметры получены из спецификации UCIe, исследований масштабирования мощности и измерений, сообщённых в литературе

Тестовые сценарии

Определены четыре тестовых сценария:

СценарийЗадержка (μs)Пропускная способность (Gbps)Базовая мощность (mW)Мощность связи (mW/ms)Коэффициент эффективности
Монолитный SoC0.015000.01.0
Базовый Chiplet1.516.01200350.95
Оптимизированный ИИ Chiplet0.824.01100250.90
Плохая интеграция8.08.01800801.10

Рабочие нагрузки

Выбраны репрезентативные задачи вывода на пограничных устройствах из эталонного набора MLPerf Tiny:

Рабочая нагрузкаБазовые вычисления (ms)Размер входных данных (MB)Коэффициент сложностиЭффективность пакетной обработки
MobileNetV23.50.570.80.85
ResNet-5012.00.571.20.90
Видео в реальном времени2.00.301.00.70

Метрики оценки

  • Задержка вывода: Время завершения одного вывода
  • Пропускная способность: GFLOPs/s или images/s
  • Энергопотребление: mW
  • Энергоэффективность: TOPS/W
  • Масштабируемость: Эффект размера пакета

Экспериментальные результаты

Основные результаты

Эталонный тест MobileNetV2 (размер пакета = 1)

АрхитектураЗадержка (ms)Пропускная способность (imgs/s)Энергопотребление (mW)
Монолитный SoC4.7 ± 0.22131284
Базовый Chiplet4.8 ± 0.22081026
Оптимизированный ИИ4.1 ± 0.3244860
Плохая интеграция6.2 ± 0.31631776

Анализ повышения производительности

Оптимизированная конфигурация ИИ по сравнению с базовой реализацией chiplet:

  • Снижение задержки: с 4.8 мс до 4.1 мс (≈14,7% снижение)
  • Увеличение пропускной способности: с 208 images/s до 244 images/s (≈17,3% увеличение)
  • Снижение энергопотребления: с 1026 мВт до 860 мВт (≈16,2% снижение)
  • Повышение энергоэффективности: с 0.203 TOPS/W до 0.284 TOPS/W (≈40,1% повышение)

Производительность на различных рабочих нагрузках

  • Метрики энергоэффективности: ≈3.5 мДж на один вывод MobileNetV2 (860 мВт / 244 images/s)
  • Возможность работы в реальном времени: Все тестовые рабочие нагрузки соответствуют требованию менее 5 мс
  • Масштабирование пакетной обработки: В диапазоне размеров пакета 1-32 оптимизированный ИИ постоянно сохраняет наивысшую пропускную способность

Экспериментальные выводы

  1. Преимущества архитектуры: Модульная конструкция chiplet может достичь вычислительной плотности, близкой к монолитной
  2. Экономическая целесообразность: Достижение экономической эффективности, масштабируемости и возможности обновления при сохранении производительности
  3. Гарантии реального времени: Согласованная производительность на всех рабочих нагрузках
  4. Оптимизация энергопотребления: Значительное снижение энергопотребления без ущерба для производительности

Связанные работы

Основные направления исследований

  1. Платформы пограничного ИИ: Поддержка вывода в реальном времени для автономных систем, промышленной автоматизации, здравоохранения и других областей
  2. Технология Chiplet: Технология 2.5D интеграции, реализующая взаимосвязь гетерогенных кристаллов через кремниевый интерпозер
  3. Ускорители ИИ: Ускорители вывода ИИ на 5 нм, достигающие эффективности до 95,6 TOPS/W
  4. Технология памяти: HBM3, обеспечивающая пропускную способность до 819 ГБ/с, облегчающая узкие места внешней DRAM

Инновационные аспекты данной работы

  1. Оптимизация на уровне системы: Комплексное решение, объединяющее DVFS, оптимизацию UCIe, распределённую безопасность и управление тепловым режимом
  2. Производительность в реальном времени: Сосредоточение на требованиях вывода в реальном времени для пограничного ИИ
  3. Модульное проектирование: Архитектура chiplet, балансирующая производительность, стоимость и возможность обновления

Заключение и обсуждение

Основные выводы

  1. Технологическая целесообразность: Архитектура RISC-V SoC на основе chiplet успешно решает проблему баланса производительности, эффективности и стоимости для пограничных устройств ИИ
  2. Значительное повышение производительности: Интеграция четырёх ключевых инноваций достигает комплексного улучшения производительности, энергопотребления и эффективности
  3. Практическая ценность: Предоставляет жизнеспособное решение для приложений пограничного ИИ следующего поколения

Ограничения

  1. Моделирование и верификация: Результаты основаны на симуляторе Python, отсутствует верификация на реальном оборудовании
  2. Диапазон рабочих нагрузок: Тестирование ограничено тремя конкретными рабочими нагрузками ИИ
  3. Анализ стоимости: Отсутствует детальный анализ сравнения производственных затрат
  4. Долгосрочная надёжность: Не оценена надёжность и стабильность при длительной работе

Направления будущих исследований

  1. Аппаратный прототип: Разработка реального аппаратного прототипа для верификации
  2. Расширенная оценка: Тестирование производительности на более широком спектре рабочих нагрузок ИИ
  3. Оптимизация производства: Исследование дальнейшей оптимизации производства и интеграции chiplet
  4. Стандартизация: Продвижение развития стандартов для взаимосвязи chiplet и безопасности

Глубокая оценка

Преимущества

  1. Системная инновация: Предложено комплексное решение четырёх ключевых технологических инноваций, систематически решающее множество критических проблем в проектировании chiplet
  2. Практическая ориентация: Ориентация на фактические требования пограничного ИИ, сосредоточение на производительности в реальном времени и энергоэффективности
  3. Количественная оценка: Предоставлены детальные данные о производительности и сравнительный анализ с убедительными результатами
  4. Техническая глубина: Охватывает несколько уровней от архитектуры оборудования до оптимизации на уровне системы

Недостатки

  1. Ограничения верификации: Верификация только на основе моделирования, отсутствует реальная реализация и тестирование оборудования
  2. Источники параметров: Точность и репрезентативность некоторых параметров моделирования могут быть под вопросом
  3. Недостаточный анализ стоимости: Отсутствует детальный анализ экономической целесообразности и сравнение производственных затрат
  4. Верификация безопасности: Фактическая эффективность распределённой структуры безопасности не полностью верифицирована

Влияние

  1. Академический вклад: Предоставляет важный справочный материал для проектирования архитектуры chiplet в приложениях пограничного ИИ
  2. Технологический прогресс: Может способствовать развитию расширения протокола UCIe и стандартов безопасности chiplet
  3. Промышленная ценность: Предоставляет практическое решение для развития технологии chiplet в полупроводниковой промышленности
  4. Направление исследований: Предоставляет базовую структуру и методологию оценки для последующих связанных исследований

Применимые сценарии

  1. Пограничные устройства ИИ: Автономные транспортные средства, промышленная автоматизация, интеллектуальное видеонаблюдение и другие приложения, требующие вывода ИИ в реальном времени
  2. Высокопроизводительные вычисления: Сценарии, требующие модульной и масштабируемой вычислительной мощности
  3. Приложения, чувствительные к стоимости: Коммерческие приложения, требующие баланса между производительностью и стоимостью
  4. Разработка прототипов: Предоставляет справочный материал для дальнейших исследований и разработки архитектуры chiplet

Библиография

Статья ссылается на 19 соответствующих источников, охватывающих несколько связанных областей, включая пограничный ИИ, технологию chiplet, DVFS и архитектуру безопасности, предоставляя прочную теоретическую основу для исследования.


Общая оценка: Это исследовательская работа, имеющая значительную ценность в области компьютерной архитектуры, которая предлагает инновационное проектирование архитектуры chiplet для приложений пограничного ИИ. Хотя существуют ограничения в отношении фактической верификации, её системная технологическая инновация и детальный анализ производительности вносят важный вклад в развитие данной области.