Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
- ID статьи: 2509.18355
- Название: Chiplet-Based RISC-V SoC with Modular AI Acceleration
- Авторы: Suhas Suresh Bharadwaj (Birla Institute of Technology and Science, Pilani – Dubai), Prerana Ramkumar (American University of Sharjah)
- Классификация: cs.AR (Компьютерная архитектура), cs.AI (Искусственный интеллект)
- Время публикации/конференция: Информация о конференции не указана явно
- Ссылка на статью: https://arxiv.org/abs/2509.18355
В данной работе предложена новая архитектура RISC-V SoC на основе chiplet, которая решает проблему баланса между высокой производительностью, энергоэффективностью и экономической целесообразностью для пограничных устройств ИИ посредством модульного ускорения ИИ и интеллектуальной оптимизации на уровне системы. Конструкция интегрирует четыре ключевых инновации на кремниевом интерпозере размером 30×30 мм: адаптивную динамическую регулировку напряжения и частоты между chiplet (DVFS), расширение протокола UCIe с учётом ИИ, распределённую криптографическую безопасность и интеллектуальную миграцию нагрузки, управляемую датчиками. Экспериментальные результаты показывают, что оптимизированная конфигурация ИИ достигает снижения задержки на 14,7%, увеличения пропускной способности на 17,3% и снижения энергопотребления на 16,2% по сравнению с базовой реализацией chiplet, при этом общая эффективность повышается на 40,1%.
Платформы пограничного ИИ должны удовлетворять строгим требованиям производительности, включая сквозную задержку в субмиллисекундном диапазоне и энергопотребление менее 2 Вт при выполнении всё более сложных глубоких сетей, таких как MobileNetV2 и ResNet-50. Однако традиционные подходы к монолитным системам на кристалле (SoC) сталкиваются с проблемами производства и выхода годных изделий.
- Рыночный спрос: К 2030 году ожидается 500 миллиардов устройств, значительная доля которых будет приходиться на платформы пограничного ИИ
- Технические вызовы: На передовых технологических узлах выход годных изделий для кристаллов площадью в сотни квадратных миллиметров крайне низок (менее 16%)
- Требования приложений: Автономные транспортные средства, промышленная автоматизация, здравоохранение и другие области предъявляют строгие требования к возможностям вывода в реальном времени
- Монолитные SoC: Низкий выход годных изделий на передовых технологических узлах, плохая экономическая целесообразность
- Традиционный DVFS: Длительное время переключения напряжения (десятки микросекунд), ограничивающее тонкозернистую регулировку
- Интеграция безопасности: Интеграция chiplet от нескольких поставщиков создаёт риски безопасности, включая подделку, клонирование и манипуляции цепочкой поставок
Технология 2.5D интеграции на основе chiplet предоставляет практическую альтернативу путём разложения крупных SoC на меньшие гетерогенные кристаллы, соединённые через высокоплотный интерпозер.
- Предложена архитектура RISC-V SoC на основе chiplet: Интегрирует 7-нм RISC-V CPU chiplet, двойные 5-нм ускорители ИИ (по 15 TOPS INT8 каждый), 16 ГБ памяти HBM3 и специализированный контроллер управления питанием
- Реализованы четыре ключевых системных инновации:
- Адаптивная система DVFS между chiplet
- Расширение протокола UCIe с учётом ИИ
- Распределённая криптографическая структура безопасности
- Интеллектуальная система управления тепловым режимом
- Подтверждено значительное повышение производительности: Достигнуто снижение задержки на 14,7%, увеличение пропускной способности на 17,3%, снижение энергопотребления на 16,2% по сравнению с базовой реализацией chiplet
- Доказана возможность обработки в реальном времени: Сохранение возможности работы в реальном времени (менее 5 мс) на всех тестовых рабочих нагрузках
Система использует модульную архитектуру chiplet на кремниевом интерпозере размером 30×30 мм, включающую:
- RISC-V CPU chiplet: 5×5 мм, технология 7 нм, с встроенным пользовательским векторным расширением
- Ускорители ИИ chiplet: Двойные 6×4 мм, технология 5 нм, каждый обеспечивает 15 TOPS INT8
- Память HBM3: Ёмкость 16 ГБ, пропускная способность 819 ГБ/с
- Chiplet ввода-вывода и управления питанием: 7×3 мм
- Контроллер безопасности: 3×2 мм
Использует межкристальные каналы UCIe 2.0 для связи между chiplet:
- Пропускная способность: ~30 ГБ/с
- Задержка: <2 нс
- Поддержка протокола: Одновременная обработка трафика памяти CXL и других потоковых протоколов данных
- Расширенные функции: Потоковые FLIT, предсказательная предвыборка и сжимающая передача, осведомлённая о восприятии
Характеристики технологии:
- Использование встроенных регуляторов для переключения напряжения в наносекундном диапазоне
- Предсказание фаз рабочей нагрузки и перераспределение мощности через тонкозернистые островки напряжения
- Преодоление ограничений традиционного DVFS с временем переключения напряжения в десятки микросекунд
Повышение производительности:
- Снижение энергопотребления на 12% для рабочих нагрузок, интенсивных по памяти
- Пренебрежимо малое влияние на производительность
Ключевые моменты проектирования:
- Полный стек связи между кристаллами на основе спецификации UCIe 2.0
- Включает физический уровень, уровень адаптации и уровень протокола
- Поддержка потоковых управляющих единиц и сжимающей передачи, осведомлённой о восприятии
- Предоставление стандартизированной архитектуры для управляемости, отладки и тестирования на уровне системы
Политика безопасности:
- Использование протокола многостороннего вычисления (MPC) на основе дерева
- Децентрализованная архитектура безопасности, избегающая единой точки отказа
- Интеграция криптографических каналов и криптографических идентификаторов для каждого chiplet
- Масштабируемая распределённая структура безопасности в среде нулевого доверия
Предсказательный подход:
- Миграция нагрузки, управляемая датчиками
- Выход за рамки чисто реактивного управления тепловым режимом (ограничение производительности только после достижения критической температуры)
- Интеллектуальное предсказание и активное распределение нагрузки
Разработан симулятор на основе Python для оценки конструкции chiplet RISC-V SoC:
- Моделирование задержки взаимосвязи, энергопотребления и поведения теплового дросселирования
- Применение масштабирования энергоэффективности через фиксированные коэффициенты масштабирования напряжения
- Параметры получены из спецификации UCIe, исследований масштабирования мощности и измерений, сообщённых в литературе
Определены четыре тестовых сценария:
| Сценарий | Задержка (μs) | Пропускная способность (Gbps) | Базовая мощность (mW) | Мощность связи (mW/ms) | Коэффициент эффективности |
|---|
| Монолитный SoC | 0.0 | ∞ | 1500 | 0.0 | 1.0 |
| Базовый Chiplet | 1.5 | 16.0 | 1200 | 35 | 0.95 |
| Оптимизированный ИИ Chiplet | 0.8 | 24.0 | 1100 | 25 | 0.90 |
| Плохая интеграция | 8.0 | 8.0 | 1800 | 80 | 1.10 |
Выбраны репрезентативные задачи вывода на пограничных устройствах из эталонного набора MLPerf Tiny:
| Рабочая нагрузка | Базовые вычисления (ms) | Размер входных данных (MB) | Коэффициент сложности | Эффективность пакетной обработки |
|---|
| MobileNetV2 | 3.5 | 0.57 | 0.8 | 0.85 |
| ResNet-50 | 12.0 | 0.57 | 1.2 | 0.90 |
| Видео в реальном времени | 2.0 | 0.30 | 1.0 | 0.70 |
- Задержка вывода: Время завершения одного вывода
- Пропускная способность: GFLOPs/s или images/s
- Энергопотребление: mW
- Энергоэффективность: TOPS/W
- Масштабируемость: Эффект размера пакета
| Архитектура | Задержка (ms) | Пропускная способность (imgs/s) | Энергопотребление (mW) |
|---|
| Монолитный SoC | 4.7 ± 0.2 | 213 | 1284 |
| Базовый Chiplet | 4.8 ± 0.2 | 208 | 1026 |
| Оптимизированный ИИ | 4.1 ± 0.3 | 244 | 860 |
| Плохая интеграция | 6.2 ± 0.3 | 163 | 1776 |
Оптимизированная конфигурация ИИ по сравнению с базовой реализацией chiplet:
- Снижение задержки: с 4.8 мс до 4.1 мс (≈14,7% снижение)
- Увеличение пропускной способности: с 208 images/s до 244 images/s (≈17,3% увеличение)
- Снижение энергопотребления: с 1026 мВт до 860 мВт (≈16,2% снижение)
- Повышение энергоэффективности: с 0.203 TOPS/W до 0.284 TOPS/W (≈40,1% повышение)
- Метрики энергоэффективности: ≈3.5 мДж на один вывод MobileNetV2 (860 мВт / 244 images/s)
- Возможность работы в реальном времени: Все тестовые рабочие нагрузки соответствуют требованию менее 5 мс
- Масштабирование пакетной обработки: В диапазоне размеров пакета 1-32 оптимизированный ИИ постоянно сохраняет наивысшую пропускную способность
- Преимущества архитектуры: Модульная конструкция chiplet может достичь вычислительной плотности, близкой к монолитной
- Экономическая целесообразность: Достижение экономической эффективности, масштабируемости и возможности обновления при сохранении производительности
- Гарантии реального времени: Согласованная производительность на всех рабочих нагрузках
- Оптимизация энергопотребления: Значительное снижение энергопотребления без ущерба для производительности
- Платформы пограничного ИИ: Поддержка вывода в реальном времени для автономных систем, промышленной автоматизации, здравоохранения и других областей
- Технология Chiplet: Технология 2.5D интеграции, реализующая взаимосвязь гетерогенных кристаллов через кремниевый интерпозер
- Ускорители ИИ: Ускорители вывода ИИ на 5 нм, достигающие эффективности до 95,6 TOPS/W
- Технология памяти: HBM3, обеспечивающая пропускную способность до 819 ГБ/с, облегчающая узкие места внешней DRAM
- Оптимизация на уровне системы: Комплексное решение, объединяющее DVFS, оптимизацию UCIe, распределённую безопасность и управление тепловым режимом
- Производительность в реальном времени: Сосредоточение на требованиях вывода в реальном времени для пограничного ИИ
- Модульное проектирование: Архитектура chiplet, балансирующая производительность, стоимость и возможность обновления
- Технологическая целесообразность: Архитектура RISC-V SoC на основе chiplet успешно решает проблему баланса производительности, эффективности и стоимости для пограничных устройств ИИ
- Значительное повышение производительности: Интеграция четырёх ключевых инноваций достигает комплексного улучшения производительности, энергопотребления и эффективности
- Практическая ценность: Предоставляет жизнеспособное решение для приложений пограничного ИИ следующего поколения
- Моделирование и верификация: Результаты основаны на симуляторе Python, отсутствует верификация на реальном оборудовании
- Диапазон рабочих нагрузок: Тестирование ограничено тремя конкретными рабочими нагрузками ИИ
- Анализ стоимости: Отсутствует детальный анализ сравнения производственных затрат
- Долгосрочная надёжность: Не оценена надёжность и стабильность при длительной работе
- Аппаратный прототип: Разработка реального аппаратного прототипа для верификации
- Расширенная оценка: Тестирование производительности на более широком спектре рабочих нагрузок ИИ
- Оптимизация производства: Исследование дальнейшей оптимизации производства и интеграции chiplet
- Стандартизация: Продвижение развития стандартов для взаимосвязи chiplet и безопасности
- Системная инновация: Предложено комплексное решение четырёх ключевых технологических инноваций, систематически решающее множество критических проблем в проектировании chiplet
- Практическая ориентация: Ориентация на фактические требования пограничного ИИ, сосредоточение на производительности в реальном времени и энергоэффективности
- Количественная оценка: Предоставлены детальные данные о производительности и сравнительный анализ с убедительными результатами
- Техническая глубина: Охватывает несколько уровней от архитектуры оборудования до оптимизации на уровне системы
- Ограничения верификации: Верификация только на основе моделирования, отсутствует реальная реализация и тестирование оборудования
- Источники параметров: Точность и репрезентативность некоторых параметров моделирования могут быть под вопросом
- Недостаточный анализ стоимости: Отсутствует детальный анализ экономической целесообразности и сравнение производственных затрат
- Верификация безопасности: Фактическая эффективность распределённой структуры безопасности не полностью верифицирована
- Академический вклад: Предоставляет важный справочный материал для проектирования архитектуры chiplet в приложениях пограничного ИИ
- Технологический прогресс: Может способствовать развитию расширения протокола UCIe и стандартов безопасности chiplet
- Промышленная ценность: Предоставляет практическое решение для развития технологии chiplet в полупроводниковой промышленности
- Направление исследований: Предоставляет базовую структуру и методологию оценки для последующих связанных исследований
- Пограничные устройства ИИ: Автономные транспортные средства, промышленная автоматизация, интеллектуальное видеонаблюдение и другие приложения, требующие вывода ИИ в реальном времени
- Высокопроизводительные вычисления: Сценарии, требующие модульной и масштабируемой вычислительной мощности
- Приложения, чувствительные к стоимости: Коммерческие приложения, требующие баланса между производительностью и стоимостью
- Разработка прототипов: Предоставляет справочный материал для дальнейших исследований и разработки архитектуры chiplet
Статья ссылается на 19 соответствующих источников, охватывающих несколько связанных областей, включая пограничный ИИ, технологию chiplet, DVFS и архитектуру безопасности, предоставляя прочную теоретическую основу для исследования.
Общая оценка: Это исследовательская работа, имеющая значительную ценность в области компьютерной архитектуры, которая предлагает инновационное проектирование архитектуры chiplet для приложений пограничного ИИ. Хотя существуют ограничения в отношении фактической верификации, её системная технологическая инновация и детальный анализ производительности вносят важный вклад в развитие данной области.