Achieving high performance, energy efficiency, and cost-effectiveness while maintaining architectural flexibility is a critical challenge in the development and deployment of edge AI devices. Monolithic SoC designs struggle with this complex balance mainly due to low manufacturing yields (below 16%) at advanced 360 mm^2 process nodes. This paper presents a novel chiplet-based RISC-V SoC architecture that addresses these limitations through modular AI acceleration and intelligent system level optimization. Our proposed design integrates 4 different key innovations in a 30mm x 30mm silicon interposer: adaptive cross-chiplet Dynamic Voltage and Frequency Scaling (DVFS); AI-aware Universal Chiplet Interconnect Express (UCIe) protocol extensions featuring streaming flow control units and compression-aware transfers; distributed cryptographic security across heterogeneous chiplets; and intelligent sensor-driven load migration. The proposed architecture integrates a 7nm RISC-V CPU chiplet with dual 5nm AI accelerators (15 TOPS INT8 each), 16GB HBM3 memory stacks, and dedicated power management controllers. Experimental results across industry standard benchmarks like MobileNetV2, ResNet-50 and real-time video processing demonstrate significant performance improvements. The AI-optimized configuration achieves ~14.7% latency reduction, 17.3% throughput improvement, and 16.2% power reduction compared to previous basic chiplet implementations. These improvements collectively translate to a 40.1% efficiency gain corresponding to ~3.5 mJ per MobileNetV2 inference (860 mW/244 images/s), while maintaining sub-5ms real-time capability across all experimented workloads. These performance upgrades demonstrate that modular chiplet designs can achieve near-monolithic computational density while enabling cost efficiency, scalability and upgradeability, crucial for next-generation edge AI device applications.
- 논문 ID: 2509.18355
- 제목: Chiplet 기반 RISC-V SoC 및 모듈식 AI 가속
- 저자: Suhas Suresh Bharadwaj (Birla Institute of Technology and Science, Pilani – Dubai), Prerana Ramkumar (American University of Sharjah)
- 분류: cs.AR (컴퓨터 아키텍처), cs.AI (인공지능)
- 발표 시간/학회: 명확한 발표 학회 정보 없음
- 논문 링크: https://arxiv.org/abs/2509.18355
본 논문은 모듈식 AI 가속 및 지능형 시스템 수준 최적화를 통해 엣지 AI 디바이스의 고성능, 에너지 효율성 및 비용 효율성 간의 균형 문제를 해결하는 새로운 chiplet 기반 RISC-V SoC 아키텍처를 제안한다. 본 설계는 30mm×30mm 실리콘 인터포저에 네 가지 핵심 혁신을 통합한다: 적응형 크로스-chiplet 동적 전압 주파수 조절(DVFS), AI 인식 UCIe 프로토콜 확장, 분산형 암호화 보안 및 지능형 센서 기반 부하 마이그레이션. 실험 결과는 기본 chiplet 구현과 비교하여 AI 최적화 구성이 14.7%의 지연 감소, 17.3%의 처리량 증가 및 16.2%의 전력 소비 감소를 달성하며, 전체 효율성이 40.1% 향상됨을 보여준다.
엣지 AI 플랫폼은 서브밀리초 엔드-투-엔드 지연 및 2W 이하의 전력 소비를 포함한 엄격한 성능 요구사항을 충족해야 하면서 MobileNetV2 및 ResNet-50과 같은 점점 복잡해지는 심층 신경망을 실행해야 한다. 그러나 기존의 단일칩 시스템온칩(SoC) 방식은 제조 및 수율 문제에 직면해 있다.
- 시장 수요: 2030년까지 5,000억 개의 디바이스가 예상되며, 그 중 엣지 AI 플랫폼이 상당한 점유율을 차지할 것으로 예상됨
- 기술적 과제: 첨단 공정 노드에서 수백 제곱밀리미터 칩 면적의 수율이 극히 낮음(16% 미만)
- 응용 요구사항: 자율주행, 산업 자동화, 의료 등의 분야에서 실시간 추론 능력에 대한 엄격한 요구사항
- 단일칩 SoC: 첨단 공정 노드에서 제조 수율이 낮고 경제성이 떨어짐
- 기존 DVFS: 전압 변환 시간이 길어(수십 마이크로초 수준) 세밀한 조정을 제한함
- 보안 통합: 다중 공급업체 chiplet 통합으로 인한 보안 위험, 위조품, 복제 및 공급망 변조 포함
Chiplet 기반 2.5D 통합 기술은 대형 SoC를 더 작은 이질적 칩으로 분해하고 고밀도 인터포저 상호연결을 통해 실용적인 대안을 제공한다.
- Chiplet 기반 RISC-V SoC 아키텍처 제안: 7nm RISC-V CPU chiplet, 이중 5nm AI 가속기(각각 15 TOPS INT8), 16GB HBM3 메모리 및 전용 전원 관리 컨트롤러 통합
- 네 가지 핵심 시스템 혁신 구현:
- 적응형 크로스-chiplet DVFS 시스템
- AI 인식 UCIe 프로토콜 확장
- 분산형 암호화 보안 프레임워크
- 지능형 열 관리 시스템
- 현저한 성능 향상 검증: 기본 chiplet 구현과 비교하여 14.7% 지연 감소, 17.3% 처리량 증가, 16.2% 전력 소비 감소 달성
- 실시간 처리 능력 입증: 모든 테스트 워크로드에서 5ms 이하의 실시간 능력 유지
시스템은 30mm×30mm 실리콘 인터포저의 모듈식 chiplet 아키텍처를 채택하며, 다음을 포함한다:
- RISC-V CPU chiplet: 5mm×5mm, 7nm 공정, 내장형 커스텀 벡터 확장 포함
- AI 가속기 chiplet: 이중 6mm×4mm, 5nm 공정, 각각 15 TOPS INT8 연산 능력 제공
- HBM3 메모리: 16GB 용량, 819 GB/s 대역폭
- I/O 및 전원 관리 chiplet: 7mm×3mm
- 보안 컨트롤러: 3mm×2mm
UCIe 2.0 칩 간 링크를 사용하여 chiplet 통신 구현:
- 대역폭: ~30 GB/s
- 지연: <2ns
- 프로토콜 지원: CXL 메모리 트래픽 및 기타 스트리밍 데이터 프로토콜 동시 처리
- 확장 기능: 스트리밍 FLIT, 예측적 프리페칭 및 압축 감지 전송
기술 특성:
- 나노초 수준 전압 전환을 위해 온칩 레귤레이터 사용
- 워크로드 단계를 예측하고 세밀한 전압 아일랜드를 통해 전력 재할당
- 기존 DVFS의 수십 마이크로초 전압 변환 시간 제한 극복
성능 향상:
- 메모리 집약적 워크로드의 에너지 소비 12% 감소
- 성능 영향 무시할 수 있는 수준
설계 요점:
- UCIe 2.0 사양 기반의 완전한 칩 간 통신 스택
- 물리 계층, 적응 계층 및 프로토콜 계층 포함
- 스트리밍 제어 단위 및 압축 감지 전송 지원
- 시스템 수준 관리성, 디버깅 및 테스트를 위한 표준화된 아키텍처 제공
보안 전략:
- 트리 기반 다자간 계산(MPC) 프로토콜 채택
- 단일 장애점을 피하는 분산형 보안 아키텍처
- 각 chiplet에 암호화 링크 및 암호화 ID 통합
- 제로 트러스트 환경에서의 확장 가능한 분산형 보안 프레임워크
예측적 방법:
- 센서 기반 부하 마이그레이션
- 순수 반응형 열 관리(임계 온도 도달 후에만 성능 제한)를 넘어선 기술
- 지능형 예측 및 능동적 부하 분배
Chiplet RISC-V SoC 설계를 평가하기 위해 Python 기반 시뮬레이터 개발:
- 상호연결 지연, 전력 소비 및 열 스로틀링 동작 모델링
- 고정 전압 스케일링 계수를 통해 전력 효율성 스케일링 적용
- 매개변수는 UCIe 사양, 전력 스케일링 연구 및 문헌 보고 측정에서 출처
네 가지 테스트 시나리오 정의:
| 시나리오 | 지연(μs) | 대역폭(Gbps) | 기본 전력(mW) | 통신 전력(mW/ms) | 효율성 계수 |
|---|
| 단일칩 SoC | 0.0 | ∞ | 1500 | 0.0 | 1.0 |
| 기본 Chiplet | 1.5 | 16.0 | 1200 | 35 | 0.95 |
| AI 최적화 Chiplet | 0.8 | 24.0 | 1100 | 25 | 0.90 |
| 통합 불량 | 8.0 | 8.0 | 1800 | 80 | 1.10 |
MLPerf Tiny 벤치마크에서 대표적인 엣지 추론 작업 선택:
| 워크로드 | 기본 계산(ms) | 입력 크기(MB) | 복잡도 계수 | 배치 효율성 |
|---|
| MobileNetV2 | 3.5 | 0.57 | 0.8 | 0.85 |
| ResNet-50 | 12.0 | 0.57 | 1.2 | 0.90 |
| 실시간 비디오 | 2.0 | 0.30 | 1.0 | 0.70 |
- 추론 지연: 단일 추론 완료 시간
- 처리량: GFLOPs/s 또는 images/s
- 전력 소비: mW
- 에너지 효율성: TOPS/W
- 확장성: 배치 크기 효과
| 아키텍처 | 지연(ms) | 처리량(imgs/s) | 전력(mW) |
|---|
| 단일칩 SoC | 4.7 ± 0.2 | 213 | 1284 |
| 기본 Chiplet | 4.8 ± 0.2 | 208 | 1026 |
| AI 최적화 | 4.1 ± 0.3 | 244 | 860 |
| 통합 불량 | 6.2 ± 0.3 | 163 | 1776 |
AI 최적화 구성이 기본 chiplet 구현과 비교하여:
- 지연 감소: 4.8ms에서 4.1ms로 감소 (≈14.7% 감소)
- 처리량 증가: 208 images/s에서 244 images/s로 증가 (≈17.3% 증가)
- 전력 소비 감소: 1026mW에서 860mW로 감소 (≈16.2% 감소)
- 에너지 효율성 향상: 0.203 TOPS/W에서 0.284 TOPS/W로 증가 (≈40.1% 향상)
- 에너지 효율성 지표: MobileNetV2 추론당 ≈3.5 mJ (860 mW / 244 images/s)
- 실시간 능력: 모든 테스트 워크로드가 5ms 이하 요구사항 충족
- 배치 확장: 배치 크기 1-32 범위에서 AI 최적화가 지속적으로 최고 처리량 유지
- 아키텍처 장점: 모듈식 chiplet 설계가 단일칩에 가까운 계산 밀도 달성 가능
- 비용 효율성: 성능 유지 동시에 비용 효율성, 확장성 및 업그레이드 가능성 달성
- 실시간 보장: 모든 워크로드에서 일관된 성능 표현
- 전력 최적화: 성능 저하 없이 현저한 전력 소비 감소
- 엣지 AI 플랫폼: 자율 시스템, 산업 자동화, 의료 등의 분야에서 실시간 추론 지원
- Chiplet 기술: 2.5D 통합 기술이 실리콘 인터포저를 통해 이질적 칩 상호연결 구현
- AI 가속기: 5nm AI 추론 가속기가 최대 95.6 TOPS/W 효율성 달성
- 메모리 기술: HBM3이 최대 819 GB/s 대역폭 제공하여 외부 DRAM 병목 완화
- 시스템 수준 최적화: DVFS, UCIe 최적화, 분산형 보안 및 열 관리를 결합한 종합 솔루션
- 실시간 성능: 엣지 AI의 실시간 추론 요구사항에 초점
- 모듈식 설계: 성능, 비용 및 업그레이드 가능성의 균형을 맞추는 chiplet 아키텍처
- 기술 실현 가능성: Chiplet 기반 RISC-V SoC 아키텍처가 엣지 AI 디바이스의 성능-효율성-비용 균형 문제를 성공적으로 해결
- 현저한 성능 향상: 네 가지 핵심 혁신의 통합이 포괄적인 성능, 전력 소비 및 효율성 개선 달성
- 실용적 가치: 차세대 엣지 AI 디바이스 응용을 위한 실행 가능한 솔루션 제공
- 시뮬레이션 검증: 결과가 Python 시뮬레이터 기반이며 실제 하드웨어 검증 부재
- 워크로드 범위: 테스트가 세 가지 특정 AI 워크로드로만 제한됨
- 비용 분석: 상세한 제조 비용 비교 분석 미제공
- 장기 신뢰성: 장기 운영의 신뢰성 및 안정성 평가 미실시
- 하드웨어 프로토타입: 검증을 위한 실제 하드웨어 프로토타입 개발
- 확장 평가: 더 광범위한 AI 워크로드에서 성능 테스트
- 제조 최적화: Chiplet 제조 및 통합의 추가 최적화 연구
- 표준화: Chiplet 상호연결 및 보안 표준 발전 추진
- 시스템적 혁신: 네 가지 핵심 기술 혁신의 종합 솔루션을 제안하여 chiplet 설계의 여러 핵심 문제를 체계적으로 해결
- 실용 지향: 엣지 AI의 실제 요구사항에 대응하며 실시간 성능 및 전력 효율성에 초점
- 정량적 평가: 상세한 성능 데이터 및 비교 분석 제공으로 결과의 설득력 있음
- 기술 깊이: 하드웨어 아키텍처에서 시스템 수준 최적화까지 다양한 계층 포함
- 검증 한계: 시뮬레이션 검증만 수행되었으며 실제 하드웨어 구현 및 테스트 부재
- 매개변수 출처: 일부 시뮬레이션 매개변수의 정확성 및 대표성에 문제 가능성
- 비용 분석 부족: 상세한 경제성 분석 및 제조 비용 비교 미제공
- 보안 검증: 분산형 보안 프레임워크의 실제 효과가 충분히 검증되지 않음
- 학술 기여: Chiplet 아키텍처의 엣지 AI 응용 설계에 중요한 참고 자료 제공
- 기술 추진: UCIe 프로토콜 확장 및 chiplet 보안 표준 발전 추진 가능
- 산업 가치: 반도체 산업의 chiplet 기술 발전에 실용적 솔루션 제공
- 연구 방향: 후속 관련 연구를 위한 기초 프레임워크 및 평가 방법 제공
- 엣지 AI 디바이스: 자율주행, 산업 자동화, 지능형 감시 등 실시간 AI 추론이 필요한 응용
- 고성능 컴퓨팅: 모듈식, 확장 가능한 컴퓨팅 능력이 필요한 시나리오
- 비용 민감 응용: 성능과 비용의 균형이 필요한 상업 응용
- 프로토타입 개발: Chiplet 아키텍처의 추가 연구 및 개발을 위한 참고 자료
논문은 엣지 AI, chiplet 기술, DVFS, 보안 아키텍처 등 여러 관련 분야의 중요한 연구를 포함한 19개의 관련 문헌을 인용하며, 연구에 견고한 이론적 기초를 제공한다.
전체 평가: 이는 컴퓨터 아키텍처 분야에서 중요한 가치를 지닌 연구 논문으로, 엣지 AI 응용을 위한 혁신적인 chiplet 아키텍처 설계를 제안한다. 실제 검증 측면에서 한계가 있지만, 시스템적인 기술 혁신과 상세한 성능 분석이 해당 분야의 발전에 중요한 기여를 제공한다.