General Matrix Multiply (GEMM) units, consisting of multiply-accumulate (MAC) arrays, perform bulk of the computation in deep learning (DL). Recent work has proposed a novel MAC design, Bit-Pragmatic (PRA), capable of dynamically exploiting bit sparsity. This work presents OzMAC (Omit-zero-MAC), a modified re-implementation of PRA, but extends beyond earlier works by performing rigorous post-synthesis evaluation against binary MAC design across multiple bitwidths and clock frequencies using TSMC N5 process node to assess commercial implementation potential. We demonstrate the existence of high bit sparsity in eight pretrained INT8 DL workloads and show that 8-bit OzMAC improves all three metrics of area, power, and energy significantly by 21%, 70%, and 28%, respectively. Similar improvements are achieved when scaling data precisions (4, 8, 16 bits) and clock frequencies (0.5 GHz, 1 GHz, 1.5 GHz). For the 8-bit OzMAC, scaling its frequency to normalize the throughput, it still achieves 30% improvement on both power and energy.
academic- 논문 ID: 2402.19376
- 제목: Commercial Evaluation of Zero-Skipping MAC Design for Bit Sparsity Exploitation in DL Inference
- 저자: Harideep Nair, Prabhu Vellaisamy, Tsung-Han Lin, Perry Wang, Shawn Blanton, John Paul Shen
- 기관: Carnegie Mellon University, MediaTek USA Inc.
- 분류: cs.AR (컴퓨터 아키텍처)
- 발표 시간: 2024년 2월
- 논문 링크: https://arxiv.org/abs/2402.19376
본 논문은 딥러닝 추론에서 비트 희소성을 활용하기 위해 설계된 Bit-Pragmatic(PRA) MAC 설계의 개선된 구현인 OzMAC(Omit-zero-MAC)를 제안한다. 기존 연구와 달리, 본 논문은 상용급 TSMC N5 공정 노드를 사용하여 다양한 비트폭과 클록 주파수에서 설계에 대한 엄격한 합성 후 평가를 수행했다. 연구 결과 8개의 사전 훈련된 INT8 딥러닝 워크로드에서 높은 비트 희소성이 존재하며, 8비트 OzMAC는 면적, 전력 소비 및 에너지 소비에서 각각 21%, 70%, 28%의 현저한 개선을 달성했다.
- 계산 병목:범용 행렬 곱셈(GEMM) 단위의 곱셈-누적(MAC) 어레이는 딥러닝 가속기의 핵심 계산 구조이며, 그 효율성은 전체 성능에 직접적인 영향을 미친다
- 정밀도 추세:산업 표준이 32비트 부동소수점(FP32)에서 16비트 부동소수점(FP16), 8비트 정수(INT8) 및 그 이상의 낮은 정밀도로 발전하고 있다
- 에너지 효율 요구사항:엣지 추론 애플리케이션은 면적, 전력 소비 및 에너지 소비에 대한 엄격한 제약이 있다
- 딥러닝 모델에는 이진 표현에서 많은 '0' 비트를 포함하는 대량의 비트 희소성이 존재한다
- 기존의 Bit-Pragmatic(PRA) 설계는 비트 희소성을 활용하는 개념을 제안했지만 상용급 공정에 대한 엄격한 평가가 부족하다
- 실제 상용 구현에서 영-스키핑 MAC 설계의 타당성과 이점을 평가할 필요가 있다
- OzMAC 설계:PRA를 기반으로 한 개선된 영-스키핑 MAC 아키텍처로, 이진 값의 영 비트를 건너뛰어 비트 희소성을 동적으로 활용한다
- 상용급 평가:TSMC N5(5nm) 공정과 상용 설계 도구를 사용한 엄격한 전력-성능-면적(PPA) 평가
- 다차원 분석:여러 데이터 정밀도(4비트, 8비트, 16비트)와 클록 주파수(0.5 GHz, 1 GHz, 1.5 GHz)에 걸친 포괄적 평가
- 희소성 검증:8개의 딥러닝 모델에서 높은 비트 희소성의 존재를 검증하고 전력 감소를 활용하여 처리량을 향상시키는 방법을 시연
OzMAC는 세 가지 핵심 기능 모듈로 구성된다:
- Oz-encoder(영 인코더):
- 입력 비트 패턴에서 '1'의 현재 및 다음 위치를 추적하는 유한 상태 머신
- 각 클록 사이클마다 '1'의 위치를 캡처하는 원-핫 인코딩 값 출력
- 예: 입력 '0101₂'는 두 개의 원-핫 값으로 인코딩되며, 두 클록 사이클에 걸쳐 표현된다: 첫 번째 사이클 '0100₂', 다음 사이클 '0001₂'
- 시프터(Shifter):
- Oz 인코더의 출력에 따라 두 번째 입력의 시프트량을 결정한다
- PRA의 이진 시프트 값과 비교하여 OzMAC는 원-핫 표현을 채택하여 시프터 하드웨어를 단순화한다
- 누적기(Accumulator):
- 적절히 시프트된 두 번째 입력을 누적기 값에 추가한다
- 영-스키핑 메커니즘:'1' 비트에 대해서만 계산을 수행하고 '0' 비트를 건너뛰어 계산 사이클을 감소시킨다
- 시프터 최적화:원-핫 인코딩 입력을 채택하여 시프터 게이트 복잡도를 단순화한다
- 직렬 계산:지연을 더 낮은 면적과 전력 소비로 교환한다
- 공정 노드:TSMC N5(5nm) 상용 공정
- 설계 도구:Synopsys VCS, SpyGlass, Design Compiler, PrimeTime PX
- 검증 방법:SystemVerilog RTL 설계, 게이트 레벨 네트리스트 시뮬레이션, 정확한 전력 계산을 위한 SAIF 덤프
PyTorch Torchvision 라이브러리의 8개 사전 훈련된 양자화 INT8 모델 사용:
- MobileNetV2, MobileNetV3
- InceptionV3, ShuffleNetV2
- GoogleNet, ResNet18, ResNet50, ResNeXt101
- 면적:칩 면적(μm²)
- 전력:동적 전력 소비(mW)
- 지연:계산 지연(ns)
- 에너지:작업당 에너지 소비(pJ)
- 정밀도 구성:4×4, 4×8, 8×8, 8×16, 16×16 비트
- 주파수 범위:500 MHz, 1 GHz, 1.5 GHz
- 비교 기준:전통적인 비트 병렬 bMAC 설계
| 모델 | 평균 '1' 비트 수 | 비트 희소성 백분율 |
|---|
| MobileNetV2 | 2.334 | 70.83% |
| MobileNetV3 | 1.711 | 78.61% |
| InceptionV3 | 2.430 | 69.62% |
| ShuffleNetV2 | 2.583 | 67.71% |
| GoogleNet | 2.461 | 69.24% |
| ResNet18 | 2.398 | 70.02% |
| ResNet50 | 2.495 | 68.81% |
| ResNeXt101 | 2.289 | 71.39% |
모든 모델이 약 70%에 가까운 비트 희소성을 나타내며, MobileNetV3이 최고의 78.61%에 도달했다.
| MAC 하드웨어 | 면적(μm²) | 전력(mW) | 지연(ns) | 에너지(pJ) |
|---|
| bMAC | 25.361 | 0.084 | 2 | 0.167 |
| OzMAC | 19.996 | 0.025 | 4.76 | 0.120 |
| 개선 백분율 | 21.2% | 69.7% | - | 28.0% |
다양한 정밀도 구성에 걸친 결과는 다음을 보여준다:
- 최고 면적 개선:8×16 구성에서 31.7% 달성
- 최고 에너지 개선:혼합 정밀도 4×8 및 8×16 구성에서 45% 달성
- 임계점:16×16 구성에서 에너지 개선 소실(-1.2%)
- 등주파수 평가:500 MHz에서 1.5 GHz 범위에서 OzMAC는 약 70%의 전력 개선과 29%의 에너지 개선을 지속적으로 유지한다
- 등지연 평가:주파수 스케일링을 통해 처리량을 일치시킨 후에도 OzMAC는 다음을 달성할 수 있다:
- INT4 설계:29%의 전력/에너지 개선
- INT8 설계:30%의 전력/에너지 개선
- 혼합 정밀도 설계:최대 46%의 개선
- 에너지 효율 임계값:OzMAC는 bMAC보다 우수한 에너지 효율을 유지하기 위해 최소 58%의 비트 희소성이 필요하다
- 실제 희소성:테스트된 모든 DL 모델이 이 임계값을 초과한다
- 스케일링 특성:전력은 주파수에 따라 선형으로 스케일링되며, 에너지는 기본적으로 일정하게 유지된다
본 논문은 다음의 관련 연구를 기반으로 한다:
- Bit-Pragmatic(PRA):원래의 비트 실용적 심층 신경망 계산 방법
- Bit-Tactical:값 및 비트 희소성을 활용하는 소프트웨어/하드웨어 방법
- STRIPES:비트 직렬 심층 신경망 계산
- Bit Fusion:비트 레벨 동적 조합 가능 아키텍처
본 논문의 주요 차이점은 최신 상용 공정을 사용한 엄격한 평가와 다양한 정밀도 및 주파수 구성으로의 확장이다.
- 현저한 개선:OzMAC는 전통적인 bMAC에 비해 면적, 전력 소비 및 에너지 소비 측면에서 현저한 개선을 달성한다
- 상용 타당성:TSMC N5 공정을 사용한 평가는 상용 구현의 타당성을 입증한다
- 스케일링 이점:다양한 정밀도 및 주파수 구성에서 이점을 유지한다
- 처리량 일치:주파수 스케일링을 통해 에너지 효율 이점을 유지하면서 bMAC의 처리량과 일치하거나 초과할 수 있다
- 지연 오버헤드:OzMAC의 다중 사이클 지연은 지연에 민감한 애플리케이션에 적합하지 않을 수 있다
- 정밀도 제한:16비트 이상의 정밀도에서는 이점이 소실된다
- 희소성 의존성:성능이 입력 데이터의 비트 희소성에 크게 의존한다
- 시스템 레벨 평가 부재:실제 DLA 시스템 레벨에서의 평가가 아직 수행되지 않았다
- 시스템 레벨 통합:실제 DLA에서 대규모 OzMAC 어레이의 성능 평가
- 적응형 설계:런타임 희소성에 따라 동적으로 구성을 조정
- 혼합 아키텍처:OzMAC와 전통적인 MAC의 혼합 설계
- 엄격한 평가:상용급 공정과 도구를 사용한 포괄적 평가로 높은 신뢰도의 결과
- 다차원 분석:정밀도, 주파수 등 여러 차원에 걸친 체계적 분석
- 실용적 가치:실제 DL 모델에서 비트 희소성의 존재를 검증
- 명확한 표현:기술 세부사항이 명확하게 설명되고 실험 설정이 완전하다
- 제한된 혁신:주로 기존 PRA 설계의 공학적 구현 및 평가로 기술 혁신이 상대적으로 제한적이다
- 적용 범위:높은 비트 희소성을 가진 워크로드에만 적용 가능하다
- 시스템 고려 부족:메모리 대역폭, 데이터 흐름 등 시스템 레벨 요소 고려 부족
- 제한된 비교:주로 기본 bMAC와의 비교로 다른 고급 MAC 설계와의 비교 부족
- 공학적 가치:상용 DLA 설계에 가치 있는 참고 데이터 제공
- 방법론 기여:엄격한 MAC 설계 평가 프레임워크 수립
- 실용적 지침:저정밀도 추론 애플리케이션을 위한 실행 가능한 하드웨어 최적화 방안 제공
- 엣지 추론:전력 소비와 면적이 제한된 엣지 AI 애플리케이션
- 저정밀도 계산:8비트 이하 정밀도의 딥러닝 추론
- 희소 모델:높은 비트 희소성 특성을 가진 신경망 모델
- 대량 생산:상용급 공정 검증이 필요한 대규모 배포 시나리오
- Sze, V., et al. "Efficient processing of deep neural networks." Synthesis Lectures on Computer Architecture, 2020.
- Albericio, J., et al. "Bit-pragmatic deep neural network computing." MICRO, 2017.
- Delmas Lascorz, A., et al. "Bit-tactical: A software/hardware approach to exploiting value and bit sparsity in neural networks." ASPLOS, 2019.
- Judd, P., et al. "Stripes: Bit-serial deep neural network computing." MICRO, 2016.
- Sharma, H., et al. "Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network." ISCA, 2018.
본 논문은 영-스키핑 MAC 설계의 상용화 애플리케이션에 대한 중요한 공학적 검증을 제공한다. 기술 혁신은 제한적이지만, 엄격한 평가 방법론과 실용적인 결과는 저전력 AI 가속기 개발을 추진하는 데 중요한 가치를 가진다.