Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
계층 융합 기술은 배포를 위한 심층 신경망(DNN)의 추론 효율성 향상에 매우 중요합니다. 융합은 가속기의 온칩 버퍼와 DRAM 간의 데이터 전송을 줄여 추론 비용을 낮추는 것을 목표로 합니다. 이는 합성곱과 활성화 함수 같은 여러 연산을 융합 그룹이라는 단일 실행 단위로 그룹화하여 실행함으로써 달성됩니다. 그러나 온칩 버퍼 용량은 융합 그룹의 크기를 제한하며, 전체 DNN에서 융합을 최적화하려면 여러 융합 그룹으로 분할해야 합니다. 최적 그룹을 찾는 것은 복잡한 문제이며, 무효 솔루션의 존재는 기존 탐색 알고리즘을 방해하고 견고한 접근 방식을 요구합니다. 본 논문에서는 설명 가능한 AI, 특히 그래프 설명 기술(GET)을 계층 융합에 통합합니다. 무효 융합 그룹이 주어지면, 그룹 무효성을 야기하는 연산을 식별한 후, 이 지식을 사용하여 DRAM 접근을 최소화하기 위해 탐욕적 트리 기반 알고리즘을 통해 원래 융합 그룹을 재귀적으로 분할합니다. 우리의 방식을 일반적인 알고리즘과 결합하고 두 가지 유형의 계층 융합인 Line-Buffer Depth First(LBDF)와 Branch Requirement Reduction(BRR)에서 DNN을 최적화합니다. 실험은 ResNets 및 MobileNets와 같은 여러 인기 있는 고전적 합성곱 신경망에서 우리의 방식의 효과를 입증합니다. 우리의 방식은 EfficientNet-B3에서 20% 이상의 DRAM 접근 감소를 달성합니다.
본 연구가 해결하고자 하는 핵심 문제는 심층 신경망의 계층 융합(Layer Fusion) 최적화 문제입니다. 계층 융합은 추론 가속 기술로, 여러 DNN 연산 계층(예: 합성곱과 ReLU)을 단일 실행 단위로 융합하여 신경 가속기의 온칩 캐시와 DRAM 간의 데이터 전송 횟수를 줄임으로써 추론 지연 시간과 전력 소비를 감소시킵니다.
저자들은 설명 가능한 AI 기술을 계층 융합 최적화에 도입하여, 그래프 설명 기술(Graph Explanation Techniques, GET)을 통해 융합 그룹 무효성을 야기하는 핵심 연산을 식별한 후, 탐욕적 트리 알고리즘을 사용하여 DRAM 접근 비용을 최소화하는 지능형 분할을 수행할 것을 제안합니다.
논문은 계층 융합, 그래프 신경망, 설명 가능한 AI 등 여러 분야의 중요한 연구를 인용하며, 다음을 포함합니다:
Sze et al. (2017): 심층 학습 효율적 처리 종합 검토
Ying et al. (2019): GNNExplainer 원본 논문
Luo et al. (2020): PGExplainer 방법
Shan et al. (2021): RG-Explainer 기술
종합 평가:이는 설명 가능한 AI 기술을 하드웨어 최적화 문제에 성공적으로 적용한 고품질의 학제 간 연구 논문입니다. 방법이 참신하고 실험이 충분합니다. 이론적 분석 및 하드웨어 검증 측면에서 개선의 여지가 있지만, 혁신성과 실용성으로 인해 심층 학습 시스템 최적화 분야에서 중요한 가치를 지닙니다.