2025-11-21T08:13:14.953259

Applying Graph Explanation to Operator Fusion

Mills, Qharabagh, Qiu et al.

Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.

academic

그래프 설명을 연산자 융합에 적용

기본 정보

논문 ID: 2501.00636
제목: Applying Graph Explanation to Operator Fusion
저자: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu
분류: cs.LG cs.CV
발표 시간: 2024년 12월 31일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00636

초록

계층 융합 기술은 배포를 위한 심층 신경망(DNN)의 추론 효율성 향상에 매우 중요합니다. 융합은 가속기의 온칩 버퍼와 DRAM 간의 데이터 전송을 줄여 추론 비용을 낮추는 것을 목표로 합니다. 이는 합성곱과 활성화 함수 같은 여러 연산을 융합 그룹이라는 단일 실행 단위로 그룹화하여 실행함으로써 달성됩니다. 그러나 온칩 버퍼 용량은 융합 그룹의 크기를 제한하며, 전체 DNN에서 융합을 최적화하려면 여러 융합 그룹으로 분할해야 합니다. 최적 그룹을 찾는 것은 복잡한 문제이며, 무효 솔루션의 존재는 기존 탐색 알고리즘을 방해하고 견고한 접근 방식을 요구합니다. 본 논문에서는 설명 가능한 AI, 특히 그래프 설명 기술(GET)을 계층 융합에 통합합니다. 무효 융합 그룹이 주어지면, 그룹 무효성을 야기하는 연산을 식별한 후, 이 지식을 사용하여 DRAM 접근을 최소화하기 위해 탐욕적 트리 기반 알고리즘을 통해 원래 융합 그룹을 재귀적으로 분할합니다. 우리의 방식을 일반적인 알고리즘과 결합하고 두 가지 유형의 계층 융합인 Line-Buffer Depth First(LBDF)와 Branch Requirement Reduction(BRR)에서 DNN을 최적화합니다. 실험은 ResNets 및 MobileNets와 같은 여러 인기 있는 고전적 합성곱 신경망에서 우리의 방식의 효과를 입증합니다. 우리의 방식은 EfficientNet-B3에서 20% 이상의 DRAM 접근 감소를 달성합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 심층 신경망의 계층 융합(Layer Fusion) 최적화 문제입니다. 계층 융합은 추론 가속 기술로, 여러 DNN 연산 계층(예: 합성곱과 ReLU)을 단일 실행 단위로 융합하여 신경 가속기의 온칩 캐시와 DRAM 간의 데이터 전송 횟수를 줄임으로써 추론 지연 시간과 전력 소비를 감소시킵니다.

문제의 중요성

성능 병목：DNN 모델이 더 커지고 깊어짐에 따라 DRAM 접근이 주요 성능 및 전력 소비 병목이 됩니다
배포 요구사항：엣지 디바이스 및 모바일 플랫폼에 DNN을 배포할 때 메모리 대역폭 및 전력 소비 제한이 특히 심각합니다
하드웨어 제약：온칩 캐시 용량이 제한되어 있어 융합 효과를 최대화하기 위해 연산을 지능적으로 그룹화해야 합니다

기존 방법의 한계

탐색 효율 저하：기존 탐색 알고리즘(예: 진화 알고리즘, 지역 탐색)은 무효 융합 그룹에 직면했을 때 효율성이 낮습니다
무작위 분할：기존 방법은 일반적으로 무효 융합 그룹을 무작위로 분할하여 DRAM 접근 비용 최적성을 보장할 수 없습니다
설명 가능성 부족：융합 그룹 무효성을 야기하는 특정 연산을 식별할 수 없어 목표 지향적 최적화가 어렵습니다

연구 동기

저자들은 설명 가능한 AI 기술을 계층 융합 최적화에 도입하여, 그래프 설명 기술(Graph Explanation Techniques, GET)을 통해 융합 그룹 무효성을 야기하는 핵심 연산을 식별한 후, 탐욕적 트리 알고리즘을 사용하여 DRAM 접근 비용을 최소화하는 지능형 분할을 수행할 것을 제안합니다.

핵심 기여

그래프 설명 기술을 계층 융합 최적화에 처음 적용：설명 가능한 AI와 하드웨어 최적화 분야를 혁신적으로 결합
재귀적 트리 분할 알고리즘 제안：탐욕적 전략 기반의 재귀 분할 방식을 설계하여 무효 융합 그룹을 지능적으로 처리
융합 방법 간 검증：LBDF 및 BRR 두 가지 다양한 계층 융합 방법에서 방식의 효과성 검증
현저한 성능 향상：EfficientNet-B3에서 20% 이상의 DRAM 접근 감소 달성

방법론 상세 설명

작업 정의

주어진 심층 신경망의 계산 그래프 G와 온칩 캐시 용량 β에 대해, 계층 융합 최적화의 목표는 다음을 만족하는 최적 분할 방식 Φ를 찾는 것입니다:

min_Φ Σ_{φn∈Φ} F_D(φn)
s.t. ∀φn ∈ Φ | F_β(φn) < β

여기서 F_D는 DRAM 접근 비용을 계산하고, F_β는 캐시 요구사항을 계산하며, 각 융합 그룹 φn의 메모리 요구사항은 캐시 용량 β를 초과할 수 없습니다.

모델 아키텍처

1. 그래프 신경망 분류기

4계층 k-GNN 사용, 숨겨진 차원 128
ReLU 활성화 함수 및 합계 집계
융합 그룹 유효성을 이진 분류 문제로 변환: Validity = σ(p(y|φ, β, θ))

2. 그래프 설명 기술 통합

세 가지 주류 그래프 설명 방법 지원:

GNNExplainer (GNNE)：상호 정보 최대화 기반
PGExplainer (PG)：사전 학습된 매개변수화 설명기
RG-Explainer (RG)：강화 학습 기반 연결 부분그래프 생성

3. 재귀적 탐욕적 분할 알고리즘

알고리즘은 분할 솔루션을 세 가지 범주로 분류합니다:

범주 1：두 개의 새로운 융합 그룹이 모두 유효함(최선의 솔루션)
범주 2：하나는 유효, 하나는 무효(중간 솔루션)
범주 3：둘 다 무효(최악의 경우)

기술적 혁신 사항

1. 스킵 연결 처리

현대 DNN의 잔차 연결로 인해 단순 간선 삭제로는 융합 그룹을 분리할 수 없습니다. 알고리즘은 위상 정렬 및 재귀적 검사를 통해 중첩된 스킵 연결을 올바르게 처리합니다.

2. 메모이제이션 최적화

캐시 메커니즘을 사용하여 분할 결과 및 비용 계산을 저장하여 반복 계산을 피하고 탐색 효율성을 향상시킵니다.

3. 다층 탐욕적 전략

두 개의 유효한 융합 그룹을 생성하는 솔루션을 우선적으로 선택
중간 솔루션에서 가장 많은 노드를 포함하는 유효한 융합 그룹 선택
모두 유효해질 때까지 무효 융합 그룹을 재귀적으로 처리

실험 설정

데이터셋

여러 고전적 및 현대적 CNN 아키텍처의 ONNX 모델 사용:

고전 네트워크：VGG16, SqueezeNet, ResNet-18/50/101/152
현대 네트워크：MobileNetV2/V3, EfficientNet-B0/B3
분할 네트워크：DeepLabV3+MobileNetV3

총 54,000개 이상의 융합 그룹 샘플 생성, 5가지 다양한 캐시 크기(128KB-2048KB) 포함.

평가 지표

DRAM 접근 비용：MB 단위의 데이터 전송량
최대 버퍼 사용률(MBU)：분할 방식에서 최대 융합 그룹의 캐시 요구사항
수정률：GET이 무효 융합 그룹을 성공적으로 수정한 백분율

비교 방법

탐색 알고리즘：Random Search (RS), Local Search (LS), NSGA-II
기준 방법：GET을 사용하지 않는 원본 탐색 알고리즘
GET 변형：GNNE, PG, RG 세 가지 그래프 설명 기술

구현 세부사항

GNN 학습 50 에포크, 95% 이상의 정확도 및 F1 점수 달성
탐색 예산：1k-5k 분할 방식
OpenBox를 사용하여 NSGA-II 구현, 모집단 크기 K=10

실험 결과

주요 결과

대규모 네트워크 성능 향상

256KB 캐시, 5k 탐색 예산 조건에서의 결과:

네트워크	방법	DRAM 접근(MB)	향상도
EfficientNet-B3	LS 기준	90.500	-
	LS+GNNE	78.007	13.8%
	NSGA-II+PG	61.792	31.7%
ResNet-152	NSGA-II 기준	77.205	-
	NSGA-II+RG	66.621	13.7%

융합 방법 간 검증

128KB 캐시 조건에서의 BRR 및 LBDF 결과는 GET 강화 방법이 거의 모든 네트워크에서 기준을 능가하며, 특히 MobileNetV2 같은 복잡한 네트워크에서 10% 이상의 개선을 달성함을 보여줍니다.

절제 실험

GET 방법 비교

수정률：RG-Explainer 최고(91.4%-94.0%), PG 최저(50.7%-59.1%)
계산 효율성：PG 최빠름, GNNE 최느림, RG 중간
전체 성능：RG가 수정률과 효율성 간 최적 균형 달성

탐색 예산 분석

실험은 GET을 사용한 1k 예산 탐색이 기준의 4k 예산 성능을 초과할 수 있음을 보여주며, 방법의 높은 효율성을 입증합니다.

사례 분석

Figure 4는 EfficientNet 무효 융합 그룹에 대한 다양한 GET 방법의 설명을 보여줍니다:

모든 방법이 주요 스킵 연결(Conv에서 Matmul)을 식별
모두 LBDF에 부적합한 패딩 연산 선택
다양한 GET이 선택한 간선 집합은 약간 다르지만 모두 핵심 병목을 포착

실험 발견

규모 효과：더 크고 복잡한 네트워크에서 GET의 장점이 더 명확함
일반성：방법이 다양한 탐색 알고리즘 및 융합 유형에 효과적
효율성 향상：탐색 과정에서 무효 방식 생성을 현저히 감소

결론 및 논의

주요 결론

그래프 설명 기술은 융합 그룹 무효성을 야기하는 핵심 연산을 효과적으로 식별할 수 있습니다
재귀적 탐욕적 분할 알고리즘은 복잡한 네트워크 구조를 지능적으로 처리할 수 있습니다
방법은 다양한 네트워크 아키텍처 및 하드웨어 구성에서 현저한 성능 향상을 보여줍니다

한계

하드웨어 모델 단순화：현재는 캐시 용량 제약만 고려하며 더 복잡한 하드웨어 특성을 포함하지 않습니다
융합 유형 제한：BRR은 현대 네트워크 구조(예: SE 모듈)에 대한 지원이 제한적입니다
계산 오버헤드：GNN 학습 및 GET 실행은 전처리 비용을 증가시킵니다

향후 방향

더 많은 하드웨어 제약으로 확장：대역폭, 지연 시간 등 더 많은 요소 고려
새로운 네트워크 구조 지원：Transformer, 그래프 신경망 등에 적응
엔드-투-엔드 최적화：계층 융합과 다른 컴파일 최적화 기술 결합

심층 평가

장점

높은 혁신성：설명 가능한 AI 기술을 하드웨어 최적화에 처음 적용하여 새로운 연구 방향 개척
완전한 방법론：문제 모델링에서 알고리즘 설계, 실험 검증까지 완전한 폐쇄 루프 형성
충분한 실험：다양한 네트워크, 융합 방법 및 탐색 알고리즘의 포괄적 검증
높은 실용 가치：실제 배포 시나리오에서 직접 적용 가능

부족한 점

이론적 분석 부재：방법의 수렴성 및 최적성에 대한 이론적 보증 부족
하드웨어 검증 불충분：실험이 주로 시뮬레이션 기반이며 실제 하드웨어 플랫폼 검증 부족
확장성 미지수：더 큰 규모 네트워크에 대한 처리 능력 미확인

영향력

학술적 기여：설명 가능한 AI를 시스템 최적화에 적용한 사례 제공
실용적 가치：심층 학습 컴파일러 및 배포 도구에 직접 적용 가능
영감 제공：더 많은 AI4Systems 연구 작업에 영감을 줄 수 있음

적용 시나리오

엣지 디바이스 DNN 배포 최적화
모바일 플랫폼 추론 가속
데이터센터 에너지 효율 최적화
심층 학습 컴파일러 개발

참고문헌

논문은 계층 융합, 그래프 신경망, 설명 가능한 AI 등 여러 분야의 중요한 연구를 인용하며, 다음을 포함합니다:

Sze et al. (2017): 심층 학습 효율적 처리 종합 검토
Ying et al. (2019): GNNExplainer 원본 논문
Luo et al. (2020): PGExplainer 방법
Shan et al. (2021): RG-Explainer 기술

종합 평가：이는 설명 가능한 AI 기술을 하드웨어 최적화 문제에 성공적으로 적용한 고품질의 학제 간 연구 논문입니다. 방법이 참신하고 실험이 충분합니다. 이론적 분석 및 하드웨어 검증 측면에서 개선의 여지가 있지만, 혁신성과 실용성으로 인해 심층 학습 시스템 최적화 분야에서 중요한 가치를 지닙니다.