2025-11-13T15:25:11.338171

Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks

Athanasiadis, Tampouratzis, Papaefstathiou

The growing demand for real-time processing in artificial intelligence applications, particularly those involving Convolutional Neural Networks (CNNs), has highlighted the need for efficient computational solutions. Conventional processors, very often, fall short in balancing performance, power consumption, and latency, especially in embedded systems and edge computing platforms. Field-Programmable Gate Arrays (FPGAs) offer a promising alternative, combining high performance with energy efficiency and reconfigurability. The presented framework addresses the complex and demanding computations of CNNs on FPGAs maintaining full precision in all neural network parameters. Specifically, our framework is based on Darknet which is very widely used for the design of CNNs and allows the designer, by using a similar input to that given to Darknet, to efficiently implement a CNN in a heterogeneous system comprising of CPUs and FPGAs. When compared with the FPGA frameworks that support quantization, our solution aims to offer similar performance and/or energy efficiency without any degradation on the NN accuracy.

academic

비양자화 합성곱 신경망을 위한 에너지 효율적 FPGA 프레임워크

기본 정보

논문 ID: 2510.13362
제목: Energy-Efficient FPGA Framework for Non-Quantized Convolutional Neural Networks
저자: Angelos Athanasiadis¹, Nikolaos Tampouratzis², Ioannis Papaefstathiou¹
소속 기관: ¹아리스토텔레스 테살로니키 대학교, ²국제 헬레닉 대학교
분류: cs.AR (컴퓨터 아키텍처)
논문 링크: https://arxiv.org/abs/2510.13362

초록

인공지능 응용 분야에서 실시간 처리 요구가 증가하고 있으며, 특히 합성곱 신경망(CNN)을 포함한 응용 분야에서 효율적인 계산 솔루션의 필요성이 대두되고 있습니다. 기존 프로세서는 성능, 전력 소비 및 지연 시간의 균형을 맞추는 데 있어 부족한 점이 많으며, 특히 임베디드 시스템 및 엣지 컴퓨팅 플랫폼에서 그러합니다. 현장 프로그래밍 가능 게이트 어레이(FPGA)는 고성능, 에너지 효율성 및 재구성 가능성을 결합한 유망한 대안을 제공합니다. 본 논문에서 제안하는 프레임워크는 FPGA에서 CNN의 복잡한 계산 요구사항을 처리하면서 모든 신경망 매개변수의 전체 정밀도를 유지합니다. 이 프레임워크는 널리 사용되는 Darknet CNN 설계 프레임워크를 기반으로 하며, 설계자가 Darknet과 유사한 입력을 사용하여 CPU와 FPGA를 포함하는 이기종 시스템에서 CNN을 효율적으로 구현할 수 있게 합니다. 양자화를 지원하는 FPGA 프레임워크와 비교하여, 본 솔루션은 신경망의 정확도를 저하시키지 않으면서 유사한 성능 및/또는 에너지 효율성을 제공하는 것을 목표로 합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 전체 정밀도 매개변수를 유지하면서 FPGA에서 비양자화 합성곱 신경망을 효율적으로 구현하여 고성능 및 에너지 효율성을 달성하는 방법입니다.

문제의 중요성

실시간 처리 요구 증가: AI 응용 분야, 특히 CNN 응용 분야에서 실시간 처리에 대한 요구가 지속적으로 증가하고 있습니다.
기존 프로세서의 한계: 기존 CPU는 성능, 전력 소비 및 지연 시간의 균형 측면에서 부족합니다.
임베디드 및 엣지 컴퓨팅 과제: 리소스가 제한된 장치는 더욱 효율적인 계산 솔루션이 필요합니다.

기존 방법의 한계

양자화 방법의 정확도 손실: 기존 FPGA 프레임워크는 주로 양자화 모델에 중점을 두고 있으며, 리소스 사용 및 전력 소비를 줄이지만 종종 정확도를 희생합니다.
설계 복잡성: 사용하기 쉽고 효율적인 설계 프로세스가 부족합니다.
성능과 정밀도의 트레이드오프: 전체 정밀도를 유지하면서 고성능 및 에너지 효율성을 달성하기 어렵습니다.

연구 동기

FPGA에서 비양자화 CNN을 구현할 수 있는 프레임워크를 개발하여 모델의 높은 정확도를 유지하면서 우수한 성능 및 에너지 효율성을 달성합니다.

핵심 기여

정확도 유지: 양자화를 피하고 전체 정밀도를 유지함으로써 프레임워크는 CNN 모델의 정확도를 유지하는 것을 목표로 합니다.
높은 설계 생산성 및 유연성: 널리 사용되는 DarkNet CNN 설계 프레임워크를 기반으로 하며, 순수 C/C++ 구현으로 소형에서 대형까지의 전체 FPGA 시리즈를 지원합니다.
고성능: 모든 FPGA의 병렬성을 충분히 활용하여 CNN 추론 프로세스를 가속화하고 적시에 효율적인 처리를 보장합니다.
에너지 효율성 최적화: FPGA에서의 CNN 추론 전력 효율성을 최적화하여 전력 민감한 응용 분야에 적합합니다.

방법론 상세 설명

작업 정의

본 논문에서 연구하는 작업은 FPGA에서 효율적인 비양자화 CNN 추론을 구현하는 것이며, 입력은 CNN 모델 구성 파일(Darknet 형식과 유사)이고, 출력은 CPU-FPGA 이기종 시스템에서의 고성능 CNN 구현입니다.

프레임워크 아키텍처

그림 1에 나타난 바와 같이, 프레임워크는 다음과 같은 아키텍처 설계를 채택합니다:

입력 처리: 새로운 cfg 파일을 도구로 가져오기
전처리: OpenMP를 사용한 병렬 전처리
파서: 네트워크 구조 파싱, 합성곱 계층, 역합성곱 계층 및 기타 계층 식별
계산 엔진: 핵심 구성 요소로서의 혁신적인 HLS 계산 엔진
병렬 처리: OpenMP를 사용한 병렬 처리
FPGA 구현: FPGA에서의 최종 신경망 구현

혁신적인 HLS 계산 엔진

핵심 설계 개념

혁신적인 계산 엔진은 고수준 합성(HLS) 기술을 사용하여 단일 클록 사이클 내에 여러 수학 연산을 실행할 수 있으며, 상대적으로 높은 처리량과 성능을 달성합니다.

기술 구현 세부사항

그림 2에 나타난 바와 같이, HLS FPGA 커널은 주로 행렬 곱셈 작업을 처리하며, 이는 거의 모든 CNN 구현의 기초입니다:

메모리 최적화: 내부 BRAM과 HLS 스트림을 활용하여 온칩 메모리 접근 패턴 최적화
스트림 처리 메커니즘:
- 처리 요소 간에 연속 데이터 흐름 구현, BRAM의 중간 저장 불필요
- 지연 시간 및 리소스 오버헤드 감소
- 파이프라인 실행 지원 및 병렬성 향상
- 생산자 및 소비자 프로세스 간 직접 데이터 전송
다중 메모리 채널 활용:
- 현대 FPGA에 연결된 여러 메모리 뱅크 및 전용 채널 활용
- 적절한 HLS 지시문 삽입, 데이터 전송을 매개변수화 가능한 수의 메모리 뱅크/채널로 할당
- 각 메모리 인터페이스의 사용 가능한 대역폭 충분히 활용
고대역폭 데이터 전송: CPU와 FPGA 간의 데이터 전송은 전체 데이터 폭(512비트)으로 클록 사이클당 수행되어 처리 요소와 메모리 서브시스템 간의 높은 처리량 통신을 보장합니다.

기술 혁신 포인트

전체 정밀도 유지: 기존 양자화 방법과 달리, 본 프레임워크는 모든 매개변수의 전체 정밀도를 유지합니다.
스트림 처리 최적화: 혁신적인 스트림 처리 메커니즘은 BRAM에 대한 의존성을 줄이고 리소스 활용 효율성을 향상시킵니다.
다중 채널 메모리 접근: 현대 FPGA의 다중 메모리 채널 특성을 충분히 활용합니다.
Darknet 기반 설계 프로세스: 친숙하고 사용하기 쉬운 설계 인터페이스를 제공합니다.

실험 설정

하드웨어 플랫폼

고급 FPGA: AMD Alveo U55C
임베디드 FPGA: Kria KR260
비교 CPU: Intel Xeon E5-2620 v4 (8코어) 및 ARM Cortex-A53 (4코어)
비교 GPU: NVIDIA T4

테스트 구성

행렬 차원: M=2048, K=4096, N=16384
데이터 유형: FP32 (32비트 부동소수점)
테스트 목적: 피크 성능이 아닌 행렬 차원을 선택하여 방법의 유연성을 시연합니다.

평가 지표

성능: GFLOPS (초당 10억 부동소수점 연산)
에너지 효율성: GFLOPS/Watt
가속 비율: 참조 구현 및 CPU 병렬 구현에 대한 성능 향상

실험 결과

주요 성능 결과

임베디드 FPGA (Kria KR260)

참조 구현 대비: 2자리 수의 성능 향상
ARM 4코어 CPU 대비: 9배 성능 향상
에너지 효율성 향상: 최고 성능 CPU 병렬 구현 대비 9배 향상

고급 FPGA (Alveo U55C)

참조 구현 대비: 약 3자리 수의 성능 향상
Intel Xeon CPU 대비: 10배 성능 향상
에너지 효율성 향상: 최고 성능 CPU 병렬 구현 대비 34배 향상
NVIDIA T4 GPU 대비: 3배 에너지 효율성 향상 (T4는 더 진보된 12nm 공정을 사용하지만 U55C는 16nm)

주요 발견 사항

현저한 성능 향상: 모든 테스트 플랫폼에서 자릿수 단위의 성능 개선 달성
우수한 에너지 효율성: 특히 Alveo U55C에서 34배의 에너지 효율성 향상 달성
기술적 우위: 공정 기술 열세에도 불구하고 GPU의 에너지 효율성을 초과
일관성 검증: 다양한 행렬 차원의 실험 결과가 그림 3에 표시된 결과와 완전히 일치

결론 및 토론

주요 결론

핵심 요구사항 성공적 해결: 본 연구는 전력 제약 환경에서 효율적인 CNN 구현의 핵심 요구사항을 성공적으로 해결했습니다.
성능과 에너지 효율성 병행: 제안된 비양자화 FPGA CNN 프레임워크는 고성능과 에너지 효율성을 성공적으로 결합했습니다.
정확도 보장: 네트워크 매개변수의 전체 정밀도를 유지함으로써 높은 정확도를 달성하면서 리소스 활용 또는 전력 소비를 방해하지 않습니다.
실험 검증 유효성: 실험 결과는 프레임워크의 유효성을 검증하여 추론 처리의 현저한 가속화 및 전력 사용의 대폭적인 감소를 보여줍니다.

한계

테스트 범위: 실험은 주로 행렬 곱셈 연산에 집중되어 있으며, 완전한 CNN 네트워크의 테스트 결과는 상세히 표시되지 않습니다.
정확도 검증: 정확도 유지를 주장하지만 구체적인 정확도 비교 데이터가 부족합니다.
적용 범위: 프레임워크의 적용 가능성은 FPGA 리소스 및 특정 응용 요구사항에 의해 제한될 수 있습니다.

향후 방향

논문은 구체적인 향후 연구 방향을 명시하지 않았지만, 다음을 포함할 수 있다고 추론할 수 있습니다:

더 광범위한 CNN 네트워크 테스트 및 검증
추가 에너지 효율성 최적화
더 많은 유형의 신경망 계층 지원

심층 평가

장점

기술 혁신성:
- 전체 정밀도를 유지하면서 고성능 FPGA CNN 구현 달성
- 혁신적인 HLS 계산 엔진 설계로 스트림 처리 및 다중 메모리 채널을 효과적으로 활용
실험의 충분성:
- 여러 하드웨어 플랫폼에서 포괄적인 테스트 수행
- CPU 및 GPU와의 비교 실험 포함
- 성능 및 에너지 효율성 지표에 대한 상세한 측정
실용적 가치:
- 널리 사용되는 Darknet 프레임워크를 기반으로 하여 채택이 용이함
- 소형에서 대형까지의 전체 FPGA 시리즈 지원
- 전력 민감한 응용 분야에 적합
결과의 설득력:
- 자릿수 단위의 성능 향상 달성
- 여러 지표에서 우수한 성능
- 공정 기술 열세에도 불구하고 GPU 에너지 효율성 초과

부족한 점

완전성 검증 부족:
- 완전한 CNN 네트워크의 엔드-투-엔드 테스트 결과 부재
- 구체적인 정확도 유지 검증 데이터 제공 안 함
- 주요 테스트가 행렬 곱셈 수준에 집중
비교 기준 선택:
- 참조 구현이 충분히 최적화되지 않았을 가능성
- 다른 고급 FPGA CNN 프레임워크와의 비교 부재
기술 세부사항 부족:
- HLS 구현의 구체적인 최적화 전략 설명 부족
- 리소스 활용률 데이터 누락
- 메모리 대역폭 활용 효율성 분석 미흡
적용 가능성 분석:
- 방법의 한계 및 적용 범위에 대한 충분한 논의 부족
- 다양한 규모 CNN의 확장성 분석 미흡

영향력 평가

학술적 기여:
- 비양자화 FPGA CNN 구현을 위한 새로운 솔루션 제공
- 정확도를 유지하면서 고성능 달성으로 중요한 이론적 가치 보유
실용적 가치:
- 성숙한 도구 체인 기반으로 엔지니어링 구현 용이
- 엣지 컴퓨팅 및 임베디드 AI 응용 분야에 적용 가능
재현 가능성:
- 표준 HLS 도구 및 오픈소스 Darknet 프레임워크 기반
- 기술 경로가 상대적으로 명확하여 일정 수준의 재현 가능성 보유

적용 시나리오

엣지 AI 응용 분야: 전력 민감하면서 정확도 요구사항이 높은 시나리오
실시간 이미지 처리: 낮은 지연 시간과 고성능이 필요한 시각 처리 작업
임베디드 시스템: 리소스가 제한되지만 AI 능력이 필요한 장치
산업 자동화: 신뢰성 및 정확도 요구사항이 높은 산업 AI 응용 분야

참고문헌

1 Xu, Y.; Luo, J.; Sun, W. Flare: An FPGA-Based Full Precision Low Power CNN Accelerator with Reconfigurable Structure. Sensors 2024, 24

2 Chen, J.; Liu, L.; Liu, Y.; Zeng, X. A Learning Framework for n-Bit Quantized Neural Networks Toward FPGAs. IEEE Transactions on Neural Networks and Learning Systems 2021, 32, 1067–1081.

3 Latotzke, C.; Ciesielski, T.; Gemmeke, T. Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA. In Proceedings of the 2022 32nd International Conference on Field-Programmable Logic and Applications (FPL), 2022, pp. 358–365.

종합 평가: 본 논문은 FPGA CNN 가속기 분야에서 실용적 가치를 지닌 논문으로, 전체 정밀도를 유지하는 혁신적인 솔루션을 제시하며 인상적인 실험 결과를 보여줍니다. 그러나 완전성 검증 및 기술 세부사항 설명 측면에서 개선의 여지가 있습니다. 높은 정확도가 필요한 AI 응용 분야에 있어 본 프레임워크는 중요한 응용 전망을 가지고 있습니다.