2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.

In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.

academic

적응형 하이브리드 FFT: 대규모 처리를 위한 Radix- $2^k$ FFT의 새로운 파이프라인 및 메모리 기반 아키텍처

기본 정보

논문 ID: 2501.01259
제목: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix- $2^k$ FFT in Large Size Processing
저자: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
분류: cs.AR (컴퓨터 아키텍처)
발표 시간/학회: IEEE에 제출됨, 2025년 1월
논문 링크: https://arxiv.org/abs/2501.01259

초록

디지털 신호 처리 분야에서 고속 푸리에 변환(FFT)은 기본 알고리즘입니다. 그 프로세서 구현은 일반적으로 두 가지 아키텍처를 채택합니다: 파이프라인 아키텍처(높은 처리량 애플리케이션에 적합하지만 하드웨어 활용률이 낮음)와 메모리 기반 아키텍처(면적 제약 시나리오에 적합하지만 엄격한 처리량 요구사항을 충족할 수 없음). 본 논문은 두 아키텍처의 장점을 결합한 적응형 하이브리드 FFT 아키텍처를 제안합니다. 이 아키텍처의 특징은 다음과 같습니다: 고성능 대규모 처리를 지원하기 위해 radix- $2^k$ 다중 경로 지연 교환기(MDC) 단위 집합을 개발했으며, 연속 데이터 흐름을 보장하는 충돌 없는 메모리 접근 방식을 수립했고, 가변 길이, 높은 기수 및 임의의 병렬도에 대한 광범위한 적응성 요구사항을 만족하는 비트 차원 배열의 존재성을 증명했습니다.

연구 배경 및 동기

문제 정의

핵심 문제: 기존 FFT 프로세서 아키텍처의 내재적 결함
- 파이프라인 아키텍처: 높은 처리량이지만 하드웨어 활용률이 낮으며, 소규모 FFT 작업 시 대량의 하드웨어가 유휴 상태
- 메모리 기반 아키텍처: 하드웨어 활용률이 높지만 계산 주기가 증가하여 실시간 처리 성능에 영향
문제의 중요성:
- FFT는 무선 통신, 이미지 처리, 레이더 신호 처리 등 다양한 분야에서 광범위하게 적용
- 대규모 데이터 처리 수요가 지속적으로 증가하여 고효율이면서도 유연한 FFT 프로세서 필요
- 기존 아키텍처는 높은 처리량과 높은 하드웨어 활용률을 동시에 만족할 수 없음
기존 방법의 한계:
- 파이프라인 아키텍처는 소규모 FFT 처리 시 하드웨어 활용률이 15% 수준까지 저하
- 메모리 기반 아키텍처는 다중 반복이 필요하여 계산 지연 증가
- 기존 충돌 회피 방안은 주로 radix-2 알고리즘에 국한되어 높은 기수 계산을 지원하지 않음
연구 동기:
- 두 아키텍처의 장점을 결합하여 적응형 재구성 실현
- 대규모 FFT 처리 지원(최대 512K 포인트)
- 높은 처리량을 보장하면서 하드웨어 활용률 향상

핵심 기여

적응형 하이브리드 FFT 프로세서 아키텍처 제안: 파이프라인 및 메모리 기반 두 가지 모드를 지원하며 최대 512K 포인트의 FFT 처리 가능
Radix- $2^k$ 다중 경로 지연 교환기(MDC) 개발: radix- $2^5$ 알고리즘을 지원하여 계산 단계 수를 현저히 감소
충돌 없는 메모리 접근 기술 설계: 완전 제자리 메모리 변환의 연속 흐름 FFT 계산 구현
범용 비트 배열 방법 구축: 서로 다른 FFT 길이, 기수 및 병렬도의 하드웨어 제약에 적응

방법 상세 설명

작업 정의

다음을 수행할 수 있는 재구성 가능한 FFT 프로세서 설계:

입력: N 포인트 복소수 수열 (N = 2^n, 최대 512K)
출력: 해당 주파수 영역 표현
제약: radix- $2^k$ (k≤5) 알고리즘 지원, 구성 가능한 병렬도 P, 충돌 없는 메모리 접근 구현

모델 아키텍처

1. 최상위 아키텍처 설계

입력 데이터 → 데이터 재배열 모듈 → FFT 핵심 프로세서 → 출력 데이터
         ↑                ↑
    메모리 뱅크 그룹        MDC 단위 그룹
    주소 생성 단위      (P개 병렬)
    병렬 분기 배열 회로
    재배열 회로

2. 주요 구성 요소 상세 설명

다중 경로 지연 교환기(MDC) 단위:

Radix- $2^5$ /24/23/22 혼합 계산 지원
수정된 radix- $2^5$ $2^{5}$ 알고리즘 채택, 회전 인수를 다음과 같이 분류:
- 상수(C): ROM에 사전 저장
- 비자명(NT): 복소수 승산기 필요
- 자명(T): ±1, ±j의 단순 연산

데이터 재배열 전략: 비트 차원 배열을 기반으로 한 3단계 변환 구현: $\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}$

여기서:

$\sigma^{s,k,P}_{N,1}$ : 직렬 비트 차원 배열
$\sigma^{s,k,P}_{N,2}$ : 병렬 분기 교환
$\sigma^{s,k,P}_{N,3}$ : 세밀한 인덱스 조정

3. 충돌 없는 메모리 접근 방안

파이프라인 모드:

인터리빙 주소 패턴 사용: 자연 순서 및 역순
읽기/쓰기 주소 관계: $\sigma^i_W = \sigma^{i-1}_R$
연속 데이터 흐름 충돌 없음 보장

메모리 기반 모드:

제자리 저장을 위한 추가 배열 $\tilde{\sigma}^{s,k,P}_{N,1}$ 도입
N ∈ (2^{2k}, 2^{3k}]의 대규모 처리에 적용

기술 혁신 포인트

통합 radix- $2^k$ 아키텍처: 수정된 알고리즘을 통해 하드웨어 재사용 구현, 동일한 하드웨어가 다양한 기수 지원
적응형 재구성 능력: FFT 크기 및 성능 요구사항에 따라 동적으로 작동 모드 선택
범용 비트 배열 이론: 기존 방법 확장, 임의의 기수, 길이 및 병렬도 지원
최적화된 메모리 접근 패턴: 서로 다른 모드에 대해 특화된 충돌 없는 접근 전략 설계

실험 설정

하드웨어 플랫폼

FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
개발 도구: Chisel HDL, Xilinx Vivado 2019.2
메모리 구현:
- 데이터 저장: Ultra RAMs (URAMs), 각 메모리 256K 주소×32비트
- 회전 인수 저장: Block RAMs (BRAMs)

평가 지표

하드웨어 활용률: 활성 나비 단위의 평균 비율
계산 주기 수: FFT 완료에 필요한 클록 주기
처리 시간: 반복 횟수 × 각 반복 주기 수
자원 소비: DSP48E2, LUT, FF 등 하드웨어 자원 사용량

비교 방법

메모리형 아키텍처: Tsai'11, Kaya'23, Wang'20
파이프라인 아키텍처: Garrido'13

실험 결과

주요 결과

1. 메모리형 아키텍처와의 비교

아키텍처	기수	FFT 길이	병렬도	반복 횟수	처리 시간 감소
Tsai'11	radix-2³	64~4K	2	⌈n/3⌉	70%+
Kaya'23	radix-2	2K~16K	2	⌈n/2⌉	70%+
Wang'20	radix-2³	32~32K	4	⌈n/3⌉	70%+
본 논문	radix-2⁵	32~512K	8	⌈n/5⌉	기준

2. 파이프라인 아키텍처와의 비교

구성	FFT 길이	평균 하드웨어 활용률	향상 폭
Garrido'13 (P=1)	2K~512K	75%	-
Garrido'13 (P=1)	64~1K	40%	-
Garrido'13 (P=1)	2~32	15%	-
본 논문 (P=1)	2K~512K	75%	동등
본 논문 (P=2)	64~1K	80%	2배
본 논문 (P=4)	2~32	60%	4배

3. FPGA 구현 결과 (N=512K, P=1)

DSP48E2: 45,365개
LUT: 76,183개
FF: 1,500개
Block RAMs: 444개
Ultra RAMs: 768개
작동 주파수: 196.8 MHz

주요 발견

계산 효율 향상: Radix- $2^5$ 알고리즘을 통해 반복 횟수를 ⌈n/5⌉로 감소, 기존 방법 대비 40% 이상 감소
하드웨어 활용률 최적화: 적응형 병렬도를 통해 소규모 FFT의 하드웨어 활용률 2~4배 향상
확장성 강화: 32포인트에서 512K포인트까지의 광범위한 FFT 처리 지원

결론 및 토론

주요 결론

적응형 하이브리드 아키텍처가 파이프라인과 메모리형 아키텍처의 장점을 성공적으로 결합
Radix- $2^5$ MDC 설계가 대규모 FFT의 계산 효율을 현저히 향상
범용 비트 배열 방법이 서로 다른 구성에 대한 이론적 보장 제공
실험이 아키텍처의 하드웨어 활용률 및 계산 효율 측면의 현저한 향상을 검증

한계

적용 범위 제한: 메모리 기반 모드는 N ∈ (2^{2k}, 2^{3k}]에만 적용
하드웨어 복잡도: 다양한 기수 지원이 제어 로직의 복잡성 증가
전력 소비 분석 부재: 상세한 전력 소비 비교 분석 미제공

향후 방향

더 큰 규모의 FFT 처리 지원 확대
전력 효율 최적화
AI 가속기에서의 응용 탐색

심층 평가

장점

높은 혁신성: 적응형 하이브리드 FFT 아키텍처를 최초로 제안하여 기존 아키텍처의 내재적 모순 해결
이론 완성도: 완전한 비트 배열 이론 프레임워크 제공으로 강한 범용성 보유
충분한 실험: 이론 분석에서 FPGA 구현까지 방법의 유효성 검증
높은 실용 가치: 512K 포인트 FFT 지원으로 현대 대데이터 처리 수요 충족

부족한 점

복잡도 증가: 적응형 메커니즘이 설계 복잡도 및 검증 난이도 증가
불충분한 비교: 최신 상용 FFT IP 코어와의 성능 비교 부재
전력 소비 분석 부재: 모바일 및 임베디드 애플리케이션에서 전력 소비는 중요한 고려 사항

영향력

학술 기여: FFT 프로세서 설계에 새로운 아키텍처 패러다임 제공
공학적 가치: 5G 통신, 레이더 신호 처리 등 분야에 직접 적용 가능
재현성: 상세한 설계 파라미터 및 구현 세부사항 제공

적용 시나리오

고성능 컴퓨팅: 대규모 FFT 처리가 필요한 과학 계산 애플리케이션
통신 시스템: 5G/6G 기지국의 신호 처리 단위
레이더 시스템: 실시간 신호 처리 및 목표 탐지
이미지 처리: 고해상도 이미지의 주파수 영역 분석

참고문헌

본 논문은 FFT 알고리즘, FPGA 구현, 메모리 접근 최적화 등 다양한 분야를 포괄하는 17편의 관련 문헌을 인용하여 견고한 이론적 기초를 제공합니다.

종합 평가: 이는 FFT 프로세서 설계 분야에서 중요한 이론적 및 실용적 가치를 지닌 고품질의 컴퓨터 아키텍처 논문입니다. 저자들은 정교한 아키텍처 설계와 엄밀한 이론 분석을 통해 기존 FFT 아키텍처의 내재적 문제를 성공적으로 해결하였으며, 해당 분야의 발전에 새로운 사고와 방향을 제시했습니다.

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

적응형 하이브리드 FFT: 대규모 처리를 위한 Radix- $2^k$ FFT의 새로운 파이프라인 및 메모리 기반 아키텍처

기본 정보

초록

연구 배경 및 동기

문제 정의

핵심 기여

방법 상세 설명

작업 정의

모델 아키텍처

1. 최상위 아키텍처 설계

2. 주요 구성 요소 상세 설명

3. 충돌 없는 메모리 접근 방안

기술 혁신 포인트

실험 설정

하드웨어 플랫폼

평가 지표

비교 방법

실험 결과

주요 결과

1. 메모리형 아키텍처와의 비교

2. 파이프라인 아키텍처와의 비교

3. FPGA 구현 결과 (N=512K, P=1)

주요 발견

관련 연구

주요 연구 방향

본 논문의 상대적 우위

결론 및 토론

주요 결론

한계

향후 방향

심층 평가

장점

부족한 점

영향력

적용 시나리오

참고문헌

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

적응형 하이브리드 FFT: 대규모 처리를 위한 Radix-2k2^k2k FFT의 새로운 파이프라인 및 메모리 기반 아키텍처

적응형 하이브리드 FFT: 대규모 처리를 위한 Radix- $2^k$ FFT의 새로운 파이프라인 및 메모리 기반 아키텍처