2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic

적응형 하이브리드 FFT: 대규모 처리를 위한 Radix-2k2^k FFT의 새로운 파이프라인 및 메모리 기반 아키텍처

기본 정보

  • 논문 ID: 2501.01259
  • 제목: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-2k2^k FFT in Large Size Processing
  • 저자: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
  • 분류: cs.AR (컴퓨터 아키텍처)
  • 발표 시간/학회: IEEE에 제출됨, 2025년 1월
  • 논문 링크: https://arxiv.org/abs/2501.01259

초록

디지털 신호 처리 분야에서 고속 푸리에 변환(FFT)은 기본 알고리즘입니다. 그 프로세서 구현은 일반적으로 두 가지 아키텍처를 채택합니다: 파이프라인 아키텍처(높은 처리량 애플리케이션에 적합하지만 하드웨어 활용률이 낮음)와 메모리 기반 아키텍처(면적 제약 시나리오에 적합하지만 엄격한 처리량 요구사항을 충족할 수 없음). 본 논문은 두 아키텍처의 장점을 결합한 적응형 하이브리드 FFT 아키텍처를 제안합니다. 이 아키텍처의 특징은 다음과 같습니다: 고성능 대규모 처리를 지원하기 위해 radix-2k2^k 다중 경로 지연 교환기(MDC) 단위 집합을 개발했으며, 연속 데이터 흐름을 보장하는 충돌 없는 메모리 접근 방식을 수립했고, 가변 길이, 높은 기수 및 임의의 병렬도에 대한 광범위한 적응성 요구사항을 만족하는 비트 차원 배열의 존재성을 증명했습니다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 기존 FFT 프로세서 아키텍처의 내재적 결함
    • 파이프라인 아키텍처: 높은 처리량이지만 하드웨어 활용률이 낮으며, 소규모 FFT 작업 시 대량의 하드웨어가 유휴 상태
    • 메모리 기반 아키텍처: 하드웨어 활용률이 높지만 계산 주기가 증가하여 실시간 처리 성능에 영향
  2. 문제의 중요성:
    • FFT는 무선 통신, 이미지 처리, 레이더 신호 처리 등 다양한 분야에서 광범위하게 적용
    • 대규모 데이터 처리 수요가 지속적으로 증가하여 고효율이면서도 유연한 FFT 프로세서 필요
    • 기존 아키텍처는 높은 처리량과 높은 하드웨어 활용률을 동시에 만족할 수 없음
  3. 기존 방법의 한계:
    • 파이프라인 아키텍처는 소규모 FFT 처리 시 하드웨어 활용률이 15% 수준까지 저하
    • 메모리 기반 아키텍처는 다중 반복이 필요하여 계산 지연 증가
    • 기존 충돌 회피 방안은 주로 radix-2 알고리즘에 국한되어 높은 기수 계산을 지원하지 않음
  4. 연구 동기:
    • 두 아키텍처의 장점을 결합하여 적응형 재구성 실현
    • 대규모 FFT 처리 지원(최대 512K 포인트)
    • 높은 처리량을 보장하면서 하드웨어 활용률 향상

핵심 기여

  1. 적응형 하이브리드 FFT 프로세서 아키텍처 제안: 파이프라인 및 메모리 기반 두 가지 모드를 지원하며 최대 512K 포인트의 FFT 처리 가능
  2. Radix-2k2^k 다중 경로 지연 교환기(MDC) 개발: radix-252^5 알고리즘을 지원하여 계산 단계 수를 현저히 감소
  3. 충돌 없는 메모리 접근 기술 설계: 완전 제자리 메모리 변환의 연속 흐름 FFT 계산 구현
  4. 범용 비트 배열 방법 구축: 서로 다른 FFT 길이, 기수 및 병렬도의 하드웨어 제약에 적응

방법 상세 설명

작업 정의

다음을 수행할 수 있는 재구성 가능한 FFT 프로세서 설계:

  • 입력: N 포인트 복소수 수열 (N = 2^n, 최대 512K)
  • 출력: 해당 주파수 영역 표현
  • 제약: radix-2k2^k (k≤5) 알고리즘 지원, 구성 가능한 병렬도 P, 충돌 없는 메모리 접근 구현

모델 아키텍처

1. 최상위 아키텍처 설계

입력 데이터 → 데이터 재배열 모듈 → FFT 핵심 프로세서 → 출력 데이터
         ↑                ↑
    메모리 뱅크 그룹        MDC 단위 그룹
    주소 생성 단위      (P개 병렬)
    병렬 분기 배열 회로
    재배열 회로

2. 주요 구성 요소 상세 설명

다중 경로 지연 교환기(MDC) 단위:

  • Radix-252^5/24/23/22 혼합 계산 지원
  • 수정된 radix-252^5 알고리즘 채택, 회전 인수를 다음과 같이 분류:
    • 상수(C): ROM에 사전 저장
    • 비자명(NT): 복소수 승산기 필요
    • 자명(T): ±1, ±j의 단순 연산

데이터 재배열 전략: 비트 차원 배열을 기반으로 한 3단계 변환 구현: σNs,k,P=σN,3s,k,PσN,2s,k,PσN,1s,k,P\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}

여기서:

  • σN,1s,k,P\sigma^{s,k,P}_{N,1}: 직렬 비트 차원 배열
  • σN,2s,k,P\sigma^{s,k,P}_{N,2}: 병렬 분기 교환
  • σN,3s,k,P\sigma^{s,k,P}_{N,3}: 세밀한 인덱스 조정

3. 충돌 없는 메모리 접근 방안

파이프라인 모드:

  • 인터리빙 주소 패턴 사용: 자연 순서 및 역순
  • 읽기/쓰기 주소 관계: σWi=σRi1\sigma^i_W = \sigma^{i-1}_R
  • 연속 데이터 흐름 충돌 없음 보장

메모리 기반 모드:

  • 제자리 저장을 위한 추가 배열 σ~N,1s,k,P\tilde{\sigma}^{s,k,P}_{N,1} 도입
  • N ∈ (2^{2k}, 2^{3k}]의 대규모 처리에 적용

기술 혁신 포인트

  1. 통합 radix-2k2^k 아키텍처: 수정된 알고리즘을 통해 하드웨어 재사용 구현, 동일한 하드웨어가 다양한 기수 지원
  2. 적응형 재구성 능력: FFT 크기 및 성능 요구사항에 따라 동적으로 작동 모드 선택
  3. 범용 비트 배열 이론: 기존 방법 확장, 임의의 기수, 길이 및 병렬도 지원
  4. 최적화된 메모리 접근 패턴: 서로 다른 모드에 대해 특화된 충돌 없는 접근 전략 설계

실험 설정

하드웨어 플랫폼

  • FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
  • 개발 도구: Chisel HDL, Xilinx Vivado 2019.2
  • 메모리 구현:
    • 데이터 저장: Ultra RAMs (URAMs), 각 메모리 256K 주소×32비트
    • 회전 인수 저장: Block RAMs (BRAMs)

평가 지표

  1. 하드웨어 활용률: 활성 나비 단위의 평균 비율
  2. 계산 주기 수: FFT 완료에 필요한 클록 주기
  3. 처리 시간: 반복 횟수 × 각 반복 주기 수
  4. 자원 소비: DSP48E2, LUT, FF 등 하드웨어 자원 사용량

비교 방법

  1. 메모리형 아키텍처: Tsai'11, Kaya'23, Wang'20
  2. 파이프라인 아키텍처: Garrido'13

실험 결과

주요 결과

1. 메모리형 아키텍처와의 비교

아키텍처기수FFT 길이병렬도반복 횟수처리 시간 감소
Tsai'11radix-2³64~4K2⌈n/3⌉70%+
Kaya'23radix-22K~16K2⌈n/2⌉70%+
Wang'20radix-2³32~32K4⌈n/3⌉70%+
본 논문radix-2⁵32~512K8⌈n/5⌉기준

2. 파이프라인 아키텍처와의 비교

구성FFT 길이평균 하드웨어 활용률향상 폭
Garrido'13 (P=1)2K~512K75%-
Garrido'13 (P=1)64~1K40%-
Garrido'13 (P=1)2~3215%-
본 논문 (P=1)2K~512K75%동등
본 논문 (P=2)64~1K80%2배
본 논문 (P=4)2~3260%4배

3. FPGA 구현 결과 (N=512K, P=1)

  • DSP48E2: 45,365개
  • LUT: 76,183개
  • FF: 1,500개
  • Block RAMs: 444개
  • Ultra RAMs: 768개
  • 작동 주파수: 196.8 MHz

주요 발견

  1. 계산 효율 향상: Radix-252^5 알고리즘을 통해 반복 횟수를 ⌈n/5⌉로 감소, 기존 방법 대비 40% 이상 감소
  2. 하드웨어 활용률 최적화: 적응형 병렬도를 통해 소규모 FFT의 하드웨어 활용률 2~4배 향상
  3. 확장성 강화: 32포인트에서 512K포인트까지의 광범위한 FFT 처리 지원

관련 연구

주요 연구 방향

  1. 파이프라인 FFT 아키텍처: Groginsky & Works (1970)를 대표로 하여 높은 처리량 추구
  2. 메모리 기반 FFT 아키텍처: 하드웨어 자원 감소를 목표로 하며 면적 제약 애플리케이션에 적합
  3. 높은 기수 FFT 알고리즘: Radix-2k2^k 알고리즘은 계산 복잡도와 하드웨어 구현 난이도의 균형

본 논문의 상대적 우위

  1. 아키텍처 융합: 파이프라인과 메모리형 아키텍처의 적응형 전환을 최초로 구현
  2. 기수 확장: 최고 radix-252^5 지원으로 기존 radix-232^3 한계 초과
  3. 이론 완성: 서로 다른 구성에 대한 이론적 보장을 제공하는 범용 비트 배열 이론 프레임워크 제공

결론 및 토론

주요 결론

  1. 적응형 하이브리드 아키텍처가 파이프라인과 메모리형 아키텍처의 장점을 성공적으로 결합
  2. Radix-252^5 MDC 설계가 대규모 FFT의 계산 효율을 현저히 향상
  3. 범용 비트 배열 방법이 서로 다른 구성에 대한 이론적 보장 제공
  4. 실험이 아키텍처의 하드웨어 활용률 및 계산 효율 측면의 현저한 향상을 검증

한계

  1. 적용 범위 제한: 메모리 기반 모드는 N ∈ (2^{2k}, 2^{3k}]에만 적용
  2. 하드웨어 복잡도: 다양한 기수 지원이 제어 로직의 복잡성 증가
  3. 전력 소비 분석 부재: 상세한 전력 소비 비교 분석 미제공

향후 방향

  1. 더 큰 규모의 FFT 처리 지원 확대
  2. 전력 효율 최적화
  3. AI 가속기에서의 응용 탐색

심층 평가

장점

  1. 높은 혁신성: 적응형 하이브리드 FFT 아키텍처를 최초로 제안하여 기존 아키텍처의 내재적 모순 해결
  2. 이론 완성도: 완전한 비트 배열 이론 프레임워크 제공으로 강한 범용성 보유
  3. 충분한 실험: 이론 분석에서 FPGA 구현까지 방법의 유효성 검증
  4. 높은 실용 가치: 512K 포인트 FFT 지원으로 현대 대데이터 처리 수요 충족

부족한 점

  1. 복잡도 증가: 적응형 메커니즘이 설계 복잡도 및 검증 난이도 증가
  2. 불충분한 비교: 최신 상용 FFT IP 코어와의 성능 비교 부재
  3. 전력 소비 분석 부재: 모바일 및 임베디드 애플리케이션에서 전력 소비는 중요한 고려 사항

영향력

  1. 학술 기여: FFT 프로세서 설계에 새로운 아키텍처 패러다임 제공
  2. 공학적 가치: 5G 통신, 레이더 신호 처리 등 분야에 직접 적용 가능
  3. 재현성: 상세한 설계 파라미터 및 구현 세부사항 제공

적용 시나리오

  1. 고성능 컴퓨팅: 대규모 FFT 처리가 필요한 과학 계산 애플리케이션
  2. 통신 시스템: 5G/6G 기지국의 신호 처리 단위
  3. 레이더 시스템: 실시간 신호 처리 및 목표 탐지
  4. 이미지 처리: 고해상도 이미지의 주파수 영역 분석

참고문헌

본 논문은 FFT 알고리즘, FPGA 구현, 메모리 접근 최적화 등 다양한 분야를 포괄하는 17편의 관련 문헌을 인용하여 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 FFT 프로세서 설계 분야에서 중요한 이론적 및 실용적 가치를 지닌 고품질의 컴퓨터 아키텍처 논문입니다. 저자들은 정교한 아키텍처 설계와 엄밀한 이론 분석을 통해 기존 FFT 아키텍처의 내재적 문제를 성공적으로 해결하였으며, 해당 분야의 발전에 새로운 사고와 방향을 제시했습니다.