Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing
Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic
FFT Ibrido Adattivo: Una Nuova Architettura Basata su Pipeline e Memoria per FFT Radix-2k nell'Elaborazione di Grandi Dimensioni
Nel campo dell'elaborazione dei segnali digitali, la Trasformata Veloce di Fourier (FFT) è un algoritmo fondamentale. Le implementazioni su processore tipicamente adottano due architetture: l'architettura pipeline (adatta per applicazioni ad alto throughput ma con bassa utilità hardware) e l'architettura basata su memoria (adatta per scenari con vincoli di area ma incapace di soddisfare rigorosi requisiti di throughput). Questo articolo propone un'architettura FFT ibrida adattiva che combina i vantaggi di entrambi gli approcci. L'architettura presenta le seguenti caratteristiche: sviluppo di un insieme di unità commutatori a ritardo multiplo (MDC) radix-2k per supportare l'elaborazione ad alte prestazioni su larga scala; formulazione di uno schema di accesso alla memoria senza conflitti per garantire un flusso dati continuo; dimostrazione dell'esistenza di una serie di permutazioni di dimensioni di bit che soddisfano ampi requisiti di adattabilità per lunghezze variabili, radici elevate e gradi di parallelismo arbitrari.
Problema Centrale: Le architetture tradizionali dei processori FFT presentano difetti intrinseci
Architettura pipeline: alto throughput ma bassa utilità hardware, con notevole inattività hardware durante operazioni FFT su piccola scala
Architettura basata su memoria: alta utilità hardware ma cicli di calcolo aumentati, che influiscono sulle prestazioni dell'elaborazione in tempo reale
Importanza del Problema:
FFT è ampiamente applicata in comunicazioni wireless, elaborazione di immagini, elaborazione di segnali radar e altri campi
La crescente domanda di elaborazione di dati su larga scala richiede processori FFT efficienti e flessibili
Le architetture esistenti non possono soddisfare contemporaneamente i requisiti di alto throughput e alta utilità hardware
Limitazioni dei Metodi Esistenti:
L'architettura pipeline può avere un'utilità hardware bassa fino al 15% durante l'elaborazione di FFT su piccola scala
L'architettura basata su memoria richiede più iterazioni, aumentando la latenza di calcolo
Gli schemi di evitamento dei conflitti esistenti sono principalmente limitati all'algoritmo radix-2 e non supportano il calcolo ad alta radice
Motivazione della Ricerca:
Combinare i vantaggi di entrambe le architetture per realizzare la riconfigurazione adattiva
Supportare l'elaborazione FFT su larga scala (fino a 512K punti)
Propone un'architettura di processore FFT ibrido adattivo: supporta modalità pipeline e basata su memoria, in grado di elaborare FFT fino a 512K punti
Sviluppa commutatori a ritardo multiplo (MDC) radix-2k: supporta l'algoritmo radix-25, riducendo significativamente il numero di stadi di calcolo
Progetta una tecnica di accesso alla memoria senza conflitti: realizza il calcolo FFT a flusso continuo con trasformazione in memoria completamente in-place
Costruisce un metodo di permutazione di bit universale: si adatta ai vincoli hardware di diverse lunghezze FFT, radici e gradi di parallelismo
Dati di Input → Modulo Riordinamento Dati → Processore Core FFT → Dati di Output
↑ ↑
Gruppo Banche Memoria Gruppo Unità MDC
Generatore Indirizzi (P paralleli)
Circuito Permutazione Rami Paralleli
Circuito Riordinamento
Strategia di Riordinamento Dati:
Basata su permutazione di dimensioni di bit realizzando trasformazione a tre livelli:
σNs,k,P=σN,3s,k,P∘σN,2s,k,P∘σN,1s,k,P
Dove:
σN,1s,k,P: permutazione seriale di dimensioni di bit
Miglioramento dell'Efficienza di Calcolo: attraverso l'algoritmo radix-25, il numero di iterazioni si riduce a ⌈n/5⌉, con riduzione superiore al 40% rispetto ai metodi tradizionali
Ottimizzazione dell'Utilità Hardware: attraverso il parallelismo adattivo, l'utilità hardware per FFT su piccola scala migliora di 2-4 volte
Scalabilità Migliorata: supporta l'elaborazione FFT in ampio intervallo da 32 punti a 512K punti
Forte Innovatività: propone per la prima volta un'architettura FFT ibrida adattiva, risolvendo le contraddizioni intrinseche delle architetture tradizionali
Teoria Completa: fornisce un framework teorico completo di permutazione di bit con forte universalità
Esperimenti Sufficienti: dall'analisi teorica all'implementazione FPGA, verifica l'efficacia del metodo
Alto Valore Pratico: supporta FFT a 512K punti, soddisfa le esigenze di elaborazione di big data moderni
L'articolo cita 17 riferimenti correlati, coprendo algoritmi FFT, implementazione FPGA, ottimizzazione dell'accesso alla memoria e altri aspetti, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'architettura dei calcolatori, con importante valore teorico e pratico nel campo della progettazione di processori FFT. Gli autori, attraverso un'ingegnosa progettazione architettonica e un'analisi teorica rigorosa, risolvono con successo i problemi intrinseci delle architetture FFT tradizionali, fornendo nuove idee e direzioni per lo sviluppo del campo.