2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.

In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.

academic

FFT Ibrido Adattivo: Una Nuova Architettura Basata su Pipeline e Memoria per FFT Radix- $2^k$ nell'Elaborazione di Grandi Dimensioni

Informazioni Fondamentali

ID Articolo: 2501.01259
Titolo: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix- $2^k$ FFT in Large Size Processing
Autori: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
Classificazione: cs.AR (Architettura dei Calcolatori)
Data di Pubblicazione/Conferenza: Sottomesso a IEEE, gennaio 2025
Link dell'Articolo: https://arxiv.org/abs/2501.01259

Riassunto

Nel campo dell'elaborazione dei segnali digitali, la Trasformata Veloce di Fourier (FFT) è un algoritmo fondamentale. Le implementazioni su processore tipicamente adottano due architetture: l'architettura pipeline (adatta per applicazioni ad alto throughput ma con bassa utilità hardware) e l'architettura basata su memoria (adatta per scenari con vincoli di area ma incapace di soddisfare rigorosi requisiti di throughput). Questo articolo propone un'architettura FFT ibrida adattiva che combina i vantaggi di entrambi gli approcci. L'architettura presenta le seguenti caratteristiche: sviluppo di un insieme di unità commutatori a ritardo multiplo (MDC) radix- $2^k$ per supportare l'elaborazione ad alte prestazioni su larga scala; formulazione di uno schema di accesso alla memoria senza conflitti per garantire un flusso dati continuo; dimostrazione dell'esistenza di una serie di permutazioni di dimensioni di bit che soddisfano ampi requisiti di adattabilità per lunghezze variabili, radici elevate e gradi di parallelismo arbitrari.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Le architetture tradizionali dei processori FFT presentano difetti intrinseci
- Architettura pipeline: alto throughput ma bassa utilità hardware, con notevole inattività hardware durante operazioni FFT su piccola scala
- Architettura basata su memoria: alta utilità hardware ma cicli di calcolo aumentati, che influiscono sulle prestazioni dell'elaborazione in tempo reale
Importanza del Problema:
- FFT è ampiamente applicata in comunicazioni wireless, elaborazione di immagini, elaborazione di segnali radar e altri campi
- La crescente domanda di elaborazione di dati su larga scala richiede processori FFT efficienti e flessibili
- Le architetture esistenti non possono soddisfare contemporaneamente i requisiti di alto throughput e alta utilità hardware
Limitazioni dei Metodi Esistenti:
- L'architettura pipeline può avere un'utilità hardware bassa fino al 15% durante l'elaborazione di FFT su piccola scala
- L'architettura basata su memoria richiede più iterazioni, aumentando la latenza di calcolo
- Gli schemi di evitamento dei conflitti esistenti sono principalmente limitati all'algoritmo radix-2 e non supportano il calcolo ad alta radice
Motivazione della Ricerca:
- Combinare i vantaggi di entrambe le architetture per realizzare la riconfigurazione adattiva
- Supportare l'elaborazione FFT su larga scala (fino a 512K punti)
- Migliorare l'utilità hardware mantenendo alto throughput

Contributi Principali

Propone un'architettura di processore FFT ibrido adattivo: supporta modalità pipeline e basata su memoria, in grado di elaborare FFT fino a 512K punti
Sviluppa commutatori a ritardo multiplo (MDC) radix- $2^k$ : supporta l'algoritmo radix- $2^5$ , riducendo significativamente il numero di stadi di calcolo
Progetta una tecnica di accesso alla memoria senza conflitti: realizza il calcolo FFT a flusso continuo con trasformazione in memoria completamente in-place
Costruisce un metodo di permutazione di bit universale: si adatta ai vincoli hardware di diverse lunghezze FFT, radici e gradi di parallelismo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Progettare un processore FFT riconfigurabile in grado di:

Input: Sequenza complessa di N punti (N = 2^n, massimo 512K)
Output: Rappresentazione corrispondente nel dominio della frequenza
Vincoli: Supportare l'algoritmo radix- $2^k$ (k≤5), parallelismo P configurabile, realizzare accesso alla memoria senza conflitti

Architettura del Modello

1. Progettazione dell'Architettura di Livello Superiore

Dati di Input → Modulo Riordinamento Dati → Processore Core FFT → Dati di Output
              ↑                              ↑
         Gruppo Banche Memoria          Gruppo Unità MDC
         Generatore Indirizzi            (P paralleli)
         Circuito Permutazione Rami Paralleli
         Circuito Riordinamento

2. Spiegazione dei Componenti Chiave

Unità Commutatore a Ritardo Multiplo (MDC):

Supporta calcolo misto radix- $2^5$ /24/23/22
Adotta algoritmo radix- $2^5$ $2^{5}$ modificato, classificando i fattori di rotazione come:
- Costanti (C): pre-memorizzate in ROM
- Non-banali (NT): richiedono moltiplicatore complesso
- Banali (T): operazioni semplici ±1, ±j

Strategia di Riordinamento Dati: Basata su permutazione di dimensioni di bit realizzando trasformazione a tre livelli: $\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}$

Dove:

$\sigma^{s,k,P}_{N,1}$ : permutazione seriale di dimensioni di bit
$\sigma^{s,k,P}_{N,2}$ : scambio rami paralleli
$\sigma^{s,k,P}_{N,3}$ : regolazione indice fine

3. Schema di Accesso alla Memoria Senza Conflitti

Modalità Pipeline:

Utilizza pattern di indirizzo intercalato: ordine naturale e ordine invertito
Relazione indirizzi lettura-scrittura: $\sigma^i_W = \sigma^{i-1}_R$
Garantisce flusso dati continuo senza conflitti

Modalità Basata su Memoria:

Introduce permutazione aggiuntiva $\tilde{\sigma}^{s,k,P}_{N,1}$ per memorizzazione in-place
Applicabile per N ∈ (2^{2k}, 2^{3k}] nell'elaborazione su larga scala

Punti di Innovazione Tecnica

Architettura radix- $2^k$ unificata: realizza il riutilizzo hardware attraverso algoritmo modificato, lo stesso hardware supporta radici multiple
Capacità di riconfigurazione adattiva: seleziona dinamicamente la modalità di funzionamento in base alla dimensione FFT e ai requisiti di prestazione
Teoria di permutazione di bit universale: estende i metodi esistenti, supportando radice arbitraria, lunghezza e grado di parallelismo
Pattern di accesso alla memoria ottimizzato: progetta strategie di accesso senza conflitti specializzate per diverse modalità

Configurazione Sperimentale

Piattaforma Hardware

FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
Strumenti di Sviluppo: Chisel HDL, Xilinx Vivado 2019.2
Implementazione di Memoria:
- Memorizzazione dati: Ultra RAMs (URAMs), 256K indirizzi×32 bit per memoria
- Memorizzazione fattori di rotazione: Block RAMs (BRAMs)

Metriche di Valutazione

Utilità Hardware: proporzione media di unità butterfly attive
Numero di Cicli di Calcolo: cicli di clock necessari per completare FFT
Tempo di Elaborazione: numero di iterazioni × cicli per iterazione
Consumo di Risorse: utilizzo di risorse hardware DSP48E2, LUT, FF, ecc.

Metodi di Confronto

Architettura Basata su Memoria: Tsai'11, Kaya'23, Wang'20
Architettura Pipeline: Garrido'13

Risultati Sperimentali

Risultati Principali

1. Confronto con Architettura Basata su Memoria

Architettura	Radice	Lunghezza FFT	Parallelismo	Numero Iterazioni	Riduzione Tempo Elaborazione
Tsai'11	radix-2³	64~4K	2	⌈n/3⌉	70%+
Kaya'23	radix-2	2K~16K	2	⌈n/2⌉	70%+
Wang'20	radix-2³	32~32K	4	⌈n/3⌉	70%+
Questo Lavoro	radix-2⁵	32~512K	8	⌈n/5⌉	Baseline

2. Confronto con Architettura Pipeline

Configurazione	Lunghezza FFT	Utilità Hardware Media	Entità Miglioramento
Garrido'13 (P=1)	2K~512K	75%	-
Garrido'13 (P=1)	64~1K	40%	-
Garrido'13 (P=1)	2~32	15%	-
Questo Lavoro (P=1)	2K~512K	75%	Equivalente
Questo Lavoro (P=2)	64~1K	80%	2× Miglioramento
Questo Lavoro (P=4)	2~32	60%	4× Miglioramento

3. Risultati di Implementazione FPGA (N=512K, P=1)

DSP48E2: 45.365 unità
LUT: 76.183 unità
FF: 1.500 unità
Block RAMs: 444 unità
Ultra RAMs: 768 unità
Frequenza di Lavoro: 196,8 MHz

Scoperte Chiave

Miglioramento dell'Efficienza di Calcolo: attraverso l'algoritmo radix- $2^5$ , il numero di iterazioni si riduce a ⌈n/5⌉, con riduzione superiore al 40% rispetto ai metodi tradizionali
Ottimizzazione dell'Utilità Hardware: attraverso il parallelismo adattivo, l'utilità hardware per FFT su piccola scala migliora di 2-4 volte
Scalabilità Migliorata: supporta l'elaborazione FFT in ampio intervallo da 32 punti a 512K punti

Lavori Correlati

Principali Direzioni di Ricerca

Architetture FFT Pipeline: rappresentate da Groginsky & Works (1970), perseguono alto throughput
Architetture FFT Basate su Memoria: mirano a ridurre le risorse hardware, adatte per applicazioni con vincoli di area
Algoritmi FFT ad Alta Radice: l'algoritmo radix- $2^k$ bilancia la complessità di calcolo e la difficoltà di implementazione hardware

Vantaggi Relativi di Questo Lavoro

Fusione Architettonica: realizza per la prima volta il cambio adattivo tra architettura pipeline e basata su memoria
Estensione della Radice: supporta fino a radix- $2^5$ , superando il limite radix- $2^3$ esistente
Teoria Perfezionata: fornisce un framework teorico universale di permutazione di bit

Conclusioni e Discussione

Conclusioni Principali

L'architettura ibrida adattiva combina con successo i vantaggi delle architetture pipeline e basata su memoria
La progettazione MDC radix- $2^5$ migliora significativamente l'efficienza di calcolo per FFT su larga scala
Il metodo di permutazione di bit universale fornisce garanzie teoriche per diverse configurazioni
La verifica sperimentale dimostra miglioramenti significativi dell'architettura in utilità hardware ed efficienza di calcolo

Limitazioni

Restrizioni di Applicabilità: la modalità basata su memoria è applicabile solo per N ∈ (2^{2k}, 2^{3k}]
Complessità Hardware: il supporto di radici multiple aumenta la complessità della logica di controllo
Analisi di Potenza Mancante: non fornisce analisi dettagliata di confronto della potenza

Direzioni Future

Estendere il supporto per l'elaborazione FFT su scala ancora più grande
Ottimizzare l'efficienza energetica
Esplorare applicazioni negli acceleratori AI

Valutazione Approfondita

Punti di Forza

Forte Innovatività: propone per la prima volta un'architettura FFT ibrida adattiva, risolvendo le contraddizioni intrinseche delle architetture tradizionali
Teoria Completa: fornisce un framework teorico completo di permutazione di bit con forte universalità
Esperimenti Sufficienti: dall'analisi teorica all'implementazione FPGA, verifica l'efficacia del metodo
Alto Valore Pratico: supporta FFT a 512K punti, soddisfa le esigenze di elaborazione di big data moderni

Insufficienze

Aumento della Complessità: il meccanismo adattivo aumenta la complessità di progettazione e verifica
Confronto Non Sufficientemente Completo: manca il confronto di prestazioni con i più recenti core IP FFT commerciali
Analisi di Potenza Mancante: la potenza è un fattore importante di considerazione nelle applicazioni mobili e embedded

Impatto

Contributo Accademico: fornisce un nuovo paradigma architettonico per la progettazione di processori FFT
Valore Ingegneristico: può essere direttamente applicato in comunicazioni 5G, elaborazione di segnali radar e altri campi
Riproducibilità: fornisce parametri di progettazione dettagliati e dettagli di implementazione

Scenari di Applicazione

Calcolo ad Alte Prestazioni: applicazioni di calcolo scientifico che richiedono l'elaborazione di FFT su larga scala
Sistemi di Comunicazione: unità di elaborazione dei segnali delle stazioni base 5G/6G
Sistemi Radar: elaborazione dei segnali in tempo reale e rilevamento dei bersagli
Elaborazione di Immagini: analisi nel dominio della frequenza di immagini ad alta risoluzione

Riferimenti Bibliografici

L'articolo cita 17 riferimenti correlati, coprendo algoritmi FFT, implementazione FPGA, ottimizzazione dell'accesso alla memoria e altri aspetti, fornendo una solida base teorica per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'architettura dei calcolatori, con importante valore teorico e pratico nel campo della progettazione di processori FFT. Gli autori, attraverso un'ingegnosa progettazione architettonica e un'analisi teorica rigorosa, risolvono con successo i problemi intrinseci delle architetture FFT tradizionali, fornendo nuove idee e direzioni per lo sviluppo del campo.

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

FFT Ibrido Adattivo: Una Nuova Architettura Basata su Pipeline e Memoria per FFT Radix-2k2^k2k nell'Elaborazione di Grandi Dimensioni

FFT Ibrido Adattivo: Una Nuova Architettura Basata su Pipeline e Memoria per FFT Radix- $2^k$ nell'Elaborazione di Grandi Dimensioni