2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic

FFT Ibrido Adattivo: Una Nuova Architettura Basata su Pipeline e Memoria per FFT Radix-2k2^k nell'Elaborazione di Grandi Dimensioni

Informazioni Fondamentali

  • ID Articolo: 2501.01259
  • Titolo: Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-2k2^k FFT in Large Size Processing
  • Autori: Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
  • Classificazione: cs.AR (Architettura dei Calcolatori)
  • Data di Pubblicazione/Conferenza: Sottomesso a IEEE, gennaio 2025
  • Link dell'Articolo: https://arxiv.org/abs/2501.01259

Riassunto

Nel campo dell'elaborazione dei segnali digitali, la Trasformata Veloce di Fourier (FFT) è un algoritmo fondamentale. Le implementazioni su processore tipicamente adottano due architetture: l'architettura pipeline (adatta per applicazioni ad alto throughput ma con bassa utilità hardware) e l'architettura basata su memoria (adatta per scenari con vincoli di area ma incapace di soddisfare rigorosi requisiti di throughput). Questo articolo propone un'architettura FFT ibrida adattiva che combina i vantaggi di entrambi gli approcci. L'architettura presenta le seguenti caratteristiche: sviluppo di un insieme di unità commutatori a ritardo multiplo (MDC) radix-2k2^k per supportare l'elaborazione ad alte prestazioni su larga scala; formulazione di uno schema di accesso alla memoria senza conflitti per garantire un flusso dati continuo; dimostrazione dell'esistenza di una serie di permutazioni di dimensioni di bit che soddisfano ampi requisiti di adattabilità per lunghezze variabili, radici elevate e gradi di parallelismo arbitrari.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Le architetture tradizionali dei processori FFT presentano difetti intrinseci
    • Architettura pipeline: alto throughput ma bassa utilità hardware, con notevole inattività hardware durante operazioni FFT su piccola scala
    • Architettura basata su memoria: alta utilità hardware ma cicli di calcolo aumentati, che influiscono sulle prestazioni dell'elaborazione in tempo reale
  2. Importanza del Problema:
    • FFT è ampiamente applicata in comunicazioni wireless, elaborazione di immagini, elaborazione di segnali radar e altri campi
    • La crescente domanda di elaborazione di dati su larga scala richiede processori FFT efficienti e flessibili
    • Le architetture esistenti non possono soddisfare contemporaneamente i requisiti di alto throughput e alta utilità hardware
  3. Limitazioni dei Metodi Esistenti:
    • L'architettura pipeline può avere un'utilità hardware bassa fino al 15% durante l'elaborazione di FFT su piccola scala
    • L'architettura basata su memoria richiede più iterazioni, aumentando la latenza di calcolo
    • Gli schemi di evitamento dei conflitti esistenti sono principalmente limitati all'algoritmo radix-2 e non supportano il calcolo ad alta radice
  4. Motivazione della Ricerca:
    • Combinare i vantaggi di entrambe le architetture per realizzare la riconfigurazione adattiva
    • Supportare l'elaborazione FFT su larga scala (fino a 512K punti)
    • Migliorare l'utilità hardware mantenendo alto throughput

Contributi Principali

  1. Propone un'architettura di processore FFT ibrido adattivo: supporta modalità pipeline e basata su memoria, in grado di elaborare FFT fino a 512K punti
  2. Sviluppa commutatori a ritardo multiplo (MDC) radix-2k2^k: supporta l'algoritmo radix-252^5, riducendo significativamente il numero di stadi di calcolo
  3. Progetta una tecnica di accesso alla memoria senza conflitti: realizza il calcolo FFT a flusso continuo con trasformazione in memoria completamente in-place
  4. Costruisce un metodo di permutazione di bit universale: si adatta ai vincoli hardware di diverse lunghezze FFT, radici e gradi di parallelismo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Progettare un processore FFT riconfigurabile in grado di:

  • Input: Sequenza complessa di N punti (N = 2^n, massimo 512K)
  • Output: Rappresentazione corrispondente nel dominio della frequenza
  • Vincoli: Supportare l'algoritmo radix-2k2^k (k≤5), parallelismo P configurabile, realizzare accesso alla memoria senza conflitti

Architettura del Modello

1. Progettazione dell'Architettura di Livello Superiore

Dati di Input → Modulo Riordinamento Dati → Processore Core FFT → Dati di Output
              ↑                              ↑
         Gruppo Banche Memoria          Gruppo Unità MDC
         Generatore Indirizzi            (P paralleli)
         Circuito Permutazione Rami Paralleli
         Circuito Riordinamento

2. Spiegazione dei Componenti Chiave

Unità Commutatore a Ritardo Multiplo (MDC):

  • Supporta calcolo misto radix-252^5/24/23/22
  • Adotta algoritmo radix-252^5 modificato, classificando i fattori di rotazione come:
    • Costanti (C): pre-memorizzate in ROM
    • Non-banali (NT): richiedono moltiplicatore complesso
    • Banali (T): operazioni semplici ±1, ±j

Strategia di Riordinamento Dati: Basata su permutazione di dimensioni di bit realizzando trasformazione a tre livelli: σNs,k,P=σN,3s,k,PσN,2s,k,PσN,1s,k,P\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}

Dove:

  • σN,1s,k,P\sigma^{s,k,P}_{N,1}: permutazione seriale di dimensioni di bit
  • σN,2s,k,P\sigma^{s,k,P}_{N,2}: scambio rami paralleli
  • σN,3s,k,P\sigma^{s,k,P}_{N,3}: regolazione indice fine

3. Schema di Accesso alla Memoria Senza Conflitti

Modalità Pipeline:

  • Utilizza pattern di indirizzo intercalato: ordine naturale e ordine invertito
  • Relazione indirizzi lettura-scrittura: σWi=σRi1\sigma^i_W = \sigma^{i-1}_R
  • Garantisce flusso dati continuo senza conflitti

Modalità Basata su Memoria:

  • Introduce permutazione aggiuntiva σ~N,1s,k,P\tilde{\sigma}^{s,k,P}_{N,1} per memorizzazione in-place
  • Applicabile per N ∈ (2^{2k}, 2^{3k}] nell'elaborazione su larga scala

Punti di Innovazione Tecnica

  1. Architettura radix-2k2^k unificata: realizza il riutilizzo hardware attraverso algoritmo modificato, lo stesso hardware supporta radici multiple
  2. Capacità di riconfigurazione adattiva: seleziona dinamicamente la modalità di funzionamento in base alla dimensione FFT e ai requisiti di prestazione
  3. Teoria di permutazione di bit universale: estende i metodi esistenti, supportando radice arbitraria, lunghezza e grado di parallelismo
  4. Pattern di accesso alla memoria ottimizzato: progetta strategie di accesso senza conflitti specializzate per diverse modalità

Configurazione Sperimentale

Piattaforma Hardware

  • FPGA: Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
  • Strumenti di Sviluppo: Chisel HDL, Xilinx Vivado 2019.2
  • Implementazione di Memoria:
    • Memorizzazione dati: Ultra RAMs (URAMs), 256K indirizzi×32 bit per memoria
    • Memorizzazione fattori di rotazione: Block RAMs (BRAMs)

Metriche di Valutazione

  1. Utilità Hardware: proporzione media di unità butterfly attive
  2. Numero di Cicli di Calcolo: cicli di clock necessari per completare FFT
  3. Tempo di Elaborazione: numero di iterazioni × cicli per iterazione
  4. Consumo di Risorse: utilizzo di risorse hardware DSP48E2, LUT, FF, ecc.

Metodi di Confronto

  1. Architettura Basata su Memoria: Tsai'11, Kaya'23, Wang'20
  2. Architettura Pipeline: Garrido'13

Risultati Sperimentali

Risultati Principali

1. Confronto con Architettura Basata su Memoria

ArchitetturaRadiceLunghezza FFTParallelismoNumero IterazioniRiduzione Tempo Elaborazione
Tsai'11radix-2³64~4K2⌈n/3⌉70%+
Kaya'23radix-22K~16K2⌈n/2⌉70%+
Wang'20radix-2³32~32K4⌈n/3⌉70%+
Questo Lavororadix-2⁵32~512K8⌈n/5⌉Baseline

2. Confronto con Architettura Pipeline

ConfigurazioneLunghezza FFTUtilità Hardware MediaEntità Miglioramento
Garrido'13 (P=1)2K~512K75%-
Garrido'13 (P=1)64~1K40%-
Garrido'13 (P=1)2~3215%-
Questo Lavoro (P=1)2K~512K75%Equivalente
Questo Lavoro (P=2)64~1K80%2× Miglioramento
Questo Lavoro (P=4)2~3260%4× Miglioramento

3. Risultati di Implementazione FPGA (N=512K, P=1)

  • DSP48E2: 45.365 unità
  • LUT: 76.183 unità
  • FF: 1.500 unità
  • Block RAMs: 444 unità
  • Ultra RAMs: 768 unità
  • Frequenza di Lavoro: 196,8 MHz

Scoperte Chiave

  1. Miglioramento dell'Efficienza di Calcolo: attraverso l'algoritmo radix-252^5, il numero di iterazioni si riduce a ⌈n/5⌉, con riduzione superiore al 40% rispetto ai metodi tradizionali
  2. Ottimizzazione dell'Utilità Hardware: attraverso il parallelismo adattivo, l'utilità hardware per FFT su piccola scala migliora di 2-4 volte
  3. Scalabilità Migliorata: supporta l'elaborazione FFT in ampio intervallo da 32 punti a 512K punti

Lavori Correlati

Principali Direzioni di Ricerca

  1. Architetture FFT Pipeline: rappresentate da Groginsky & Works (1970), perseguono alto throughput
  2. Architetture FFT Basate su Memoria: mirano a ridurre le risorse hardware, adatte per applicazioni con vincoli di area
  3. Algoritmi FFT ad Alta Radice: l'algoritmo radix-2k2^k bilancia la complessità di calcolo e la difficoltà di implementazione hardware

Vantaggi Relativi di Questo Lavoro

  1. Fusione Architettonica: realizza per la prima volta il cambio adattivo tra architettura pipeline e basata su memoria
  2. Estensione della Radice: supporta fino a radix-252^5, superando il limite radix-232^3 esistente
  3. Teoria Perfezionata: fornisce un framework teorico universale di permutazione di bit

Conclusioni e Discussione

Conclusioni Principali

  1. L'architettura ibrida adattiva combina con successo i vantaggi delle architetture pipeline e basata su memoria
  2. La progettazione MDC radix-252^5 migliora significativamente l'efficienza di calcolo per FFT su larga scala
  3. Il metodo di permutazione di bit universale fornisce garanzie teoriche per diverse configurazioni
  4. La verifica sperimentale dimostra miglioramenti significativi dell'architettura in utilità hardware ed efficienza di calcolo

Limitazioni

  1. Restrizioni di Applicabilità: la modalità basata su memoria è applicabile solo per N ∈ (2^{2k}, 2^{3k}]
  2. Complessità Hardware: il supporto di radici multiple aumenta la complessità della logica di controllo
  3. Analisi di Potenza Mancante: non fornisce analisi dettagliata di confronto della potenza

Direzioni Future

  1. Estendere il supporto per l'elaborazione FFT su scala ancora più grande
  2. Ottimizzare l'efficienza energetica
  3. Esplorare applicazioni negli acceleratori AI

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: propone per la prima volta un'architettura FFT ibrida adattiva, risolvendo le contraddizioni intrinseche delle architetture tradizionali
  2. Teoria Completa: fornisce un framework teorico completo di permutazione di bit con forte universalità
  3. Esperimenti Sufficienti: dall'analisi teorica all'implementazione FPGA, verifica l'efficacia del metodo
  4. Alto Valore Pratico: supporta FFT a 512K punti, soddisfa le esigenze di elaborazione di big data moderni

Insufficienze

  1. Aumento della Complessità: il meccanismo adattivo aumenta la complessità di progettazione e verifica
  2. Confronto Non Sufficientemente Completo: manca il confronto di prestazioni con i più recenti core IP FFT commerciali
  3. Analisi di Potenza Mancante: la potenza è un fattore importante di considerazione nelle applicazioni mobili e embedded

Impatto

  1. Contributo Accademico: fornisce un nuovo paradigma architettonico per la progettazione di processori FFT
  2. Valore Ingegneristico: può essere direttamente applicato in comunicazioni 5G, elaborazione di segnali radar e altri campi
  3. Riproducibilità: fornisce parametri di progettazione dettagliati e dettagli di implementazione

Scenari di Applicazione

  1. Calcolo ad Alte Prestazioni: applicazioni di calcolo scientifico che richiedono l'elaborazione di FFT su larga scala
  2. Sistemi di Comunicazione: unità di elaborazione dei segnali delle stazioni base 5G/6G
  3. Sistemi Radar: elaborazione dei segnali in tempo reale e rilevamento dei bersagli
  4. Elaborazione di Immagini: analisi nel dominio della frequenza di immagini ad alta risoluzione

Riferimenti Bibliografici

L'articolo cita 17 riferimenti correlati, coprendo algoritmi FFT, implementazione FPGA, ottimizzazione dell'accesso alla memoria e altri aspetti, fornendo una solida base teorica per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'architettura dei calcolatori, con importante valore teorico e pratico nel campo della progettazione di processori FFT. Gli autori, attraverso un'ingegnosa progettazione architettonica e un'analisi teorica rigorosa, risolvono con successo i problemi intrinseci delle architetture FFT tradizionali, fornendo nuove idee e direzioni per lo sviluppo del campo.