2025-11-20T07:07:14.857348

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

Zhao, Xiao, Wang et al.

In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.

academic

FFT Hybride Adaptatif : Une Architecture Novatrice Basée sur Pipeline et Mémoire pour FFT Radix- $2^k$ en Traitement de Grande Taille

Informations Fondamentales

ID de l'article : 2501.01259
Titre : Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix- $2^k$ FFT in Large Size Processing
Auteurs : Fangyu Zhao, Chunhua Xiao, Zhiguo Wang, Xiaohua Du, Bo Dong
Classification : cs.AR (Architecture informatique)
Date de publication/Conférence : Soumis à IEEE, janvier 2025
Lien de l'article : https://arxiv.org/abs/2501.01259

Résumé

Dans le domaine du traitement numérique du signal, la transformée de Fourier rapide (FFT) est un algorithme fondamental. Les implémentations processeur adoptent généralement deux architectures : l'architecture pipeline (adaptée aux applications à haut débit mais avec faible utilisation du matériel) et l'architecture basée sur la mémoire (adaptée aux scénarios limités en surface mais incapable de satisfaire les exigences strictes de débit). Cet article propose une architecture FFT hybride adaptative qui combine les avantages des deux approches. Cette architecture se caractérise par : le développement d'un ensemble d'unités commutateurs à retard multi-chemins (MDC) radix- $2^k$ pour supporter le traitement haute performance à grande échelle ; l'établissement d'un schéma d'accès mémoire sans conflit garantissant un flux de données continu ; la démonstration de l'existence d'une série d'arrangements de dimensions de bits satisfaisant les exigences d'adaptabilité généralisée pour des longueurs variables, des radix élevés et un degré de parallélisme arbitraire.

Contexte de Recherche et Motivation

Définition du Problème

Problème fondamental : Les architectures traditionnelles de processeur FFT présentent des défauts inhérents
- Architecture pipeline : haut débit mais faible utilisation du matériel, avec beaucoup de matériel inactif lors d'opérations FFT à petite échelle
- Architecture basée sur la mémoire : utilisation élevée du matériel mais augmentation du cycle de calcul, affectant les performances du traitement en temps réel
Importance du problème :
- La FFT est largement appliquée dans les communications sans fil, le traitement d'images, le traitement de signaux radar et autres domaines
- Les besoins croissants de traitement de données à grande échelle nécessitent des processeurs FFT à la fois efficaces et flexibles
- Les architectures existantes ne peuvent pas satisfaire simultanément les exigences de haut débit et d'utilisation élevée du matériel
Limitations des méthodes existantes :
- L'utilisation du matériel en architecture pipeline peut être aussi faible que 15% lors du traitement de FFT à petite échelle
- L'architecture basée sur la mémoire nécessite plusieurs itérations, augmentant la latence de calcul
- Les schémas existants d'évitement de conflit sont principalement limités à l'algorithme radix-2, ne supportant pas le calcul à radix élevé
Motivation de la recherche :
- Combiner les avantages des deux architectures pour réaliser une reconfiguration adaptative
- Supporter le traitement FFT à grande échelle (jusqu'à 512K points)
- Améliorer l'utilisation du matériel tout en garantissant un haut débit

Contributions Fondamentales

Proposition d'une architecture de processeur FFT hybride adaptative : supportant les modes pipeline et basé sur la mémoire, capable de traiter jusqu'à 512K points FFT
Développement de commutateurs à retard multi-chemins radix- $2^k$ (MDC) : supportant l'algorithme radix- $2^5$ , réduisant significativement le nombre d'étapes de calcul
Conception d'une technique d'accès mémoire sans conflit : réalisant le calcul FFT en flux continu avec transformation mémoire complètement sur place
Construction d'une méthode d'arrangement de bits universelle : s'adaptant aux contraintes matérielles de différentes longueurs FFT, radix et degrés de parallélisme

Détails de la Méthode

Définition de la Tâche

Concevoir un processeur FFT reconfigurable capable de :

Entrée : Séquence complexe de N points (N = 2^n, maximum 512K)
Sortie : Représentation correspondante dans le domaine fréquentiel
Contraintes : Supporter l'algorithme radix- $2^k$ (k≤5), degré de parallélisme P configurable, réaliser l'accès mémoire sans conflit

Architecture du Modèle

1. Conception de l'Architecture de Haut Niveau

Données d'entrée → Module de réarrangement → Processeur noyau FFT → Données de sortie
                  des données              ↑
              ↑                    Groupe d'unités MDC
         Groupe de banques mémoire    (P parallèles)
         Unité de génération d'adresse
         Circuit d'arrangement de branches parallèles
         Circuit de réarrangement

2. Explication des Composants Clés

Unité Commutateur à Retard Multi-Chemins (MDC) :

Support pour calcul hybride radix- $2^5$ /24/23/22
Adoption d'un algorithme radix- $2^5$ $2^{5}$ modifié, classifiant les facteurs de rotation en :
- Constant (C) : pré-stocké dans la ROM
- Non-trivial (NT) : nécessitant un multiplicateur complexe
- Trivial (T) : opérations simples ±1, ±j

Stratégie de Réarrangement des Données : Basée sur l'arrangement de dimensions de bits réalisant une transformation à trois niveaux : $\sigma^{s,k,P}_N = \sigma^{s,k,P}_{N,3} \circ \sigma^{s,k,P}_{N,2} \circ \sigma^{s,k,P}_{N,1}$

Où :

$\sigma^{s,k,P}_{N,1}$ : arrangement de dimensions de bits en série
$\sigma^{s,k,P}_{N,2}$ : échange de branches parallèles
$\sigma^{s,k,P}_{N,3}$ : ajustement d'indexation fine

3. Schéma d'Accès Mémoire Sans Conflit

Mode Pipeline :

Utilisation de modèle d'adressage entrelacé : ordre naturel et ordre inversé
Relation entre adresses de lecture/écriture : $\sigma^i_W = \sigma^{i-1}_R$
Garantissant un flux de données continu sans conflit

Mode Basé sur la Mémoire :

Introduction d'arrangement supplémentaire $\tilde{\sigma}^{s,k,P}_{N,1}$ pour stockage sur place
Applicable pour N ∈ (2^{2k}, 2^{3k}]

Points d'Innovation Technique

Architecture radix- $2^k$ unifiée : réalisant la réutilisation du matériel par modification d'algorithme, le même matériel supportant plusieurs radix
Capacité de reconfiguration adaptative : sélection dynamique du mode de fonctionnement selon la taille FFT et les exigences de performance
Théorie d'arrangement de bits universelle : extension des méthodes existantes, supportant radix arbitraire, longueur et degré de parallélisme
Modèle d'accès mémoire optimisé : stratégies d'accès sans conflit spécialisées pour différents modes

Configuration Expérimentale

Plateforme Matérielle

FPGA : Xilinx Virtex UltraScale+ VCU118 (xcvu9p-flga2104-2L-e)
Outils de développement : Chisel HDL, Xilinx Vivado 2019.2
Implémentation de stockage :
- Stockage de données : Ultra RAMs (URAMs), 256K adresses × 32 bits par mémoire
- Stockage de facteurs de rotation : Block RAMs (BRAMs)

Métriques d'Évaluation

Utilisation du matériel : proportion moyenne d'unités papillon actives
Nombre de cycles de calcul : cycles d'horloge nécessaires pour compléter la FFT
Temps de traitement : nombre d'itérations × cycles par itération
Consommation de ressources : utilisation des ressources matérielles DSP48E2, LUT, FF, etc.

Méthodes de Comparaison

Architecture basée sur la mémoire : Tsai'11, Kaya'23, Wang'20
Architecture pipeline : Garrido'13

Résultats Expérimentaux

Résultats Principaux

1. Comparaison avec Architecture Basée sur la Mémoire

Architecture	Radix	Longueur FFT	Parallélisme	Itérations	Réduction du Temps
Tsai'11	radix-2³	64~4K	2	⌈n/3⌉	70%+
Kaya'23	radix-2	2K~16K	2	⌈n/2⌉	70%+
Wang'20	radix-2³	32~32K	4	⌈n/3⌉	70%+
Cet article	radix-2⁵	32~512K	8	⌈n/5⌉	Référence

2. Comparaison avec Architecture Pipeline

Configuration	Longueur FFT	Utilisation Moyenne du Matériel	Amplitude d'Amélioration
Garrido'13 (P=1)	2K~512K	75%	-
Garrido'13 (P=1)	64~1K	40%	-
Garrido'13 (P=1)	2~32	15%	-
Cet article (P=1)	2K~512K	75%	Équivalent
Cet article (P=2)	64~1K	80%	2× supérieur
Cet article (P=4)	2~32	60%	4× supérieur

3. Résultats d'Implémentation FPGA (N=512K, P=1)

DSP48E2 : 45 365 unités
LUT : 76 183 unités
FF : 1 500 unités
Block RAMs : 444 unités
Ultra RAMs : 768 unités
Fréquence de fonctionnement : 196,8 MHz

Découvertes Clés

Amélioration de l'efficacité de calcul : par l'algorithme radix- $2^5$ , le nombre d'itérations réduit à ⌈n/5⌉, réduction de plus de 40% par rapport aux méthodes traditionnelles
Optimisation de l'utilisation du matériel : par degré de parallélisme adaptatif, l'utilisation du matériel pour FFT à petite échelle améliorée de 2 à 4 fois
Amélioration de la scalabilité : support du traitement FFT sur une large plage de 32 points à 512K points

Travaux Connexes

Directions de Recherche Principales

Architecture FFT pipeline : représentée par Groginsky & Works (1970), poursuivant le haut débit
Architecture FFT basée sur la mémoire : visant à réduire les ressources matérielles, adaptée aux applications limitées en surface
Algorithme FFT à radix élevé : algorithme radix- $2^k$ équilibrant la complexité de calcul et la difficulté d'implémentation matérielle

Avantages Relatifs de Cet Article

Fusion d'architecture : première réalisation de commutation adaptative entre architecture pipeline et basée sur la mémoire
Extension de radix : support jusqu'à radix- $2^5$ , dépassant la limite radix- $2^3$ existante
Théorie perfectionnée : fourniture d'un cadre théorique universel d'arrangement de bits

Conclusion et Discussion

Conclusions Principales

L'architecture hybride adaptative combine avec succès les avantages des architectures pipeline et basée sur la mémoire
La conception MDC radix- $2^5$ améliore significativement l'efficacité de calcul pour FFT à grande échelle
La méthode d'arrangement de bits universelle fournit une garantie théorique pour différentes configurations
Les expériences valident l'amélioration significative de l'architecture en utilisation du matériel et efficacité de calcul

Limitations

Limitation de portée d'application : le mode basé sur la mémoire s'applique uniquement à N ∈ (2^{2k}, 2^{3k}]
Complexité matérielle : le support de multiples radix augmente la complexité de la logique de contrôle
Analyse de consommation énergétique manquante : absence d'analyse comparative détaillée de la consommation énergétique

Directions Futures

Extension du support pour traitement FFT à plus grande échelle
Optimisation de l'efficacité énergétique
Exploration d'applications dans les accélérateurs IA

Évaluation Approfondie

Points Forts

Forte innovativité : première proposition d'architecture FFT hybride adaptative, résolvant les contradictions inhérentes des architectures traditionnelles
Théorie complète : fourniture d'un cadre théorique complet d'arrangement de bits avec forte universalité
Expériences suffisantes : de l'analyse théorique à l'implémentation FPGA, validant l'efficacité de la méthode
Valeur pratique élevée : support de FFT 512K points, satisfaisant les besoins modernes de traitement de grandes données

Insuffisances

Augmentation de complexité : le mécanisme adaptatif augmente la complexité de conception et de vérification
Comparaison incomplète : manque de comparaison de performance avec les derniers cœurs FFT IP commerciaux
Analyse de consommation énergétique manquante : la consommation énergétique est un facteur important dans les applications mobiles et embarquées

Impact

Contribution académique : fourniture d'un nouveau paradigme d'architecture pour la conception de processeur FFT
Valeur d'ingénierie : application directe possible aux communications 5G, traitement de signaux radar et autres domaines
Reproductibilité : fourniture de paramètres de conception détaillés et de détails d'implémentation

Scénarios d'Application

Calcul haute performance : applications de calcul scientifique nécessitant le traitement de FFT à grande échelle
Systèmes de communication : unités de traitement de signal des stations de base 5G/6G
Systèmes radar : traitement de signal en temps réel et détection de cibles
Traitement d'images : analyse en domaine fréquentiel d'images haute résolution

Références Bibliographiques

L'article cite 17 références connexes, couvrant l'algorithme FFT, l'implémentation FPGA, l'optimisation d'accès mémoire et autres aspects, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Ceci est un article de haute qualité en architecture informatique, possédant une valeur théorique et pratique importante dans le domaine de la conception de processeur FFT. Par une conception d'architecture ingénieuse et une analyse théorique rigoureuse, les auteurs résolvent avec succès les problèmes inhérents des architectures FFT traditionnelles, fournissant de nouvelles perspectives et directions pour le développement du domaine.

Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing

FFT Hybride Adaptatif : Une Architecture Novatrice Basée sur Pipeline et Mémoire pour FFT Radix-2k2^k2k en Traitement de Grande Taille

FFT Hybride Adaptatif : Une Architecture Novatrice Basée sur Pipeline et Mémoire pour FFT Radix- $2^k$ en Traitement de Grande Taille