Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing
Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic
FFT Hybride Adaptatif : Une Architecture Novatrice Basée sur Pipeline et Mémoire pour FFT Radix-2k en Traitement de Grande Taille
Dans le domaine du traitement numérique du signal, la transformée de Fourier rapide (FFT) est un algorithme fondamental. Les implémentations processeur adoptent généralement deux architectures : l'architecture pipeline (adaptée aux applications à haut débit mais avec faible utilisation du matériel) et l'architecture basée sur la mémoire (adaptée aux scénarios limités en surface mais incapable de satisfaire les exigences strictes de débit). Cet article propose une architecture FFT hybride adaptative qui combine les avantages des deux approches. Cette architecture se caractérise par : le développement d'un ensemble d'unités commutateurs à retard multi-chemins (MDC) radix-2k pour supporter le traitement haute performance à grande échelle ; l'établissement d'un schéma d'accès mémoire sans conflit garantissant un flux de données continu ; la démonstration de l'existence d'une série d'arrangements de dimensions de bits satisfaisant les exigences d'adaptabilité généralisée pour des longueurs variables, des radix élevés et un degré de parallélisme arbitraire.
Problème fondamental : Les architectures traditionnelles de processeur FFT présentent des défauts inhérents
Architecture pipeline : haut débit mais faible utilisation du matériel, avec beaucoup de matériel inactif lors d'opérations FFT à petite échelle
Architecture basée sur la mémoire : utilisation élevée du matériel mais augmentation du cycle de calcul, affectant les performances du traitement en temps réel
Importance du problème :
La FFT est largement appliquée dans les communications sans fil, le traitement d'images, le traitement de signaux radar et autres domaines
Les besoins croissants de traitement de données à grande échelle nécessitent des processeurs FFT à la fois efficaces et flexibles
Les architectures existantes ne peuvent pas satisfaire simultanément les exigences de haut débit et d'utilisation élevée du matériel
Limitations des méthodes existantes :
L'utilisation du matériel en architecture pipeline peut être aussi faible que 15% lors du traitement de FFT à petite échelle
L'architecture basée sur la mémoire nécessite plusieurs itérations, augmentant la latence de calcul
Les schémas existants d'évitement de conflit sont principalement limités à l'algorithme radix-2, ne supportant pas le calcul à radix élevé
Motivation de la recherche :
Combiner les avantages des deux architectures pour réaliser une reconfiguration adaptative
Supporter le traitement FFT à grande échelle (jusqu'à 512K points)
Améliorer l'utilisation du matériel tout en garantissant un haut débit
Proposition d'une architecture de processeur FFT hybride adaptative : supportant les modes pipeline et basé sur la mémoire, capable de traiter jusqu'à 512K points FFT
Développement de commutateurs à retard multi-chemins radix-2k (MDC) : supportant l'algorithme radix-25, réduisant significativement le nombre d'étapes de calcul
Conception d'une technique d'accès mémoire sans conflit : réalisant le calcul FFT en flux continu avec transformation mémoire complètement sur place
Construction d'une méthode d'arrangement de bits universelle : s'adaptant aux contraintes matérielles de différentes longueurs FFT, radix et degrés de parallélisme
Données d'entrée → Module de réarrangement → Processeur noyau FFT → Données de sortie
des données ↑
↑ Groupe d'unités MDC
Groupe de banques mémoire (P parallèles)
Unité de génération d'adresse
Circuit d'arrangement de branches parallèles
Circuit de réarrangement
Adoption d'un algorithme radix-25 modifié, classifiant les facteurs de rotation en :
Constant (C) : pré-stocké dans la ROM
Non-trivial (NT) : nécessitant un multiplicateur complexe
Trivial (T) : opérations simples ±1, ±j
Stratégie de Réarrangement des Données :
Basée sur l'arrangement de dimensions de bits réalisant une transformation à trois niveaux :
σNs,k,P=σN,3s,k,P∘σN,2s,k,P∘σN,1s,k,P
Où :
σN,1s,k,P : arrangement de dimensions de bits en série
Amélioration de l'efficacité de calcul : par l'algorithme radix-25, le nombre d'itérations réduit à ⌈n/5⌉, réduction de plus de 40% par rapport aux méthodes traditionnelles
Optimisation de l'utilisation du matériel : par degré de parallélisme adaptatif, l'utilisation du matériel pour FFT à petite échelle améliorée de 2 à 4 fois
Amélioration de la scalabilité : support du traitement FFT sur une large plage de 32 points à 512K points
Forte innovativité : première proposition d'architecture FFT hybride adaptative, résolvant les contradictions inhérentes des architectures traditionnelles
Théorie complète : fourniture d'un cadre théorique complet d'arrangement de bits avec forte universalité
Expériences suffisantes : de l'analyse théorique à l'implémentation FPGA, validant l'efficacité de la méthode
Valeur pratique élevée : support de FFT 512K points, satisfaisant les besoins modernes de traitement de grandes données
L'article cite 17 références connexes, couvrant l'algorithme FFT, l'implémentation FPGA, l'optimisation d'accès mémoire et autres aspects, fournissant une base théorique solide pour la recherche.
Évaluation Globale : Ceci est un article de haute qualité en architecture informatique, possédant une valeur théorique et pratique importante dans le domaine de la conception de processeur FFT. Par une conception d'architecture ingénieuse et une analyse théorique rigoureuse, les auteurs résolvent avec succès les problèmes inhérents des architectures FFT traditionnelles, fournissant de nouvelles perspectives et directions pour le développement du domaine.