Adaptive Hybrid FFT: A Novel Pipeline and Memory-Based Architecture for Radix-$2^k$ FFT in Large Size Processing
Zhao, Xiao, Wang et al.
In the field of digital signal processing, the fast Fourier transform (FFT) is a fundamental algorithm, with its processors being implemented using either the pipelined architecture, well-known for high-throughput applications but weak in hardware utilization, or the memory-based architecture, designed for area-constrained scenarios but failing to meet stringent throughput requirements. Therefore, we propose an adaptive hybrid FFT, which leverages the strengths of both pipelined and memory-based architectures. In this paper, we propose an adaptive hybrid FFT processor that combines the advantages of both architectures, and it has the following features. First, a set of radix-$2^k$ multi-path delay commutators (MDC) units are developed to support high-performance large-size processing. Second, a conflict-free memory access scheme is formulated to ensure a continuous data flow without data contention. Third, We demonstrate the existence of a series of bit-dimension permutations for reordering input data, satisfying the generalized constraints of variable-length, high-radix, and any level of parallelism for wide adaptivity. Furthermore, the proposed FFT processor has been implemented on a field-programmable gate array (FPGA). As a result, the proposed work outperforms conventional memory-based FFT processors by requiring fewer computation cycles. It achieves higher hardware utilization than pipelined FFT architectures, making it suitable for highly demanding applications.
academic
Адаптивная гибридная БПФ: новая конвейерная и основанная на памяти архитектура для БПФ основания-2k при обработке больших объёмов данных
В области цифровой обработки сигналов быстрое преобразование Фурье (БПФ) является фундаментальным алгоритмом. Реализация его на процессорах обычно использует две архитектуры: конвейерную архитектуру (подходит для приложений с высокой пропускной способностью, но с низкой утилизацией аппаратного обеспечения) и архитектуру на основе памяти (подходит для сценариев с ограниченной площадью, но не может удовлетворить строгие требования пропускной способности). В данной статье предлагается адаптивная гибридная архитектура БПФ, сочетающая преимущества обеих архитектур. Архитектура характеризуется следующими особенностями: разработан набор модулей многопутевого задержанного коммутатора (MDC) основания-2k для поддержки высокопроизводительной обработки больших объёмов данных; разработана схема доступа к памяти без конфликтов для обеспечения непрерывного потока данных; доказано существование ряда перестановок битовых размерностей, удовлетворяющих широким требованиям адаптивности для переменной длины, высокого основания и произвольной степени параллелизма.
Основная проблема: традиционные архитектуры процессоров БПФ имеют врождённые недостатки
Конвейерная архитектура: высокая пропускная способность, но низкая утилизация аппаратного обеспечения; при малых операциях БПФ большая часть аппаратного обеспечения остаётся неиспользованной
Архитектура на основе памяти: высокая утилизация аппаратного обеспечения, но увеличенный вычислительный цикл, влияющий на производительность обработки в реальном времени
Важность проблемы:
БПФ широко применяется в беспроводной связи, обработке изображений, обработке сигналов радара и других областях
Растущие требования к обработке больших объёмов данных требуют эффективного и гибкого процессора БПФ
Существующие архитектуры не могут одновременно удовлетворить требования высокой пропускной способности и высокой утилизации аппаратного обеспечения
Ограничения существующих методов:
Утилизация аппаратного обеспечения конвейерной архитектуры при обработке малых БПФ может быть всего 15%
Архитектура на основе памяти требует множественных итераций, увеличивая задержку вычисления
Существующие схемы избежания конфликтов в основном ограничены алгоритмом основания-2, не поддерживают вычисления высокого основания
Исследовательская мотивация:
Объединить преимущества обеих архитектур, реализовать адаптивную переконфигурацию
Поддерживать обработку больших БПФ (максимум 512K точек)
Повысить утилизацию аппаратного обеспечения при сохранении высокой пропускной способности
Предложена адаптивная гибридная архитектура процессора БПФ: поддерживает конвейерный и основанный на памяти режимы, может обрабатывать БПФ до 512K точек
Разработан многопутевой задержанный коммутатор (MDC) основания-2k: поддерживает алгоритм основания-25, значительно снижает количество вычислительных этапов
Разработана технология доступа к памяти без конфликтов: реализует непрерывный поток вычисления БПФ с полной трансформацией на месте
Построен универсальный метод перестановки битов: адаптируется к различным длинам БПФ, основаниям и степеням параллелизма аппаратных ограничений
Входные данные → Модуль переупорядочения данных → Основной процессор БПФ → Выходные данные
↑ ↑
Группа банков памяти Группа модулей MDC
Генератор адресов (P параллельных)
Схема переупорядочения ветвей
Схема переупорядочения
Унифицированная архитектура основания-2k: реализует повторное использование аппаратного обеспечения через модифицированный алгоритм, один набор аппаратного обеспечения поддерживает несколько оснований
Возможность адаптивной переконфигурации: динамически выбирает режим работы в зависимости от размера БПФ и требований производительности
Универсальная теория перестановки битов: расширяет существующие методы, поддерживает произвольное основание, длину и степень параллелизма
Оптимизированный режим доступа к памяти: разрабатывает специализированные стратегии доступа без конфликтов для различных режимов
Повышение вычислительной эффективности: благодаря алгоритму основания-25 количество итераций снижается до ⌈n/5⌉, что на 40% и более меньше, чем традиционные методы
Оптимизация утилизации аппаратного обеспечения: благодаря адаптивной степени параллелизма утилизация аппаратного обеспечения для малых БПФ повышается в 2-4 раза
Повышенная масштабируемость: поддерживает обработку БПФ в широком диапазоне от 32 до 512K точек
Статья цитирует 17 связанных источников, охватывающих алгоритмы БПФ, реализацию на FPGA, оптимизацию доступа к памяти и другие аспекты, обеспечивая прочную теоретическую базу для исследования.
Общая оценка: это высококачественная статья в области компьютерной архитектуры, имеющая важное теоретическое и практическое значение в области проектирования процессоров БПФ. Авторы посредством умелого архитектурного проектирования и строгого теоретического анализа успешно решают врождённые проблемы традиционных архитектур БПФ, предоставляя новые идеи и направления для развития этой области.