2025-11-20T07:28:15.314096

Forward-Forward Autoencoder Architectures for Energy-Efficient Wireless Communications

Seifert, GÃ¼nlÃ¼, Schaefer

The application of deep learning to the area of communications systems has been a growing field of interest in recent years. Forward-forward (FF) learning is an efficient alternative to the backpropagation (BP) algorithm, which is the typically used training procedure for neural networks. Among its several advantages, FF learning does not require the communication channel to be differentiable and does not rely on the global availability of partial derivatives, allowing for an energy-efficient implementation. In this work, we design end-to-end learned autoencoders using the FF algorithm and numerically evaluate their performance for the additive white Gaussian noise and Rayleigh block fading channels. We demonstrate their competitiveness with BP-trained systems in the case of joint coding and modulation, and in a scenario where a fixed, non-differentiable modulation stage is applied. Moreover, we provide further insights into the design principles of the FF network, its training convergence behavior, and significant memory and processing time savings compared to BP-based approaches.

academic

Архитектуры автокодировщиков Forward-Forward для энергоэффективной беспроводной связи

Основная информация

ID статьи: 2510.11418
Название: Forward-Forward Autoencoder Architectures for Energy-Efficient Wireless Communications
Авторы: Daniel Seifert, Onur Günlü, Rafael F. Schaefer
Классификация: cs.IT cs.LG math.IT
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11418

Аннотация

Применение глубокого обучения в системах связи в последние годы привлекает значительное внимание. Обучение Forward-forward (FF) представляет собой эффективную альтернативу алгоритму обратного распространения (BP), который является типичной процедурой обучения нейронных сетей. Многочисленные преимущества обучения FF включают: отсутствие требования дифференцируемости канала связи, независимость от глобальной доступности частных производных, что обеспечивает энергоэффективную реализацию. В данном исследовании разработаны сквозные автокодировщики с использованием алгоритма FF и проведена численная оценка их производительности на каналах с аддитивным белым гауссовым шумом и рэлеевским блочным замиранием. Исследование демонстрирует конкурентоспособность с системами, обученными BP, в сценариях совместного кодирования-модуляции, а также при применении фиксированных недифференцируемых этапов модуляции. Кроме того, предоставлены глубокие insights в отношении принципов проектирования сетей FF, поведения сходимости обучения и значительной экономии памяти и времени обработки по сравнению с методом BP.

Исследовательский контекст и мотивация

1. Решаемые проблемы

Традиционный алгоритм обратного распространения имеет три основные проблемы в системах связи:

Требование дифференцируемого пути: BP требует полностью дифференцируемого пути через всю нейронную сеть, тогда как реальные каналы часто недифференцируемы
Низкая эффективность памяти и энергопотребления: Необходимо хранить частные производные для каждого узла, что приводит к высокому потреблению памяти и энергии
Механизм блокировки: Существует обратная блокировка, все слои должны ждать завершения вычисления градиентов последующих слоев

2. Значимость проблемы

Развертывание методов глубокого обучения в системах связи сталкивается с практическими вызовами, особенно на устройствах с ограниченными ресурсами. Ограничения традиционного алгоритма BP препятствуют эффективной реализации нейронных сетей в практических системах связи.

3. Ограничения существующих методов

Методы обучения с подкреплением: Требуют дополнительного канала обратной связи без шума для оценки градиентов передатчика
Генеративные состязательные сети/модели диффузии: Хотя дифференцируемы, имеют высокую вычислительную сложность
Прямые оценки (STE): Производительность значительно снижается в сценариях квантизации

4. Исследовательская мотивация

Алгоритм FF обладает следующими преимуществами, делающими его особенно подходящим для систем связи:

Не требует дифференцируемого канала
Позволяет полностью аналоговую реализацию с низким энергопотреблением
Допускает конвейерный процесс обучения
Значительно снижает использование памяти

Основные вклады

Предложена архитектура сквозного автокодировщика на основе алгоритма FF, специально разработанная для систем беспроводной связи
Разработана стратегия генерации контрастных входных данных, включая методы построения положительных, отрицательных и нейтральных образцов
Подтверждена конкурентоспособная производительность на каналах AWGN и рэлеевского блочного замирания, особенно преимущества в недифференцируемых сценариях
Предоставлен глубокий анализ принципов проектирования сетей, включая влияние глубины и ширины сети на производительность
Количественно оценена значительная экономия памяти и времени обработки, подтверждающая практические преимущества алгоритма FF

Подробное описание методики

Определение задачи

Для сообщения $m \in \mathcal{M} = \{0, \ldots, 2^k-1\}$ автокодировщик должен:

Кодировать k-битное сообщение в n-мерное кодовое слово
Передавать через зашумленный канал
Правильно декодировать исходное сообщение на приемной стороне
Целью оптимизации является минимизация вероятности ошибки блока (BLER)

Архитектура модели

Общее проектирование архитектуры

Как показано на рисунке 1, автокодировщик FF состоит из:

Кодировщик: L полносвязных слоев с нормализацией/квантизацией выхода
Канал: Канал AWGN или рэлеевского блочного замирания
Декодировщик: K полносвязных слоев
Классификатор: Однослойный классификатор с выходом softmax

Построение контрастных входных данных

Ключевая инновация алгоритма FF заключается в проектировании контрастных входных данных:

Положительные образцы: $v = (1_m || 1_m)$ (копия истинной метки)
Отрицательные образцы: $v = (1_m || 1_{\bar{m}})$ (истинная метка + случайная неправильная метка)
Нейтральные образцы: $v = (1_m || 0)$ (для вывода)

где $1_m$ обозначает one-hot кодирование сообщения m, $||$ обозначает операцию конкатенации.

Алгоритм обучения

Оптимизация каждого слоя основана на метрике "добротности" $g_i = ||a_i||_2^2$ , функция потерь определяется как:

$L_i(g_i, \tau_i) = \begin{cases} \zeta(-(g_i - \tau_i)) & \text{положительные образцы} \\ \zeta(g_i - \tau_i) & \text{отрицательные образцы} \end{cases}$

где $\zeta(x) = \log(1 + e^x)$ — функция softplus, $\tau_i$ — пороговое значение.

Обучение классификатора

Независимый классификатор $c_\kappa(\cdot)$ обучается отображать активность декодировщика на исходное сообщение с использованием потерь перекрестной энтропии.

Технические инновации

Отсутствие необходимости в глобальных градиентах: Каждый слой оптимизируется независимо, устраняя обратную блокировку
Обработка недифференцируемых операций: Естественная поддержка недифференцируемых операций, таких как квантизация
Механизм контрастного обучения: Эффективное обучение представлений через контраст положительных и отрицательных образцов
Отделенный классификатор: Разделение задач обучения представлений и классификации

Экспериментальная установка

Модель канала

Рассматривается вещественный канал рэлеевского блочного замирания (RBF): $Y_i = HX_i + N_i$

где:

$N_i \sim \mathcal{N}(0, \sigma^2)$ , $\sigma^2 = (2RE_b/N_0)^{-1}$
$H$ подчиняется распределению Рэлея (амплитуда коэффициента замирания)
$E_b/N_0$ — отношение энергии на бит к спектральной плотности мощности шума (SNR)

Параметры эксперимента

Кодовая скорость: $R = k/n = 4/7$
SNR обучения: $E_b/N_0 = 5$ дБ
Структура сети: Оптимальная конфигурация $L = K = 4$ , $W = 80$

Методы сравнения

Автокодировщик BP: Классическое обучение обратным распространением
Автокодировщик BP-RL: Обучение без модели на основе обучения с подкреплением
Автокодировщик FF: Предложенное в работе обучение forward-forward

Метрики оценки

Вероятность ошибки блока (BLER): $P_e = \Pr(\hat{m} \neq m)$
Скорость сходимости: Количество итераций обучения, необходимых для достижения целевой производительности
Использование памяти: Требования к хранению градиентов
Время обработки: Временная сложность обучения

Результаты экспериментов

Основные результаты

Сценарий совместного кодирования-модуляции

В автокодировщике с непрерывным выходом (рисунок 2):

Канал AWGN: Производительность FF близка к BP и BP-RL, но существует разрыв примерно в 1 дБ в области высоких SNR
Канал RBF: FF способен конкурировать с другими методами, демонстрируя робастность к возмущениям канала

Сценарий с квантизацией выхода кодировщика

В случае квантизации BPSK (рисунок 3):

Явное преимущество алгоритма FF: Сохраняет исходную производительность, тогда как производительность BP и BP-RL значительно снижается
Канал RBF: FF превосходит метод BP, BP-RL почти сравнивается с разрывом
Доказывает недостаточность приближения STE

Анализ емкости сети

Таблица I показывает производительность BLER для различных размеров сети:

Сетям FF требуются более широкие слои ( $W=80$ vs $W=16$ ) для достижения хорошей производительности
Сложность кодировщика более критична, чем сложность декодировщика
Оптимальная конфигурация: $L=K=4$ , $W=80$

Анализ поведения сходимости

Рисунок 4 показывает кривые сходимости обучения:

Непрерывный кодировщик: Скорость сходимости FF сравнима с BP, явно быстрее, чем BP-RL
Квантизированный кодировщик: FF достигает целевых потерь быстрее, демонстрируя преимущество для недифференцируемых операций

Анализ аппаратной сложности

Экономия времени обработки

Для сети с N слоями:

Алгоритм BP: Требует 2N единиц времени (прямой + обратный проход)
Алгоритм FF: Требует только N+1 единиц времени

Экономия памяти

Сеть BP: Требует хранения градиентов 791 параметра
Сеть FF: Не требует хранения градиентов, прямое вычисление и потребление

Связанные работы

Алгоритмы прямого обучения

Обучение Хеббиана: На основе правил нейропластичности, не требует сигналов обратной связи
Алгоритм Sigprop: Параллельное распространение сигналов обучения, требует разделенного представления данных и меток
Алгоритм FF: Послойное обучение через два прямых прохода и метрику добротности

Глубокое обучение в системах связи

Сквозное обучение: Прямая оптимизация производительности системы связи
Методы обучения с подкреплением: Обработка недифференцируемых каналов
Генеративные модели: Моделирование сложных характеристик канала

Выводы и обсуждение

Основные выводы

Автокодировщик FF конкурентоспособен: Производительность близка или превосходит методы BP в различных условиях канала
Явное преимущество в недифференцируемых сценариях: Превосходная производительность в сценариях квантизации
Дружественность к аппаратной реализации: Значительная экономия памяти и времени
Хорошая производительность сходимости: Скорость обучения сравнима или выше, чем у BP

Ограничения

Требования к емкости сети: Требуется большая сеть для достижения эквивалентной производительности
Чувствительность к гиперпараметрам: Процесс обучения чувствителен к выбору гиперпараметров
Разрыв производительности при высоких SNR: Небольшое снижение производительности в условиях низкого шума
Ограничение на короткие коды: Текущие эксперименты рассматривают только сценарии с короткими кодами

Направления будущих исследований

Сложные модели каналов: Расширение на более сложные недифференцируемые каналы
Улучшение алгоритма: Более сложное проектирование функций потерь и методы сотрудничества слоев
Расширение на длинные коды: Расширение на более длинные коды через конструкции каскадных кодов
Аппаратная реализация: Проверка практической аналоговой аппаратной реализации

Глубокая оценка

Преимущества

Высокая инновационность метода: Первое применение алгоритма FF в системах связи, решающее ключевые проблемы практического развертывания
Достаточный дизайн экспериментов: Охватывает различные модели каналов и сценарии применения, полный набор методов сравнения
Глубокий теоретический анализ: Предоставляет количественный анализ принципов проектирования сетей и аппаратной сложности
Высокая практическая ценность: Предоставляет жизнеспособное решение глубокого обучения для устройств с низким энергопотреблением

Недостатки

Разрыв производительности: В некоторых сценариях все еще существует разрыв производительности с методом BP
Ограничение на длину кода: Проверено только на коротких кодах (k=4, n=7), требуется более длинные коды для практического применения
Недостаточный поиск гиперпараметров: Признается отсутствие обширного поиска гиперпараметров, что может повлиять на оценку производительности
Отсутствие теоретического анализа: Отсутствуют теоретические гарантии сходимости и оптимальности алгоритма FF

Влияние

Академический вклад: Предоставляет новую парадигму обучения для глубокого обучения в системах связи
Практическая ценность: Предоставляет жизнеспособное решение для нейронного кодирования на устройствах с ограниченными ресурсами
Вдохновляющее значение: Может стимулировать применение большего количества алгоритмов прямого обучения в области связи
Воспроизводимость: Предоставляет подробные параметры, облегчающие воспроизведение результатов

Применимые сценарии

Устройства граничных вычислений: Устройства связи с ограниченной памятью и вычислительными ресурсами
Недифференцируемые системы: Системы связи, содержащие недифференцируемые операции, такие как квантизация и модуляция
Приложения с низким энергопотреблением: Сети Интернета вещей и сенсорные сети, чувствительные к энергопотреблению
Динамические системы связи: Системы, требующие быстрой адаптации к изменениям канала

Библиография

Hinton, G. "The forward-forward algorithm: Some preliminary investigations." arXiv:2212.13345 (2022)
O'Shea, T. & Hoydis, J. "An introduction to deep learning for the physical layer." IEEE Trans. Cogn. Commun. Netw. 3.4 (2017): 563-575
Aoudia, F. A. & Hoydis, J. "Model-free training of end-to-end communication systems." IEEE J. Sel. Areas Commun. 37.11 (2019): 2503-2516

Резюме: Данная статья вносит важный вклад в область глубокого обучения в системах связи, решая ключевые проблемы практического развертывания традиционного метода BP путем внедрения алгоритма FF. Хотя существует место для улучшения некоторых показателей производительности, преимущества в недифференцируемых сценариях и дружественность к аппаратной реализации придают ей значительную практическую ценность и академическое значение.