2025-11-20T07:28:15.314096

Forward-Forward Autoencoder Architectures for Energy-Efficient Wireless Communications

Seifert, GÃ¼nlÃ¼, Schaefer

The application of deep learning to the area of communications systems has been a growing field of interest in recent years. Forward-forward (FF) learning is an efficient alternative to the backpropagation (BP) algorithm, which is the typically used training procedure for neural networks. Among its several advantages, FF learning does not require the communication channel to be differentiable and does not rely on the global availability of partial derivatives, allowing for an energy-efficient implementation. In this work, we design end-to-end learned autoencoders using the FF algorithm and numerically evaluate their performance for the additive white Gaussian noise and Rayleigh block fading channels. We demonstrate their competitiveness with BP-trained systems in the case of joint coding and modulation, and in a scenario where a fixed, non-differentiable modulation stage is applied. Moreover, we provide further insights into the design principles of the FF network, its training convergence behavior, and significant memory and processing time savings compared to BP-based approaches.

academic

Architetture Autoencoder Forward-Forward per Comunicazioni Wireless ad Efficienza Energetica

Informazioni Fondamentali

ID Articolo: 2510.11418
Titolo: Forward-Forward Autoencoder Architectures for Energy-Efficient Wireless Communications
Autori: Daniel Seifert, Onur Günlü, Rafael F. Schaefer
Classificazione: cs.IT cs.LG math.IT
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11418

Riassunto

L'applicazione dell'apprendimento profondo nei sistemi di comunicazione ha ricevuto notevole attenzione negli ultimi anni. L'apprendimento forward-forward (FF) rappresenta un'alternativa efficiente all'algoritmo di retropropagazione (BP), che è la procedura di addestramento tipica delle reti neurali. I numerosi vantaggi dell'apprendimento FF includono: non richiede canali di comunicazione differenziabili, non dipende dalla disponibilità globale delle derivate parziali, consentendo implementazioni ad efficienza energetica. Questo studio progetta autoencoder di apprendimento end-to-end utilizzando l'algoritmo FF e valuta numericamente le loro prestazioni su canali con rumore gaussiano bianco additivo e canali di dissolvenza a blocchi di Rayleigh. La ricerca dimostra la competitività rispetto ai sistemi addestrati con BP in scenari di codifica-modulazione congiunta e in scenari con fasi di modulazione fisse non differenziabili. Inoltre, fornisce approfondimenti sulla progettazione delle reti FF, sul comportamento di convergenza dell'addestramento e sui significativi risparmi di memoria e tempo di elaborazione rispetto ai metodi BP.

Contesto di Ricerca e Motivazione

1. Problemi da Risolvere

L'algoritmo di retropropagazione tradizionale presenta tre problemi principali nei sistemi di comunicazione:

Requisiti di Percorsi Differenziabili: BP richiede un percorso completamente differenziabile attraverso l'intera rete neurale, mentre i canali reali spesso non sono differenziabili
Bassa Efficienza di Memoria e Consumo Energetico: Necessita di memorizzare le derivate parziali per ogni nodo, causando elevato consumo di memoria e energia
Meccanismi di Blocco: Esiste il blocco all'indietro, tutti gli strati devono attendere il completamento del calcolo dei gradienti degli strati successivi

2. Importanza del Problema

La distribuzione di metodi di apprendimento profondo nei sistemi di comunicazione affronta sfide pratiche, in particolare su dispositivi edge con risorse limitate. Le limitazioni dell'algoritmo BP tradizionale ostacolano l'implementazione efficiente delle reti neurali nei sistemi di comunicazione reali.

3. Limitazioni dei Metodi Esistenti

Metodi di Apprendimento per Rinforzo: Richiedono canali di retroazione aggiuntivi senza rumore per stimare i gradienti del trasmettitore
Reti Generative Avversarie/Modelli di Diffusione: Sebbene differenziabili, presentano elevata complessità computazionale
Stimatori Diretti (STE): Le prestazioni diminuiscono significativamente in scenari di quantizzazione

4. Motivazione della Ricerca

L'algoritmo FF possiede i seguenti vantaggi, rendendolo particolarmente adatto ai sistemi di comunicazione:

Non richiede canali differenziabili
Consente circuiti completamente analogici a basso consumo energetico
Permette processi di addestramento in pipeline
Riduce significativamente l'utilizzo della memoria

Contributi Principali

Propone un'architettura autoencoder end-to-end basata su algoritmo FF, specificamente progettata per sistemi di comunicazione wireless
Progetta strategie di generazione di dati di input contrastivi, includendo metodi di costruzione di campioni positivi, negativi e neutri
Verifica prestazioni competitive su canali AWGN e dissolvenza a blocchi di Rayleigh, con particolare vantaggio in scenari non differenziabili
Fornisce analisi approfondita dei principi di progettazione delle reti, includendo l'impatto della profondità e larghezza della rete sulle prestazioni
Quantifica significativi risparmi di memoria e tempo di elaborazione, dimostrando i vantaggi pratici dell'algoritmo FF

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un messaggio $m \in \mathcal{M} = \{0, \ldots, 2^k-1\}$ , l'autoencoder deve:

Codificare il messaggio di k bit in una parola di codice di dimensione n
Trasmettere attraverso un canale rumoroso
Decodificare correttamente il messaggio originale al ricevitore
L'obiettivo di ottimizzazione è minimizzare il tasso di errore di blocco (BLER)

Architettura del Modello

Progettazione dell'Architettura Complessiva

Come mostrato nella Figura 1, l'autoencoder FF comprende:

Codificatore: L strati completamente connessi con output normalizzato/quantizzato
Canale: Canale AWGN o dissolvenza a blocchi di Rayleigh
Decodificatore: K strati completamente connessi
Classificatore: Classificatore a singolo strato con output softmax probabilistico

Costruzione di Dati di Input Contrastivi

L'innovazione chiave dell'algoritmo FF è la progettazione dei dati di input contrastivi:

Campioni Positivi: $v = (1_m || 1_m)$ (etichetta vera replicata)
Campioni Negativi: $v = (1_m || 1_{\bar{m}})$ (etichetta vera + etichetta errata casuale)
Campioni Neutri: $v = (1_m || 0)$ (per l'inferenza)

Dove $1_m$ rappresenta la codifica one-hot del messaggio m e $||$ rappresenta l'operazione di concatenazione.

Algoritmo di Addestramento

L'ottimizzazione di ogni strato si basa sulla metrica di "bontà" $g_i = ||a_i||_2^2$ , con la funzione di perdita definita come:

\zeta(-(g_i - \tau_i)) & \text{campioni positivi} \\ \zeta(g_i - \tau_i) & \text{campioni negativi} \end{cases}$$ Dove $\zeta(x) = \log(1 + e^x)$ è la funzione softplus e $\tau_i$ è la soglia. #### Addestramento del Classificatore Il classificatore indipendente $c_\kappa(\cdot)$ apprende a mappare l'attività del decodificatore al messaggio originale, addestrato utilizzando la perdita di entropia incrociata. ### Punti di Innovazione Tecnica 1. **Nessun Gradiente Globale Richiesto**: Ogni strato è ottimizzato indipendentemente, eliminando il blocco all'indietro 2. **Gestione di Operazioni Non Differenziabili**: Supporta naturalmente operazioni non differenziabili come la quantizzazione 3. **Meccanismo di Apprendimento Contrastivo**: Apprende rappresentazioni efficaci attraverso il contrasto tra campioni positivi e negativi 4. **Classificatore Separato**: Disaccoppia l'apprendimento di rappresentazioni e il compito di classificazione ## Configurazione Sperimentale ### Modello di Canale Considera un canale di dissolvenza a blocchi di Rayleigh reale: $$Y_i = HX_i + N_i$$ Dove: - $N_i \sim \mathcal{N}(0, \sigma^2)$, $\sigma^2 = (2RE_b/N_0)^{-1}$ - $H$ segue una distribuzione di Rayleigh (ampiezza del coefficiente di dissolvenza) - $E_b/N_0$ è il rapporto tra energia per bit e densità spettrale di potenza del rumore (SNR) ### Parametri Sperimentali - **Tasso di Codice**: $R = k/n = 4/7$ - **SNR di Addestramento**: $E_b/N_0 = 5$ dB - **Struttura di Rete**: Configurazione ottimale $L = K = 4$, $W = 80$ ### Metodi di Confronto 1. **Autoencoder BP**: Addestramento classico con retropropagazione 2. **Autoencoder BP-RL**: Addestramento senza modello basato su apprendimento per rinforzo 3. **Autoencoder FF**: Addestramento forward-forward proposto in questo articolo ### Metriche di Valutazione - **Tasso di Errore di Blocco (BLER)**: $P_e = \Pr(\hat{m} \neq m)$ - **Velocità di Convergenza**: Numero di iterazioni di addestramento necessarie per raggiungere le prestazioni target - **Utilizzo di Memoria**: Requisiti di memorizzazione dei gradienti - **Tempo di Elaborazione**: Complessità temporale dell'addestramento ## Risultati Sperimentali ### Risultati Principali #### Scenario di Codifica-Modulazione Congiunta Negli autoencoder con output continuo (Figura 2): - **Canale AWGN**: Le prestazioni FF sono vicine a BP e BP-RL, ma con un divario di prestazioni di circa 1 dB nella regione ad alto SNR - **Canale RBF**: FF è in grado di competere con altri metodi, mostrando robustezza alle perturbazioni del canale #### Scenario di Output Codificatore Quantizzato Nel caso di quantizzazione BPSK (Figura 3): - **Vantaggio Evidente dell'Algoritmo FF**: Mantiene le prestazioni originali mentre BP e BP-RL mostrano un calo significativo - **Canale RBF**: FF supera il metodo BP, BP-RL quasi colma il divario - Dimostra l'insufficienza dell'approssimazione STE ### Analisi della Capacità di Rete La Tabella I mostra le prestazioni BLER di diverse dimensioni di rete: - Le reti FF richiedono strati più ampi ($W=80$ vs $W=16$) per raggiungere buone prestazioni - La complessità del codificatore è più critica della complessità del decodificatore - Configurazione ottimale: $L=K=4$, $W=80$ ### Analisi del Comportamento di Convergenza La Figura 4 mostra le curve di convergenza dell'addestramento: - **Codificatore Continuo**: La velocità di convergenza FF è paragonabile a BP, notevolmente più veloce di BP-RL - **Codificatore Quantizzato**: FF raggiunge la perdita target più rapidamente, mostrando vantaggi per operazioni non differenziabili ### Analisi della Complessità Hardware #### Risparmio di Tempo di Elaborazione Per una rete di N strati: - **Algoritmo BP**: Richiede 2N unità di tempo (forward + backward) - **Algoritmo FF**: Richiede solo N+1 unità di tempo #### Risparmio di Memoria - **Rete BP**: Necessita di memorizzare i gradienti di 791 parametri - **Rete FF**: Non richiede memorizzazione di gradienti, calcolo e consumo diretto ## Lavori Correlati ### Algoritmi di Apprendimento Forward 1. **Apprendimento Hebbiano**: Basato su regole di neuroplasticità, non richiede segnali di retroazione 2. **Algoritmo Sigprop**: Propagazione parallela di segnali di apprendimento, richiede rappresentazione separata di dati ed etichette 3. **Algoritmo FF**: Addestramento a livello di strato attraverso due propagazioni forward e metriche di bontà ### Apprendimento Profondo nei Sistemi di Comunicazione 1. **Apprendimento End-to-End**: Ottimizzazione diretta delle prestazioni del sistema di comunicazione 2. **Metodi di Apprendimento per Rinforzo**: Gestione di canali non differenziabili 3. **Modelli Generativi**: Modellazione delle caratteristiche di canali complessi ## Conclusioni e Discussione ### Conclusioni Principali 1. **Autoencoder FF è Competitivo**: Le prestazioni sono vicine o superiori ai metodi BP in varie condizioni di canale 2. **Vantaggio Evidente in Scenari Non Differenziabili**: Prestazioni superiori in scenari come la quantizzazione 3. **Implementazione Hardware Amichevole**: Significativi risparmi di memoria e tempo 4. **Buone Prestazioni di Convergenza**: Velocità di addestramento paragonabile o superiore a BP ### Limitazioni 1. **Requisiti di Capacità di Rete**: Richiede reti più grandi per raggiungere prestazioni equivalenti 2. **Sensibilità ai Iperparametri**: Il processo di addestramento è sensibile alle impostazioni degli iperparametri 3. **Divario di Prestazioni ad Alto SNR**: Leggera diminuzione di prestazioni in ambienti a basso rumore 4. **Limitazioni di Lunghezza Codice Breve**: Gli esperimenti attuali considerano solo scenari di lunghezza codice breve ### Direzioni Future 1. **Modelli di Canale Complessi**: Estensione a canali non differenziabili più complessi 2. **Miglioramenti Algoritmici**: Progettazione di funzioni di perdita più sofisticate e tecniche di cooperazione tra strati 3. **Estensione di Lunghezza Codice Lunga**: Estensione a lunghezze codice più lunghe attraverso schemi di costruzione di codici concatenati 4. **Implementazione Hardware**: Verifica dell'implementazione hardware analogico reale ## Valutazione Approfondita ### Punti di Forza 1. **Forte Innovazione Metodologica**: Prima applicazione dell'algoritmo FF ai sistemi di comunicazione, risolvendo problemi chiave nella distribuzione pratica 2. **Progettazione Sperimentale Completa**: Copre molteplici modelli di canale e scenari di applicazione, con confronti completi 3. **Analisi Teorica Approfondita**: Fornisce analisi quantitativa dei principi di progettazione delle reti e della complessità hardware 4. **Alto Valore Pratico**: Fornisce una soluzione di apprendimento profondo fattibile per dispositivi di comunicazione a basso consumo energetico ### Insufficienze 1. **Divario di Prestazioni**: Esiste ancora un divario di prestazioni con i metodi BP in alcuni scenari 2. **Limitazione di Lunghezza Codice**: Verificato solo con lunghezza codice breve (k=4, n=7), applicazioni reali richiedono lunghezze codice più lunghe 3. **Ricerca di Iperparametri Incompleta**: Riconosce di non aver condotto una ricerca ampia di iperparametri, che potrebbe influenzare la valutazione delle prestazioni 4. **Mancanza di Analisi Teorica**: Mancano garanzie teoriche sulla convergenza e l'ottimalità dell'algoritmo FF ### Impatto 1. **Contributo Accademico**: Fornisce un nuovo paradigma di addestramento per l'apprendimento profondo nei sistemi di comunicazione 2. **Valore Pratico**: Fornisce una soluzione fattibile per l'addestramento neurale su dispositivi con risorse limitate 3. **Significato Ispiratore**: Potrebbe promuovere ulteriori applicazioni di algoritmi di apprendimento forward nel campo della comunicazione 4. **Riproducibilità**: Fornisce impostazioni dettagliate degli iperparametri, facilitando la riproduzione ### Scenari Applicabili 1. **Dispositivi di Calcolo Edge**: Dispositivi di comunicazione con memoria e risorse di calcolo limitate 2. **Sistemi Non Differenziabili**: Sistemi di comunicazione contenenti operazioni non differenziabili come quantizzazione e modulazione 3. **Applicazioni a Basso Consumo Energetico**: Reti di sensori e Internet delle Cose sensibili al consumo energetico 4. **Comunicazione in Tempo Reale**: Sistemi dinamici che necessitano di adattamento rapido ai cambiamenti del canale ## Bibliografia 1. Hinton, G. "The forward-forward algorithm: Some preliminary investigations." arXiv:2212.13345 (2022) 2. O'Shea, T. & Hoydis, J. "An introduction to deep learning for the physical layer." IEEE Trans. Cogn. Commun. Netw. 3.4 (2017): 563-575 3. Aoudia, F. A. & Hoydis, J. "Model-free training of end-to-end communication systems." IEEE J. Sel. Areas Commun. 37.11 (2019): 2503-2516 --- **Sintesi**: Questo articolo fornisce un contributo importante nel campo dell'apprendimento profondo per i sistemi di comunicazione, introducendo l'algoritmo FF per risolvere i problemi chiave della distribuzione pratica dei metodi BP tradizionali. Sebbene vi sia ancora spazio per miglioramenti in alcune metriche di prestazioni, i vantaggi in scenari non differenziabili e l'amichevolezza hardware conferiscono a questo lavoro importante valore pratico e significato accademico.