The application of deep learning to the area of communications systems has been a growing field of interest in recent years. Forward-forward (FF) learning is an efficient alternative to the backpropagation (BP) algorithm, which is the typically used training procedure for neural networks. Among its several advantages, FF learning does not require the communication channel to be differentiable and does not rely on the global availability of partial derivatives, allowing for an energy-efficient implementation. In this work, we design end-to-end learned autoencoders using the FF algorithm and numerically evaluate their performance for the additive white Gaussian noise and Rayleigh block fading channels. We demonstrate their competitiveness with BP-trained systems in the case of joint coding and modulation, and in a scenario where a fixed, non-differentiable modulation stage is applied. Moreover, we provide further insights into the design principles of the FF network, its training convergence behavior, and significant memory and processing time savings compared to BP-based approaches.
- Papier-ID: 2510.11418
- Titel: Forward-Forward Autoencoder Architectures for Energy-Efficient Wireless Communications
- Autoren: Daniel Seifert, Onur Günlü, Rafael F. Schaefer
- Klassifizierung: cs.IT cs.LG math.IT
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.11418
Die Anwendung von Deep Learning in Kommunikationssystemen hat in letzter Zeit große Aufmerksamkeit erhalten. Forward-Forward (FF) Lernen stellt eine effiziente Alternative zum Backpropagation-Algorithmus (BP) dar, der das typische Trainingsverfahren für neuronale Netze darstellt. Die zahlreichen Vorteile des FF-Lernens umfassen: keine Anforderung an differenzierbare Kommunikationskanäle, keine Abhängigkeit von der globalen Verfügbarkeit von Ableitungen und damit energieeffiziente Implementierung. Diese Forschung entwirft End-to-End-Lern-Autoencoder unter Verwendung des FF-Algorithmus und bewertet ihre Leistung numerisch unter additiven weißen Gaußschen Rausch- und Rayleigh-Block-Fading-Kanälen. Die Forschung demonstriert ihre Wettbewerbsfähigkeit mit BP-trainierten Systemen in Joint-Coding-Modulation-Szenarien sowie in Szenarien mit festen, nicht-differenzierbaren Modulationsstufen. Darüber hinaus werden tiefe Einblicke in FF-Netzwerk-Designprinzipien, Trainingskonvergenzverhalten sowie erhebliche Speicher- und Verarbeitungszeitersparnisse im Vergleich zu BP-Methoden bereitgestellt.
Der traditionelle Backpropagation-Algorithmus weist in Kommunikationssystemen drei Hauptprobleme auf:
- Anforderung an differenzierbare Pfade: BP erfordert einen vollständig differenzierbaren Pfad durch das gesamte neuronale Netz, während reale Kanäle oft nicht differenzierbar sind
- Geringe Speicher- und Energieeffizienz: Erfordert die Speicherung von Ableitungen für jeden Knoten, was zu hohem Speicherverbrauch und Energieverbrauch führt
- Sperrmechanismus: Existiert ein Rückwärtssperrmechanismus, bei dem alle Schichten auf die Berechnung von Gradienten nachgelagerter Schichten warten müssen
Die Bereitstellung von Deep-Learning-Methoden in Kommunikationssystemen ist mit praktischen Herausforderungen verbunden, besonders auf ressourcenbeschränkten Edge-Geräten. Die Einschränkungen des traditionellen BP-Algorithmus behindern die effiziente Implementierung neuronaler Netze in praktischen Kommunikationssystemen.
- Reinforcement-Learning-Methoden: Erfordern zusätzliche rauschfreie Rückkopplungsleitungen zur Schätzung von Sender-Gradienten
- Generative Adversarial Networks/Diffusionsmodelle: Obwohl differenzierbar, aber hohe Rechenkomplexität
- Straight-Through Estimators (STE): Deutlich verschlechterte Leistung in Quantisierungsszenarien
Der FF-Algorithmus bietet folgende Vorteile, die ihn besonders für Kommunikationssysteme geeignet machen:
- Keine differenzierbaren Kanäle erforderlich
- Ermöglicht vollständig analoge, stromsparende Schaltkreise
- Erlaubt Pipeline-Trainingsverfahren
- Deutlich reduzierte Speichernutzung
- Vorschlag einer End-to-End-Autoencoder-Architektur basierend auf dem FF-Algorithmus, speziell für drahtlose Kommunikationssysteme konzipiert
- Entwurf von Kontrastive-Input-Datengenerierungsstrategien, einschließlich Konstruktionsmethoden für positive, negative und neutrale Stichproben
- Validierung wettbewerbsfähiger Leistung auf AWGN- und Rayleigh-Block-Fading-Kanälen, besonders Vorteile in nicht-differenzierbaren Szenarien
- Bereitstellung tiefgreifender Analyse von Netzwerk-Designprinzipien, einschließlich Auswirkungen von Netzwerktiefe und -breite auf die Leistung
- Quantifizierung erheblicher Speicher- und Verarbeitungszeitersparnisse, Nachweis praktischer Vorteile des FF-Algorithmus
Gegeben eine Nachricht m∈M={0,…,2k−1} muss der Autoencoder:
- k-Bit-Nachricht in n-dimensionales Codewort kodieren
- Übertragung durch rauschbehafteten Kanal
- Korrekte Dekodierung der ursprünglichen Nachricht am Empfänger
- Optimierungsziel ist die Minimierung der Blockfehlerrate (BLER)
Wie in Abbildung 1 dargestellt, besteht der FF-Autoencoder aus:
- Encoder: L vollständig verbundene Schichten mit normalisierter/quantisierter Ausgabe
- Kanal: AWGN- oder Rayleigh-Block-Fading-Kanal
- Decoder: K vollständig verbundene Schichten
- Klassifizierer: Einschichtige Klassifizierer mit Softmax-Wahrscheinlichkeitsausgabe
Die Schlüsselinnovation des FF-Algorithmus ist das Design kontrastiver Eingabedaten:
- Positive Stichproben: v=(1m∣∣1m) (echtes Label repliziert)
- Negative Stichproben: v=(1m∣∣1mˉ) (echtes Label + zufälliges falsches Label)
- Neutrale Stichproben: v=(1m∣∣0) (für Inferenz)
Wobei 1m die One-Hot-Kodierung der Nachricht m darstellt und ∣∣ die Verkettungsoperation bezeichnet.
Die Optimierung jeder Schicht basiert auf der "Güte"-Metrik gi=∣∣ai∣∣22, wobei die Verlustfunktion definiert ist als:
Li(gi,τi)={ζ(−(gi−τi))ζ(gi−τi)positive Stichprobennegative Stichproben
Wobei ζ(x)=log(1+ex) die Softplus-Funktion ist und τi der Schwellenwert.
Ein unabhängiger Klassifizierer cκ(⋅) lernt, Decoder-Aktivitäten auf ursprüngliche Nachrichten abzubilden, trainiert mit Kreuzentropie-Verlust.
- Keine globalen Gradienten erforderlich: Jede Schicht wird unabhängig optimiert, bricht Rückwärtssperrung auf
- Verarbeitung nicht-differenzierbarer Operationen: Unterstützt natürlich nicht-differenzierbare Operationen wie Quantisierung
- Kontrastiver Lernmechanismus: Effektives Lernen von Repräsentationen durch positive/negative Stichprobenkontraste
- Separater Klassifizierer: Entkopplung von Repräsentationslernens und Klassifizierungsaufgabe
Betrachtung des realen Rayleigh-Block-Fading (RBF) Kanals:
Yi=HXi+Ni
Wobei:
- Ni∼N(0,σ2), σ2=(2REb/N0)−1
- H folgt Rayleigh-Verteilung (Fading-Koeffizient Amplitude)
- Eb/N0 ist das Verhältnis von Energie pro Bit zu Rauschleistungsspektraldichte (SNR)
- Coderate: R=k/n=4/7
- Trainings-SNR: Eb/N0=5 dB
- Netzwerkstruktur: Optimale Konfiguration L=K=4, W=80
- BP-Autoencoder: Klassisches Backpropagation-Training
- BP-RL-Autoencoder: Modellfreies Training basierend auf Reinforcement Learning
- FF-Autoencoder: Der in diesem Papier vorgeschlagene Forward-Forward-Training
- Blockfehlerrate (BLER): Pe=Pr(m^=m)
- Konvergenzgeschwindigkeit: Anzahl der Trainingsiterationen zur Erreichung der Zielleistung
- Speichernutzung: Gradienten-Speicheranforderungen
- Verarbeitungszeit: Trainings-Zeitkomplexität
In Autoencodern mit kontinuierlicher Ausgabe (Abbildung 2):
- AWGN-Kanal: FF-Leistung nahe BP und BP-RL, aber mit etwa 1 dB Leistungslücke im hohen SNR-Bereich
- RBF-Kanal: FF kann mit anderen Methoden konkurrieren, zeigt Robustheit gegenüber Kanalstörungen
Im BPSK-Quantisierungsszenario (Abbildung 3):
- FF-Algorithmus-Vorteile deutlich: Behält ursprüngliche Leistung bei, während BP und BP-RL Leistung deutlich sinkt
- RBF-Kanal: FF übertrifft BP-Methode, BP-RL schließt fast die Lücke
- Beweist Unzulänglichkeit der STE-Approximation
Tabelle I zeigt BLER-Leistung verschiedener Netzwerkgrößen:
- FF-Netzwerk benötigt breitere Schichten (W=80 vs W=16) für gute Leistung
- Encoder-Komplexität ist kritischer als Decoder-Komplexität
- Optimale Konfiguration: L=K=4, W=80
Abbildung 4 zeigt Trainingskonvergenzkurven:
- Kontinuierlicher Encoder: FF-Konvergenzgeschwindigkeit vergleichbar mit BP, deutlich schneller als BP-RL
- Quantisierter Encoder: FF erreicht Zielverlustwert schneller, zeigt Vorteile bei nicht-differenzierbaren Operationen
Für N-Schicht-Netzwerk:
- BP-Algorithmus: Benötigt 2N Zeiteinheiten (Vorwärts + Rückwärts)
- FF-Algorithmus: Benötigt nur N+1 Zeiteinheiten
- BP-Netzwerk: Erfordert Speicherung von Gradienten für 791 Parameter
- FF-Netzwerk: Keine Gradienten-Speicherung erforderlich, direkte Berechnung und Verbrauch
- Hebbian-Lernen: Basierend auf Neuroplastizitätsregeln, benötigt keine Rückkopplungssignale
- Sigprop-Algorithmus: Parallele Ausbreitungs-Lernsignale, erfordert getrennte Daten- und Label-Darstellung
- FF-Algorithmus: Schicht-für-Schicht-Training durch zwei Vorwärtsdurchläufe und Güte-Metrik
- End-to-End-Lernen: Direkte Optimierung der Kommunikationssystem-Leistung
- Reinforcement-Learning-Methoden: Umgang mit nicht-differenzierbaren Kanälen
- Generative Modelle: Modellierung komplexer Kanaleigenschaften
- FF-Autoencoder sind wettbewerbsfähig: Leistung nahe oder besser als BP-Methoden unter verschiedenen Kanalbedingungen
- Deutliche Vorteile in nicht-differenzierbaren Szenarien: Überlegene Leistung in Quantisierungs- und ähnlichen Szenarien
- Hardware-Implementierung freundlich: Erhebliche Speicher- und Zeiteinsparungen
- Gutes Konvergenzverhalten: Trainingsgeschwindigkeit vergleichbar oder schneller als BP
- Netzwerk-Kapazitätsanforderungen: Benötigt größere Netzwerke zur Erreichung vergleichbarer Leistung
- Überparameter-Empfindlichkeit: Trainingsverfahren empfindlich gegenüber Überparameter-Einstellungen
- Leistungslücke bei hohem SNR: Leicht reduzierte Leistung in rauscharmem Umfeld
- Kurze Codewort-Längenbeschränkung: Aktuelle Experimente berücksichtigen nur kurze Codewort-Längen-Szenarien
- Komplexe Kanalmodelle: Erweiterung auf komplexere nicht-differenzierbare Kanäle
- Algorithmus-Verbesserungen: Sophistiziertere Verlustfunktions-Designs und Schicht-Kooperationstechniken
- Erweiterung auf lange Codewort-Längen: Durch verkettete Codierungskonstruktionsschemen
- Hardware-Implementierung: Validierung durch praktische analoge Hardware-Implementierung
- Starke Methodische Innovation: Erste Anwendung des FF-Algorithmus auf Kommunikationssysteme, löst Schlüsselprobleme bei praktischer Bereitstellung
- Umfassende Experimentelle Gestaltung: Umfasst mehrere Kanalmodelle und Anwendungsszenarien, umfassende Vergleichsmethoden
- Tiefgreifende theoretische Analyse: Bietet quantitative Analyse von Netzwerk-Designprinzipien und Hardware-Komplexität
- Hoher praktischer Wert: Bietet praktikable Deep-Learning-Lösungen für stromsparende Kommunikationsgeräte
- Leistungslücke: Leistungslücke zu BP-Methoden in einigen Szenarien
- Codewort-Längenbeschränkung: Validierung nur bei kurzer Codewort-Länge (k=4, n=7), längere Codewort-Längen erforderlich für praktische Anwendungen
- Unzureichende Überparameter-Suche: Zugegeben, dass keine umfassende Überparameter-Suche durchgeführt wurde, könnte Leistungsbewertung beeinflussen
- Mangel an theoretischer Analyse: Fehlende theoretische Garantien für FF-Algorithmus-Konvergenz und Optimalität
- Akademischer Beitrag: Bietet neues Trainingsparadigma für Deep Learning in Kommunikationssystemen
- Praktischer Wert: Bietet praktikable Lösung für neuronale Kodierung auf ressourcenbeschränkten Geräten
- Inspirierender Wert: Könnte mehr Anwendungen von Forward-Learning-Algorithmen im Kommunikationsbereich fördern
- Reproduzierbarkeit: Bietet detaillierte Überparameter-Einstellungen für einfache Reproduktion
- Edge-Computing-Geräte: Kommunikationsgeräte mit begrenztem Speicher und Rechenressourcen
- Nicht-differenzierbare Systeme: Kommunikationssysteme mit Quantisierung, Modulation und anderen nicht-differenzierbaren Operationen
- Stromsparende Anwendungen: Energieempfindliche IoT- und Sensornetzwerke
- Echtzeit-Kommunikation: Dynamische Systeme, die schnelle Anpassung an Kanalveränderungen erfordern
- Hinton, G. "The forward-forward algorithm: Some preliminary investigations." arXiv:2212.13345 (2022)
- O'Shea, T. & Hoydis, J. "An introduction to deep learning for the physical layer." IEEE Trans. Cogn. Commun. Netw. 3.4 (2017): 563-575
- Aoudia, F. A. & Hoydis, J. "Model-free training of end-to-end communication systems." IEEE J. Sel. Areas Commun. 37.11 (2019): 2503-2516
Zusammenfassung: Dieses Papier leistet einen wichtigen Beitrag im Bereich Deep Learning für Kommunikationssysteme, indem es den FF-Algorithmus einführt, um Schlüsselprobleme der traditionellen BP-Methode bei praktischer Bereitstellung zu lösen. Obwohl es in einigen Leistungsindikatoren noch Verbesserungspotenzial gibt, machen seine Vorteile in nicht-differenzierbaren Szenarien und Hardware-Freundlichkeit es von erheblichem praktischem Wert und akademischer Bedeutung.