2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

ReLU-Netzwerke zwingen, exponentiell viele lineare Regionen bei Initialisierung und während des Trainings zu zeigen

Grundlegende Informationen

Paper-ID: 2311.18022
Titel: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Autoren: Max Milkert, David Hyde, Forrest Laine
Klassifizierung: cs.LG cs.AI
Veröffentlichungszeit/Konferenz: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Kanada. PMLR 267, 2025
Paper-Link: https://arxiv.org/abs/2311.18022

Zusammenfassung

In neuronalen Netzen mit ReLU-Aktivierungsfunktionen kann die Anzahl der stückweise linearen Regionen der Ausgabe theoretisch exponentiell mit der Tiefe wachsen. Dies ist jedoch äußerst unwahrscheinlich, wenn Anfangsparameter zufällig gesampelt werden, was häufig zur Verwendung unnötig großer Netzwerke führt. Um dieses Problem zu lösen, wird in diesem Paper eine neuartige Netzwerk-Reparametrisierungsmethode vorgestellt, die Gewichte so einschränkt, dass ein Netzwerk der Tiefe $d$ bei der Initialisierung genau $2^d$ lineare Regionen erzeugt und diese während des Trainings beibehält. Die Methode ist bei der Erlernung von konvexen eindimensionalen Funktionsapproximationen um mehrere Größenordnungen präziser als zufällig initialisierte Gegenstücke. Die Autoren zeigen auch vorläufige Ergebnisse für die Erweiterung dieser Konstruktion auf mehrdimensionale und nicht-konvexe Funktionen, was diese Technik als Ersatz für herkömmliche dichte Schichten in verschiedenen Architekturen ermöglicht.

Forschungshintergrund und Motivation

Problemdefinition

ReLU-Netzwerke besitzen theoretisch starke Ausdrucksfähigkeit, wobei die Anzahl der linearen Regionen exponentiell mit der Tiefe wachsen kann, aber in praktischen Anwendungen besteht eine erhebliche Lücke:

Kluft zwischen Theorie und Praxis: Obwohl theoretisch ein ReLU-Netzwerk der Tiefe $d$ $2^d$ lineare Regionen erzeugen kann, zeigten Hanin & Rolnick (2019), dass die durchschnittliche Anzahl der linearen Regionen zufällig initialisierter Netzwerke unabhängig von der Tiefe ist und nur von der Gesamtzahl der Neuronen abhängt.
Einschränkungen des Gradientenabstiegs: Der Gradientenabstieg hat Schwierigkeiten, neue Aktivierungsregionen zu schaffen, da die Anzahl der linearen Regionen keine "lokale" Eigenschaft im Parameterraum ist und nicht direkt durch Gradientenoptimierung optimiert werden kann.
Netzwerk-Redundanzproblem: In der Praxis können etwa 95% der Gewichte eliminiert werden, ohne die Genauigkeit wesentlich zu beeinträchtigen, was darauf hindeutet, dass herkömmliche Trainingsmethoden ineffizient sind.

Forschungsmotivation

Die Kernmotivation dieses Papers ist die Entwicklung mathematischer Algorithmen, um die Einschränkungen der zufälligen Initialisierung zu vermeiden und ReLU-Netzwerke zu zwingen, ihre theoretische Ausdrucksfähigkeit zu realisieren, wodurch bessere Leistung mit kleineren Netzwerken erreicht wird.

Kernbeiträge

Neuartige Reparametrisierungsmethode: Präsentation einer Reparametrisierungsstrategie für ReLU-Netzwerke mit 4 Neuronen Breite und beliebiger Tiefe, die sicherstellt, dass ein Netzwerk der Tiefe $d$ bei der Initialisierung $2^d$ Aktivierungsregionen erzeugt.
Vortrainingstrategie: Entwicklung einer Vortrainingsmethode, die die Existenz von $2^d$ Aktivierungsregionen während des Optimierungsprozesses erzwingt.
Erhebliche Leistungsverbesserung: Realisierung von Leistungsverbesserungen um Größenordnungen in eindimensionalen Testfällen.
Erweiterte Anwendungen: Erweiterung der Methode auf nicht-konvexe und mehrdimensionale Funktionen sowie als Plug-and-Play-Ersatz für dichte Schichten in beliebigen Netzwerken.

Methodische Details

Kernidee

Die Methode basiert auf der Kombination von Dreieckswellenfunktionen zur Konstruktion von Netzwerken mit exponentiellen linearen Regionen:

Dreiecksfunktionsdefinition

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

wobei $0 < ai < 1$ die Spitzenposition der Dreiecksfunktion in der $i$ -ten Schicht ist.

Kombinierte Wellenformen

Jede Schicht erzeugt eine Dreieckswelle durch Funktionskomposition:

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

Diese Wellenformen haben $2^i$ lineare Regionen, die sich mit jeder Schicht verdoppeln.

Netzwerkausgabe

Die endgültige Netzwerkausgabe ist die gewichtete Summe der Dreieckswellen jeder Schicht:

F(x) = Σ(i=0 to ∞) si * Wi(x)

Netzwerk-Architektur-Design

Einzelschicht-Implementierung

Jede Dreiecksfunktion wird mit zwei ReLU-Neuronen implementiert:

Neuron t1: Eingabegewicht 1, Ausgabegewicht 1/a, immer aktiviert
Neuron t2: Bias -a, Ausgabegewicht -1/(a-a²), aktiviert wenn x>a

Mehrschicht-Kombination

Durch tiefe Stapelung wird Funktionskomposition realisiert, wobei jede Schicht enthält:

t1, t2 Neuronen: Implementierung der Dreiecksfunktion
Sum-Neuron: Akkumulation der Dreieckswellen-Ausgaben der vorherigen Schicht
Bias-Neuron: Behandlung des exponentiellen Bias-Abfalls

Gewichtsmatrix-Form

Die Form der Gewichtsmatrix der verborgenen Schicht ist:

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

Differenzierbarkeitsbeschränkungen

Theorem 3.1

Um sicherzustellen, dass die Netzwerkausgabe im Grenzfall unendlicher Tiefe differenzierbar ist, müssen die Skalierungskoeffizienten erfüllen:

si+1 = si(1-ai+1)ai+2

Diese Beschränkung gewährleistet die Kontinuität der Ableitung und verhindert, dass die Ausgabe zu einer Fraktalkurve wird.

Trainingsalgorithmus

Dreistufiger Trainingsprozess

Reparametrisierung und Initialisierung: Gewichte des Netzwerks werden gemäß den Dreiecksspitzenpositionen gesetzt
Vortraining: Netzwerk wird unter Reparametrisierungsbeschränkungen trainiert
Standardtraining: Direkte Optimierung der Netzwerkgewichte

Algorithmus-Ablauf

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # Dreiecksspitzenpositionen
while Epochs > 0:
    Network ← Set_Weights(A)  # Gewichte gemäß A setzen
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # Rückwärts durch Gewichtssetzen
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # A aktualisieren statt Netzwerkgewichte

Experimentelles Setup

Eindimensionale Funktionsexperimente

Datensätze

Dichte Daten: 500 gleichmäßig verteilte Punkte im Intervall 0,1
Spärliche Daten: 10 Trainingspunkte, 10 Testpunkte (zwischen Trainingspunkten positioniert)

Zielfunktionen

$x^3$ , $x^{11}$ (konvexe Funktionen, Subtraktionskombination)
$\sin(x)$ , $\tanh(3x)$ (durch Additionskombination approximiert)

Netzwerkkonfiguration

4 Neuronen Breite, 5 verborgene Schichten
Adam-Optimierer, Lernrate 0,001, 1000 Epochen

Vergleichsmethoden

Standardnetzwerk: Kaiming-Initialisierung
RAAI-Verteilung: Verbesserte Gewichtsverteilungs-Initialisierung
Vortraining übersprungen: Verwendung dieser Initialisierung, aber nur Standardtraining
Vortraining ohne Regularisierung: Differenzierbarkeitsbeschränkung nicht erzwungen
Vollständige Methode: Vortraining + Differenzierbarkeitsbeschränkung

Erweiterte Experimente

Nicht-konvexe und mehrdimensionale Funktionen

Nicht-konvexe Funktion: $y = x^3 - x$ (Differenz zweier Netzwerke)
Zweidimensionale Funktion: $z = r^3$ (Summe zweier Netzwerke)

Bildklassifizierung

VGG-16 auf ImageNet: Ersetzen der dichten Schichten des Klassifizierers
CIFAR-10: Anwendung in CNN-Architektur

Experimentelle Ergebnisse

Eindimensionale Funktionsapproximationsergebnisse

Leistung bei dichten Daten (minimaler MSE-Fehler)

Methode	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming-Initialisierung	2,11×10⁻⁵	2,19×10⁻⁵	4,50×10⁻⁵	5,75×10⁻⁵
RAAI-Verteilung	2,14×10⁻⁵	4,40×10⁻⁵	3,59×10⁻⁵	1,09×10⁻⁵
Vortraining übersprungen	7,63×10⁻⁷	1,86×10⁻⁵	1,96×10⁻⁷	1,07×10⁻⁶
Vortraining ohne Regularisierung	1,64×10⁻⁷	3,20×10⁻⁶	4,41×10⁻⁸	1,49×10⁻⁷
Vollständige Methode	7,86×10⁻⁸	8,86×10⁻⁷	5,06×10⁻⁸	6,82×10⁻⁸

Wichtigste Erkenntnisse

Verbesserung um Größenordnungen: Die vollständige Methode ist um 3 Größenordnungen präziser als das Standardnetzwerk
Bedeutung des Vortrainings: Selbst ohne Vortraining führt die alleinige Initialisierungsverbesserung zu erheblichen Verbesserungen
Effekt der Differenzierbarkeitsbeschränkung: Das Erzwingen von Differenzierbarkeit verbessert weiter die Stabilität und Genauigkeit
Dead-ReLU-Problem: Herkömmliche Methoden führen bei etwa 50% der Netzwerke zum Zusammenbruch durch Dead-ReLU-Phänomen

Generalisierungsfähigkeit bei spärlichen Daten

Methode	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming-Initialisierung	2,41×10⁻⁴	2,14×10⁻³	2,27×10⁻⁵	1,60×10⁻⁴
Vollständige Methode	5,65×10⁻⁶	6,53×10⁻⁴	7,92×10⁻⁷	5,09×10⁻⁶

Ergebnisse erwiterter Anwendungen

Nicht-konvexe und mehrdimensionale Funktionen

$x^3-x$ Approximation: Fehler der Methode 5,52×10⁻⁷ vs. Standardnetzwerk 8×5 Fehler 8×10⁻⁶
$z=r^3$ Approximation: Fehler der Methode 3,5×10⁻⁶ vs. Standardnetzwerk Fehler 1,5×10⁻⁴ (nahezu zwei Größenordnungen Verbesserung)

Leistung der Bildklassifizierung

ImageNet VGG-16: Vorteil in frühen Trainingsphasen, letztendlich vergleichbare Genauigkeit (73,3%)
CIFAR-10: Vergleichbare Leistung mit Standardmethode, zeigt Universalität der Methode

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Durchbruch: Erste praktische Methode zur Erzwingung exponentieller linearer Regionen in ReLU-Netzwerken
Erhebliche Verbesserung: Realisierung von Genauigkeitsverbesserungen um Größenordnungen bei eindimensionalen Funktionsapproximationsaufgaben
Erweiterungspotenzial: Nachweis der Anwendbarkeit der Methode auf mehrdimensionale und nicht-konvexe Funktionen
Praktischer Wert: Kann als Plug-and-Play-Ersatz für dichte Schichten in bestehenden Architekturen dienen

Einschränkungen

Architektur-Einschränkung: Aktuelle Methode begrenzt auf spezifische Struktur mit 4 Neuronen Breite
Funktionsklassen-Einschränkung: Direkt anwendbar auf eindimensionale konvexe Funktionen, mehrdimensionale Erweiterung erfordert Kombinationsstrategien
Begrenzte Effektivität bei Klassifizierungsaufgaben: Verbesserungen bei Bildklassifizierung nicht signifikant
Theoretische Vollständigkeit: Fehlender universeller theoretischer Rahmen für beliebige ReLU-Netzwerke

Zukünftige Richtungen

Theoretische Erweiterung: Suche nach dichtem Satz von eindimensionalen Funktionen, die effizient dargestellt werden können
Mehrdimensionale Methoden: Entwicklung natürlicherer Darstellungsmethoden für mehrdimensionale Funktionen
Spärliche Strukturen: Überwindung der aktuellen Einschränkung auf nur spärliche Blockdiagonalmatrizen
Anwendungserkundung: Identifikation geeigneterer praktischer Regressionsprobleme

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Bereitstellung einer Brücke zwischen theoretischer Ausdrucksfähigkeit und praktischer Realisierung
Mathematische Strenge: Vollständige Differenzierbarkeitanalyse und Konvergenzbeweis
Umfassende Experimente: Vollständige Validierung von eindimensional bis mehrdimensional, von Regression bis Klassifizierung
Praktischer Wert: Direkt anwendbar auf bestehende Architekturen ohne Neugestaltung erforderlich

Mängel

Begrenzte Anwendbarkeit: Hauptvorteile konzentriert sich auf spezifische Funktionsapproximationsaufgaben
Skalierungsprobleme: Mehrdimensionale Erweiterung abhängig von einfacher Kombination, fehlende theoretische Garantien
Begrenzte praktische Effektivität: Verbesserungen bei praktischen Klassifizierungsaufgaben begrenzt
Rechenkomplexität: Zweistufiges Training erhöht Implementierungskomplexität

Einfluss

Theoretischer Beitrag: Bietet neue Perspektive und Werkzeuge für Tiefenlerntheorie
Methodologische Bedeutung: Demonstriert Wert mathematischer Konstruktion im Netzwerk-Design
Praktisches Potenzial: Möglicherweise wichtig in wissenschaftlichen Berechnungen und Ingenieuranwendungen
Inspirative Wirkung: Bietet neue Ideen und Richtungen für nachfolgende Forschung

Anwendungsszenarien

Wissenschaftliche Berechnung: Numerische Berechnungsaufgaben, die hochpräzise Funktionsapproximation erfordern
Ingenieuranwendungen: Kontrollsysteme, Signalverarbeitung und andere Bereiche, die präzise Modellierung erfordern
Kleine-Daten-Szenarien: Aufgaben mit knappen Trainingsdaten aber guter Generalisierung erforderlich
Theoretische Forschung: Als Werkzeug zur Untersuchung der Ausdrucksfähigkeit neuronaler Netzwerke

Literaturverzeichnis

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

Gesamtbewertung: Dies ist ein ausgezeichnetes Paper, das Theorie und Praxis gleichermaßen berücksichtigt und einen wichtigen Durchbruch bei der Realisierung der Ausdrucksfähigkeit von ReLU-Netzwerken erzielt. Obwohl der aktuelle Anwendungsbereich begrenzt ist, bietet es wertvollen Beitrag und Inspiration für Tiefenlerntheorie und -praxis.