Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic
ReLU-Netzwerke zwingen, exponentiell viele lineare Regionen bei Initialisierung und während des Trainings zu zeigen
In neuronalen Netzen mit ReLU-Aktivierungsfunktionen kann die Anzahl der stückweise linearen Regionen der Ausgabe theoretisch exponentiell mit der Tiefe wachsen. Dies ist jedoch äußerst unwahrscheinlich, wenn Anfangsparameter zufällig gesampelt werden, was häufig zur Verwendung unnötig großer Netzwerke führt. Um dieses Problem zu lösen, wird in diesem Paper eine neuartige Netzwerk-Reparametrisierungsmethode vorgestellt, die Gewichte so einschränkt, dass ein Netzwerk der Tiefe d bei der Initialisierung genau 2d lineare Regionen erzeugt und diese während des Trainings beibehält. Die Methode ist bei der Erlernung von konvexen eindimensionalen Funktionsapproximationen um mehrere Größenordnungen präziser als zufällig initialisierte Gegenstücke. Die Autoren zeigen auch vorläufige Ergebnisse für die Erweiterung dieser Konstruktion auf mehrdimensionale und nicht-konvexe Funktionen, was diese Technik als Ersatz für herkömmliche dichte Schichten in verschiedenen Architekturen ermöglicht.
ReLU-Netzwerke besitzen theoretisch starke Ausdrucksfähigkeit, wobei die Anzahl der linearen Regionen exponentiell mit der Tiefe wachsen kann, aber in praktischen Anwendungen besteht eine erhebliche Lücke:
Kluft zwischen Theorie und Praxis: Obwohl theoretisch ein ReLU-Netzwerk der Tiefe d2d lineare Regionen erzeugen kann, zeigten Hanin & Rolnick (2019), dass die durchschnittliche Anzahl der linearen Regionen zufällig initialisierter Netzwerke unabhängig von der Tiefe ist und nur von der Gesamtzahl der Neuronen abhängt.
Einschränkungen des Gradientenabstiegs: Der Gradientenabstieg hat Schwierigkeiten, neue Aktivierungsregionen zu schaffen, da die Anzahl der linearen Regionen keine "lokale" Eigenschaft im Parameterraum ist und nicht direkt durch Gradientenoptimierung optimiert werden kann.
Netzwerk-Redundanzproblem: In der Praxis können etwa 95% der Gewichte eliminiert werden, ohne die Genauigkeit wesentlich zu beeinträchtigen, was darauf hindeutet, dass herkömmliche Trainingsmethoden ineffizient sind.
Die Kernmotivation dieses Papers ist die Entwicklung mathematischer Algorithmen, um die Einschränkungen der zufälligen Initialisierung zu vermeiden und ReLU-Netzwerke zu zwingen, ihre theoretische Ausdrucksfähigkeit zu realisieren, wodurch bessere Leistung mit kleineren Netzwerken erreicht wird.
Neuartige Reparametrisierungsmethode: Präsentation einer Reparametrisierungsstrategie für ReLU-Netzwerke mit 4 Neuronen Breite und beliebiger Tiefe, die sicherstellt, dass ein Netzwerk der Tiefe d bei der Initialisierung 2d Aktivierungsregionen erzeugt.
Vortrainingstrategie: Entwicklung einer Vortrainingsmethode, die die Existenz von 2d Aktivierungsregionen während des Optimierungsprozesses erzwingt.
Erhebliche Leistungsverbesserung: Realisierung von Leistungsverbesserungen um Größenordnungen in eindimensionalen Testfällen.
Erweiterte Anwendungen: Erweiterung der Methode auf nicht-konvexe und mehrdimensionale Funktionen sowie als Plug-and-Play-Ersatz für dichte Schichten in beliebigen Netzwerken.
Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.
Gesamtbewertung: Dies ist ein ausgezeichnetes Paper, das Theorie und Praxis gleichermaßen berücksichtigt und einen wichtigen Durchbruch bei der Realisierung der Ausdrucksfähigkeit von ReLU-Netzwerken erzielt. Obwohl der aktuelle Anwendungsbereich begrenzt ist, bietet es wertvollen Beitrag und Inspiration für Tiefenlerntheorie und -praxis.