Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic
Forcer les Réseaux ReLU à Exhiber Exponentiellement Nombreuses Régions Linéaires à l'Initialisation et Pendant l'Entraînement
Dans les réseaux de neurones avec fonctions d'activation ReLU, le nombre de régions linéaires par morceaux de la sortie peut théoriquement croître exponentiellement avec la profondeur. Cependant, lorsque les paramètres initiaux sont échantillonnés aléatoirement, cela est extrêmement improbable, ce qui conduit généralement à l'utilisation de réseaux inutilement volumineux. Pour résoudre ce problème, cet article propose une nouvelle méthode de paramétrisation du réseau qui contraint les poids de sorte qu'un réseau de profondeur d produise exactement 2d régions linéaires à l'initialisation et maintienne ces régions pendant l'entraînement. Cette méthode est plusieurs ordres de grandeur plus précise que les réseaux correspondants initialisés aléatoirement lors de l'apprentissage d'approximations de fonctions convexes unidimensionnelles. Les auteurs présentent également des résultats préliminaires montrant que cette construction s'étend aux fonctions multidimensionnelles et non-convexes, permettant à cette technique de remplacer les couches denses conventionnelles dans diverses architectures.
Les réseaux ReLU possèdent théoriquement une puissance d'expression remarquable, avec un nombre de régions linéaires pouvant croître exponentiellement avec la profondeur, mais il existe un écart significatif dans les applications pratiques :
Fossé entre théorie et pratique : Bien que théoriquement un réseau ReLU de profondeur d puisse produire 2d régions linéaires, Hanin & Rolnick (2019) ont prouvé que le nombre moyen de régions linéaires d'un réseau initialisé aléatoirement est indépendant de la profondeur et dépend uniquement du nombre total de neurones.
Limitations de la descente de gradient : La descente de gradient a du mal à créer de nouvelles régions d'activation, car le nombre de régions linéaires n'est pas une propriété « locale » de l'espace des paramètres et ne peut pas être directement optimisé par optimisation par gradient.
Problème de redondance du réseau : En pratique, environ 95 % des poids peuvent être éliminés sans affecter significativement la précision, ce qui indique que les méthodes d'entraînement conventionnelles sont inefficaces.
La motivation centrale de cet article est de développer des algorithmes mathématiques pour éviter les limitations de l'initialisation aléatoire, forçant les réseaux ReLU à réaliser leur capacité d'expression théorique, permettant ainsi d'obtenir de meilleures performances avec des réseaux plus petits.
Nouvelle méthode de reparamétrisation : Propose une stratégie de reparamétrisation pour les réseaux ReLU de largeur 4 neurones et de profondeur arbitraire, garantissant qu'un réseau de profondeur d produit 2d régions d'activation à l'initialisation.
Stratégie de pré-entraînement : Développe une méthode de pré-entraînement qui force l'existence de 2d régions d'activation pendant le processus d'optimisation.
Amélioration significative des performances : Réalise une amélioration des performances du réseau d'un ordre de grandeur dans les cas de test unidimensionnels.
Applications étendues : Étend la méthode aux fonctions non-convexes et multidimensionnelles, et la propose comme remplacement enfichable pour les couches denses dans des réseaux arbitraires.
Cette méthode est basée sur la combinaison de fonctions d'onde triangulaire pour construire des réseaux avec des régions linéaires de niveau exponentiel :
Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n) # Positions des pics triangulaires
while Epochs > 0:
Network ← Set_Weights(A) # Définir les poids selon A
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # Rétropropagation via la définition des poids
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # Mettre à jour A plutôt que les poids du réseau
Approximation de x3−x : Erreur de la méthode de cet article 5,52×10⁻⁷ vs erreur du réseau standard 8×5 de 8×10⁻⁶
Approximation de z=r3 : Erreur de la méthode de cet article 3,5×10⁻⁶ vs erreur du réseau standard 1,5×10⁻⁴ (amélioration de près de deux ordres de grandeur)
Cet article s'appuie sur les fondations de la théorie classique d'approximation des réseaux de neurones :
Théorème d'approximation universelle : Capacité d'approximation des réseaux de largeur ou profondeur infinie
Théorie de l'avantage de la profondeur : Certaines fonctions nécessitent des neurones sous-exponentiels dans les réseaux profonds mais exponentiels dans les réseaux peu profonds
Percée théorique : Première réalisation pratique d'une méthode forçant les réseaux ReLU à produire des régions linéaires de niveau exponentiel
Amélioration significative : Réalisation d'une amélioration de précision d'ordre de grandeur sur les tâches d'approximation de fonction unidimensionnelle
Potentiel d'extension : Démonstration de l'applicabilité de la méthode aux fonctions multidimensionnelles et non-convexes
Valeur pratique : Peut servir de remplacement enfichable pour les couches denses dans les architectures existantes
Restrictions architecturales : La méthode actuelle est limitée à une structure spécifique de largeur 4 neurones
Restrictions de classe de fonction : Directement applicable aux fonctions convexes unidimensionnelles, l'extension multidimensionnelle nécessite des stratégies de combinaison
Effet limité sur les tâches de classification : Les améliorations ne sont pas significatives sur les tâches de classification d'images
Complétude théorique : Absence d'un cadre théorique universel pour les réseaux ReLU arbitraires
Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.
Évaluation Générale : Ceci est un excellent article qui met l'accent sur la théorie et la pratique, réalisant une percée importante dans la réalisation de la capacité d'expression des réseaux ReLU. Bien que la portée d'application actuelle soit limitée, il fournit des contributions et des inspirations précieuses pour la théorie et la pratique de l'apprentissage profond.