2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine
In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
academic

Forcer les Réseaux ReLU à Exhiber Exponentiellement Nombreuses Régions Linéaires à l'Initialisation et Pendant l'Entraînement

Informations Fondamentales

  • ID de l'article: 2311.18022
  • Titre: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
  • Auteurs: Max Milkert, David Hyde, Forrest Laine
  • Classification: cs.LG cs.AI
  • Date de publication/Conférence: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
  • Lien de l'article: https://arxiv.org/abs/2311.18022

Résumé

Dans les réseaux de neurones avec fonctions d'activation ReLU, le nombre de régions linéaires par morceaux de la sortie peut théoriquement croître exponentiellement avec la profondeur. Cependant, lorsque les paramètres initiaux sont échantillonnés aléatoirement, cela est extrêmement improbable, ce qui conduit généralement à l'utilisation de réseaux inutilement volumineux. Pour résoudre ce problème, cet article propose une nouvelle méthode de paramétrisation du réseau qui contraint les poids de sorte qu'un réseau de profondeur dd produise exactement 2d2^d régions linéaires à l'initialisation et maintienne ces régions pendant l'entraînement. Cette méthode est plusieurs ordres de grandeur plus précise que les réseaux correspondants initialisés aléatoirement lors de l'apprentissage d'approximations de fonctions convexes unidimensionnelles. Les auteurs présentent également des résultats préliminaires montrant que cette construction s'étend aux fonctions multidimensionnelles et non-convexes, permettant à cette technique de remplacer les couches denses conventionnelles dans diverses architectures.

Contexte de Recherche et Motivation

Définition du Problème

Les réseaux ReLU possèdent théoriquement une puissance d'expression remarquable, avec un nombre de régions linéaires pouvant croître exponentiellement avec la profondeur, mais il existe un écart significatif dans les applications pratiques :

  1. Fossé entre théorie et pratique : Bien que théoriquement un réseau ReLU de profondeur dd puisse produire 2d2^d régions linéaires, Hanin & Rolnick (2019) ont prouvé que le nombre moyen de régions linéaires d'un réseau initialisé aléatoirement est indépendant de la profondeur et dépend uniquement du nombre total de neurones.
  2. Limitations de la descente de gradient : La descente de gradient a du mal à créer de nouvelles régions d'activation, car le nombre de régions linéaires n'est pas une propriété « locale » de l'espace des paramètres et ne peut pas être directement optimisé par optimisation par gradient.
  3. Problème de redondance du réseau : En pratique, environ 95 % des poids peuvent être éliminés sans affecter significativement la précision, ce qui indique que les méthodes d'entraînement conventionnelles sont inefficaces.

Motivation de la Recherche

La motivation centrale de cet article est de développer des algorithmes mathématiques pour éviter les limitations de l'initialisation aléatoire, forçant les réseaux ReLU à réaliser leur capacité d'expression théorique, permettant ainsi d'obtenir de meilleures performances avec des réseaux plus petits.

Contributions Principales

  1. Nouvelle méthode de reparamétrisation : Propose une stratégie de reparamétrisation pour les réseaux ReLU de largeur 4 neurones et de profondeur arbitraire, garantissant qu'un réseau de profondeur dd produit 2d2^d régions d'activation à l'initialisation.
  2. Stratégie de pré-entraînement : Développe une méthode de pré-entraînement qui force l'existence de 2d2^d régions d'activation pendant le processus d'optimisation.
  3. Amélioration significative des performances : Réalise une amélioration des performances du réseau d'un ordre de grandeur dans les cas de test unidimensionnels.
  4. Applications étendues : Étend la méthode aux fonctions non-convexes et multidimensionnelles, et la propose comme remplacement enfichable pour les couches denses dans des réseaux arbitraires.

Détails de la Méthode

Idée Centrale

Cette méthode est basée sur la combinaison de fonctions d'onde triangulaire pour construire des réseaux avec des régions linéaires de niveau exponentiel :

Définition des Fonctions Triangulaires

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

0<ai<10 < a_i < 1 est la position du pic de la fonction triangulaire à la couche ii.

Formes d'Onde Composées

Chaque couche produit une onde triangulaire par composition de fonctions :

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

Ces formes d'onde possèdent 2i2^i régions linéaires, doublant à chaque couche.

Sortie du Réseau

La sortie finale du réseau est la somme pondérée des ondes triangulaires de chaque couche :

F(x) = Σ(i=0 to ∞) si * Wi(x)

Conception de l'Architecture du Réseau

Implémentation Monocouche

Chaque fonction triangulaire nécessite deux neurones ReLU pour son implémentation :

  • Neurone t1 : Poids d'entrée 1, poids de sortie 1/a, toujours activé
  • Neurone t2 : Biais -a, poids de sortie -1/(a-a²), activé lorsque x>a

Combinaison Multicouche

La composition en profondeur réalise la composition de fonctions, chaque couche contenant :

  • Neurones t1, t2 : Implémentent la fonction triangulaire
  • Neurone de somme : Accumule la sortie de l'onde triangulaire de la couche précédente
  • Neurone de biais : Traite le biais de décroissance exponentielle

Forme Matricielle des Poids

La forme matricielle de la couche cachée est :

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

Contraintes de Différentiabilité

Théorème 3.1

Pour assurer que la sortie du réseau soit différentiable dans la limite de profondeur infinie, les coefficients d'échelle doivent satisfaire :

si+1 = si(1-ai+1)ai+2

Cette contrainte garantit la continuité de la dérivée, empêchant la sortie de devenir une courbe fractale.

Algorithme d'Entraînement

Processus d'Entraînement en Trois Étapes

  1. Reparamétrisation et initialisation : Définir les poids du réseau selon les positions des pics triangulaires
  2. Pré-entraînement : Entraîner le réseau sous les contraintes de reparamétrisation
  3. Entraînement standard : Optimiser directement les poids du réseau

Flux de l'Algorithme

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # Positions des pics triangulaires
while Epochs > 0:
    Network ← Set_Weights(A)  # Définir les poids selon A
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # Rétropropagation via la définition des poids
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # Mettre à jour A plutôt que les poids du réseau

Configuration Expérimentale

Expériences de Fonction Unidimensionnelle

Ensemble de Données

  • Données denses : 500 points équidistants sur l'intervalle 0,1
  • Données éparses : 10 points d'entraînement, 10 points de test (situés entre les points d'entraînement)

Fonctions Cibles

  • x3x^3, x11x^{11} (fonctions convexes, combinaison par soustraction)
  • sin(x)\sin(x), tanh(3x)\tanh(3x) (approximation par combinaison additive)

Configuration du Réseau

  • Largeur de 4 neurones, 5 couches cachées
  • Optimiseur Adam, taux d'apprentissage 0,001, 1000 epochs

Méthodes de Comparaison

  • Réseau par défaut : Initialisation Kaiming
  • Distribution RAAI : Initialisation par distribution de poids améliorée
  • Pré-entraînement ignoré : Utilisation de l'initialisation de cet article mais entraînement standard uniquement
  • Pré-entraînement sans régularisation : Sans contrainte de différentiabilité
  • Méthode complète : Pré-entraînement + contrainte de différentiabilité

Expériences Étendues

Fonctions Non-Convexes et Multidimensionnelles

  • Fonction non-convexe : y=x3xy = x^3 - x (différence de deux réseaux)
  • Fonction bidimensionnelle : z=r3z = r^3 (somme de deux réseaux)

Classification d'Images

  • VGG-16 sur ImageNet : Remplacement des couches denses du classificateur
  • CIFAR-10 : Application dans une architecture CNN

Résultats Expérimentaux

Résultats d'Approximation de Fonction Unidimensionnelle

Performance sur Données Denses (Erreur MSE Minimale)

Méthodex3x^3x11x^{11}sin(x)\sin(x)tanh(3x)\tanh(3x)
Initialisation Kaiming2,11×10⁻⁵2,19×10⁻⁵4,50×10⁻⁵5,75×10⁻⁵
Distribution RAAI2,14×10⁻⁵4,40×10⁻⁵3,59×10⁻⁵1,09×10⁻⁵
Pré-entraînement ignoré7,63×10⁻⁷1,86×10⁻⁵1,96×10⁻⁷1,07×10⁻⁶
Pré-entraînement sans régularisation1,64×10⁻⁷3,20×10⁻⁶4,41×10⁻⁸1,49×10⁻⁷
Méthode complète7,86×10⁻⁸8,86×10⁻⁷5,06×10⁻⁸6,82×10⁻⁸

Découvertes Clés

  1. Amélioration d'ordre de grandeur : La méthode complète est 3 ordres de grandeur plus précise que le réseau par défaut
  2. Importance du pré-entraînement : Même en ignorant le pré-entraînement, l'amélioration seule de l'initialisation produit une amélioration significative
  3. Effet de la contrainte de différentiabilité : Forcer la différentiabilité améliore davantage la stabilité et la précision
  4. Problème des ReLU morts : La méthode conventionnelle s'effondre pour environ 50 % du réseau en raison du phénomène des ReLU morts

Capacité de Généralisation sur Données Éparses

Méthodex3x^3x11x^{11}sin(x)\sin(x)tanh(3x)\tanh(3x)
Initialisation Kaiming2,41×10⁻⁴2,14×10⁻³2,27×10⁻⁵1,60×10⁻⁴
Méthode complète5,65×10⁻⁶6,53×10⁻⁴7,92×10⁻⁷5,09×10⁻⁶

Résultats des Applications Étendues

Fonctions Non-Convexes et Multidimensionnelles

  • Approximation de x3xx^3-x : Erreur de la méthode de cet article 5,52×10⁻⁷ vs erreur du réseau standard 8×5 de 8×10⁻⁶
  • Approximation de z=r3z=r^3 : Erreur de la méthode de cet article 3,5×10⁻⁶ vs erreur du réseau standard 1,5×10⁻⁴ (amélioration de près de deux ordres de grandeur)

Performance de Classification d'Images

  • VGG-16 ImageNet : Avantage en début d'entraînement, précision finale comparable (73,3 %)
  • CIFAR-10 : Performance comparable à la méthode standard, démontrant la généralité de la méthode

Travaux Connexes

Théorie de l'Approximation de Fonction

Cet article s'appuie sur les fondations de la théorie classique d'approximation des réseaux de neurones :

  • Théorème d'approximation universelle : Capacité d'approximation des réseaux de largeur ou profondeur infinie
  • Théorie de l'avantage de la profondeur : Certaines fonctions nécessitent des neurones sous-exponentiels dans les réseaux profonds mais exponentiels dans les réseaux peu profonds

Construction d'Ondes Triangulaires

S'inspire des travaux de Telgarsky (2015) et Yarotsky (2017) :

  • Ondes triangulaires symétriques : Utilisées pour construire des approximations de x2x^2 avec précision exponentielle
  • Composition de fonctions : Réaliser la représentation de fonctions complexes par composition entre couches

Méthodes d'Initialisation du Réseau

Comparaison avec les méthodes d'initialisation existantes :

  • Initialisation Kaiming/Xavier : Méthodes homogènes basées sur des distributions statistiques
  • Problème des ReLU morts : Problème inhérent de l'initialisation aléatoire dans les réseaux profonds
  • Contribution de cet article : Initialisation hétérogène basée sur la construction mathématique

Conclusion et Discussion

Conclusions Principales

  1. Percée théorique : Première réalisation pratique d'une méthode forçant les réseaux ReLU à produire des régions linéaires de niveau exponentiel
  2. Amélioration significative : Réalisation d'une amélioration de précision d'ordre de grandeur sur les tâches d'approximation de fonction unidimensionnelle
  3. Potentiel d'extension : Démonstration de l'applicabilité de la méthode aux fonctions multidimensionnelles et non-convexes
  4. Valeur pratique : Peut servir de remplacement enfichable pour les couches denses dans les architectures existantes

Limitations

  1. Restrictions architecturales : La méthode actuelle est limitée à une structure spécifique de largeur 4 neurones
  2. Restrictions de classe de fonction : Directement applicable aux fonctions convexes unidimensionnelles, l'extension multidimensionnelle nécessite des stratégies de combinaison
  3. Effet limité sur les tâches de classification : Les améliorations ne sont pas significatives sur les tâches de classification d'images
  4. Complétude théorique : Absence d'un cadre théorique universel pour les réseaux ReLU arbitraires

Directions Futures

  1. Extension théorique : Recherche d'ensembles denses de fonctions unidimensionnelles pouvant être représentées efficacement
  2. Méthodes multidimensionnelles : Développement de méthodes plus naturelles pour la représentation de fonctions multidimensionnelles
  3. Structures éparses : Surmonter la limitation actuelle de création uniquement de matrices bloc-diagonales éparses
  4. Exploration d'applications : Identification de tâches de régression pratiques plus appropriées

Évaluation Approfondie

Avantages

  1. Innovation théorique : Fournit un pont reliant la capacité d'expression théorique et la réalisation pratique
  2. Rigueur mathématique : Analyse complète de la différentiabilité et preuves de convergence
  3. Expériences complètes : Vérification complète du unidimensionnel au multidimensionnel, de la régression à la classification
  4. Valeur pratique : Peut être directement appliqué aux architectures existantes sans nécessiter de reconception

Insuffisances

  1. Portée d'application limitée : Les avantages principaux sont concentrés sur des tâches spécifiques d'approximation de fonction
  2. Problèmes d'extensibilité : L'extension multidimensionnelle dépend de simples combinaisons, manquant de garanties théoriques
  3. Effet d'application pratique : Améliorations limitées sur les tâches de classification réelles
  4. Complexité computationnelle : L'entraînement en deux étapes augmente la complexité de mise en œuvre

Impact

  1. Contribution théorique : Fournit une nouvelle perspective et des outils pour la théorie de l'apprentissage profond
  2. Signification méthodologique : Démontre la valeur de la construction mathématique dans la conception de réseaux de neurones
  3. Potentiel pratique : Peut avoir une importance significative dans le calcul scientifique et les applications d'ingénierie
  4. Effet inspirant : Fournit de nouvelles idées et directions pour les recherches ultérieures

Scénarios d'Application

  1. Calcul scientifique : Tâches de calcul numérique nécessitant une approximation de fonction haute précision
  2. Applications d'ingénierie : Systèmes de contrôle, traitement du signal et autres domaines nécessitant une modélisation précise
  3. Scénarios de petites données : Tâches avec données d'entraînement limitées mais nécessitant une bonne généralisation
  4. Recherche théorique : Outil pour étudier la capacité d'expression des réseaux de neurones

Références

  1. Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
  2. Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
  3. Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
  4. Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
  5. Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

Évaluation Générale : Ceci est un excellent article qui met l'accent sur la théorie et la pratique, réalisant une percée importante dans la réalisation de la capacité d'expression des réseaux ReLU. Bien que la portée d'application actuelle soit limitée, il fournit des contributions et des inspirations précieuses pour la théorie et la pratique de l'apprentissage profond.