2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

Forcer les Réseaux ReLU à Exhiber Exponentiellement Nombreuses Régions Linéaires à l'Initialisation et Pendant l'Entraînement

Informations Fondamentales

ID de l'article: 2311.18022
Titre: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
Auteurs: Max Milkert, David Hyde, Forrest Laine
Classification: cs.LG cs.AI
Date de publication/Conférence: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
Lien de l'article: https://arxiv.org/abs/2311.18022

Résumé

Dans les réseaux de neurones avec fonctions d'activation ReLU, le nombre de régions linéaires par morceaux de la sortie peut théoriquement croître exponentiellement avec la profondeur. Cependant, lorsque les paramètres initiaux sont échantillonnés aléatoirement, cela est extrêmement improbable, ce qui conduit généralement à l'utilisation de réseaux inutilement volumineux. Pour résoudre ce problème, cet article propose une nouvelle méthode de paramétrisation du réseau qui contraint les poids de sorte qu'un réseau de profondeur $d$ produise exactement $2^d$ régions linéaires à l'initialisation et maintienne ces régions pendant l'entraînement. Cette méthode est plusieurs ordres de grandeur plus précise que les réseaux correspondants initialisés aléatoirement lors de l'apprentissage d'approximations de fonctions convexes unidimensionnelles. Les auteurs présentent également des résultats préliminaires montrant que cette construction s'étend aux fonctions multidimensionnelles et non-convexes, permettant à cette technique de remplacer les couches denses conventionnelles dans diverses architectures.

Contexte de Recherche et Motivation

Définition du Problème

Les réseaux ReLU possèdent théoriquement une puissance d'expression remarquable, avec un nombre de régions linéaires pouvant croître exponentiellement avec la profondeur, mais il existe un écart significatif dans les applications pratiques :

Fossé entre théorie et pratique : Bien que théoriquement un réseau ReLU de profondeur $d$ puisse produire $2^d$ régions linéaires, Hanin & Rolnick (2019) ont prouvé que le nombre moyen de régions linéaires d'un réseau initialisé aléatoirement est indépendant de la profondeur et dépend uniquement du nombre total de neurones.
Limitations de la descente de gradient : La descente de gradient a du mal à créer de nouvelles régions d'activation, car le nombre de régions linéaires n'est pas une propriété « locale » de l'espace des paramètres et ne peut pas être directement optimisé par optimisation par gradient.
Problème de redondance du réseau : En pratique, environ 95 % des poids peuvent être éliminés sans affecter significativement la précision, ce qui indique que les méthodes d'entraînement conventionnelles sont inefficaces.

Motivation de la Recherche

La motivation centrale de cet article est de développer des algorithmes mathématiques pour éviter les limitations de l'initialisation aléatoire, forçant les réseaux ReLU à réaliser leur capacité d'expression théorique, permettant ainsi d'obtenir de meilleures performances avec des réseaux plus petits.

Contributions Principales

Nouvelle méthode de reparamétrisation : Propose une stratégie de reparamétrisation pour les réseaux ReLU de largeur 4 neurones et de profondeur arbitraire, garantissant qu'un réseau de profondeur $d$ produit $2^d$ régions d'activation à l'initialisation.
Stratégie de pré-entraînement : Développe une méthode de pré-entraînement qui force l'existence de $2^d$ régions d'activation pendant le processus d'optimisation.
Amélioration significative des performances : Réalise une amélioration des performances du réseau d'un ordre de grandeur dans les cas de test unidimensionnels.
Applications étendues : Étend la méthode aux fonctions non-convexes et multidimensionnelles, et la propose comme remplacement enfichable pour les couches denses dans des réseaux arbitraires.

Détails de la Méthode

Idée Centrale

Cette méthode est basée sur la combinaison de fonctions d'onde triangulaire pour construire des réseaux avec des régions linéaires de niveau exponentiel :

Définition des Fonctions Triangulaires

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

où $0 < a_i < 1$ est la position du pic de la fonction triangulaire à la couche $i$ .

Formes d'Onde Composées

Chaque couche produit une onde triangulaire par composition de fonctions :

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

Ces formes d'onde possèdent $2^i$ régions linéaires, doublant à chaque couche.

Sortie du Réseau

La sortie finale du réseau est la somme pondérée des ondes triangulaires de chaque couche :

F(x) = Σ(i=0 to ∞) si * Wi(x)

Conception de l'Architecture du Réseau

Implémentation Monocouche

Chaque fonction triangulaire nécessite deux neurones ReLU pour son implémentation :

Neurone t1 : Poids d'entrée 1, poids de sortie 1/a, toujours activé
Neurone t2 : Biais -a, poids de sortie -1/(a-a²), activé lorsque x>a

Combinaison Multicouche

La composition en profondeur réalise la composition de fonctions, chaque couche contenant :

Neurones t1, t2 : Implémentent la fonction triangulaire
Neurone de somme : Accumule la sortie de l'onde triangulaire de la couche précédente
Neurone de biais : Traite le biais de décroissance exponentielle

Forme Matricielle des Poids

La forme matricielle de la couche cachée est :

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

Contraintes de Différentiabilité

Théorème 3.1

Pour assurer que la sortie du réseau soit différentiable dans la limite de profondeur infinie, les coefficients d'échelle doivent satisfaire :

si+1 = si(1-ai+1)ai+2

Cette contrainte garantit la continuité de la dérivée, empêchant la sortie de devenir une courbe fractale.

Algorithme d'Entraînement

Processus d'Entraînement en Trois Étapes

Reparamétrisation et initialisation : Définir les poids du réseau selon les positions des pics triangulaires
Pré-entraînement : Entraîner le réseau sous les contraintes de reparamétrisation
Entraînement standard : Optimiser directement les poids du réseau

Flux de l'Algorithme

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # Positions des pics triangulaires
while Epochs > 0:
    Network ← Set_Weights(A)  # Définir les poids selon A
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # Rétropropagation via la définition des poids
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # Mettre à jour A plutôt que les poids du réseau

Configuration Expérimentale

Expériences de Fonction Unidimensionnelle

Ensemble de Données

Données denses : 500 points équidistants sur l'intervalle 0,1
Données éparses : 10 points d'entraînement, 10 points de test (situés entre les points d'entraînement)

Fonctions Cibles

$x^3$ , $x^{11}$ (fonctions convexes, combinaison par soustraction)
$\sin(x)$ , $\tanh(3x)$ (approximation par combinaison additive)

Configuration du Réseau

Largeur de 4 neurones, 5 couches cachées
Optimiseur Adam, taux d'apprentissage 0,001, 1000 epochs

Méthodes de Comparaison

Réseau par défaut : Initialisation Kaiming
Distribution RAAI : Initialisation par distribution de poids améliorée
Pré-entraînement ignoré : Utilisation de l'initialisation de cet article mais entraînement standard uniquement
Pré-entraînement sans régularisation : Sans contrainte de différentiabilité
Méthode complète : Pré-entraînement + contrainte de différentiabilité

Expériences Étendues

Fonctions Non-Convexes et Multidimensionnelles

Fonction non-convexe : $y = x^3 - x$ (différence de deux réseaux)
Fonction bidimensionnelle : $z = r^3$ (somme de deux réseaux)

Classification d'Images

VGG-16 sur ImageNet : Remplacement des couches denses du classificateur
CIFAR-10 : Application dans une architecture CNN

Résultats Expérimentaux

Résultats d'Approximation de Fonction Unidimensionnelle

Performance sur Données Denses (Erreur MSE Minimale)

Méthode	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Initialisation Kaiming	2,11×10⁻⁵	2,19×10⁻⁵	4,50×10⁻⁵	5,75×10⁻⁵
Distribution RAAI	2,14×10⁻⁵	4,40×10⁻⁵	3,59×10⁻⁵	1,09×10⁻⁵
Pré-entraînement ignoré	7,63×10⁻⁷	1,86×10⁻⁵	1,96×10⁻⁷	1,07×10⁻⁶
Pré-entraînement sans régularisation	1,64×10⁻⁷	3,20×10⁻⁶	4,41×10⁻⁸	1,49×10⁻⁷
Méthode complète	7,86×10⁻⁸	8,86×10⁻⁷	5,06×10⁻⁸	6,82×10⁻⁸

Découvertes Clés

Amélioration d'ordre de grandeur : La méthode complète est 3 ordres de grandeur plus précise que le réseau par défaut
Importance du pré-entraînement : Même en ignorant le pré-entraînement, l'amélioration seule de l'initialisation produit une amélioration significative
Effet de la contrainte de différentiabilité : Forcer la différentiabilité améliore davantage la stabilité et la précision
Problème des ReLU morts : La méthode conventionnelle s'effondre pour environ 50 % du réseau en raison du phénomène des ReLU morts

Capacité de Généralisation sur Données Éparses

Méthode	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Initialisation Kaiming	2,41×10⁻⁴	2,14×10⁻³	2,27×10⁻⁵	1,60×10⁻⁴
Méthode complète	5,65×10⁻⁶	6,53×10⁻⁴	7,92×10⁻⁷	5,09×10⁻⁶

Résultats des Applications Étendues

Fonctions Non-Convexes et Multidimensionnelles

Approximation de $x^3-x$ : Erreur de la méthode de cet article 5,52×10⁻⁷ vs erreur du réseau standard 8×5 de 8×10⁻⁶
Approximation de $z=r^3$ : Erreur de la méthode de cet article 3,5×10⁻⁶ vs erreur du réseau standard 1,5×10⁻⁴ (amélioration de près de deux ordres de grandeur)

Performance de Classification d'Images

VGG-16 ImageNet : Avantage en début d'entraînement, précision finale comparable (73,3 %)
CIFAR-10 : Performance comparable à la méthode standard, démontrant la généralité de la méthode

Travaux Connexes

Théorie de l'Approximation de Fonction

Cet article s'appuie sur les fondations de la théorie classique d'approximation des réseaux de neurones :

Théorème d'approximation universelle : Capacité d'approximation des réseaux de largeur ou profondeur infinie
Théorie de l'avantage de la profondeur : Certaines fonctions nécessitent des neurones sous-exponentiels dans les réseaux profonds mais exponentiels dans les réseaux peu profonds

Construction d'Ondes Triangulaires

S'inspire des travaux de Telgarsky (2015) et Yarotsky (2017) :

Ondes triangulaires symétriques : Utilisées pour construire des approximations de $x^2$ avec précision exponentielle
Composition de fonctions : Réaliser la représentation de fonctions complexes par composition entre couches

Méthodes d'Initialisation du Réseau

Comparaison avec les méthodes d'initialisation existantes :

Initialisation Kaiming/Xavier : Méthodes homogènes basées sur des distributions statistiques
Problème des ReLU morts : Problème inhérent de l'initialisation aléatoire dans les réseaux profonds
Contribution de cet article : Initialisation hétérogène basée sur la construction mathématique

Conclusion et Discussion

Conclusions Principales

Percée théorique : Première réalisation pratique d'une méthode forçant les réseaux ReLU à produire des régions linéaires de niveau exponentiel
Amélioration significative : Réalisation d'une amélioration de précision d'ordre de grandeur sur les tâches d'approximation de fonction unidimensionnelle
Potentiel d'extension : Démonstration de l'applicabilité de la méthode aux fonctions multidimensionnelles et non-convexes
Valeur pratique : Peut servir de remplacement enfichable pour les couches denses dans les architectures existantes

Limitations

Restrictions architecturales : La méthode actuelle est limitée à une structure spécifique de largeur 4 neurones
Restrictions de classe de fonction : Directement applicable aux fonctions convexes unidimensionnelles, l'extension multidimensionnelle nécessite des stratégies de combinaison
Effet limité sur les tâches de classification : Les améliorations ne sont pas significatives sur les tâches de classification d'images
Complétude théorique : Absence d'un cadre théorique universel pour les réseaux ReLU arbitraires

Directions Futures

Extension théorique : Recherche d'ensembles denses de fonctions unidimensionnelles pouvant être représentées efficacement
Méthodes multidimensionnelles : Développement de méthodes plus naturelles pour la représentation de fonctions multidimensionnelles
Structures éparses : Surmonter la limitation actuelle de création uniquement de matrices bloc-diagonales éparses
Exploration d'applications : Identification de tâches de régression pratiques plus appropriées

Évaluation Approfondie

Avantages

Innovation théorique : Fournit un pont reliant la capacité d'expression théorique et la réalisation pratique
Rigueur mathématique : Analyse complète de la différentiabilité et preuves de convergence
Expériences complètes : Vérification complète du unidimensionnel au multidimensionnel, de la régression à la classification
Valeur pratique : Peut être directement appliqué aux architectures existantes sans nécessiter de reconception

Insuffisances

Portée d'application limitée : Les avantages principaux sont concentrés sur des tâches spécifiques d'approximation de fonction
Problèmes d'extensibilité : L'extension multidimensionnelle dépend de simples combinaisons, manquant de garanties théoriques
Effet d'application pratique : Améliorations limitées sur les tâches de classification réelles
Complexité computationnelle : L'entraînement en deux étapes augmente la complexité de mise en œuvre

Impact

Contribution théorique : Fournit une nouvelle perspective et des outils pour la théorie de l'apprentissage profond
Signification méthodologique : Démontre la valeur de la construction mathématique dans la conception de réseaux de neurones
Potentiel pratique : Peut avoir une importance significative dans le calcul scientifique et les applications d'ingénierie
Effet inspirant : Fournit de nouvelles idées et directions pour les recherches ultérieures

Scénarios d'Application

Calcul scientifique : Tâches de calcul numérique nécessitant une approximation de fonction haute précision
Applications d'ingénierie : Systèmes de contrôle, traitement du signal et autres domaines nécessitant une modélisation précise
Scénarios de petites données : Tâches avec données d'entraînement limitées mais nécessitant une bonne généralisation
Recherche théorique : Outil pour étudier la capacité d'expression des réseaux de neurones

Références

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montúfar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

Évaluation Générale : Ceci est un excellent article qui met l'accent sur la théorie et la pratique, réalisant une percée importante dans la réalisation de la capacité d'expression des réseaux ReLU. Bien que la portée d'application actuelle soit limitée, il fournit des contributions et des inspirations précieuses pour la théorie et la pratique de l'apprentissage profond.