2025-11-23T18:13:16.980826

Unraveling the Black Box of Neural Networks: A Dynamic Extremum Mapper

Chen

We point out that neural networks are not black boxes, and their generalization stems from the ability to dynamically map a dataset to the extrema of the model function. We further prove that the number of extrema in a neural network is positively correlated with the number of its parameters. We then propose a new algorithm that is significantly different from back-propagation algorithm, which mainly obtains the values of parameters by solving a system of linear equations. Some difficult situations, such as gradient vanishing and overfitting, can be simply explained and dealt with in this framework.

academic

Démystifier la Boîte Noire des Réseaux de Neurones : Un Cartographe d'Extrêmum Dynamique

Informations Fondamentales

ID de l'article : 2507.03885
Titre : Unraveling the Black Box of Neural Networks: A Dynamic Extremum Mapper
Auteur : Shengjian Chen (Intelligent Robotics Center, Jihua Laboratory)
Classification : cs.LG (Apprentissage Automatique)
Date de Publication : Prépublication arXiv (version du 10 octobre 2025)
Lien de l'article : https://arxiv.org/abs/2507.03885v3

Résumé

Cet article soutient que les réseaux de neurones ne sont pas des boîtes noires, et que leur capacité de généralisation provient de leur aptitude à mapper dynamiquement les ensembles de données vers les points extrêmes de la fonction du modèle. L'auteur démontre que le nombre de points extrêmes dans un réseau de neurones est positivement corrélé au nombre de paramètres, et propose un nouvel algorithme significativement différent de l'algorithme de rétropropagation, fonctionnant principalement par la résolution de systèmes d'équations linéaires pour obtenir les valeurs des paramètres. Dans ce cadre, il est possible d'expliquer et de traiter simplement les cas difficiles tels que la disparition du gradient et le surapprentissage.

Contexte de Recherche et Motivation

Définition du Problème

Bien que les modèles d'intelligence artificielle basés sur les réseaux de neurones aient atteint une précision prédictive supérieure aux algorithmes d'apprentissage automatique traditionnels dans des domaines tels que la reconnaissance d'images et le traitement du langage naturel, les principes sous-jacents manquent de recherches pertinentes et sont toujours largement considérés comme une boîte noire.

Importance

Exigences de Sécurité : Dans des domaines tels que la conduite autonome, qui exigent une haute réactivité et sécurité, il est nécessaire de comprendre les principes de fonctionnement des réseaux de neurones
Diagnostic de Défaillance : Lorsqu'un modèle présente une défaillance, il est impossible d'identifier rapidement la source du problème et de le résoudre immédiatement
Perfectionnement Théorique : Il est nécessaire d'expliquer les mécanismes de fonctionnement des réseaux de neurones d'un point de vue mathématique et non uniquement par des méthodes d'ingénierie

Limitations des Méthodes Existantes

Méthodes d'Interprétation : Fonctionnent principalement en analysant les connexions entrée-sortie pour interpréter les réseaux de neurones, mais il reste un long chemin à parcourir
Théorie du Goulot d'Étranglement de l'Information : Bien qu'elle fournisse des références utiles, elle manque de méthodes concrètes de résolution des paramètres
Théorème d'Approximation Universelle : Cybenko et Hornik ont démontré que les réseaux de neurones feedforward peuvent approximer toute fonction continue, mais n'ont pas fourni de méthode pour trouver une fonction spécifique

Contributions Principales

Caractéristiques du Modèle d'Apprentissage Idéal : Propose les caractéristiques principales d'un modèle d'apprentissage idéal et fournit des étapes générales d'entraînement du modèle basées sur celles-ci
Théorie du Mapping d'Extrêmum : Démontre mathématiquement que les réseaux de neurones réalisent la généralisation en mappant les ensembles de données vers les extrêmes locaux de la fonction, propose l'algorithme d'Incrément d'Extrêmum (EI)
Cadre d'Explication des Problèmes : Sur la base de l'algorithme EI, il est possible d'identifier relativement facilement les causes de problèmes courants tels que la disparition/explosion du gradient et le surapprentissage, et de fournir des solutions correspondantes

Détails de la Méthode

Caractéristiques Générales du Modèle Idéal

Mapping Exact

L'auteur définit d'abord les caractéristiques du modèle idéal : pour un ensemble de données D = {(x^(i), y^(i))|i ∈ 1, 3}, l'objectif est de trouver une fonction F telle que y^(i) = F(x^(i)). Lorsque des échantillons du même type existent, la courbe de la fonction doit changer de forme pour accueillir les nouveaux échantillons, formant ainsi plusieurs points extrêmes locaux.

Mapping Affaibli

Lorsque les paramètres de la fonction sont limités, le degré de variation de la forme de la courbe est limité, et le nombre d'extrêmes ne peut pas augmenter arbitrairement. La solution consiste à étendre l'essence d'un point unique à un intervalle, permettant aux ensembles d'échantillons ayant des surfaces légèrement différentes mais la même essence de se concentrer dans cet intervalle.

Conversion de la Classification N-aire en Classification Binaire

Convertir la fonction de classification N-aire F en N fonctions de classification binaire {F_j|j ∈ 1,N}, où la j-ième fonction de classification binaire F_j détermine uniquement si l'échantillon d'entrée appartient à la j-ième essence :

F_j(x^(i)) = {UB, y^(i) = j
              {LB, y^(i) ≠ j

Analyse des Points Extrêmes du Réseau de Neurones

Décomposition du Modèle

L'auteur décompose le réseau de neurones en un ensemble de ln fonctions composées {h_v^n|v ∈ 1,ln}, où chaque fonction composée est en réalité un problème de classification binaire.

Dérivation Mathématique des Points Extrêmes

Pour la fonction h_v^u, son expression est :

h_v^[u](x) = S(∑_{k=1}^{l_{u-1}} w_{v,k}^[u] * h_k^[u-1](x))

En prenant les dérivées partielles et en les égalant à zéro, on obtient un système d'équations linéaires homogènes :

L(n,v) = {∑_{k=1}^{l_{n-1}} w_{v,k}^[n] * ∂h_k^[n-1](x)/∂x_t = 0 | t ∈ [1,m]}

Lorsque l_ > m, le système d'équations a une infinité de solutions, ce qui est la raison principale de la forte capacité de généralisation des réseaux de neurones.

Cadre de l'Algorithme EI

Idée Centrale de l'Algorithme

L'algorithme EI diffère significativement de l'algorithme BP :

L'algorithme BP utilise la mise à jour du gradient pour approximer les valeurs idéales des paramètres, tandis que l'algorithme EI obtient directement les valeurs des paramètres en résolvant des systèmes d'équations
L'algorithme BP doit mettre à jour tous les paramètres à chaque itération, tandis que l'algorithme EI ne met à jour que certains paramètres

Flux de l'Algorithme

Initialisation : Marquer manuellement l'ensemble d'échantillons, initialiser l'ensemble de paramètres W comme des nombres réels non nuls
Résolution Couche par Couche : Exécuter la mise à jour des paramètres couche par couche de la dernière couche cachée à la première couche cachée
Opération de Polarisation : Sélectionner une solution particulière W^u:n de la solution générale W^u:n qui satisfait les conditions de terminaison
Mise à Jour des Paramètres : Si une solution particulière est trouvée, mettre à jour les paramètres, sinon introduire plus de paramètres

Optimisation de la Complexité de Calcul

Réduire la complexité de calcul en relâchant les conditions de terminaison et en introduisant le concept de voisinage de surface :

Utiliser des conditions de terminaison affaiblies, exigeant seulement que la valeur de la fonction de classification de l'échantillon soit bien supérieure aux autres valeurs de fonction de classification
Utiliser le voisinage de surface, en appliquant des conditions strictes uniquement aux échantillons représentatifs

Analyse Théorique et Explication des Problèmes

Disparition/Explosion du Gradient

Disparition du Gradient : Dans le cadre de l'algorithme EI, si une solution particulière peut être trouvée à partir de la solution générale W^u:n, les paramètres des couches cachées antérieures peuvent conserver leurs valeurs initiales, et la disparition du gradient est un résultat inévitable
Explosion du Gradient : Correspond au cas où le système d'équations n'a pas de solution, la solution consiste à augmenter le nombre de couches cachées ou le nombre de paramètres par couche

Surapprentissage

Le surapprentissage est essentiellement une caractéristique inhérente du nombre limité d'extrêmes sous la condition d'un nombre limité de paramètres. Solutions :

Augmenter le nombre de couches cachées ou le nombre de paramètres par couche
Permettre à un réseau de neurones de structure fixe d'accueillir plus d'échantillons par des opérations de clustering

Influence du Bruit

Expliquer par le concept de voisinage de surface que les échantillons bruyants peuvent s'écarter significativement du voisinage de l'échantillon original, empêchant le réseau de neurones de les traiter correctement.

Réseaux Peu Profonds/Très Profonds

Le nombre d'échantillons qu'un réseau de neurones peut ajuster avec précision est principalement positivement corrélé au nombre total de paramètres du réseau, sans relation nécessaire avec la profondeur du réseau. Une structure de réseau « trapézoïdale inclinée » est recommandée.

Discussion et Limitations

Problèmes à Résoudre

Algorithme de Polarisation : Aucun algorithme efficace n'a été proposé pour trouver une solution particulière à partir de la solution générale, en dehors de l'énumération
Analyse de la Couche de Sortie : Une analyse complète de différenciation partielle de la fonction softmax est nécessaire
Fonctions d'Activation : Comment analyser les cas de fonctions non différentiables telles que ReLU
Problème des Points Selle : Les points où la dérivée partielle du premier ordre est nulle peuvent être des points selle plutôt que des extrêmes

Exploration de Fonctions Alternatives

D'autres fonctions ayant une variabilité dynamique similaire (telles que les fonctions sinusoïdales, polynomiales) peuvent posséder une capacité de généralisation tout aussi forte.

Évaluation Approfondie

Avantages

Innovation Théorique : Révèle l'essence de la capacité de généralisation des réseaux de neurones d'un point de vue mathématique, complétant les insuffisances du théorème d'approximation universelle
Explication Unifiée des Problèmes : Explique plusieurs problèmes classiques tels que la disparition du gradient et le surapprentissage dans un cadre unifié
Innovation Algorithmique : Propose l'algorithme EI, significativement différent de l'algorithme BP, offrant une nouvelle perspective pour l'entraînement des réseaux de neurones
Rigueur Mathématique : Basée sur des dérivations mathématiques strictes, transforme les problèmes de réseaux de neurones en résolution de systèmes d'équations linéaires homogènes

Insuffisances

Limitations Pratiques : Manque d'algorithme de polarisation efficace, limitant l'application pratique de l'algorithme EI
Vérification Expérimentale Insuffisante : L'article est principalement une analyse théorique, manquant de vérification expérimentale suffisante
Limitations du Domaine d'Application : L'analyse est principalement basée sur les réseaux entièrement connectés et les fonctions d'activation sigmoïde
Complexité de Calcul : Bien que des solutions d'optimisation soient proposées, la complexité de calcul pour les applications à grande échelle doit encore être vérifiée

Influence

Contribution Théorique : Fournit un nouveau cadre mathématique pour la recherche en interprétabilité des réseaux de neurones
Orientation Pratique : Fournit des orientations théoriques pour la conception de structures de réseau et l'initialisation des paramètres
Direction de Recherche : Ouvre une nouvelle direction de recherche des réseaux de neurones sous l'angle du mapping d'extrêmum

Scénarios d'Application

Recherche Théorique : Applicable à la recherche en interprétabilité et analyse théorique des réseaux de neurones
Initialisation des Paramètres : Peut servir de module d'initialisation pour l'algorithme BP
Conception de Réseau : Fournit des orientations théoriques pour la conception de structures de réseau répondant à des exigences de précision spécifiques

Conclusion

Cet article révèle les principes de fonctionnement des réseaux de neurones d'un point de vue mathématique et propose le cadre de l'algorithme EI basé sur le mapping d'extrêmum. Bien que des améliorations supplémentaires soient nécessaires dans les applications pratiques (en particulier l'algorithme de polarisation), il apporte une contribution importante à la compréhension théorique et à la recherche en interprétabilité des réseaux de neurones. Ce travail pourrait devenir un pont important reliant la nature de boîte noire des réseaux de neurones à l'interprétabilité mathématique.

Références

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function
Hornik, K., et al. (1989). Multilayer feedforward networks are universal approximators
Tishby, N. & Zaslavsky, N. (2015). Deep learning and the information bottleneck principle