IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter
deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.
- ID de l'article: 2502.17500
- Titre: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
- Auteur: Andrzej Cichocki (Académie Polonaise des Sciences, UMK Torun Pologne, Université de Technologie Agricole de Tokyo, Riken AIP)
- Classification: cs.LG cs.AI
- Date de publication: Prépublication arXiv (février 2025)
- Lien de l'article: https://arxiv.org/abs/2502.17500
Cet article propose et étudie une nouvelle classe d'algorithmes de gradient exponentiel généralisé (GEG) utilisant des mises à jour de descente miroir (MD) et appliquant la divergence de Bregman avec une déformation logarithmique à deux paramètres comme fonction de liaison. Cette fonction de liaison (appelée logarithme d'Euler) est associée à une classe relativement large d'entropies de trace. Pour dériver les nouvelles mises à jour GEG/MD, les auteurs estiment une fonction exponentielle déformée qui approxime étroitement la fonction inverse du logarithme déformé à deux paramètres d'Euler. En apprenant ces hyperparamètres, l'algorithme peut s'adapter à la distribution des données d'entraînement et être ajusté pour réaliser les propriétés souhaitées de l'algorithme de descente de gradient.
Les méthodes de descente de gradient existantes présentent les limitations suivantes :
- La descente de gradient additive standard ne s'applique pas lorsque tous les poids doivent être non-négatifs
- Les problèmes de disparition et d'explosion du gradient nécessitent un ajustement précis du taux d'apprentissage
- Manque d'adaptabilité : les mises à jour EG existantes ne peuvent pas s'adapter à des données de distributions différentes et manquent d'hyperparamètres pour contrôler les performances de convergence
- Plausibilité biologique : Les recherches récentes sur les synapses neuronales suggèrent que les mises à jour EG sont plus conformes aux processus d'apprentissage biologique que la GD additive
- Adaptabilité géométrique : En choisissant une fonction de liaison appropriée, la descente miroir peut s'adapter à la structure géométrique du problème d'optimisation
- Richesse théorique : La littérature contient plus de 50 fonctions d'entropie mathématiquement matures et logarithmes déformés associés, fournissant une base théorique riche pour la conception d'algorithmes
- Proposition d'algorithmes EG généralisés basés sur le logarithme Euler à deux paramètres : Application pour la première fois du logarithme Euler (a,b) à la descente miroir et aux mises à jour de gradient exponentiel
- Établissement de la théorie d'approximation des fonctions exponentielles déformées : Fourniture de deux méthodes de résolution via le théorème d'inversion de Lagrange et la fonction Lambert-Tsallis W
- Unification de plusieurs algorithmes connus : Démonstration que plusieurs algorithmes existants (Tsallis, Kaniadakis, Amari, etc.) sont des cas particuliers de ce cadre
- Extension aux poids bipolaires : Proposition d'algorithmes MD/GEG normalisés traitant les vecteurs de poids bipolaires
- Fourniture d'une base théorique mathématique complète : Incluant les propriétés des fonctions, l'analyse de convergence et les considérations de stabilité numérique
Le problème d'optimisation est défini comme :
wt+1=argminw∈R+N{L(wt)+⟨∇L(wt),w−wt⟩+η1DF(w∣∣wt)}
où DF(w∣∣wt) est la divergence de Bregman et L(w) est une fonction de perte différentiable.
loga,bE(x)=a−bxa−xb,x>0,a=b
Contraintes de paramètres : a<0,0<b<1 ou b<0,0<a<1
Approximation en série de puissances obtenue via le théorème d'inversion de Lagrange :
expa,b(x)≈exp(x)−21(a+b)x2−61(3a+3b−2a2−5ab−2b2)x3+O(x4)
wt+1=expa,b[loga,b(wt)−ηt∇L(wt)]=wt⊗a,bexpa,b[−ηt∇L(wt)]
où ⊗a,b est l'opération de multiplication déformée.
Pour les contraintes de simplex unitaire :
w~t+1=wt⊗a,bexpa,b(−ηt∇L^(wt))wt+1=∣∣w~t+1∣∣1w~t+1
où L^(w)=L(w/∣∣w∣∣1) est la fonction de perte normalisée.
- Flexibilité à deux paramètres : Ajustement de l'algorithme via les paramètres (a,b) pour différentes distributions de données
- Cadre unifié : Intégration de plusieurs algorithmes connus dans un cadre mathématique unifié
- Stabilité numérique : Fourniture de méthodes d'implémentation numériquement stables
- Complétude théorique : Établissement d'une théorie mathématique complète incluant les propriétés des fonctions et l'analyse de convergence
L'article procède principalement à une analyse théorique et à des dérivations mathématiques, incluant :
- Vérification des propriétés des fonctions : Monotonie, concavité, normalisation et autres propriétés fondamentales
- Vérification des cas particuliers : Vérification de la correction des algorithmes connus en tant que cas particuliers
- Analyse de la stabilité numérique : Analyse de la sensibilité des paramètres et de la stabilité numérique
- Domaine de paramètres valides : a<0,0<b<1 ou b<0,0<a<1
- Région de stabilité numérique : Plus stable lorsque x→1, nécessite un traitement spécial loin de 1
- Propriétés de convergence : Nécessite l'utilisation de la règle de L'Hospital pour traiter les cas singuliers
- Domaine : loga,b(x):R+→R
- Monotonie : dxdloga,b(x)>0
- Concavité : dx2d2loga,b(x)<0 (dans la plage de paramètres spécifiée)
- Normalisation : loga,b(1)=0, dxdloga,b(x)∣x=1=1
Vérification réussie des cas particuliers suivants :
- a=b=0 : Logarithme naturel standard ln(x)
- a=0,b=−α : Logarithme α-Amari
- a=1−q,b=0 : Logarithme q-Tsallis
- a=κ,b=−κ : Logarithme κ-Kaniadakis
- Sensibilité des paramètres : Les petites valeurs de x sont plus sensibles aux variations de paramètres
- Stabilité numérique : L'algorithme est plus stable lorsque x→1
- Propriétés de convergence : Le comportement limite nécessite un traitement de calcul spécial
La comparaison avec la solution exacte vérifie que l'approximation en série de puissances possède une bonne précision dans une plage de paramètres raisonnable.
- Méthodes classiques : Descente de gradient additive (GD), descente de gradient stochastique (SGD)
- Mises à jour multiplicatives : Descente de gradient exponentiel (EG), descente miroir (MD)
- Méthodes de géométrie informationnelle : Gradient naturel d'Amari, divergence α
- Applications en physique : Entropie de Tsallis, entropie de Kaniadakis dans la physique statistique
- Développement de la théorie de l'information : Entropie de Sharma-Taneja-Mittal, mesures d'information généralisées
- Théorie mathématique : Exponentielle d'Abel, logarithme multi-paramètres de Tempesta
Cet article est le premier à appliquer le logarithme Euler à deux paramètres à l'optimisation en apprentissage automatique, comblant un vide théorique dans ce domaine.
- Complétude théorique : Établissement d'un cadre théorique GEG complet basé sur le logarithme d'Euler
- Flexibilité de l'algorithme : La conception à deux paramètres offre la capacité à s'adapter à différentes distributions de données
- Unicité : Plusieurs algorithmes connus deviennent des cas particuliers de ce cadre
- Praticité : Fourniture de méthodes d'implémentation numériquement stables
- Sélection des paramètres : Manque de méthode systématique d'optimisation des hyperparamètres
- Analyse de convergence : Nécessité d'établir une théorie de convergence pour différents domaines de paramètres
- Vérification d'application pratique : L'article est principalement un travail théorique, manquant de vérification expérimentale dans des scénarios d'application concrets
- Complexité de calcul : Le calcul des fonctions déformées est plus complexe que celui des fonctions standard
- Apprentissage des hyperparamètres : Développement de méthodes systématiques d'optimisation des paramètres
- Théorie de convergence : Établissement d'une analyse de convergence complète
- Vérification d'application : Vérification de l'efficacité dans des tâches concrètes telles que l'apprentissage profond et la sélection de portefeuille
- Optimisation du calcul : Développement de méthodes d'implémentation numérique plus efficaces
- Rigueur mathématique : Fourniture de dérivations mathématiques complètes et d'analyses théoriques
- Cadre unifié : Unification de plusieurs algorithmes apparemment non liés dans un cadre théorique
- Connexion historique : Connexion du travail mathématique d'Euler de 1779 avec l'apprentissage automatique moderne
- Voies d'implémentation multiples : Fourniture de deux méthodes de résolution via la fonction Lambert-Tsallis et les séries de puissances
- Forte extensibilité : Support des poids bipolaires et de diverses conditions de contrainte
- Considérations numériques : Prise en compte suffisante des problèmes de stabilité numérique
- Manque d'applications pratiques : L'article est principalement un travail théorique, manquant de vérification sur des problèmes réels
- Absence de comparaison de performance : Pas de comparaison de performance avec les méthodes existantes
- Sensibilité des paramètres : Manque de guide systématique pour la sélection des paramètres
- Analyse de convergence incomplète : Nécessité de preuves de convergence plus rigoureuses
- Restrictions sur les conditions d'applicabilité : Les contraintes de paramètres sont relativement strictes
- Complexité de calcul : Surcharge de calcul plus importante par rapport aux méthodes standard
- Contribution théorique : Fourniture de nouveaux outils mathématiques pour la théorie des algorithmes d'optimisation
- Connexion interdisciplinaire : Connexion de la physique statistique, de la géométrie informationnelle et de l'apprentissage automatique
- Caractère inspirant : Fourniture d'une base théorique riche pour les recherches ultérieures
- Optimisation adaptative : Valeur potentielle dans les scénarios nécessitant une adaptation à différentes distributions de données
- Apprentissage parcimonieux : Avantages potentiels dans l'apprentissage de représentation parcimonieuse
- Inspiration biologique : Conformité à la plausibilité biologique découverte par les neurosciences
- Optimisation avec contraintes non-négatives : Problèmes d'optimisation où les poids doivent être non-négatifs
- Apprentissage parcimonieux : Tâches d'apprentissage automatique nécessitant des solutions parcimonieuses
- Optimisation sur distributions de probabilité : Optimisation sur le simplex de probabilité, telle que la sélection de portefeuille en ligne
- Apprentissage profond : Avantages potentiels dans l'entraînement de certains réseaux de neurones
L'article cite une littérature riche et pertinente, incluant :
- Littérature classique en théorie de l'optimisation : Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
- Fondamentaux de la géométrie informationnelle : Amari & Nagaoka (2000), Bregman (1967)
- Théorie des logarithmes déformés : Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
- Applications en apprentissage automatique : Kivinen & Warmuth (1997), Cichocki et al. (2009)
Évaluation Globale : Cet article est un travail théorique très solide qui fournit un nouveau cadre mathématique pour les algorithmes d'optimisation. Bien qu'il manque de vérification d'application pratique, sa contribution théorique et son caractère unificateur lui confèrent une valeur académique importante. La valeur principale de l'article réside dans l'établissement d'un pont reliant la théorie mathématique historique à l'apprentissage automatique moderne, fournissant des outils théoriques riches pour les recherches ultérieures.