2025-11-11T07:19:09.204233

Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm

Cichocki

IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.

academic

Algorithmes de Gradient Exponentiels Généralisés Utilisant le Logarithme Euler à Deux Paramètres

Informations Fondamentales

ID de l'article: 2502.17500
Titre: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
Auteur: Andrzej Cichocki (Académie Polonaise des Sciences, UMK Torun Pologne, Université de Technologie Agricole de Tokyo, Riken AIP)
Classification: cs.LG cs.AI
Date de publication: Prépublication arXiv (février 2025)
Lien de l'article: https://arxiv.org/abs/2502.17500

Résumé

Cet article propose et étudie une nouvelle classe d'algorithmes de gradient exponentiel généralisé (GEG) utilisant des mises à jour de descente miroir (MD) et appliquant la divergence de Bregman avec une déformation logarithmique à deux paramètres comme fonction de liaison. Cette fonction de liaison (appelée logarithme d'Euler) est associée à une classe relativement large d'entropies de trace. Pour dériver les nouvelles mises à jour GEG/MD, les auteurs estiment une fonction exponentielle déformée qui approxime étroitement la fonction inverse du logarithme déformé à deux paramètres d'Euler. En apprenant ces hyperparamètres, l'algorithme peut s'adapter à la distribution des données d'entraînement et être ajusté pour réaliser les propriétés souhaitées de l'algorithme de descente de gradient.

Contexte et Motivation de la Recherche

Définition du Problème

Les méthodes de descente de gradient existantes présentent les limitations suivantes :

La descente de gradient additive standard ne s'applique pas lorsque tous les poids doivent être non-négatifs
Les problèmes de disparition et d'explosion du gradient nécessitent un ajustement précis du taux d'apprentissage
Manque d'adaptabilité : les mises à jour EG existantes ne peuvent pas s'adapter à des données de distributions différentes et manquent d'hyperparamètres pour contrôler les performances de convergence

Motivation de la Recherche

Plausibilité biologique : Les recherches récentes sur les synapses neuronales suggèrent que les mises à jour EG sont plus conformes aux processus d'apprentissage biologique que la GD additive
Adaptabilité géométrique : En choisissant une fonction de liaison appropriée, la descente miroir peut s'adapter à la structure géométrique du problème d'optimisation
Richesse théorique : La littérature contient plus de 50 fonctions d'entropie mathématiquement matures et logarithmes déformés associés, fournissant une base théorique riche pour la conception d'algorithmes

Contributions Principales

Proposition d'algorithmes EG généralisés basés sur le logarithme Euler à deux paramètres : Application pour la première fois du logarithme Euler (a,b) à la descente miroir et aux mises à jour de gradient exponentiel
Établissement de la théorie d'approximation des fonctions exponentielles déformées : Fourniture de deux méthodes de résolution via le théorème d'inversion de Lagrange et la fonction Lambert-Tsallis W
Unification de plusieurs algorithmes connus : Démonstration que plusieurs algorithmes existants (Tsallis, Kaniadakis, Amari, etc.) sont des cas particuliers de ce cadre
Extension aux poids bipolaires : Proposition d'algorithmes MD/GEG normalisés traitant les vecteurs de poids bipolaires
Fourniture d'une base théorique mathématique complète : Incluant les propriétés des fonctions, l'analyse de convergence et les considérations de stabilité numérique

Détails de la Méthode

Définition de la Tâche

Le problème d'optimisation est défini comme : $w_{t+1} = \arg\min_{w \in \mathbb{R}_+^N} \left\{ L(w_t) + \langle\nabla L(w_t), w - w_t\rangle + \frac{1}{\eta} D_F(w||w_t) \right\}$

où $D_F(w||w_t)$ est la divergence de Bregman et $L(w)$ est une fonction de perte différentiable.

Cadre Mathématique Principal

Logarithme Euler (a,b)

$\log^E_{a,b}(x) = \frac{x^a - x^b}{a - b}, \quad x > 0, a \neq b$

Contraintes de paramètres : $a < 0, 0 < b < 1$ ou $b < 0, 0 < a < 1$

Fonction Exponentielle Déformée

Approximation en série de puissances obtenue via le théorème d'inversion de Lagrange : $\exp_{a,b}(x) \approx \exp(x) - \frac{1}{2}(a+b)x^2 - \frac{1}{6}(3a+3b-2a^2-5ab-2b^2)x^3 + O(x^4)$

Architecture de l'Algorithme

Mise à Jour GEG Non-Normalisée

$w_{t+1} = \exp_{a,b}[\log_{a,b}(w_t) - \eta_t \nabla L(w_t)] = w_t \otimes_{a,b} \exp_{a,b}[-\eta_t \nabla L(w_t)]$

où $\otimes_{a,b}$ est l'opération de multiplication déformée.

Mise à Jour GEG Normalisée

Pour les contraintes de simplex unitaire : $\tilde{w}_{t+1} = w_t \otimes_{a,b} \exp_{a,b}(-\eta_t \nabla \hat{L}(w_t))$ $w_{t+1} = \frac{\tilde{w}_{t+1}}{||\tilde{w}_{t+1}||_1}$

où $\hat{L}(w) = L(w/||w||_1)$ est la fonction de perte normalisée.

Points d'Innovation Technique

Flexibilité à deux paramètres : Ajustement de l'algorithme via les paramètres (a,b) pour différentes distributions de données
Cadre unifié : Intégration de plusieurs algorithmes connus dans un cadre mathématique unifié
Stabilité numérique : Fourniture de méthodes d'implémentation numériquement stables
Complétude théorique : Établissement d'une théorie mathématique complète incluant les propriétés des fonctions et l'analyse de convergence

Configuration Expérimentale

Vérification Théorique

L'article procède principalement à une analyse théorique et à des dérivations mathématiques, incluant :

Vérification des propriétés des fonctions : Monotonie, concavité, normalisation et autres propriétés fondamentales
Vérification des cas particuliers : Vérification de la correction des algorithmes connus en tant que cas particuliers
Analyse de la stabilité numérique : Analyse de la sensibilité des paramètres et de la stabilité numérique

Analyse de la Plage de Paramètres

Domaine de paramètres valides : $a < 0, 0 < b < 1$ ou $b < 0, 0 < a < 1$
Région de stabilité numérique : Plus stable lorsque $x \to 1$ , nécessite un traitement spécial loin de 1
Propriétés de convergence : Nécessite l'utilisation de la règle de L'Hospital pour traiter les cas singuliers

Résultats Expérimentaux

Résultats Théoriques

Vérification des Propriétés des Fonctions

Domaine : $\log_{a,b}(x): \mathbb{R}_+ \to \mathbb{R}$
Monotonie : $\frac{d\log_{a,b}(x)}{dx} > 0$
Concavité : $\frac{d^2\log_{a,b}(x)}{dx^2} < 0$ (dans la plage de paramètres spécifiée)
Normalisation : $\log_{a,b}(1) = 0$ , $\frac{d\log_{a,b}(x)}{dx}|_{x=1} = 1$

Récupération des Cas Particuliers

Vérification réussie des cas particuliers suivants :

$a = b = 0$ : Logarithme naturel standard $\ln(x)$
$a = 0, b = -\alpha$ : Logarithme α-Amari
$a = 1-q, b = 0$ : Logarithme q-Tsallis
$a = \kappa, b = -\kappa$ : Logarithme κ-Kaniadakis

Résultats de l'Analyse Numérique

Stabilité Numérique

Sensibilité des paramètres : Les petites valeurs de $x$ sont plus sensibles aux variations de paramètres
Stabilité numérique : L'algorithme est plus stable lorsque $x \to 1$
Propriétés de convergence : Le comportement limite nécessite un traitement de calcul spécial

Précision de l'Approximation en Série de Puissances

La comparaison avec la solution exacte vérifie que l'approximation en série de puissances possède une bonne précision dans une plage de paramètres raisonnable.

Travaux Connexes

Développement des Algorithmes d'Optimisation

Méthodes classiques : Descente de gradient additive (GD), descente de gradient stochastique (SGD)
Mises à jour multiplicatives : Descente de gradient exponentiel (EG), descente miroir (MD)
Méthodes de géométrie informationnelle : Gradient naturel d'Amari, divergence α

Recherche sur les Logarithmes Déformés

Applications en physique : Entropie de Tsallis, entropie de Kaniadakis dans la physique statistique
Développement de la théorie de l'information : Entropie de Sharma-Taneja-Mittal, mesures d'information généralisées
Théorie mathématique : Exponentielle d'Abel, logarithme multi-paramètres de Tempesta

Positionnement de cet Article

Cet article est le premier à appliquer le logarithme Euler à deux paramètres à l'optimisation en apprentissage automatique, comblant un vide théorique dans ce domaine.

Conclusion et Discussion

Conclusions Principales

Complétude théorique : Établissement d'un cadre théorique GEG complet basé sur le logarithme d'Euler
Flexibilité de l'algorithme : La conception à deux paramètres offre la capacité à s'adapter à différentes distributions de données
Unicité : Plusieurs algorithmes connus deviennent des cas particuliers de ce cadre
Praticité : Fourniture de méthodes d'implémentation numériquement stables

Limitations

Sélection des paramètres : Manque de méthode systématique d'optimisation des hyperparamètres
Analyse de convergence : Nécessité d'établir une théorie de convergence pour différents domaines de paramètres
Vérification d'application pratique : L'article est principalement un travail théorique, manquant de vérification expérimentale dans des scénarios d'application concrets
Complexité de calcul : Le calcul des fonctions déformées est plus complexe que celui des fonctions standard

Directions Futures

Apprentissage des hyperparamètres : Développement de méthodes systématiques d'optimisation des paramètres
Théorie de convergence : Établissement d'une analyse de convergence complète
Vérification d'application : Vérification de l'efficacité dans des tâches concrètes telles que l'apprentissage profond et la sélection de portefeuille
Optimisation du calcul : Développement de méthodes d'implémentation numérique plus efficaces

Évaluation Approfondie

Points Forts

Innovativité Théorique

Rigueur mathématique : Fourniture de dérivations mathématiques complètes et d'analyses théoriques
Cadre unifié : Unification de plusieurs algorithmes apparemment non liés dans un cadre théorique
Connexion historique : Connexion du travail mathématique d'Euler de 1779 avec l'apprentissage automatique moderne

Complétude de la Méthode

Voies d'implémentation multiples : Fourniture de deux méthodes de résolution via la fonction Lambert-Tsallis et les séries de puissances
Forte extensibilité : Support des poids bipolaires et de diverses conditions de contrainte
Considérations numériques : Prise en compte suffisante des problèmes de stabilité numérique

Insuffisances

Manque de Vérification Expérimentale

Manque d'applications pratiques : L'article est principalement un travail théorique, manquant de vérification sur des problèmes réels
Absence de comparaison de performance : Pas de comparaison de performance avec les méthodes existantes
Sensibilité des paramètres : Manque de guide systématique pour la sélection des paramètres

Limitations Théoriques

Analyse de convergence incomplète : Nécessité de preuves de convergence plus rigoureuses
Restrictions sur les conditions d'applicabilité : Les contraintes de paramètres sont relativement strictes
Complexité de calcul : Surcharge de calcul plus importante par rapport aux méthodes standard

Influence

Valeur Académique

Contribution théorique : Fourniture de nouveaux outils mathématiques pour la théorie des algorithmes d'optimisation
Connexion interdisciplinaire : Connexion de la physique statistique, de la géométrie informationnelle et de l'apprentissage automatique
Caractère inspirant : Fourniture d'une base théorique riche pour les recherches ultérieures

Potentiel Pratique

Optimisation adaptative : Valeur potentielle dans les scénarios nécessitant une adaptation à différentes distributions de données
Apprentissage parcimonieux : Avantages potentiels dans l'apprentissage de représentation parcimonieuse
Inspiration biologique : Conformité à la plausibilité biologique découverte par les neurosciences

Scénarios Applicables

Optimisation avec contraintes non-négatives : Problèmes d'optimisation où les poids doivent être non-négatifs
Apprentissage parcimonieux : Tâches d'apprentissage automatique nécessitant des solutions parcimonieuses
Optimisation sur distributions de probabilité : Optimisation sur le simplex de probabilité, telle que la sélection de portefeuille en ligne
Apprentissage profond : Avantages potentiels dans l'entraînement de certains réseaux de neurones

Références

L'article cite une littérature riche et pertinente, incluant :

Littérature classique en théorie de l'optimisation : Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
Fondamentaux de la géométrie informationnelle : Amari & Nagaoka (2000), Bregman (1967)
Théorie des logarithmes déformés : Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
Applications en apprentissage automatique : Kivinen & Warmuth (1997), Cichocki et al. (2009)

Évaluation Globale : Cet article est un travail théorique très solide qui fournit un nouveau cadre mathématique pour les algorithmes d'optimisation. Bien qu'il manque de vérification d'application pratique, sa contribution théorique et son caractère unificateur lui confèrent une valeur académique importante. La valeur principale de l'article réside dans l'établissement d'un pont reliant la théorie mathématique historique à l'apprentissage automatique moderne, fournissant des outils théoriques riches pour les recherches ultérieures.