2025-11-11T07:19:09.204233

Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm

Cichocki
IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.
academic

Algorithmes de Gradient Exponentiels Généralisés Utilisant le Logarithme Euler à Deux Paramètres

Informations Fondamentales

  • ID de l'article: 2502.17500
  • Titre: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
  • Auteur: Andrzej Cichocki (Académie Polonaise des Sciences, UMK Torun Pologne, Université de Technologie Agricole de Tokyo, Riken AIP)
  • Classification: cs.LG cs.AI
  • Date de publication: Prépublication arXiv (février 2025)
  • Lien de l'article: https://arxiv.org/abs/2502.17500

Résumé

Cet article propose et étudie une nouvelle classe d'algorithmes de gradient exponentiel généralisé (GEG) utilisant des mises à jour de descente miroir (MD) et appliquant la divergence de Bregman avec une déformation logarithmique à deux paramètres comme fonction de liaison. Cette fonction de liaison (appelée logarithme d'Euler) est associée à une classe relativement large d'entropies de trace. Pour dériver les nouvelles mises à jour GEG/MD, les auteurs estiment une fonction exponentielle déformée qui approxime étroitement la fonction inverse du logarithme déformé à deux paramètres d'Euler. En apprenant ces hyperparamètres, l'algorithme peut s'adapter à la distribution des données d'entraînement et être ajusté pour réaliser les propriétés souhaitées de l'algorithme de descente de gradient.

Contexte et Motivation de la Recherche

Définition du Problème

Les méthodes de descente de gradient existantes présentent les limitations suivantes :

  1. La descente de gradient additive standard ne s'applique pas lorsque tous les poids doivent être non-négatifs
  2. Les problèmes de disparition et d'explosion du gradient nécessitent un ajustement précis du taux d'apprentissage
  3. Manque d'adaptabilité : les mises à jour EG existantes ne peuvent pas s'adapter à des données de distributions différentes et manquent d'hyperparamètres pour contrôler les performances de convergence

Motivation de la Recherche

  1. Plausibilité biologique : Les recherches récentes sur les synapses neuronales suggèrent que les mises à jour EG sont plus conformes aux processus d'apprentissage biologique que la GD additive
  2. Adaptabilité géométrique : En choisissant une fonction de liaison appropriée, la descente miroir peut s'adapter à la structure géométrique du problème d'optimisation
  3. Richesse théorique : La littérature contient plus de 50 fonctions d'entropie mathématiquement matures et logarithmes déformés associés, fournissant une base théorique riche pour la conception d'algorithmes

Contributions Principales

  1. Proposition d'algorithmes EG généralisés basés sur le logarithme Euler à deux paramètres : Application pour la première fois du logarithme Euler (a,b) à la descente miroir et aux mises à jour de gradient exponentiel
  2. Établissement de la théorie d'approximation des fonctions exponentielles déformées : Fourniture de deux méthodes de résolution via le théorème d'inversion de Lagrange et la fonction Lambert-Tsallis W
  3. Unification de plusieurs algorithmes connus : Démonstration que plusieurs algorithmes existants (Tsallis, Kaniadakis, Amari, etc.) sont des cas particuliers de ce cadre
  4. Extension aux poids bipolaires : Proposition d'algorithmes MD/GEG normalisés traitant les vecteurs de poids bipolaires
  5. Fourniture d'une base théorique mathématique complète : Incluant les propriétés des fonctions, l'analyse de convergence et les considérations de stabilité numérique

Détails de la Méthode

Définition de la Tâche

Le problème d'optimisation est défini comme : wt+1=argminwR+N{L(wt)+L(wt),wwt+1ηDF(wwt)}w_{t+1} = \arg\min_{w \in \mathbb{R}_+^N} \left\{ L(w_t) + \langle\nabla L(w_t), w - w_t\rangle + \frac{1}{\eta} D_F(w||w_t) \right\}

DF(wwt)D_F(w||w_t) est la divergence de Bregman et L(w)L(w) est une fonction de perte différentiable.

Cadre Mathématique Principal

Logarithme Euler (a,b)

loga,bE(x)=xaxbab,x>0,ab\log^E_{a,b}(x) = \frac{x^a - x^b}{a - b}, \quad x > 0, a \neq b

Contraintes de paramètres : a<0,0<b<1a < 0, 0 < b < 1 ou b<0,0<a<1b < 0, 0 < a < 1

Fonction Exponentielle Déformée

Approximation en série de puissances obtenue via le théorème d'inversion de Lagrange : expa,b(x)exp(x)12(a+b)x216(3a+3b2a25ab2b2)x3+O(x4)\exp_{a,b}(x) \approx \exp(x) - \frac{1}{2}(a+b)x^2 - \frac{1}{6}(3a+3b-2a^2-5ab-2b^2)x^3 + O(x^4)

Architecture de l'Algorithme

Mise à Jour GEG Non-Normalisée

wt+1=expa,b[loga,b(wt)ηtL(wt)]=wta,bexpa,b[ηtL(wt)]w_{t+1} = \exp_{a,b}[\log_{a,b}(w_t) - \eta_t \nabla L(w_t)] = w_t \otimes_{a,b} \exp_{a,b}[-\eta_t \nabla L(w_t)]

a,b\otimes_{a,b} est l'opération de multiplication déformée.

Mise à Jour GEG Normalisée

Pour les contraintes de simplex unitaire : w~t+1=wta,bexpa,b(ηtL^(wt))\tilde{w}_{t+1} = w_t \otimes_{a,b} \exp_{a,b}(-\eta_t \nabla \hat{L}(w_t))wt+1=w~t+1w~t+11w_{t+1} = \frac{\tilde{w}_{t+1}}{||\tilde{w}_{t+1}||_1}

L^(w)=L(w/w1)\hat{L}(w) = L(w/||w||_1) est la fonction de perte normalisée.

Points d'Innovation Technique

  1. Flexibilité à deux paramètres : Ajustement de l'algorithme via les paramètres (a,b) pour différentes distributions de données
  2. Cadre unifié : Intégration de plusieurs algorithmes connus dans un cadre mathématique unifié
  3. Stabilité numérique : Fourniture de méthodes d'implémentation numériquement stables
  4. Complétude théorique : Établissement d'une théorie mathématique complète incluant les propriétés des fonctions et l'analyse de convergence

Configuration Expérimentale

Vérification Théorique

L'article procède principalement à une analyse théorique et à des dérivations mathématiques, incluant :

  1. Vérification des propriétés des fonctions : Monotonie, concavité, normalisation et autres propriétés fondamentales
  2. Vérification des cas particuliers : Vérification de la correction des algorithmes connus en tant que cas particuliers
  3. Analyse de la stabilité numérique : Analyse de la sensibilité des paramètres et de la stabilité numérique

Analyse de la Plage de Paramètres

  • Domaine de paramètres valides : a<0,0<b<1a < 0, 0 < b < 1 ou b<0,0<a<1b < 0, 0 < a < 1
  • Région de stabilité numérique : Plus stable lorsque x1x \to 1, nécessite un traitement spécial loin de 1
  • Propriétés de convergence : Nécessite l'utilisation de la règle de L'Hospital pour traiter les cas singuliers

Résultats Expérimentaux

Résultats Théoriques

Vérification des Propriétés des Fonctions

  • Domaine : loga,b(x):R+R\log_{a,b}(x): \mathbb{R}_+ \to \mathbb{R}
  • Monotonie : dloga,b(x)dx>0\frac{d\log_{a,b}(x)}{dx} > 0
  • Concavité : d2loga,b(x)dx2<0\frac{d^2\log_{a,b}(x)}{dx^2} < 0 (dans la plage de paramètres spécifiée)
  • Normalisation : loga,b(1)=0\log_{a,b}(1) = 0, dloga,b(x)dxx=1=1\frac{d\log_{a,b}(x)}{dx}|_{x=1} = 1

Récupération des Cas Particuliers

Vérification réussie des cas particuliers suivants :

  • a=b=0a = b = 0 : Logarithme naturel standard ln(x)\ln(x)
  • a=0,b=αa = 0, b = -\alpha : Logarithme α-Amari
  • a=1q,b=0a = 1-q, b = 0 : Logarithme q-Tsallis
  • a=κ,b=κa = \kappa, b = -\kappa : Logarithme κ-Kaniadakis

Résultats de l'Analyse Numérique

Stabilité Numérique

  1. Sensibilité des paramètres : Les petites valeurs de xx sont plus sensibles aux variations de paramètres
  2. Stabilité numérique : L'algorithme est plus stable lorsque x1x \to 1
  3. Propriétés de convergence : Le comportement limite nécessite un traitement de calcul spécial

Précision de l'Approximation en Série de Puissances

La comparaison avec la solution exacte vérifie que l'approximation en série de puissances possède une bonne précision dans une plage de paramètres raisonnable.

Travaux Connexes

Développement des Algorithmes d'Optimisation

  1. Méthodes classiques : Descente de gradient additive (GD), descente de gradient stochastique (SGD)
  2. Mises à jour multiplicatives : Descente de gradient exponentiel (EG), descente miroir (MD)
  3. Méthodes de géométrie informationnelle : Gradient naturel d'Amari, divergence α

Recherche sur les Logarithmes Déformés

  1. Applications en physique : Entropie de Tsallis, entropie de Kaniadakis dans la physique statistique
  2. Développement de la théorie de l'information : Entropie de Sharma-Taneja-Mittal, mesures d'information généralisées
  3. Théorie mathématique : Exponentielle d'Abel, logarithme multi-paramètres de Tempesta

Positionnement de cet Article

Cet article est le premier à appliquer le logarithme Euler à deux paramètres à l'optimisation en apprentissage automatique, comblant un vide théorique dans ce domaine.

Conclusion et Discussion

Conclusions Principales

  1. Complétude théorique : Établissement d'un cadre théorique GEG complet basé sur le logarithme d'Euler
  2. Flexibilité de l'algorithme : La conception à deux paramètres offre la capacité à s'adapter à différentes distributions de données
  3. Unicité : Plusieurs algorithmes connus deviennent des cas particuliers de ce cadre
  4. Praticité : Fourniture de méthodes d'implémentation numériquement stables

Limitations

  1. Sélection des paramètres : Manque de méthode systématique d'optimisation des hyperparamètres
  2. Analyse de convergence : Nécessité d'établir une théorie de convergence pour différents domaines de paramètres
  3. Vérification d'application pratique : L'article est principalement un travail théorique, manquant de vérification expérimentale dans des scénarios d'application concrets
  4. Complexité de calcul : Le calcul des fonctions déformées est plus complexe que celui des fonctions standard

Directions Futures

  1. Apprentissage des hyperparamètres : Développement de méthodes systématiques d'optimisation des paramètres
  2. Théorie de convergence : Établissement d'une analyse de convergence complète
  3. Vérification d'application : Vérification de l'efficacité dans des tâches concrètes telles que l'apprentissage profond et la sélection de portefeuille
  4. Optimisation du calcul : Développement de méthodes d'implémentation numérique plus efficaces

Évaluation Approfondie

Points Forts

Innovativité Théorique

  1. Rigueur mathématique : Fourniture de dérivations mathématiques complètes et d'analyses théoriques
  2. Cadre unifié : Unification de plusieurs algorithmes apparemment non liés dans un cadre théorique
  3. Connexion historique : Connexion du travail mathématique d'Euler de 1779 avec l'apprentissage automatique moderne

Complétude de la Méthode

  1. Voies d'implémentation multiples : Fourniture de deux méthodes de résolution via la fonction Lambert-Tsallis et les séries de puissances
  2. Forte extensibilité : Support des poids bipolaires et de diverses conditions de contrainte
  3. Considérations numériques : Prise en compte suffisante des problèmes de stabilité numérique

Insuffisances

Manque de Vérification Expérimentale

  1. Manque d'applications pratiques : L'article est principalement un travail théorique, manquant de vérification sur des problèmes réels
  2. Absence de comparaison de performance : Pas de comparaison de performance avec les méthodes existantes
  3. Sensibilité des paramètres : Manque de guide systématique pour la sélection des paramètres

Limitations Théoriques

  1. Analyse de convergence incomplète : Nécessité de preuves de convergence plus rigoureuses
  2. Restrictions sur les conditions d'applicabilité : Les contraintes de paramètres sont relativement strictes
  3. Complexité de calcul : Surcharge de calcul plus importante par rapport aux méthodes standard

Influence

Valeur Académique

  1. Contribution théorique : Fourniture de nouveaux outils mathématiques pour la théorie des algorithmes d'optimisation
  2. Connexion interdisciplinaire : Connexion de la physique statistique, de la géométrie informationnelle et de l'apprentissage automatique
  3. Caractère inspirant : Fourniture d'une base théorique riche pour les recherches ultérieures

Potentiel Pratique

  1. Optimisation adaptative : Valeur potentielle dans les scénarios nécessitant une adaptation à différentes distributions de données
  2. Apprentissage parcimonieux : Avantages potentiels dans l'apprentissage de représentation parcimonieuse
  3. Inspiration biologique : Conformité à la plausibilité biologique découverte par les neurosciences

Scénarios Applicables

  1. Optimisation avec contraintes non-négatives : Problèmes d'optimisation où les poids doivent être non-négatifs
  2. Apprentissage parcimonieux : Tâches d'apprentissage automatique nécessitant des solutions parcimonieuses
  3. Optimisation sur distributions de probabilité : Optimisation sur le simplex de probabilité, telle que la sélection de portefeuille en ligne
  4. Apprentissage profond : Avantages potentiels dans l'entraînement de certains réseaux de neurones

Références

L'article cite une littérature riche et pertinente, incluant :

  • Littérature classique en théorie de l'optimisation : Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
  • Fondamentaux de la géométrie informationnelle : Amari & Nagaoka (2000), Bregman (1967)
  • Théorie des logarithmes déformés : Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
  • Applications en apprentissage automatique : Kivinen & Warmuth (1997), Cichocki et al. (2009)

Évaluation Globale : Cet article est un travail théorique très solide qui fournit un nouveau cadre mathématique pour les algorithmes d'optimisation. Bien qu'il manque de vérification d'application pratique, sa contribution théorique et son caractère unificateur lui confèrent une valeur académique importante. La valeur principale de l'article réside dans l'établissement d'un pont reliant la théorie mathématique historique à l'apprentissage automatique moderne, fournissant des outils théoriques riches pour les recherches ultérieures.