2025-11-11T07:19:09.204233

Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm

Cichocki

IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.

academic

Обобщённые алгоритмы экспоненциального градиента с использованием двухпараметрического логарифма Эйлера

Основная информация

ID статьи: 2502.17500
Название: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
Автор: Andrzej Cichocki (Польская академия наук, UMK Торунь Польша, Токийский университет сельского хозяйства и технологий, Riken AIP)
Классификация: cs.LG cs.AI
Дата публикации: препринт arXiv (февраль 2025)
Ссылка на статью: https://arxiv.org/abs/2502.17500

Аннотация

В данной работе предложены и исследованы новые обобщённые алгоритмы экспоненциального градиента (GEG), использующие обновления зеркального спуска (MD) и применяющие дивергенцию Брегмана с двухпараметрической логарифмической деформацией в качестве функции связи. Данная функция связи (называемая логарифмом Эйлера) связана с относительно широким классом энтропий следа. Для вывода новых обновлений GEG/MD авторы аппроксимировали деформированную экспоненциальную функцию, которая тесно приближает обратную функцию двухпараметрического деформированного логарифма Эйлера. Путём обучения этих гиперпараметров алгоритм может адаптироваться к распределению обучающих данных и настраиваться для достижения желаемых свойств алгоритма градиентного спуска.

Исследовательский контекст и мотивация

Определение проблемы

Существующие методы градиентного спуска имеют следующие ограничения:

Стандартный аддитивный градиентный спуск неприменим в случаях, когда все веса должны быть неотрицательными
Проблемы исчезающего и взрывающегося градиента требуют точной настройки скорости обучения
Отсутствие адаптивности: существующие обновления EG не могут адаптироваться к данным различных распределений и не имеют гиперпараметров для управления свойствами сходимости

Исследовательская мотивация

Биологическая обоснованность: недавние исследования синапсов нейронов показывают, что обновления EG более соответствуют биологическому процессу обучения, чем аддитивный GD
Геометрическая адаптивность: выбор подходящей функции связи позволяет зеркальному спуску адаптироваться к геометрической структуре задачи оптимизации
Теоретическое богатство: в литературе существует более 50 математически развитых функций энтропии и связанных деформированных логарифмов, обеспечивающих богатую теоретическую основу для проектирования алгоритмов

Основные вклады

Предложены обобщённые алгоритмы EG на основе двухпараметрического логарифма Эйлера: впервые применён логарифм Эйлера (a,b) к зеркальному спуску и обновлениям экспоненциального градиента
Установлена теория аппроксимации деформированной экспоненциальной функции: предоставлены два метода решения с использованием теоремы обращения Лагранжа и функции Lambert-Tsallis W
Объединены многие известные алгоритмы: доказано, что множество существующих алгоритмов (Tsallis, Kaniadakis, Amari и др.) являются частными случаями данной схемы
Расширение на биполярные веса: предложены нормализованные алгоритмы MD/GEG для обработки векторов с биполярными весами
Предоставлена полная математическая теоретическая база: включая свойства функций, анализ сходимости и рассмотрение вычислительной устойчивости

Подробное описание методов

Определение задачи

Задача оптимизации определяется как: $w_{t+1} = \arg\min_{w \in \mathbb{R}_+^N} \left\{ L(w_t) + \langle\nabla L(w_t), w - w_t\rangle + \frac{1}{\eta} D_F(w||w_t) \right\}$

где $D_F(w||w_t)$ — дивергенция Брегмана, $L(w)$ — дифференцируемая функция потерь.

Основная математическая схема

Логарифм Эйлера (a,b)

$\log^E_{a,b}(x) = \frac{x^a - x^b}{a - b}, \quad x > 0, a \neq b$

Ограничения на параметры: $a < 0, 0 < b < 1$ или $b < 0, 0 < a < 1$

Деформированная экспоненциальная функция

Степенной ряд, полученный с помощью теоремы обращения Лагранжа: $\exp_{a,b}(x) \approx \exp(x) - \frac{1}{2}(a+b)x^2 - \frac{1}{6}(3a+3b-2a^2-5ab-2b^2)x^3 + O(x^4)$

Архитектура алгоритма

Ненормализованное обновление GEG

$w_{t+1} = \exp_{a,b}[\log_{a,b}(w_t) - \eta_t \nabla L(w_t)] = w_t \otimes_{a,b} \exp_{a,b}[-\eta_t \nabla L(w_t)]$

где $\otimes_{a,b}$ — деформированная операция умножения.

Нормализованное обновление GEG

Для ограничений на единичный симплекс: $\tilde{w}_{t+1} = w_t \otimes_{a,b} \exp_{a,b}(-\eta_t \nabla \hat{L}(w_t))$ $w_{t+1} = \frac{\tilde{w}_{t+1}}{||\tilde{w}_{t+1}||_1}$

где $\hat{L}(w) = L(w/||w||_1)$ — нормализованная функция потерь.

Технические инновации

Двухпараметрическая гибкость: параметры (a,b) позволяют алгоритму адаптироваться к различным распределениям данных
Унифицированная схема: объединяет множество известных алгоритмов в единую математическую схему
Численная устойчивость: предоставляет вычислительно устойчивые методы реализации
Теоретическая полнота: устанавливает полную математическую теорию, включая свойства функций и анализ сходимости

Экспериментальная установка

Теоретическая верификация

Статья в основном проводит теоретический анализ и математические выводы, включая:

Верификацию свойств функций: монотонность, вогнутость, нормализацию и другие базовые свойства
Верификацию частных случаев: проверка корректности известных алгоритмов как частных случаев
Анализ численной устойчивости: анализ чувствительности параметров и вычислительной устойчивости

Анализ диапазонов параметров

Область допустимых параметров: $a < 0, 0 < b < 1$ или $b < 0, 0 < a < 1$
Область численной устойчивости: наиболее устойчива при $x \to 1$ , требует специальной обработки при удалении от 1
Свойства сходимости: требуется использование правила L'Hospital для обработки особых случаев

Результаты экспериментов

Теоретические результаты

Верификация свойств функций

Область определения: $\log_{a,b}(x): \mathbb{R}_+ \to \mathbb{R}$
Монотонность: $\frac{d\log_{a,b}(x)}{dx} > 0$
Вогнутость: $\frac{d^2\log_{a,b}(x)}{dx^2} < 0$ (в указанном диапазоне параметров)
Нормализация: $\log_{a,b}(1) = 0$ , $\frac{d\log_{a,b}(x)}{dx}|_{x=1} = 1$

Восстановление частных случаев

Успешно верифицированы следующие частные случаи:

$a = b = 0$ : стандартный натуральный логарифм $\ln(x)$
$a = 0, b = -\alpha$ : α-логарифм Амари
$a = 1-q, b = 0$ : q-логарифм Tsallis
$a = \kappa, b = -\kappa$ : κ-логарифм Kaniadakis

Результаты численного анализа

Вычислительная устойчивость

Чувствительность параметров: малые значения $x$ более чувствительны к изменениям параметров
Численная устойчивость: алгоритм наиболее устойчив при $x \to 1$
Свойства сходимости: предельное поведение требует специальной вычислительной обработки

Точность аппроксимации степенным рядом

Путём сравнения с точными решениями верифицирована хорошая точность аппроксимации степенным рядом в разумном диапазоне параметров.

Связанные работы

Развитие алгоритмов оптимизации

Классические методы: аддитивный градиентный спуск (GD), стохастический градиентный спуск (SGD)
Мультипликативные обновления: экспоненциальный градиентный спуск (EG), зеркальный спуск (MD)
Методы информационной геометрии: естественный градиент Амари, α-дивергенция

Исследования деформированных логарифмов

Приложения в физике: энтропия Tsallis, энтропия Kaniadakis в статистической физике
Развитие информационной теории: энтропия Sharma-Taneja-Mittal, обобщённые информационные меры
Математическая теория: абелева экспонента, многопараметрические логарифмы Tempesta

Позиционирование данной работы

Данная работа впервые применяет двухпараметрический логарифм Эйлера к оптимизации в машинном обучении, заполняя теоретический пробел в этой области.

Заключение и обсуждение

Основные выводы

Теоретическая полнота: установлена полная теоретическая схема GEG на основе логарифма Эйлера
Гибкость алгоритма: двухпараметрическое проектирование обеспечивает способность адаптироваться к различным распределениям данных
Унифицированность: множество известных алгоритмов становятся частными случаями данной схемы
Практичность: предоставляются численно устойчивые методы реализации

Ограничения

Выбор параметров: отсутствуют систематические методы оптимизации гиперпараметров
Анализ сходимости: требуется дальнейшее установление теории сходимости для различных областей параметров
Верификация практического применения: работа в основном является теоретической, не хватает экспериментальной верификации в конкретных сценариях применения
Вычислительная сложность: вычисление деформированных функций более сложно, чем стандартных функций

Направления будущих исследований

Обучение гиперпараметрам: разработка систематических методов оптимизации параметров
Теория сходимости: установление полного анализа сходимости
Верификация применения: проверка эффективности на конкретных задачах глубокого обучения, выбора портфеля и др.
Оптимизация вычислений: разработка более эффективных методов численной реализации

Глубокая оценка

Преимущества

Теоретическая инновационность

Математическая строгость: предоставляет полные математические выводы и теоретический анализ
Унифицированная схема: объединяет множество, казалось бы, не связанных алгоритмов в единую теоретическую схему
Историческая связь: связывает математическую работу Эйлера 1779 года с современным машинным обучением

Полнота методов

Множественные пути реализации: предоставляет два метода решения — через функцию Lambert-Tsallis и степенные ряды
Сильная расширяемость: поддерживает биполярные веса и различные условия ограничений
Численные рассмотрения: полностью учитывает проблемы вычислительной устойчивости

Недостатки

Отсутствие экспериментальной верификации

Недостаток практического применения: работа в основном теоретическая, не хватает верификации на реальных задачах
Отсутствие сравнения производительности: нет сравнения с существующими методами
Чувствительность параметров: отсутствуют систематические рекомендации по выбору параметров

Теоретические ограничения

Неполный анализ сходимости: требуются более строгие доказательства сходимости
Ограничения условий применимости: условия на параметры довольно строгие
Вычислительная сложность: вычислительные затраты больше, чем у стандартных методов

Влияние

Академическая ценность

Теоретический вклад: предоставляет новые математические инструменты для теории оптимизации
Междисциплинарная связь: связывает статистическую физику, информационную геометрию и машинное обучение
Вдохновляющее значение: предоставляет богатую теоретическую основу для последующих исследований

Практический потенциал

Адаптивная оптимизация: имеет потенциальную ценность в сценариях, требующих адаптации к различным распределениям данных
Разреженное обучение: может иметь преимущества в задачах обучения разреженному представлению
Биологическая вдохновлённость: соответствует открытиям нейронауки о биологической обоснованности

Применимые сценарии

Оптимизация с неотрицательными ограничениями: задачи оптимизации, где веса должны быть неотрицательными
Разреженное обучение: задачи машинного обучения, требующие разреженных решений
Оптимизация вероятностных распределений: оптимизация на вероятностном симплексе, такая как выбор портфеля в режиме онлайн
Глубокое обучение: потенциальные преимущества при обучении некоторых типов нейронных сетей

Библиография

Статья цитирует обширную соответствующую литературу, включая:

Классические работы по теории оптимизации: Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
Основы информационной геометрии: Amari & Nagaoka (2000), Bregman (1967)
Теория деформированных логарифмов: Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
Приложения в машинном обучении: Kivinen & Warmuth (1997), Cichocki et al. (2009)

Общая оценка: Это теоретически насыщенная работа, предоставляющая новую математическую схему для алгоритмов оптимизации. Хотя ей не хватает верификации практического применения, её теоретический вклад и унифицирующий характер придают ей значительную академическую ценность. Основная ценность работы заключается в установлении моста между исторической математической теорией и современным машинным обучением, предоставляя богатый теоретический инструментарий для последующих исследований.