IIn this paper we propose and investigate a new class of Generalized Exponentiated Gradient (GEG) algorithms using Mirror Descent (MD) updates, and applying the Bregman divergence with a two--parameter
deformation of the logarithm as a link function. This link function (referred here to as the Euler logarithm) is associated with a relatively wide class of trace--form entropies. In order to derive novel GEG/MD updates, we estimate a deformed exponential function, which closely approximates the inverse of the Euler two--parameter deformed logarithm. The characteristic shape and properties of the Euler logarithm and its inverse--deformed exponential functions, are tuned by two hyperparameters. By learning these hyperparameters, we can adapt to the distribution of training data and adjust them to achieve desired properties of gradient descent algorithms. In the literature, there exist nowadays more than fifty mathematically well-established entropic functionals and associated deformed logarithms, so it is impossible to investigate all of them in one research paper. Therefore, we focus here on a class of trace-form entropies and the associated deformed two--parameters logarithms.
- ID статьи: 2502.17500
- Название: Generalized Exponentiated Gradient Algorithms Using the Euler Two-Parameter Logarithm
- Автор: Andrzej Cichocki (Польская академия наук, UMK Торунь Польша, Токийский университет сельского хозяйства и технологий, Riken AIP)
- Классификация: cs.LG cs.AI
- Дата публикации: препринт arXiv (февраль 2025)
- Ссылка на статью: https://arxiv.org/abs/2502.17500
В данной работе предложены и исследованы новые обобщённые алгоритмы экспоненциального градиента (GEG), использующие обновления зеркального спуска (MD) и применяющие дивергенцию Брегмана с двухпараметрической логарифмической деформацией в качестве функции связи. Данная функция связи (называемая логарифмом Эйлера) связана с относительно широким классом энтропий следа. Для вывода новых обновлений GEG/MD авторы аппроксимировали деформированную экспоненциальную функцию, которая тесно приближает обратную функцию двухпараметрического деформированного логарифма Эйлера. Путём обучения этих гиперпараметров алгоритм может адаптироваться к распределению обучающих данных и настраиваться для достижения желаемых свойств алгоритма градиентного спуска.
Существующие методы градиентного спуска имеют следующие ограничения:
- Стандартный аддитивный градиентный спуск неприменим в случаях, когда все веса должны быть неотрицательными
- Проблемы исчезающего и взрывающегося градиента требуют точной настройки скорости обучения
- Отсутствие адаптивности: существующие обновления EG не могут адаптироваться к данным различных распределений и не имеют гиперпараметров для управления свойствами сходимости
- Биологическая обоснованность: недавние исследования синапсов нейронов показывают, что обновления EG более соответствуют биологическому процессу обучения, чем аддитивный GD
- Геометрическая адаптивность: выбор подходящей функции связи позволяет зеркальному спуску адаптироваться к геометрической структуре задачи оптимизации
- Теоретическое богатство: в литературе существует более 50 математически развитых функций энтропии и связанных деформированных логарифмов, обеспечивающих богатую теоретическую основу для проектирования алгоритмов
- Предложены обобщённые алгоритмы EG на основе двухпараметрического логарифма Эйлера: впервые применён логарифм Эйлера (a,b) к зеркальному спуску и обновлениям экспоненциального градиента
- Установлена теория аппроксимации деформированной экспоненциальной функции: предоставлены два метода решения с использованием теоремы обращения Лагранжа и функции Lambert-Tsallis W
- Объединены многие известные алгоритмы: доказано, что множество существующих алгоритмов (Tsallis, Kaniadakis, Amari и др.) являются частными случаями данной схемы
- Расширение на биполярные веса: предложены нормализованные алгоритмы MD/GEG для обработки векторов с биполярными весами
- Предоставлена полная математическая теоретическая база: включая свойства функций, анализ сходимости и рассмотрение вычислительной устойчивости
Задача оптимизации определяется как:
wt+1=argminw∈R+N{L(wt)+⟨∇L(wt),w−wt⟩+η1DF(w∣∣wt)}
где DF(w∣∣wt) — дивергенция Брегмана, L(w) — дифференцируемая функция потерь.
loga,bE(x)=a−bxa−xb,x>0,a=b
Ограничения на параметры: a<0,0<b<1 или b<0,0<a<1
Степенной ряд, полученный с помощью теоремы обращения Лагранжа:
expa,b(x)≈exp(x)−21(a+b)x2−61(3a+3b−2a2−5ab−2b2)x3+O(x4)
wt+1=expa,b[loga,b(wt)−ηt∇L(wt)]=wt⊗a,bexpa,b[−ηt∇L(wt)]
где ⊗a,b — деформированная операция умножения.
Для ограничений на единичный симплекс:
w~t+1=wt⊗a,bexpa,b(−ηt∇L^(wt))wt+1=∣∣w~t+1∣∣1w~t+1
где L^(w)=L(w/∣∣w∣∣1) — нормализованная функция потерь.
- Двухпараметрическая гибкость: параметры (a,b) позволяют алгоритму адаптироваться к различным распределениям данных
- Унифицированная схема: объединяет множество известных алгоритмов в единую математическую схему
- Численная устойчивость: предоставляет вычислительно устойчивые методы реализации
- Теоретическая полнота: устанавливает полную математическую теорию, включая свойства функций и анализ сходимости
Статья в основном проводит теоретический анализ и математические выводы, включая:
- Верификацию свойств функций: монотонность, вогнутость, нормализацию и другие базовые свойства
- Верификацию частных случаев: проверка корректности известных алгоритмов как частных случаев
- Анализ численной устойчивости: анализ чувствительности параметров и вычислительной устойчивости
- Область допустимых параметров: a<0,0<b<1 или b<0,0<a<1
- Область численной устойчивости: наиболее устойчива при x→1, требует специальной обработки при удалении от 1
- Свойства сходимости: требуется использование правила L'Hospital для обработки особых случаев
- Область определения: loga,b(x):R+→R
- Монотонность: dxdloga,b(x)>0
- Вогнутость: dx2d2loga,b(x)<0 (в указанном диапазоне параметров)
- Нормализация: loga,b(1)=0, dxdloga,b(x)∣x=1=1
Успешно верифицированы следующие частные случаи:
- a=b=0: стандартный натуральный логарифм ln(x)
- a=0,b=−α: α-логарифм Амари
- a=1−q,b=0: q-логарифм Tsallis
- a=κ,b=−κ: κ-логарифм Kaniadakis
- Чувствительность параметров: малые значения x более чувствительны к изменениям параметров
- Численная устойчивость: алгоритм наиболее устойчив при x→1
- Свойства сходимости: предельное поведение требует специальной вычислительной обработки
Путём сравнения с точными решениями верифицирована хорошая точность аппроксимации степенным рядом в разумном диапазоне параметров.
- Классические методы: аддитивный градиентный спуск (GD), стохастический градиентный спуск (SGD)
- Мультипликативные обновления: экспоненциальный градиентный спуск (EG), зеркальный спуск (MD)
- Методы информационной геометрии: естественный градиент Амари, α-дивергенция
- Приложения в физике: энтропия Tsallis, энтропия Kaniadakis в статистической физике
- Развитие информационной теории: энтропия Sharma-Taneja-Mittal, обобщённые информационные меры
- Математическая теория: абелева экспонента, многопараметрические логарифмы Tempesta
Данная работа впервые применяет двухпараметрический логарифм Эйлера к оптимизации в машинном обучении, заполняя теоретический пробел в этой области.
- Теоретическая полнота: установлена полная теоретическая схема GEG на основе логарифма Эйлера
- Гибкость алгоритма: двухпараметрическое проектирование обеспечивает способность адаптироваться к различным распределениям данных
- Унифицированность: множество известных алгоритмов становятся частными случаями данной схемы
- Практичность: предоставляются численно устойчивые методы реализации
- Выбор параметров: отсутствуют систематические методы оптимизации гиперпараметров
- Анализ сходимости: требуется дальнейшее установление теории сходимости для различных областей параметров
- Верификация практического применения: работа в основном является теоретической, не хватает экспериментальной верификации в конкретных сценариях применения
- Вычислительная сложность: вычисление деформированных функций более сложно, чем стандартных функций
- Обучение гиперпараметрам: разработка систематических методов оптимизации параметров
- Теория сходимости: установление полного анализа сходимости
- Верификация применения: проверка эффективности на конкретных задачах глубокого обучения, выбора портфеля и др.
- Оптимизация вычислений: разработка более эффективных методов численной реализации
- Математическая строгость: предоставляет полные математические выводы и теоретический анализ
- Унифицированная схема: объединяет множество, казалось бы, не связанных алгоритмов в единую теоретическую схему
- Историческая связь: связывает математическую работу Эйлера 1779 года с современным машинным обучением
- Множественные пути реализации: предоставляет два метода решения — через функцию Lambert-Tsallis и степенные ряды
- Сильная расширяемость: поддерживает биполярные веса и различные условия ограничений
- Численные рассмотрения: полностью учитывает проблемы вычислительной устойчивости
- Недостаток практического применения: работа в основном теоретическая, не хватает верификации на реальных задачах
- Отсутствие сравнения производительности: нет сравнения с существующими методами
- Чувствительность параметров: отсутствуют систематические рекомендации по выбору параметров
- Неполный анализ сходимости: требуются более строгие доказательства сходимости
- Ограничения условий применимости: условия на параметры довольно строгие
- Вычислительная сложность: вычислительные затраты больше, чем у стандартных методов
- Теоретический вклад: предоставляет новые математические инструменты для теории оптимизации
- Междисциплинарная связь: связывает статистическую физику, информационную геометрию и машинное обучение
- Вдохновляющее значение: предоставляет богатую теоретическую основу для последующих исследований
- Адаптивная оптимизация: имеет потенциальную ценность в сценариях, требующих адаптации к различным распределениям данных
- Разреженное обучение: может иметь преимущества в задачах обучения разреженному представлению
- Биологическая вдохновлённость: соответствует открытиям нейронауки о биологической обоснованности
- Оптимизация с неотрицательными ограничениями: задачи оптимизации, где веса должны быть неотрицательными
- Разреженное обучение: задачи машинного обучения, требующие разреженных решений
- Оптимизация вероятностных распределений: оптимизация на вероятностном симплексе, такая как выбор портфеля в режиме онлайн
- Глубокое обучение: потенциальные преимущества при обучении некоторых типов нейронных сетей
Статья цитирует обширную соответствующую литературу, включая:
- Классические работы по теории оптимизации: Nemirovsky & Yudin (1983), Beck & Teboulle (2003)
- Основы информационной геометрии: Amari & Nagaoka (2000), Bregman (1967)
- Теория деформированных логарифмов: Tsallis (1988), Kaniadakis (2002), Tempesta (2015)
- Приложения в машинном обучении: Kivinen & Warmuth (1997), Cichocki et al. (2009)
Общая оценка: Это теоретически насыщенная работа, предоставляющая новую математическую схему для алгоритмов оптимизации. Хотя ей не хватает верификации практического применения, её теоретический вклад и унифицирующий характер придают ей значительную академическую ценность. Основная ценность работы заключается в установлении моста между исторической математической теорией и современным машинным обучением, предоставляя богатый теоретический инструментарий для последующих исследований.