A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic
Сказание о двух геометриях: адаптивные оптимизаторы и неевклидов спуск
Название: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Авторы: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
В данной работе систематически исследуются существенные различия между двумя семействами алгоритмов — адаптивными оптимизаторами (такими как Adam, Shampoo) и нормализованным наискорейшим спуском (NSD, такими как Lion, Muon) — при использовании структур неевклидовой геометрии. Исследование показывает, что хотя эти методы могут быть эквивалентны при отключении экспоненциального скользящего среднего (EMA), их теоретический анализ опирается на различные геометрические предположения: адаптивные оптимизаторы требуют более сильного условия «адаптивной гладкости» (adaptive smoothness), тогда как NSD нуждается только в стандартной гладкости. В работе теория адаптивной гладкости расширена на невыпуклый случай, и доказано, что она точно характеризует сходимость адаптивных оптимизаторов. Более того, показано, что адаптивная гладкость позволяет адаптивным оптимизаторам с импульсом Нестерова достичь ускорения O(T⁻²) в выпуклом случае, тогда как стандартная гладкость в некоторых неевклидовых геометриях не может гарантировать такой результат. Кроме того, в работе введено понятие «адаптивной дисперсии градиента», доказано, что оно обеспечивает гарантии сходимости NSD без зависимости от размерности, что недостижимо при стандартном предположении о дисперсии градиента.
Данная работа направлена на ответ на два фундаментальных вопроса:
Q1: Используют ли адаптивные методы (такие как Adam, Shampoo) и соответствующие методы неевклидова спуска (такие как Lion, Muon) неевклидову геометрию функции потерь одинаковым образом?
Q2: Приносят ли более сильные предположения о гладкости в адаптивных методах практические преимущества в оптимизации?
Практическая ценность: Адаптивные оптимизаторы, такие как Adam, незаменимы при обучении крупномасштабных моделей машинного обучения (например, LLaMA, DeepSeek), однако недавно простые методы NSD, такие как Lion и Muon, продемонстрировали удивительную эффективность, что вызвало вопросы о существенных различиях между этими двумя классами методов.
Теоретический пробел: Хотя Bernstein & Newhouse (2024) указали на эквивалентность этих методов при отключении EMA (например, Adam эквивалентен ℓ∞-NSD, Shampoo эквивалентен NSD со спектральной нормой), отсутствует систематическая теоретическая характеризация.
Геометрическая перспектива: Превосходная производительность обоих классов методов связана с использованием неевклидовой геометрии функции потерь, однако теоретический анализ опирается на существенно различные геометрические предположения.
Неполная теория сходимости: Теория адаптивной гладкости установлена только в выпуклом случае (Xie et al., 2025b), невыпуклый случай не охарактеризован.
Неясная сила предположений: Адаптивная гладкость всегда не меньше стандартной гладкости, но приносит ли это более сильное предположение практические преимущества, не доказано.
Проблема зависимости от размерности: NSD в стохастической оптимизации имеет зависимость от размерности (например, множитель √d для SignGD), отсутствуют более тонкие предположения о шуме.
Теория сходимости в невыпуклом случае: Расширение теории адаптивной гладкости на невыпуклый случай, доказательство того, что она точно характеризует скорость сходимости адаптивных оптимизаторов (Theorems C.2, C.7, C.8), достигая оптимальной скорости Õ(T⁻¹/⁴).
Гарантии ускоренной сходимости: Доказательство того, что адаптивная гладкость позволяет адаптивным оптимизаторам с импульсом Нестерова достичь скорости ускорения Õ(T⁻²) в выпуклом случае (Theorem 4.4), тогда как при стандартной ℓ∞-гладкости любой оптимизатор может достичь только Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
Адаптивная дисперсия градиента: Введение понятия адаптивной дисперсии градиента (Definition 4.1), доказательство того, что она обеспечивает гарантии сходимости NSD с импульсом без зависимости от размерности (Theorem 4.6), и доказательство нижней границы (Theorem 4.9), показывающей, что зависимость от размерности неизбежна при стандартном предположении о дисперсии.
Единая аналитическая структура: Предоставление единой аналитической структуры, охватывающей широкий спектр адаптивных методов, включая AdaGrad, AdaGrad-Norm, односторонний Shampoo и т.д. Основной технический вклад — новые матричные неравенства (Lemma 3.3, 3.4) для обработки некоммутативных предобусловливателей.
Теоретическое разделение: Систематическое установление количественного разделения между двумя классами геометрических предположений (стандартные vs адаптивные) по двум измерениям — гладкости и шуму, углубляющее теоретическое понимание адаптивности.
где f:Rd→R может быть невыпуклой. В стохастическом случае доступ к целевой функции осуществляется через стохастический градиент ∇ft(x), удовлетворяющий E[∇ft(x)]=∇f(x).
Definition 2.1: H⊆S+d называется хорошо структурированным множеством предобусловливателей, если H=S+d∩K, где K⊆Md — матричная подалгебра, содержащая единичную матрицу.
Примеры:
Множество диагональных матриц D+d (соответствует Adam)
Все положительно полуопределённые матрицы S+d (соответствует полному матричному AdaGrad)
Эта двойственность является ключом к пониманию двух геометрий: ∥⋅∥H — это поточечный супремум всех ∥⋅∥H, а ∥⋅∥H,∗ — поточечный инфимум соответствующих двойственных норм.
Для положительно определённых матриц X,Y, удовлетворяющих Y⪯X, для любых 0≤c≤C:
X−1/2(X−Y)X−1/2⪯π23(logC−logc)(logX−logY)+(π2λmin(X)212cd+π212C−1d)Tr(X−Y)⋅I
Значение:
Когда матрицы коммутируют, можно использовать логарифмическое телескопирование для получения точных границ
В некоммутативном случае второй член количественно определяет «стоимость некоммутативности», вводя множитель logd
Путём тщательного выбора c,C можно контролировать стоимость в пределах logd
Интуиция: Адаптивная дисперсия требует единообразного контроля шума во всех геометриях, индуцированных предобусловливателями, что сильнее, чем контроль только в фиксированной норме.
Примечание: Данная работа является чисто теоретической и не содержит экспериментальной части. Все результаты — это теоретические скорости сходимости и доказательства нижних границ.
Для адаптивного оптимизатора с импульсом Нестерова (Algorithm 2) на выпуклой функции с выбором αt=t+22 и η=D:
E[f(xˉT)−f(x∗)]=O~(T2ΛH(f)D2log2d+T2dϵD+TσHDlogd)
Сравнение:
При адаптивной гладкости: O(T−2) скорость ускорения (детерминированная часть)
При стандартной ℓ∞-гладкости: Guzmán & Nemirovski (2015) доказали, что любой метод первого порядка может достичь только Ω(T−1)
Значение: Доказано, что адаптивная гладкость имеет существенное преимущество — она позволяет достичь ускорения, тогда как стандартная гладкость не может.
Для NSD (Algorithm 3) при адаптивной дисперсии градиента σH:
E[T1∑t=0T−1∥∇f(xt)∥H,∗]≤ηTΔ0+α2ηL∥⋅∥H(f)+αT2σH+2σHα
При оптимальном выборе α=σHTΔ0L∥⋅∥H(f) и η=L∥⋅∥H(f)1/4σH1/2Δ03/4T−3/4:
Скорость=O(T1/4(Δ0L∥⋅∥H(f))1/4σH)
Без зависимости от размерности: По сравнению с O~(ρd/T1/4) из Pethick et al. (2025) (где ρ=supx∥x∥2∥x∥H,∗ может быть Θ(d)), данный результат полностью устраняет зависимость от размерности.
При стандартном предположении о дисперсии ℓ₁ E[∥∇ft(x)−∇f(x)∥12]≤σ2 для SignGD (ℓ∞-NSD) существует сложный пример такой, что:
E[mint∈[T]∥∇f(xt)∥1]=min{e−25−41(dLΔ0σ2)1/4T−1/2,e−25−21σ}
Значение:
Достижение ошибки ϵ<e−25−1/2σ требует T=Ω(ϵ−2(dLΔ0σ2)1/2) шагов
Зависимость от размерности Ω(d1/2) неизбежна при стандартном предположении о дисперсии
Контрастирует с верхней границей без размерности из Theorem 4.6, доказывая существенное преимущество адаптивной дисперсии
Двойственность геометрий: Адаптивные оптимизаторы и NSD, хотя оба используют неевклидову геометрию, опираются на существенно различные геометрические предположения:
Адаптивные оптимизаторы: Требуют адаптивной гладкости ΛH(f), автоматически адаптируются к оптимальному предобусловливателю
NSD: Требуют только стандартной гладкости L∥⋅∥H(f), но нужно предварительно указать норму
Ценность адаптивности: Более сильные адаптивные предположения приносят существенные преимущества:
Ускорение: Достижение O(T⁻²) в выпуклом случае vs Ω(T⁻¹) при стандартных предположениях
Без размерности: Устранение зависимости от размерности в стохастическом случае
Единая теоретическая структура: Первое установление невыпуклой теории сходимости для широкого спектра адаптивных методов, включая односторонний Shampoo. Основная техника — новые матричные неравенства для обработки некоммутативных предобусловливателей.
Точность: Доказательства нижних границ показывают:
Зависимость от размерности Ω(d1/2) неизбежна при стандартном предположении о дисперсии (Theorem 4.9)
Преимущество адаптивной дисперсии — не просто техническое предположение, а существенное различие
Теоретическая работа: Отсутствие экспериментальной проверки теоретических предсказаний (например, фактическое поведение сходимости в разных геометриях)
Константные множители:
Недиагональные предобусловливатели вводят множитель logd (может быть незначительным на практике)
Алгоритм ускорения требует знания D=maxt∥xt−x∗∥H (смягчается проективной версией)
Предположения:
Assumption C.1 (поточечная верхняя граница ковариации) сильнее стандартного предположения об ожидании
Результаты ускорения требуют выпуклости
Область применения:
Как проверить на практике предположение об адаптивной дисперсии?
Какие практические задачи удовлетворяют адаптивной гладкости?
Анализ EMA: Вариант EMA требует выбора β=1−Θ(Tlogd), тогда как на практике часто используется фиксированное β (например, 0.9, 0.999)
Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" — основа данной работы для выпуклого случая
Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" — нижние границы для ℓ∞-гладкости
Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" — последний анализ NSD
Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" — параллельная работа
Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" — эквивалентность Adam и NSD
Gupta et al. (2017): "A unified approach to adaptive regularization" — структура адаптивных оптимизаторов
Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" — основа вогнутости для Lemma A.7
Резюме: Данная работа представляет важный прогресс в теории адаптивной оптимизации, систематически раскрывая существенные различия между адаптивными методами и NSD в геометрических предположениях, и строго доказывая практическую ценность адаптивности. Несмотря на отсутствие экспериментальной проверки, её теоретическая глубина и технические инновации делают её важным справочником в данной области. Основной вклад заключается в установлении полной теоретической системы «двух геометрий», предоставляющей новую перспективу для понимания и разработки адаптивных оптимизационных алгоритмов.