2025-11-27T08:46:18.590812

A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent

Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic

Сказание о двух геометриях: адаптивные оптимизаторы и неевклидов спуск

Основная информация

  • ID статьи: 2511.20584
  • Название: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
  • Авторы: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
  • Категория: cs.LG (Машинное обучение)
  • Дата публикации: 25 ноября 2025 г. (arXiv v1)
  • Ссылка на статью: https://arxiv.org/abs/2511.20584

Аннотация

В данной работе систематически исследуются существенные различия между двумя семействами алгоритмов — адаптивными оптимизаторами (такими как Adam, Shampoo) и нормализованным наискорейшим спуском (NSD, такими как Lion, Muon) — при использовании структур неевклидовой геометрии. Исследование показывает, что хотя эти методы могут быть эквивалентны при отключении экспоненциального скользящего среднего (EMA), их теоретический анализ опирается на различные геометрические предположения: адаптивные оптимизаторы требуют более сильного условия «адаптивной гладкости» (adaptive smoothness), тогда как NSD нуждается только в стандартной гладкости. В работе теория адаптивной гладкости расширена на невыпуклый случай, и доказано, что она точно характеризует сходимость адаптивных оптимизаторов. Более того, показано, что адаптивная гладкость позволяет адаптивным оптимизаторам с импульсом Нестерова достичь ускорения O(T⁻²) в выпуклом случае, тогда как стандартная гладкость в некоторых неевклидовых геометриях не может гарантировать такой результат. Кроме того, в работе введено понятие «адаптивной дисперсии градиента», доказано, что оно обеспечивает гарантии сходимости NSD без зависимости от размерности, что недостижимо при стандартном предположении о дисперсии градиента.

Исследовательский контекст и мотивация

Основные вопросы

Данная работа направлена на ответ на два фундаментальных вопроса:

  1. Q1: Используют ли адаптивные методы (такие как Adam, Shampoo) и соответствующие методы неевклидова спуска (такие как Lion, Muon) неевклидову геометрию функции потерь одинаковым образом?
  2. Q2: Приносят ли более сильные предположения о гладкости в адаптивных методах практические преимущества в оптимизации?

Значимость исследования

  • Практическая ценность: Адаптивные оптимизаторы, такие как Adam, незаменимы при обучении крупномасштабных моделей машинного обучения (например, LLaMA, DeepSeek), однако недавно простые методы NSD, такие как Lion и Muon, продемонстрировали удивительную эффективность, что вызвало вопросы о существенных различиях между этими двумя классами методов.
  • Теоретический пробел: Хотя Bernstein & Newhouse (2024) указали на эквивалентность этих методов при отключении EMA (например, Adam эквивалентен ℓ∞-NSD, Shampoo эквивалентен NSD со спектральной нормой), отсутствует систематическая теоретическая характеризация.
  • Геометрическая перспектива: Превосходная производительность обоих классов методов связана с использованием неевклидовой геометрии функции потерь, однако теоретический анализ опирается на существенно различные геометрические предположения.

Ограничения существующих методов

  1. Неполная теория сходимости: Теория адаптивной гладкости установлена только в выпуклом случае (Xie et al., 2025b), невыпуклый случай не охарактеризован.
  2. Неясная сила предположений: Адаптивная гладкость всегда не меньше стандартной гладкости, но приносит ли это более сильное предположение практические преимущества, не доказано.
  3. Проблема зависимости от размерности: NSD в стохастической оптимизации имеет зависимость от размерности (например, множитель √d для SignGD), отсутствуют более тонкие предположения о шуме.

Основные вклады

  1. Теория сходимости в невыпуклом случае: Расширение теории адаптивной гладкости на невыпуклый случай, доказательство того, что она точно характеризует скорость сходимости адаптивных оптимизаторов (Theorems C.2, C.7, C.8), достигая оптимальной скорости Õ(T⁻¹/⁴).
  2. Гарантии ускоренной сходимости: Доказательство того, что адаптивная гладкость позволяет адаптивным оптимизаторам с импульсом Нестерова достичь скорости ускорения Õ(T⁻²) в выпуклом случае (Theorem 4.4), тогда как при стандартной ℓ∞-гладкости любой оптимизатор может достичь только Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
  3. Адаптивная дисперсия градиента: Введение понятия адаптивной дисперсии градиента (Definition 4.1), доказательство того, что она обеспечивает гарантии сходимости NSD с импульсом без зависимости от размерности (Theorem 4.6), и доказательство нижней границы (Theorem 4.9), показывающей, что зависимость от размерности неизбежна при стандартном предположении о дисперсии.
  4. Единая аналитическая структура: Предоставление единой аналитической структуры, охватывающей широкий спектр адаптивных методов, включая AdaGrad, AdaGrad-Norm, односторонний Shampoo и т.д. Основной технический вклад — новые матричные неравенства (Lemma 3.3, 3.4) для обработки некоммутативных предобусловливателей.
  5. Теоретическое разделение: Систематическое установление количественного разделения между двумя классами геометрических предположений (стандартные vs адаптивные) по двум измерениям — гладкости и шуму, углубляющее теоретическое понимание адаптивности.

Подробное описание методов

Определение задачи

Рассмотрим задачу оптимизации: minxRdf(x)\min_{x \in \mathbb{R}^d} f(x)

где f:RdRf: \mathbb{R}^d \to \mathbb{R} может быть невыпуклой. В стохастическом случае доступ к целевой функции осуществляется через стохастический градиент ft(x)\nabla f_t(x), удовлетворяющий E[ft(x)]=f(x)\mathbb{E}[\nabla f_t(x)] = \nabla f(x).

Основные концепции

1. Хорошо структурированное множество предобусловливателей (Well-structured Preconditioner Set)

Definition 2.1: HS+d\mathcal{H} \subseteq \mathbb{S}_+^d называется хорошо структурированным множеством предобусловливателей, если H=S+dK\mathcal{H} = \mathbb{S}_+^d \cap \mathcal{K}, где KMd\mathcal{K} \subseteq \mathbb{M}^d — матричная подалгебра, содержащая единичную матрицу.

Примеры:

  • Множество диагональных матриц D+d\mathcal{D}_+^d (соответствует Adam)
  • Все положительно полуопределённые матрицы S+d\mathbb{S}_+^d (соответствует полному матричному AdaGrad)
  • Скалярные матрицы {cId:c>0}\{cI_d: c>0\} (соответствует AdaGrad-Norm)
  • Структура Кронекерова произведения SdL+IdR\mathbb{S}_{d_L}^+ \otimes I_{d_R} (соответствует одностороннему Shampoo)

2. Индуцированные нормы и двойственные нормы

Для хорошо структурированного множества предобусловливателей H\mathcal{H} определим индуцированную норму: xH:=supHH,Tr(H)1xH=supHH,Tr(H)1xHx\|x\|_{\mathcal{H}} := \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_H = \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sqrt{x^\top H x}

Lemma 2.2: Двойственная норма удовлетворяет xH,=infHH,Tr(H)1xH1\|x\|_{\mathcal{H},*} = \inf_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_{H^{-1}}

Эта двойственность является ключом к пониманию двух геометрий: H\|\cdot\|_{\mathcal{H}} — это поточечный супремум всех H\|\cdot\|_H, а H,\|\cdot\|_{\mathcal{H},*} — поточечный инфимум соответствующих двойственных норм.

3. Два типа гладкости

Стандартная гладкость (Definition 2.3): L(f):=min{L:f(x)f(y)Lxy,x,y}L_{\|\cdot\|}(f) := \min\{L: \|\nabla f(x) - \nabla f(y)\|_* \leq L\|x-y\|, \forall x,y\}

Адаптивная гладкость (Definition 2.4): ΛH(f):=minHH,Tr(H)1LH(f)=minHH,x:H2f(x)HTr(H)\Lambda_{\mathcal{H}}(f) := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} L_{\|\cdot\|_H}(f) = \min_{H \in \mathcal{H}, \forall x: -H \preceq \nabla^2 f(x) \preceq H} \text{Tr}(H)

Соотношение (Proposition 2.5): LH(f)ΛH(f)dLH(f)L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f)

Адаптивная гладкость всегда не меньше стандартной гладкости, но отличается не более чем на множитель размерности dd.

Единая структура адаптивного оптимизатора (Algorithm 1)

Структура алгоритма:

Вход: начальная точка x₀, скорость обучения η, множество предобусловливателей H, 
       константа стабилизации ϵ
Инициализация: M₋₁ = 0
Для t = 0, 1, ..., T-1:
    gₜ ← ∇fₜ(xₜ)
    Mₜ ← способ накопления(Mₜ₋₁, gₜ)  // три варианта
    Vₜ ← argmin_{H∈H} ⟨Mₜ + ϵI, H⁻¹⟩ + Tr(H)
    xₜ₊₁ ← xₜ - ηVₜ⁻¹gₜ
Возвращаем x_T

Три варианта накопления:

  1. Кумулятивный (Cumulative): Mt=Mt1+gtgtM_t = M_{t-1} + g_t g_t^\top (AdaGrad)
  2. EMA тип: Mt=βMt1+(1β)gtgtM_t = \beta M_{t-1} + (1-\beta)g_t g_t^\top (Adam)
  3. Взвешенный (Weighted): Mt=βMt1+gtgtM_t = \beta M_{t-1} + g_t g_t^\top (для единого анализа)

Ключевое наблюдение: Vt=PH(Mt+ϵI)V_t = \mathcal{P}_{\mathcal{H}}(M_t + \epsilon I), где PH(M)2\mathcal{P}_{\mathcal{H}}(M)^2 — проекция MM на H\mathcal{H} (Lemma A.4).

Технические инновации

1. Новое матричное неравенство (Lemma 3.4)

Для положительно определённых матриц X,YX, Y, удовлетворяющих YXY \preceq X, для любых 0cC0 \leq c \leq C: X1/2(XY)X1/23(logClogc)π2(logXlogY)+(12cdπ2λmin(X)2+12C1dπ2)Tr(XY)IX^{-1/2}(X-Y)X^{-1/2} \preceq \frac{3(\log C - \log c)}{\pi^2}(\log X - \log Y) + \left(\frac{12cd}{\pi^2\lambda_{\min}(X)^2} + \frac{12C^{-1}d}{\pi^2}\right)\text{Tr}(X-Y) \cdot I

Значение:

  • Когда матрицы коммутируют, можно использовать логарифмическое телескопирование для получения точных границ
  • В некоммутативном случае второй член количественно определяет «стоимость некоммутативности», вводя множитель logd\log d
  • Путём тщательного выбора c,Cc, C можно контролировать стоимость в пределах logd\log d

2. Контроль членов второго порядка (Lemma 3.3)

Для взвешенного алгоритма определим ST=t=0T1Vt1(Vt2βVt12)Vt1S_T = \sum_{t=0}^{T-1} V_t^{-1}(V_t^2 - \beta V_{t-1}^2)V_t^{-1}, тогда: t=0T1Vt1gtH2Tr(H)STop\sum_{t=0}^{T-1} \|V_t^{-1}g_t\|_H^2 \leq \text{Tr}(H) \|S_T\|_{\text{op}}

и существуют константы C1,C2C_1, C_2 такие, что: STopC1(1+log(1+dϵt=0T1gt22+d2(1β)T))((1β)Tβ+logVT12/ϵop)+C2\|S_T\|_{\text{op}} \leq C_1\left(1 + \log\left(1 + \frac{d}{\epsilon}\sum_{t=0}^{T-1}\|g_t\|_2^2 + d^2(1-\beta)T\right)\right)\left(\frac{(1-\beta)T}{\beta} + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}\right) + C_2

Специальный случай: Когда H\mathcal{H} коммутативно (например, диагональные матрицы), улучшается до STop(1β)T+logVT12/ϵop\|S_T\|_{\text{op}} \leq (1-\beta)T + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}.

3. Адаптивная дисперсия градиента (Definition 4.1)

σH({ft})2:=minHH,Tr(H)1supt,xE[ft(x)E[ft(x)]H12]\sigma_{\mathcal{H}}(\{f_t\})^2 := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sup_{t, x} \mathbb{E}[\|\nabla f_t(x) - \mathbb{E}[\nabla f_t(x)]\|_{H^{-1}}^2]

Соотношение (Proposition 4.2): σH,({ft})2σH({ft})2dσH,({ft})2\sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2 \leq \sigma_{\mathcal{H}}(\{f_t\})^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2

Интуиция: Адаптивная дисперсия требует единообразного контроля шума во всех геометриях, индуцированных предобусловливателями, что сильнее, чем контроль только в фиксированной норме.

Экспериментальная установка

Примечание: Данная работа является чисто теоретической и не содержит экспериментальной части. Все результаты — это теоретические скорости сходимости и доказательства нижних границ.

Теоретическая аналитическая установка

Предположения

  1. Гладкость:
    • Стандартная гладкость: f(x)f(y)H,LH(f)xyH\|\nabla f(x) - \nabla f(y)\|_{\mathcal{H},*} \leq L_{\|\cdot\|_{\mathcal{H}}}(f)\|x-y\|_{\mathcal{H}}
    • Адаптивная гладкость: ΛH(f)=minHH,Tr(H)1LH(f)\Lambda_{\mathcal{H}}(f) = \min_{H \in \mathcal{H}, \text{Tr}(H)\leq 1} L_{\|\cdot\|_H}(f)
  2. Предположение о шуме (Assumption C.1):
    • E[ft(x)]=f(x)\mathbb{E}[\nabla f_t(x)] = \nabla f(x)
    • Существует Σ0\Sigma \succeq 0 такая, что Σf(x)f(x)ft(x)ft(x)Σ-\Sigma \preceq \nabla f(x)\nabla f(x)^\top - \nabla f_t(x)\nabla f_t(x)^\top \preceq \Sigma
  3. Выпуклость: Некоторые результаты (ускорение) требуют выпуклости ff

Методы анализа

  • Лемма о спуске: Использование гладкости для установления соотношения спуска за один шаг
  • Телескопирование: Телескопическое суммирование накопленных членов
  • Матричные неравенства: Контроль членов второго порядка, вводимых изменением предобусловливателя
  • Вероятностные методы: Стохастический шум обрабатывается через условное математическое ожидание и разложение дисперсии
  • Конструктивные нижние границы: Доказательство точности через тщательно сконструированные сложные примеры

Результаты экспериментов

Основные теоретические результаты

1. Скорость сходимости в невыпуклом случае (Theorem 3.2)

Для кумулятивного адаптивного оптимизатора (класс AdaGrad) на детерминированной невыпуклой функции: 1Tt=0T1f(xt)H,1T(ξ+dϵ1/4ξ)\frac{1}{T}\sum_{t=0}^{T-1} \|\nabla f(x_t)\|_{\mathcal{H},*} \leq \frac{1}{\sqrt{T}}\left(\xi + \sqrt{d}\epsilon^{1/4}\sqrt{\xi}\right)

где: ξ=O~(Δ0η+ηΛH(f)log2d)\xi = \tilde{O}\left(\frac{\Delta_0}{\eta} + \eta \cdot \Lambda_{\mathcal{H}}(f) \log^2 d\right)

При выборе η=Δ0ΛH(f)log2d\eta = \sqrt{\frac{\Delta_0}{\Lambda_{\mathcal{H}}(f)\log^2 d}} достигается O~(Δ0ΛH(f)logdT)\tilde{O}\left(\frac{\sqrt{\Delta_0 \Lambda_{\mathcal{H}}(f)}\log d}{\sqrt{T}}\right).

Ключевые моменты:

  • Скорость сходимости зависит от адаптивной гладкости ΛH(f)\Lambda_{\mathcal{H}}(f), а не от стандартной гладкости
  • Для диагональных предобусловливателей (таких как Adam) нет множителя logd\log d
  • Общие хорошо структурированные предобусловливатели вводят множитель logd\log d (стоимость некоммутативности)

2. Скорость ускоренной сходимости (Theorem 4.4)

Для адаптивного оптимизатора с импульсом Нестерова (Algorithm 2) на выпуклой функции с выбором αt=2t+2\alpha_t = \frac{2}{t+2} и η=D\eta = D: E[f(xˉT)f(x)]=O~(ΛH(f)D2log2dT2+dϵDT2+σHDlogdT)\mathbb{E}[f(\bar{x}_T) - f(x^*)] = \tilde{O}\left(\frac{\Lambda_{\mathcal{H}}(f)D^2\log^2 d}{T^2} + \frac{d\sqrt{\epsilon}D}{T^2} + \frac{\sigma_{\mathcal{H}}D\log d}{\sqrt{T}}\right)

Сравнение:

  • При адаптивной гладкости: O(T2)O(T^{-2}) скорость ускорения (детерминированная часть)
  • При стандартной ℓ∞-гладкости: Guzmán & Nemirovski (2015) доказали, что любой метод первого порядка может достичь только Ω(T1)\Omega(T^{-1})

Значение: Доказано, что адаптивная гладкость имеет существенное преимущество — она позволяет достичь ускорения, тогда как стандартная гладкость не может.

3. Скорость без зависимости от размерности (Theorem 4.6)

Для NSD (Algorithm 3) при адаптивной дисперсии градиента σH\sigma_{\mathcal{H}}: E[1Tt=0T1f(xt)H,]Δ0ηT+2ηαLH(f)+2σHαT+2σHα\mathbb{E}\left[\frac{1}{T}\sum_{t=0}^{T-1}\|\nabla f(x_t)\|_{\mathcal{H},*}\right] \leq \frac{\Delta_0}{\eta T} + \frac{2\eta}{\alpha}L_{\|\cdot\|_{\mathcal{H}}}(f) + \frac{2\sigma_{\mathcal{H}}}{\alpha T} + 2\sigma_{\mathcal{H}}\sqrt{\alpha}

При оптимальном выборе α=Δ0LH(f)σHT\alpha = \frac{\sqrt{\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f)}}{\sigma_{\mathcal{H}}\sqrt{T}} и η=Δ03/4LH(f)1/4σH1/2T3/4\eta = \frac{\Delta_0^{3/4}}{L_{\|\cdot\|_{\mathcal{H}}}(f)^{1/4}\sigma_{\mathcal{H}}^{1/2}}T^{-3/4}: Скорость=O((Δ0LH(f))1/4σHT1/4)\text{Скорость} = O\left(\frac{(\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f))^{1/4}\sqrt{\sigma_{\mathcal{H}}}}{T^{1/4}}\right)

Без зависимости от размерности: По сравнению с O~(ρd/T1/4)\tilde{O}(\rho\sqrt{d}/T^{1/4}) из Pethick et al. (2025) (где ρ=supxxH,x2\rho = \sup_x \frac{\|x\|_{\mathcal{H},*}}{\|x\|_2} может быть Θ(d)\Theta(\sqrt{d})), данный результат полностью устраняет зависимость от размерности.

4. Нижняя граница зависимости от размерности (Theorem 4.9)

При стандартном предположении о дисперсии ℓ₁ E[ft(x)f(x)12]σ2\mathbb{E}[\|\nabla f_t(x) - \nabla f(x)\|_1^2] \leq \sigma^2 для SignGD (ℓ∞-NSD) существует сложный пример такой, что: E[mint[T]f(xt)1]=min{e2514(dLΔ0σ2)1/4T1/2,e2512σ}\mathbb{E}\left[\min_{t \in [T]}\|\nabla f(x_t)\|_1\right] = \min\left\{e^{-25-\frac{1}{4}}(dL\Delta_0\sigma^2)^{1/4}T^{-1/2}, e^{-25-\frac{1}{2}}\sigma\right\}

Значение:

  • Достижение ошибки ϵ<e251/2σ\epsilon < e^{-25-1/2}\sigma требует T=Ω(ϵ2(dLΔ0σ2)1/2)T = \Omega(\epsilon^{-2}(dL\Delta_0\sigma^2)^{1/2}) шагов
  • Зависимость от размерности Ω(d1/2)\Omega(d^{1/2}) неизбежна при стандартном предположении о дисперсии
  • Контрастирует с верхней границей без размерности из Theorem 4.6, доказывая существенное преимущество адаптивной дисперсии

Ключевые выводы

1. Количественное разделение геометрий

Соотношения между двумя типами гладкости и дисперсии:

  • Гладкость: LH(f)ΛH(f)dLH(f)L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f)
  • Дисперсия: σH,2σH2dσH,2\sigma_{\|\cdot\|_{\mathcal{H},*}}^2 \leq \sigma_{\mathcal{H}}^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}^2

Разрыв не превышает размерность dd, но в некоторых случаях точен (например, диагональные матрицы vs полные матрицы).

2. Неэффективность усреднения (Averaging Ineffectiveness)

В неевклидовой геометрии усреднение не может эффективно снижать норму:

  • ℓ₂: 1ni=1nxi2=O(1/n)\|\frac{1}{n}\sum_{i=1}^n x_i\|_2 = O(1/\sqrt{n}) (эффективно)
  • ℓ₁: 1ni=1nxi1=O(d/n)\|\frac{1}{n}\sum_{i=1}^n x_i\|_1 = O(\sqrt{d}/\sqrt{n}) (зависит от размерности)

Это объясняет, почему:

  • Ускорение требует более сильной адаптивной гладкости
  • Импульс при стандартной дисперсии не может устранить зависимость от размерности

3. Стоимость некоммутативности

Общие хорошо структурированные предобусловливатели (такие как односторонний Shampoo) вводят множитель logd\log d, источник которого:

  • Матрицы не коммутируют, поэтому нельзя напрямую использовать телескопирование
  • Некоммутативный член в Lemma 3.4: 12cdπ2λmin2Tr(XY)I\frac{12cd}{\pi^2\lambda_{\min}^2}\text{Tr}(X-Y) \cdot I
  • Путём тщательного выбора параметров стоимость контролируется в пределах logd\log d

Связанные работы

Адаптивные оптимизаторы

  1. Матричное предобусловливание: Shampoo (Gupta et al., 2018) и его варианты (SOAP, PolarGrad, AdaMuon)
  2. Диагональное предобусловливание: AdaGrad (Duchi et al., 2011), Adam (Kingma & Ba, 2014)
  3. Теория сходимости:
    • Выпуклый случай: Xie et al. (2025b) устанавливают теорию адаптивной гладкости
    • Диагональный случай: Maladkar et al. (2024), Xie et al. (2025a)
  4. Адаптивная дисперсия: Frans et al. (2025) указывают на перспективу матричного отбеливания

Нормализованный наискорейший спуск (NSD)

  1. Анализ сходимости:
    • Cutkosky & Mehta (2020): O(T⁻³·⁵) невыпуклая скорость
    • Pethick et al. (2025), Kovalev (2025b): анализ для общих норм
  2. Эквивалентность:
    • Lion = ℓ∞-NSD (Sfyraki & Wang, 2025)
    • Muon = NSD со спектральной нормой (Chen et al., 2025)
  3. Зависимость от размерности: Jiang et al. (2025) улучшения для SignGD

Методы ускорения

  1. Перспектива зеркального спуска: Kelner et al. (2014), Allen-Zhu & Orecchia (2014)
  2. Адаптивное ускорение: Cutkosky (2019), Kavis et al. (2019), Joulani et al. (2020) для диагонального/координатного адаптивного случая
  3. Нижние границы: Guzmán & Nemirovski (2015) доказывают нижнюю границу Ω(T1)\Omega(T^{-1}) для ℓ∞-гладкости

Сравнение вклада данной работы

  • vs Xie et al. (2025b): Расширение на невыпуклый + стохастический случай
  • vs Kovalev (2025a): Более слабые предположения (избегание Assumption 4), более широкий спектр предобусловливателей
  • vs Pethick et al. (2025): Устранение зависимости от размерности через адаптивную дисперсию
  • vs существующие методы ускорения: Первое доказательство ускорения для общих хорошо структурированных предобусловливателей

Заключение и обсуждение

Основные выводы

  1. Двойственность геометрий: Адаптивные оптимизаторы и NSD, хотя оба используют неевклидову геометрию, опираются на существенно различные геометрические предположения:
    • Адаптивные оптимизаторы: Требуют адаптивной гладкости ΛH(f)\Lambda_{\mathcal{H}}(f), автоматически адаптируются к оптимальному предобусловливателю
    • NSD: Требуют только стандартной гладкости LH(f)L_{\|\cdot\|_{\mathcal{H}}}(f), но нужно предварительно указать норму
  2. Ценность адаптивности: Более сильные адаптивные предположения приносят существенные преимущества:
    • Ускорение: Достижение O(T⁻²) в выпуклом случае vs Ω(T⁻¹) при стандартных предположениях
    • Без размерности: Устранение зависимости от размерности в стохастическом случае
  3. Единая теоретическая структура: Первое установление невыпуклой теории сходимости для широкого спектра адаптивных методов, включая односторонний Shampoo. Основная техника — новые матричные неравенства для обработки некоммутативных предобусловливателей.
  4. Точность: Доказательства нижних границ показывают:
    • Зависимость от размерности Ω(d1/2)\Omega(d^{1/2}) неизбежна при стандартном предположении о дисперсии (Theorem 4.9)
    • Преимущество адаптивной дисперсии — не просто техническое предположение, а существенное различие

Ограничения

  1. Теоретическая работа: Отсутствие экспериментальной проверки теоретических предсказаний (например, фактическое поведение сходимости в разных геометриях)
  2. Константные множители:
    • Недиагональные предобусловливатели вводят множитель logd\log d (может быть незначительным на практике)
    • Алгоритм ускорения требует знания D=maxtxtxHD = \max_t \|x_t - x^*\|_{\mathcal{H}} (смягчается проективной версией)
  3. Предположения:
    • Assumption C.1 (поточечная верхняя граница ковариации) сильнее стандартного предположения об ожидании
    • Результаты ускорения требуют выпуклости
  4. Область применения:
    • Как проверить на практике предположение об адаптивной дисперсии?
    • Какие практические задачи удовлетворяют адаптивной гладкости?
  5. Анализ EMA: Вариант EMA требует выбора β=1Θ(logdT)\beta = 1 - \Theta(\frac{\log d}{T}), тогда как на практике часто используется фиксированное β\beta (например, 0.9, 0.999)

Направления будущих исследований

  1. Экспериментальная проверка:
    • Проверка предположения об адаптивной гладкости на реальных задачах глубокого обучения
    • Сравнение эмпирического поведения сходимости в разных геометриях
  2. Ослабление предположений:
    • Исследование более слабых предположений о шуме (например, только ограниченность ожидания)
    • Возможность ускорения в невыпуклом случае
  3. Улучшение алгоритмов:
    • Адаптивный выбор структуры предобусловливателя H\mathcal{H}
    • Новые оптимизационные алгоритмы, использующие адаптивную гладкость
  4. Другие геометрии:
    • Расширение на дивергенцию Брегмана, риманову геометрию
    • Другие структурированные предобусловливатели (разреженные, низкого ранга)
  5. Улучшение нижних границ:
    • Нижние границы при адаптивной гладкости (в настоящее время только при стандартной гладкости)
    • Более точные нижние границы в невыпуклом случае

Глубокая оценка

Преимущества

  1. Теоретическая глубина:
    • Первое систематическое установление количественного разделения между двумя классами геометрических предположений
    • Основное матричное неравенство (Lemma 3.4) имеет независимую ценность и может применяться к другим задачам матричного анализа
    • Техника доказательства изящна, особенно метод обработки некоммутативности
  2. Универсальность:
    • Охватывает широкий спектр методов: AdaGrad, Adam, Shampoo и т.д.
    • Анализ эквивалентности трёх способов накопления (кумулятивный, EMA, взвешенный) ясен
    • Параллельная обработка гладкости и дисперсии раскрывает глубокую структуру
  3. Полнота:
    • Верхние + нижние границы доказывают точность
    • Детерминированный + стохастический, выпуклый + невыпуклый случаи полностью охвачены
    • Подробное техническое приложение (48 страниц) обеспечивает воспроизводимость
  4. Проницательность:
    • «Неэффективность усреднения» объясняет корень зависимости от размерности
    • Двойственность (супремум vs инфимум) имеет хорошую геометрическую интуицию
    • Точная количественная оценка стоимости некоммутативности
  5. Качество изложения:
    • Структура ясна, начинается с примеров Adam/SignGD
    • Рисунок 1 наглядно демонстрирует двойственность
    • Хороший баланс между техническими деталями и интуицией

Недостатки

  1. Практическая релевантность:
    • Отсутствие экспериментальной проверки теоретических предсказаний
    • Неизвестна универсальность адаптивной гладкости в практических задачах
    • Является ли множитель logd\log d значительным на практике?
  2. Сила предположений:
    • Assumption C.1 сильнее стандартного предположения (почти везде выполняется)
    • Алгоритм ускорения требует выпуклости и знания DD
    • EMA требует β=1Θ(logd/T)\beta = 1 - \Theta(\log d / T), что не соответствует практике
  3. Технические ограничения:
    • Может ли разрыв между диагональным и общим случаем (множитель logd\log d) быть устранен?
    • Невозможность ускорения в невыпуклом случае не доказана
    • Отсутствуют нижние границы при адаптивной гладкости
  4. Детали выражения:
    • Обозначение Õ скрывает логарифмическую зависимость от нескольких параметров (не только dd)
    • Некоторые константы (например, C1,C2C_1, C_2) не уточнены
    • Стратегия выбора c,Cc, C в Lemma 3.4 может быть более явной
  5. Связанные работы:
    • Различие с параллельной работой Kovalev & Borodich (2025) может быть более подробным
    • Связь с классической теорией зеркального спуска может быть углублена

Влияние

  1. Теоретический вклад:
    • Предоставляет новую перспективу теории адаптивной оптимизации (иерархия геометрических предположений)
    • Техника матричных неравенств может повлиять на смежные области (матричный анализ, квантовая информация)
    • Единая структура может стать стандартом для будущего анализа
  2. Практическая ценность:
    • Руководство по выбору оптимизатора: когда использовать адаптивные методы vs NSD?
    • Вдохновение для разработки новых алгоритмов (адаптивный выбор H\mathcal{H})
    • Теоретическое обоснование для настройки гиперпараметров (выбор β\beta)
  3. Воспроизводимость:
    • Чисто теоретическая работа, результаты верифицируемы
    • Техника доказательства подробна, расширяема на другие случаи
    • Определения ясны, удобны для цитирования в будущих исследованиях
  4. Ограничения:
    • Отсутствие экспериментов ограничивает непосредственное влияние
    • Проверка предположений требует дальнейших работ
    • Разрыв между теорией и практикой требует заполнения

Области применения

  1. Теоретические исследования:
    • Анализ сходимости оптимизационных алгоритмов
    • Теория оптимизации в неевклидовой геометрии
    • Теоретические основы адаптивных методов
  2. Разработка алгоритмов:
    • Руководство по проектированию новых адаптивных оптимизаторов
    • Выбор структуры предобусловливателя
    • Улучшение методов ускорения
  3. Практическое применение:
    • Выбор оптимизатора в крупномасштабном машинном обучении
    • Понимание причин успеха Adam и других методов
    • Теоретическое обоснование решения проблем сходимости
  4. Преподавание:
    • Продвинутый материал для курсов теории оптимизации
    • Примеры неевклидовой оптимизации
    • Приложения техники матричного анализа

Избранные ссылки

  1. Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" — основа данной работы для выпуклого случая
  2. Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" — нижние границы для ℓ∞-гладкости
  3. Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" — последний анализ NSD
  4. Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" — параллельная работа
  5. Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" — эквивалентность Adam и NSD
  6. Gupta et al. (2017): "A unified approach to adaptive regularization" — структура адаптивных оптимизаторов
  7. Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" — основа вогнутости для Lemma A.7

Резюме: Данная работа представляет важный прогресс в теории адаптивной оптимизации, систематически раскрывая существенные различия между адаптивными методами и NSD в геометрических предположениях, и строго доказывая практическую ценность адаптивности. Несмотря на отсутствие экспериментальной проверки, её теоретическая глубина и технические инновации делают её важным справочником в данной области. Основной вклад заключается в установлении полной теоретической системы «двух геометрий», предоставляющей новую перспективу для понимания и разработки адаптивных оптимизационных алгоритмов.