2025-11-22T03:37:15.627362

Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound

Liu, Tajbakhsh

Performance analysis of first-order algorithms with inexact oracles has gained recent attention due to various emerging applications in which obtaining exact gradients is impossible or computationally expensive. Previous research has demonstrated that the performance of accelerated first-order methods is more sensitive to gradient errors compared with non-accelerated ones. This paper investigates the nonasymptotic convergence bound of two accelerated methods with inexact gradients to solve deterministic smooth convex problems. Performance Estimation Problem (PEP) is used as the primary tool to analyze the convergence bounds of the underlying algorithms. By finding an analytical solution to PEP, we derive novel convergence bounds of Generalized Optimized Gradient Method (GOGM) and Generalized Fast Gradient Method (GFGM) with inexact gradient oracles following the absolute error bound. The derived bounds allow varying oracle inexactness along the iterations; furthermore, their accumulated error terms are independent of the initial condition and any unknown parameters. Furthermore, we analyze the tradeoff between the vanishing term and the accumulated error in the convergence bound that guides finding the optimal stepsize. Finally, we determine the optimal strategy to set the gradient inexactness along iterations (if possible in a given application), ensuring that the accumulated error remains subordinate to the vanishing term.

academic

Неасимптотический анализ ускоренных методов с неточным оракулом при абсолютной границе ошибки

Основная информация

ID статьи: 2408.00720
Название: Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound
Авторы: Yin Liu (Пекинский университет), Sam Davanloo Tajbakhsh (Университет штата Огайо)
Классификация: math.OC (оптимизация и управление)
Дата публикации: 15 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2408.00720

Аннотация

В данной работе исследуются неасимптотические границы сходимости ускоренных методов первого порядка при неточном градиентном оракуле. Поскольку в многих современных приложениях получение точного градиента невозможно или вычислительно дорого, анализ производительности алгоритмов первого порядка при неточном оракуле привлекает широкое внимание. Предыдущие исследования показали, что ускоренные методы первого порядка более чувствительны к ошибкам градиента по сравнению с неускоренными методами. В работе используется проблема оценки производительности (PEP) в качестве основного инструмента анализа. Путём нахождения аналитического решения PEP получены новые границы сходимости для обобщённого метода градиента оптимизации (GOGM) и обобщённого быстрого метода градиента (GFGM) при абсолютной границе ошибки.

Исследовательский контекст и мотивация

Постановка задачи

В работе рассматривается задача оптимизации:

min_{x∈R^d} f(x)

где f — выпуклая функция с липшицевым непрерывным градиентом. В практических приложениях доступны только неточные оценки градиента:

∇̃f(x) = ∇f(x) + e, ||e|| ≤ b

Мотивация исследования

Практические требования: в двухуровневой оптимизации, комбинаторной оптимизации, оптимизации нулевого порядка получение точного градиента затруднено или дорого
Теоретические пробелы: существующий анализ опирается на сильные предположения (например, ограниченная допустимая область) или содержит неквантифицируемые члены
Ограничения методов: ускоренные методы более чувствительны к ошибкам градиента, требуя более тонкого анализа

Области применения

Двухуровневая оптимизация: нижняя задача решается только до субоптимального решения
Комбинаторная оптимизация: оценка математического ожидания через малые выборки
Оптимизация нулевого порядка: оценка градиента через конечные разности или гауссово сглаживание

Основные вклады

Теоретический прорыв: получены количественные границы сходимости для iGOGM и iGFGM при условии абсолютной ошибки (AE), устраняющие зависимость от неизвестных параметров
Методологическое новшество: через технику PEP найдены аналитические допустимые решения, обеспечивающие кумулятивные члены ошибки, независимые от начальных условий
Практическое руководство: проанализирован компромисс между скоростью сходимости и кумулятивной ошибкой, предложены стратегии оптимального выбора шага
Оптимальное расписание: определена оптимальная стратегия установки неточности градиента, минимизирующая общие вычислительные затраты

Подробное описание методов

Определение задачи

Исследование сходимости ускоренных градиентных методов при условии абсолютной ошибки:

Входные данные: неточный градиентный оракул, удовлетворяющий ||∇̃f(x) - ∇f(x)|| ≤ b_x
Выходные данные: верхняя граница f(x_K) - f*
Ограничения: f ∈ F_{0,L} (только выпуклая и L-гладкая)

Основные алгоритмы

Алгоритм iGOGM (Algorithm 2)

Входные данные: z_0 = x_0, A_0 = α_0 = 1, параметры шага {λ_k}
для k = 0 до K-1:
    y_{k+1} = x_k - (1/L)∇̃f(x_k)
    z_{k+1} = z_k - (2/L)α_k∇̃f(x_k)  # ключевой момент: коэффициент 2
    α_{k+1} = (λ_{k+1} + √(4λ_{k+1}A_k + λ²_{k+1}))/2
    A_{k+1} = A_k + α_{k+1}
    x_{k+1} = (1 - α_{k+1}/A_{k+1})y_{k+1} + (α_{k+1}/A_{k+1})z_{k+1}

Алгоритм iGFGM (Algorithm 1)

Аналогичен iGOGM, но коэффициент на шаге 3 равен 1, а не 2.

Ключевые технические инновации

1. Аналитическое решение PEP

Через двойственную форму проблемы оценки производительности найдено аналитическое допустимое решение:

τ = L/(4A_K), v_{i,i+1} = A_i/A_K
u_i = [A_i(1+2α_{i+1})(A_i+2α_iα_{i+1})]/(4LA_K(A_{i+1}-α²_{i+1})) + Σ_{k=i+1}^{K-1} [A_k(1+2α_{k+1})α_iα_{k+1}]/(2LA_K(A_{k+1}-α²_{k+1}))

2. Техника матричной факторизации

Использование дополнения Шура и свойств диагонально доминирующих матриц для обеспечения полуопределённости:

Построение матрицы Грама G = X^T X
Обработка ограничений PSD через блочную матричную факторизацию
Доказательство того, что u_i обеспечивает допустимое решение

Основные теоретические результаты

Теорема 2.2 (граница сходимости iGOGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(4A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Теорема 2.4 (граница сходимости iGFGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(2A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Ключевые свойства:

Кумулятивный член ошибки независим от начальных условий ||x_0 - x*||
Допускает изменяющиеся уровни ошибок b_k вдоль итераций
Коэффициенты u_k могут быть вычислены явно

Экспериментальная установка и результаты

Численная верификация

Проверка решения: численное решение верифицирует точность аналитического решения с относительной ошибкой <10^{-3}
Анализ компромисса: анализ компромисса между скоростью сходимости и кумулятивной ошибкой для OGM-a (α_i = (i+a)/a)
Оптимальное расписание: сравнение фиксированной ошибки и оптимально изменяющейся ошибки по общей сложности

Ключевые находки

При a=4 кумулятивная ошибка имеет порядок O(b²K³/L)
Увеличение a снижает кумулятивную ошибку, но замедляет сходимость
Оптимальное расписание ошибок может значительно снизить общую η-сложность

Сравнение с соответствующими работами

Условие ошибки	Допускает изменение ошибки?	Сложность итераций	Ограничения
BIE 8	×	O(1/A_K + δ)	ограниченное допустимое множество
IFO 12	✓	O(1/A_K + Σδ_i/A_K)	ограниченное допустимое множество
IFO-q 41	×	O(1/K² + δ/K^{3q/2-1})	условие субградиента
AE 58	×	O(1/K² + R̃_Kδ + Kδ²)	неизвестный R̃_K
Данная работа	✓	O(1/A_K + Σu_kb_k²)	без дополнительных предположений

Оптимальное расписание ошибок

Задача оптимизации

min Σ_{k=0}^{K-1} η_k = Σ_{k=0}^{K-1} h^{-1}(b_k)
s.t. Σ_{k=0}^{K-1} u_kb_k² ≤ LR²/(4A_K)

Случай степенного затухания

Для h(η) = c₁η^{-c₂} оптимальное решение имеет вид:

b_k* = √(LR²/(4A_K)) · u_k^{1/(1+2c₂)} / (Σu_j^{1/(1+2c₂)})^{1/2}

Случай экспоненциального затухания

Для h(η) = q₁q₂^{-η} оптимальное решение имеет вид:

b_k* = √(LR²/(4KA_Ku_k))

Заключение и обсуждение

Основные выводы

Впервые получены количественные, независимые от неизвестных параметров границы сходимости для ускоренных методов при условии абсолютной ошибки
Кумулятивный член ошибки независим от начальных условий, зависит только от константы Липшица и параметров шага
Оптимальное расписание ошибок может значительно снизить общую вычислительную сложность

Ограничения

Теоретические результаты требуют α_k² < A_k (строгое неравенство), исключая стандартный случай FGM с α_k² = A_k
Оптимальный алгоритм не имеет рекурсивной структуры параметров шага, что затрудняет практическую реализацию
Анализ сосредоточен на детерминированном случае; стохастический случай требует дальнейшего исследования

Направления будущих исследований

Расширение на сильно выпуклый случай и стохастические постановки
Исследование более общих условий ошибок
Разработка практических стратегий адаптивного управления ошибками

Глубокая оценка

Преимущества

Значительный теоретический вклад: заполняет пробел в анализе ускоренных методов при условии абсолютной ошибки
Передовые технические методы: инновационное применение техники PEP
Сильная практическая применимость: предоставляет вычислимые границы ошибок и стратегии оптимального расписания
Глубокий и всесторонний анализ: сочетает теоретические доказательства с численной верификацией

Недостатки

Ограниченная практическая применимость: нерекурсивная природа оптимального алгоритма ограничивает практическое применение
Ограничивающие условия: строгое условие α_k² < A_k исключает некоторые важные случаи
Недостаточные эксперименты: отсутствуют численные эксперименты на реальных задачах оптимизации

Влияние

Данная работа обеспечивает важную теоретическую основу для ускоренной оптимизации при неточном оракуле, имеет руководящее значение для приложений в двухуровневой оптимизации, комбинаторной оптимизации и других областях. Применение техники PEP также предоставляет новую методологию для соответствующего анализа.

Области применения

Крупномасштабные задачи оптимизации с дорогостоящим вычислением градиента
Задачи двухуровневой и комбинаторной оптимизации
Приложения, требующие компромисса между точностью вычисления и числом итераций
Теоретический анализ методов оптимизации нулевого порядка

Ключевые ссылки

Основные цитируемые работы включают теоретические основы PEP Drori & Teboulle 18, методы OGM Kim & Fessler 32,33, а также анализ неточного оракула Devolder и др. 12.