Time-Varying Optimization for Streaming Data Via Temporal Weighting
Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic
Оптимизация с изменяющимся во времени параметром для потоковых данных посредством временного взвешивания
Классическая теория оптимизации занимается фиксированными, не зависящими от времени целевыми функциями. Однако оптимизация с изменяющимся во времени параметром стала важной темой для принятия решений в динамических средах. В данной работе мы исследуем проблему обучения на потоковых данных с точки зрения оптимизации с изменяющимся во времени параметром. В отличие от предыдущих работ, сосредоточенных на универсальных формулировках, мы вводим структурированную взвешенную формулировку, которая явно отражает источники потоковых данных с изменяющимися во времени целевыми функциями, где агент на каждом временном шаге стремится минимизировать взвешенное среднее потерь всех прошлых образцов данных. Мы сосредоточиваемся на двух конкретных стратегиях взвешивания: (1) равномерное взвешивание, которое одинаково обрабатывает все образцы; (2) дисконтированное взвешивание, которое геометрически затухает влияние старых данных. Для обеих схем мы выводим плотные границы для "ошибки отслеживания" (TE) при обновлениях градиентного спуска (GD), где TE определяется как отклонение параметров модели от оптимального решения с изменяющимся во времени параметром на данном временном шаге. Мы доказываем, что при равномерном взвешивании TE асимптотически исчезает со скоростью убывания O(1/t), тогда как дисконтированное взвешивание приводит к ненулевой нижней границе ошибки, контролируемой коэффициентом дисконтирования и количеством обновлений градиента, выполняемых на каждом временном шаге.
Основная проблема, которую решает данная работа, заключается в оптимизации с изменяющимся во времени параметром при обучении на потоковых данных. Конкретно:
Ограничения классической оптимизации: Классическое машинное обучение оптимизирует статические целевые функции, предполагая статическое распределение данных, однако реальные решения работают в динамически развивающихся средах
Вызовы потоковых данных: Данные поступают последовательно, целевая функция эволюционирует во времени, что приводит к нестационарным задачам оптимизации
Вычислительные ограничения: В режиме реального времени или при ограниченных ресурсах на каждом временном шаге можно выполнить только ограниченное количество обновлений
Слабые границы универсальных формулировок: Большинство существующих работ сосредоточены на универсальных формулировках, изменяющихся во времени, игнорируя внутреннюю структуру потоковых данных, что может привести к слабым границам ошибки отслеживания
Отсутствие структурированного анализа: Существующие методы не используют явно структуру взвешивания потоковых данных для получения более плотных границ производительности
Разрыв между теорией и практикой: Методы в области непрерывного обучения в основном являются эмпирическими и лишены теоретической основы
Предложение структурированной взвешенной формулировки: Введение целевой функции, изменяющейся во времени, которая явно отражает структуру потоковых данных, определяемой как взвешенное среднее потерь всех прошлых образцов
Теоретический анализ двух стратегий взвешивания:
Равномерное взвешивание: Доказательство того, что ошибка отслеживания асимптотически исчезает со скоростью O(1/t)
Дисконтированное взвешивание: Вывод явной границы ненулевой асимптотической ошибки отслеживания
Вывод плотных границ: Использование структуры потоковых данных для получения более плотных границ TE по сравнению с существующим универсальным анализом, изменяющимся во времени
Теоретическая и экспериментальная верификация: Проверка действительности теоретических результатов посредством численного моделирования
Рассмотрим установку обучения, в которой отдельный агент (например, граничный или облачный сервер) стремится отследить параметры модели машинного обучения, изменяющиеся во времени:
Входные данные: На каждой итерации t≥1 агент получает новый образец данных (x_t, y_t)
Выходные данные: Параметры модели w_t, минимизирующие взвешенное среднее потерь накопленных данных
Ограничение: На каждом временном шаге можно выполнить только E обновлений градиента
Влияние количества обновлений градиента: Увеличение E с 10 до 20 улучшает эмпирическую TE примерно на коэффициент 0.09, что количественно совпадает с теоретическими предсказаниями
Долгосрочное поведение: Для больших t TE доминируется остаточной ошибкой от дрейфа минимизатора
Предложение 3: Для обеспечения ATEγ≤ϵ необходимо выполнить:
E≥ln(1−ημ)ln(C′(1−γ)+ϵϵ)
обновлений градиента, что приводит к сложности градиентных итераций O(ln(1/ε)).
Данная работа впервые соединяет оптимизацию, изменяющуюся во времени, и непрерывное обучение с теоретической точки зрения, обеспечивая явный анализ структуры потоковых данных.
Равномерное vs дисконтированное: Равномерное взвешивание разбавляет влияние каждого нового образца до O(1/t), тогда как дисконтированное взвешивание сохраняет дрейф O(1)
Сходимость весов: При γ→1 дисконтированное взвешивание сходится к равномерному взвешиванию, соответственно ATE_γ→0
Компромисс вычислительного бюджета: Больше обновлений градиента E может уменьшить ошибку отслеживания, но увеличивает вычислительные затраты
Статья цитирует 40 связанных работ, охватывающих ключевые области оптимизации, изменяющейся во времени, непрерывного обучения, выпуклой оптимизации и других, обеспечивая прочную теоретическую основу для исследования.