Time-Varying Optimization for Streaming Data Via Temporal Weighting
Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic
Ottimizzazione Variabile nel Tempo per Dati in Streaming Via Ponderazione Temporale
La teoria dell'ottimizzazione tradizionale affronta funzioni obiettivo fisse e invarianti nel tempo. Tuttavia, l'ottimizzazione variabile nel tempo è diventata un argomento cruciale per il processo decisionale in ambienti dinamici. Questo articolo affronta il problema dell'apprendimento da dati in streaming dalla prospettiva dell'ottimizzazione variabile nel tempo. A differenza dei lavori precedenti focalizzati su formulazioni generiche, introduciamo una formulazione strutturata basata su pesi che cattura esplicitamente le fonti di dati in streaming degli obiettivi variabili nel tempo, dove l'agente mira a minimizzare la perdita media ponderata di tutti i campioni di dati passati ad ogni passo temporale. Ci concentriamo su due strategie di ponderazione specifiche: (1) pesi uniformi, che trattano equamente tutti i campioni; (2) pesi scontati, che attenuano geometricamente l'influenza dei dati precedenti. Per entrambi gli schemi, deriviamo limiti stretti dell'"errore di tracciamento" (TE) sotto aggiornamenti di discesa del gradiente (GD), definito come la deviazione tra i parametri del modello e la soluzione ottimale variabile nel tempo in un dato passo temporale. Dimostriamo che sotto ponderazione uniforme, il TE scompare asintoticamente con un tasso di decadimento O(1/t), mentre la ponderazione scontata produce un limite di errore non nullo controllato dal fattore di sconto e dal numero di aggiornamenti del gradiente eseguiti ad ogni passo temporale.
Il problema centrale affrontato in questo articolo è l'apprendimento con ottimizzazione variabile nel tempo in ambienti di dati in streaming. Specificamente:
Limitazioni dell'ottimizzazione tradizionale: L'ottimizzazione classica del machine learning affronta funzioni obiettivo statiche, assumendo distribuzioni di dati statiche, ma le soluzioni nel mondo reale operano in ambienti che evolvono dinamicamente
Sfide dei dati in streaming: I dati arrivano sequenzialmente, la funzione obiettivo evolve nel tempo, portando a problemi di ottimizzazione non stazionari
Vincoli computazionali: In impostazioni in tempo reale o con risorse limitate, è possibile eseguire solo un numero limitato di aggiornamenti ad ogni passo temporale
Limiti laschi per formulazioni generiche: La maggior parte dei lavori esistenti si concentra su formulazioni generiche variabili nel tempo, ignorando la struttura intrinseca dei dati in streaming, il che può portare a limiti laschi dell'errore di tracciamento
Mancanza di analisi strutturata: I metodi esistenti non sfruttano esplicitamente la struttura ponderata dei dati in streaming per ottenere limiti di prestazione più stretti
Disconnessione tra teoria e pratica: I metodi nel campo dell'apprendimento continuo sono principalmente empirici, mancando di fondamenti teorici
Proposta di formulazione ponderata strutturata: Introduzione di una funzione obiettivo variabile nel tempo che cattura esplicitamente la struttura dei dati in streaming, definita come media ponderata della perdita di tutti i campioni passati
Analisi teorica di due strategie di ponderazione:
Pesi uniformi: Dimostrazione che l'errore di tracciamento scompare asintoticamente con tasso O(1/t)
Pesi scontati: Derivazione di limiti espliciti dell'errore di tracciamento asintotico non nullo
Derivazione di limiti stretti: Sfruttamento della struttura dei dati in streaming per ottenere limiti TE più stretti rispetto all'analisi generica variabile nel tempo esistente
Verifica teorica e sperimentale: Validazione dei risultati teorici attraverso simulazioni numeriche
Consideriamo un'impostazione di apprendimento in cui un singolo agente (come un server edge o cloud) mira a tracciare parametri di modello di machine learning variabili nel tempo:
Input: Ad ogni iterazione t≥1, l'agente riceve un nuovo campione di dati (xt, yt)
Output: Parametri del modello wt, che minimizzano la perdita media ponderata dei dati cumulativi
Vincolo: È possibile eseguire solo E aggiornamenti del gradiente ad ogni passo temporale
Analisi strutturata: A differenza dell'ottimizzazione generica variabile nel tempo, sfruttamento esplicito della struttura ponderata dei dati in streaming
Analisi della deriva del minimizzatore: Comprensione dei cambiamenti della funzione obiettivo attraverso l'analisi di ∥wi+1∗−wi∗∥
Analisi ricorsiva dell'errore: Stabilimento di relazioni ricorsive per tracciare l'evoluzione dell'errore
Verifica del decadimento O(1/t): Gli esperimenti mostrano chiaramente il decadimento monotono coerente con le previsioni teoriche
Impatto del numero di aggiornamenti del gradiente: Aumentando E da 10 a 20, il miglioramento empirico del TE è di circa un fattore 0.09, corrispondente quantitativamente alle previsioni teoriche
Comportamento a lungo termine: Per grandi t, il TE è dominato dall'errore residuo della deriva del minimizzatore
Proposizione 3: Per garantire ATEγ≤ϵ, è necessario eseguire:
E≥ln(1−ημ)ln(C′(1−γ)+ϵϵ)
aggiornamenti del gradiente, risultando in una complessità di iterazione del gradiente O(ln(1/ε)).
Questo articolo è il primo a collegare teoricamente l'ottimizzazione variabile nel tempo e l'apprendimento continuo, fornendo un'analisi esplicita della struttura dei dati in streaming.
Uniforme vs. Scontato: I pesi uniformi diluiscono l'influenza di ogni nuovo campione a O(1/t), mentre i pesi scontati mantengono una deriva O(1)
Convergenza dei pesi: Quando γ→1, i pesi scontati convergono ai pesi uniformi, corrispondentemente ATE_γ→0
Compromesso del budget computazionale: Più aggiornamenti del gradiente E possono ridurre l'errore di tracciamento, ma aumentano il costo computazionale
L'articolo cita 40 riferimenti correlati, coprendo lavori importanti nei campi dell'ottimizzazione variabile nel tempo, dell'apprendimento continuo, dell'ottimizzazione convessa e di altri domini chiave, fornendo una base teorica solida per la ricerca.