2025-11-18T22:10:13.514792

Time-Varying Optimization for Streaming Data Via Temporal Weighting

Abrar, Michelusi, Larsson

Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.

academic

Ottimizzazione Variabile nel Tempo per Dati in Streaming Via Ponderazione Temporale

Informazioni Fondamentali

ID Articolo: 2510.13052
Titolo: Time-Varying Optimization for Streaming Data Via Temporal Weighting
Autori: Muhammad Faraz Ul Abrar (Arizona State University), Nicolò Michelusi (Arizona State University), Erik G. Larsson (Linköping University)
Classificazione: cs.LG cs.AI cs.SY eess.SP eess.SY math.OC
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.13052

Riassunto

La teoria dell'ottimizzazione tradizionale affronta funzioni obiettivo fisse e invarianti nel tempo. Tuttavia, l'ottimizzazione variabile nel tempo è diventata un argomento cruciale per il processo decisionale in ambienti dinamici. Questo articolo affronta il problema dell'apprendimento da dati in streaming dalla prospettiva dell'ottimizzazione variabile nel tempo. A differenza dei lavori precedenti focalizzati su formulazioni generiche, introduciamo una formulazione strutturata basata su pesi che cattura esplicitamente le fonti di dati in streaming degli obiettivi variabili nel tempo, dove l'agente mira a minimizzare la perdita media ponderata di tutti i campioni di dati passati ad ogni passo temporale. Ci concentriamo su due strategie di ponderazione specifiche: (1) pesi uniformi, che trattano equamente tutti i campioni; (2) pesi scontati, che attenuano geometricamente l'influenza dei dati precedenti. Per entrambi gli schemi, deriviamo limiti stretti dell'"errore di tracciamento" (TE) sotto aggiornamenti di discesa del gradiente (GD), definito come la deviazione tra i parametri del modello e la soluzione ottimale variabile nel tempo in un dato passo temporale. Dimostriamo che sotto ponderazione uniforme, il TE scompare asintoticamente con un tasso di decadimento O(1/t), mentre la ponderazione scontata produce un limite di errore non nullo controllato dal fattore di sconto e dal numero di aggiornamenti del gradiente eseguiti ad ogni passo temporale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato in questo articolo è l'apprendimento con ottimizzazione variabile nel tempo in ambienti di dati in streaming. Specificamente:

Limitazioni dell'ottimizzazione tradizionale: L'ottimizzazione classica del machine learning affronta funzioni obiettivo statiche, assumendo distribuzioni di dati statiche, ma le soluzioni nel mondo reale operano in ambienti che evolvono dinamicamente
Sfide dei dati in streaming: I dati arrivano sequenzialmente, la funzione obiettivo evolve nel tempo, portando a problemi di ottimizzazione non stazionari
Vincoli computazionali: In impostazioni in tempo reale o con risorse limitate, è possibile eseguire solo un numero limitato di aggiornamenti ad ogni passo temporale

Importanza

Questo problema ha significato critico in molteplici domini applicativi:

Tracciamento di robot mobili in veicoli autonomi
Localizzazione di bersagli mobili
Ottimizzazione di portafogli
Gestione del rischio in mercati finanziari volatili
Adattamento del controllore alla dinamica di sistemi variabili nel tempo

Limitazioni dei Metodi Esistenti

Limiti laschi per formulazioni generiche: La maggior parte dei lavori esistenti si concentra su formulazioni generiche variabili nel tempo, ignorando la struttura intrinseca dei dati in streaming, il che può portare a limiti laschi dell'errore di tracciamento
Mancanza di analisi strutturata: I metodi esistenti non sfruttano esplicitamente la struttura ponderata dei dati in streaming per ottenere limiti di prestazione più stretti
Disconnessione tra teoria e pratica: I metodi nel campo dell'apprendimento continuo sono principalmente empirici, mancando di fondamenti teorici

Contributi Principali

Proposta di formulazione ponderata strutturata: Introduzione di una funzione obiettivo variabile nel tempo che cattura esplicitamente la struttura dei dati in streaming, definita come media ponderata della perdita di tutti i campioni passati
Analisi teorica di due strategie di ponderazione:
- Pesi uniformi: Dimostrazione che l'errore di tracciamento scompare asintoticamente con tasso O(1/t)
- Pesi scontati: Derivazione di limiti espliciti dell'errore di tracciamento asintotico non nullo
Derivazione di limiti stretti: Sfruttamento della struttura dei dati in streaming per ottenere limiti TE più stretti rispetto all'analisi generica variabile nel tempo esistente
Verifica teorica e sperimentale: Validazione dei risultati teorici attraverso simulazioni numeriche

Spiegazione Dettagliata del Metodo

Definizione del Compito

Consideriamo un'impostazione di apprendimento in cui un singolo agente (come un server edge o cloud) mira a tracciare parametri di modello di machine learning variabili nel tempo:

Input: Ad ogni iterazione t≥1, l'agente riceve un nuovo campione di dati (xt, yt)
Output: Parametri del modello wt, che minimizzano la perdita media ponderata dei dati cumulativi
Vincolo: È possibile eseguire solo E aggiornamenti del gradiente ad ogni passo temporale

Formule Matematiche Fondamentali

Funzione obiettivo variabile nel tempo: $w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{dove} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w)$

Dove:

$a_i(t)$ è il peso del campione i-esimo al tempo t
$f_i(w)$ è la funzione di perdita del campione di dati i-esimo
I pesi soddisfano: $0 \leq a_i(t) \leq 1$ e $\sum_{i=1}^t a_i(t) = 1$

Aggiornamento della discesa del gradiente: $w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k})$

Definizione dell'errore di tracciamento: $\text{TE}(t) = \|w_t - w_t^*\|$

Due Strategie di Ponderazione

1. Pesi Uniformi

Impostazione $a_i(t) = 1/t$ per tutti $i = 1, \ldots, t$ , la funzione obiettivo diventa: $F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w)$

2. Pesi Scontati

Utilizzo dello sconto geometrico: $a_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i}$ , dove $0 < \gamma < 1$ è il fattore di sconto.

Punti di Innovazione Tecnica

Analisi strutturata: A differenza dell'ottimizzazione generica variabile nel tempo, sfruttamento esplicito della struttura ponderata dei dati in streaming
Analisi della deriva del minimizzatore: Comprensione dei cambiamenti della funzione obiettivo attraverso l'analisi di $\|w_{i+1}^* - w_i^*\|$
Analisi ricorsiva dell'errore: Stabilimento di relazioni ricorsive per tracciare l'evoluzione dell'errore

Analisi Teorica

Ipotesi Fondamentali

Ipotesi 1 (L-levigatezza e μ-convessità forte): La funzione di perdita di ogni campione di dati soddisfa:

$\|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\|$
$f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2$

Ipotesi 2 (Minimizzatore limitato): Esiste $C > 0$ tale che $\|w_t^*\| \leq C$ per tutti i t.

Risultati Teorici Principali

Errore di Tracciamento per Pesi Uniformi

Proposizione 1: Per pesi uniformi, l'errore di tracciamento soddisfa: $\text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t}$

Dove $\alpha = (1-\eta\mu)^E < 1$ , $C' = (1+\sqrt{L/\mu})\frac{LC}{\mu}$ .

Conclusione chiave: Il TE decade con tasso O(1/t), l'errore di tracciamento asintotico è zero.

Errore di Tracciamento per Pesi Scontati

Proposizione 2: Per pesi scontati, l'errore di tracciamento asintotico soddisfa: $\text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha}$

Conclusione chiave: Esiste un limite di errore non nullo, controllato dal fattore di sconto γ e dal numero di aggiornamenti del gradiente E.

Impostazione Sperimentale

Generazione dei Dati

Utilizzo di funzione di perdita quadratica scalare: $f_t(w) = \frac{\mu}{2}(w-c_t)^2$

Impostazione dei parametri:

$c_t$ generato da passeggiata casuale limitata: $c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max}))$
$z_t \sim \mathcal{N}(0, \sigma^2)$ , $C_{\max} = 100$ , $\sigma^2 = 100$ , $\mu = 0.1$

Metriche di Valutazione

Errore quadratico medio di tracciamento
Errore di tracciamento massimo (caso peggiore)
Risultati statistici da 1000 esecuzioni indipendenti

Risultati Sperimentali

Risultati per Pesi Uniformi

Verifica del decadimento O(1/t): Gli esperimenti mostrano chiaramente il decadimento monotono coerente con le previsioni teoriche
Impatto del numero di aggiornamenti del gradiente: Aumentando E da 10 a 20, il miglioramento empirico del TE è di circa un fattore 0.09, corrispondente quantitativamente alle previsioni teoriche
Comportamento a lungo termine: Per grandi t, il TE è dominato dall'errore residuo della deriva del minimizzatore

Risultati per Pesi Scontati

Limite di errore non nullo: Tutti gli indicatori di errore convergono a un limite di errore di tracciamento asintotico non nullo
Impatto del fattore di sconto: Valori più grandi di γ producono errori di tracciamento asintotico inferiori
Verifica teorica: Quando γ=0.99, il TE si avvicina al caso di pesi uniformi, validando l'analisi teorica

Complessità del Gradiente

Proposizione 3: Per garantire $\text{ATE}_\gamma \leq \epsilon$ , è necessario eseguire: $E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)}$ aggiornamenti del gradiente, risultando in una complessità di iterazione del gradiente O(ln(1/ε)).

Lavori Correlati

Ottimizzazione Variabile nel Tempo

Lavori iniziali: Algoritmi di tipo Newton che sfruttano informazioni del secondo ordine per convergenza esponenziale
Condizioni di deriva limitata: Metodi che assumono $\|w_{t+1}^* - w_t^*\| \leq C$
Schemi predittivo-correttivi: Metodi che combinano previsione e correzione del gradiente

Apprendimento Continuo

Apprendimento su sequenze di compiti: Apprendimento di modelli ML su sequenze di compiti
Dimenticanza catastrofica: Sfida del degrado delle prestazioni su compiti precedenti nell'apprendimento di nuovi compiti
Metodi empirici: I metodi esistenti sono principalmente empirici, mancando di fondamenti teorici

Unicità del Contributo di questo Articolo

Questo articolo è il primo a collegare teoricamente l'ottimizzazione variabile nel tempo e l'apprendimento continuo, fornendo un'analisi esplicita della struttura dei dati in streaming.

Conclusioni e Discussione

Conclusioni Principali

Pesi uniformi: Realizzazione di errore di tracciamento con decadimento O(1/t), tracciamento asintotico perfetto
Pesi scontati: Produzione di errore asintotico non nullo esplicitamente quantificabile, riflettendo la dimenticanza dei dati precedenti
Analisi strutturata: Sfruttamento della struttura dei dati in streaming per ottenere limiti più stretti rispetto ai metodi generici

Intuizioni Teoriche

Uniforme vs. Scontato: I pesi uniformi diluiscono l'influenza di ogni nuovo campione a O(1/t), mentre i pesi scontati mantengono una deriva O(1)
Convergenza dei pesi: Quando γ→1, i pesi scontati convergono ai pesi uniformi, corrispondentemente ATE_γ→0
Compromesso del budget computazionale: Più aggiornamenti del gradiente E possono ridurre l'errore di tracciamento, ma aumentano il costo computazionale

Limitazioni

Ipotesi di memoria: Assume l'accesso a tutti i gradienti dei campioni storici, non considerando i vincoli di memoria
Funzioni di perdita specifiche: L'analisi teorica si basa su ipotesi di L-levigatezza e μ-convessità forte
Minimizzatore limitato: Richiede l'ipotesi che i minimizzatori siano uniformemente limitati

Direzioni Future

Analisi con memoria limitata: Studio dell'apprendimento variabile nel tempo sotto vincoli di memoria
Funzioni di perdita più generali: Estensione a perdite non convesse o di altri tipi
Impostazioni distribuite: Applicazioni in ambienti distribuiti come l'apprendimento federato
Pesi adattivi: Studio di strategie di ponderazione dinamiche guidate dai dati

Valutazione Approfondita

Punti di Forza

Rigore teorico: Fornitura di analisi matematica completa e derivazione di limiti stretti
Approccio strutturato: Sfruttamento esplicito della struttura dei dati in streaming, ottenimento di risultati più precisi rispetto ai metodi generici
Valore pratico: Due strategie di ponderazione corrispondono a diversi scenari di applicazione reale
Verifica sperimentale: I risultati numerici sono altamente coerenti con le previsioni teoriche
Presentazione chiara: L'articolo è ben organizzato, le derivazioni matematiche sono chiare

Insufficienze

Limitazioni delle ipotesi: Le ipotesi di L-levigatezza e μ-convessità forte possono essere eccessivamente restrittive nelle applicazioni pratiche
Requisiti di memoria: Necessità di memorizzare tutti i gradienti storici, non realistico in applicazioni su larga scala
Impostazione a singolo agente: Considerazione solo di scenari a singolo agente, senza affrontare scenari multi-agente o distribuiti
Esperimenti semplici: Gli esperimenti utilizzano funzioni di perdita quadratica semplici, mancando di verifica in scenari complessi

Impatto

Contributo teorico: Fornitura di fondamenti teorici importanti per l'ottimizzazione variabile nel tempo e l'apprendimento continuo
Valore metodologico: Il metodo di analisi strutturata può essere generalizzato ad altri problemi di apprendimento variabile nel tempo
Applicazione pratica: Fornitura di guida teorica per la progettazione di sistemi online e adattivi
Riproducibilità: Descrizione dettagliata dei risultati teorici e dell'impostazione sperimentale, facilitando la riproduzione

Scenari Applicabili

Sistemi di apprendimento online: Sistemi di machine learning che devono adattarsi continuamente ai nuovi dati
Controllo adattivo: Progettazione di controllori per sistemi variabili nel tempo
Modellazione finanziaria: Strategie di investimento che devono adattarsi ai cambiamenti del mercato
Applicazioni IoT: Elaborazione dati in tempo reale nelle reti di sensori
Sistemi di raccomandazione: Algoritmi di raccomandazione che devono adattarsi ai cambiamenti delle preferenze degli utenti

Bibliografia

L'articolo cita 40 riferimenti correlati, coprendo lavori importanti nei campi dell'ottimizzazione variabile nel tempo, dell'apprendimento continuo, dell'ottimizzazione convessa e di altri domini chiave, fornendo una base teorica solida per la ricerca.