2025-11-18T22:10:13.514792

Time-Varying Optimization for Streaming Data Via Temporal Weighting

Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic

Ottimizzazione Variabile nel Tempo per Dati in Streaming Via Ponderazione Temporale

Informazioni Fondamentali

  • ID Articolo: 2510.13052
  • Titolo: Time-Varying Optimization for Streaming Data Via Temporal Weighting
  • Autori: Muhammad Faraz Ul Abrar (Arizona State University), Nicolò Michelusi (Arizona State University), Erik G. Larsson (Linköping University)
  • Classificazione: cs.LG cs.AI cs.SY eess.SP eess.SY math.OC
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13052

Riassunto

La teoria dell'ottimizzazione tradizionale affronta funzioni obiettivo fisse e invarianti nel tempo. Tuttavia, l'ottimizzazione variabile nel tempo è diventata un argomento cruciale per il processo decisionale in ambienti dinamici. Questo articolo affronta il problema dell'apprendimento da dati in streaming dalla prospettiva dell'ottimizzazione variabile nel tempo. A differenza dei lavori precedenti focalizzati su formulazioni generiche, introduciamo una formulazione strutturata basata su pesi che cattura esplicitamente le fonti di dati in streaming degli obiettivi variabili nel tempo, dove l'agente mira a minimizzare la perdita media ponderata di tutti i campioni di dati passati ad ogni passo temporale. Ci concentriamo su due strategie di ponderazione specifiche: (1) pesi uniformi, che trattano equamente tutti i campioni; (2) pesi scontati, che attenuano geometricamente l'influenza dei dati precedenti. Per entrambi gli schemi, deriviamo limiti stretti dell'"errore di tracciamento" (TE) sotto aggiornamenti di discesa del gradiente (GD), definito come la deviazione tra i parametri del modello e la soluzione ottimale variabile nel tempo in un dato passo temporale. Dimostriamo che sotto ponderazione uniforme, il TE scompare asintoticamente con un tasso di decadimento O(1/t), mentre la ponderazione scontata produce un limite di errore non nullo controllato dal fattore di sconto e dal numero di aggiornamenti del gradiente eseguiti ad ogni passo temporale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato in questo articolo è l'apprendimento con ottimizzazione variabile nel tempo in ambienti di dati in streaming. Specificamente:

  1. Limitazioni dell'ottimizzazione tradizionale: L'ottimizzazione classica del machine learning affronta funzioni obiettivo statiche, assumendo distribuzioni di dati statiche, ma le soluzioni nel mondo reale operano in ambienti che evolvono dinamicamente
  2. Sfide dei dati in streaming: I dati arrivano sequenzialmente, la funzione obiettivo evolve nel tempo, portando a problemi di ottimizzazione non stazionari
  3. Vincoli computazionali: In impostazioni in tempo reale o con risorse limitate, è possibile eseguire solo un numero limitato di aggiornamenti ad ogni passo temporale

Importanza

Questo problema ha significato critico in molteplici domini applicativi:

  • Tracciamento di robot mobili in veicoli autonomi
  • Localizzazione di bersagli mobili
  • Ottimizzazione di portafogli
  • Gestione del rischio in mercati finanziari volatili
  • Adattamento del controllore alla dinamica di sistemi variabili nel tempo

Limitazioni dei Metodi Esistenti

  1. Limiti laschi per formulazioni generiche: La maggior parte dei lavori esistenti si concentra su formulazioni generiche variabili nel tempo, ignorando la struttura intrinseca dei dati in streaming, il che può portare a limiti laschi dell'errore di tracciamento
  2. Mancanza di analisi strutturata: I metodi esistenti non sfruttano esplicitamente la struttura ponderata dei dati in streaming per ottenere limiti di prestazione più stretti
  3. Disconnessione tra teoria e pratica: I metodi nel campo dell'apprendimento continuo sono principalmente empirici, mancando di fondamenti teorici

Contributi Principali

  1. Proposta di formulazione ponderata strutturata: Introduzione di una funzione obiettivo variabile nel tempo che cattura esplicitamente la struttura dei dati in streaming, definita come media ponderata della perdita di tutti i campioni passati
  2. Analisi teorica di due strategie di ponderazione:
    • Pesi uniformi: Dimostrazione che l'errore di tracciamento scompare asintoticamente con tasso O(1/t)
    • Pesi scontati: Derivazione di limiti espliciti dell'errore di tracciamento asintotico non nullo
  3. Derivazione di limiti stretti: Sfruttamento della struttura dei dati in streaming per ottenere limiti TE più stretti rispetto all'analisi generica variabile nel tempo esistente
  4. Verifica teorica e sperimentale: Validazione dei risultati teorici attraverso simulazioni numeriche

Spiegazione Dettagliata del Metodo

Definizione del Compito

Consideriamo un'impostazione di apprendimento in cui un singolo agente (come un server edge o cloud) mira a tracciare parametri di modello di machine learning variabili nel tempo:

  • Input: Ad ogni iterazione t≥1, l'agente riceve un nuovo campione di dati (xt, yt)
  • Output: Parametri del modello wt, che minimizzano la perdita media ponderata dei dati cumulativi
  • Vincolo: È possibile eseguire solo E aggiornamenti del gradiente ad ogni passo temporale

Formule Matematiche Fondamentali

Funzione obiettivo variabile nel tempo: wt=argminwRdFt(w),doveFt(w)=i=1tai(t)fi(w)w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{dove} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w)

Dove:

  • ai(t)a_i(t) è il peso del campione i-esimo al tempo t
  • fi(w)f_i(w) è la funzione di perdita del campione di dati i-esimo
  • I pesi soddisfano: 0ai(t)10 \leq a_i(t) \leq 1 e i=1tai(t)=1\sum_{i=1}^t a_i(t) = 1

Aggiornamento della discesa del gradiente: wt,k+1=wt,kηFt+1(wt,k)=wt,kηi=1t+1ai(t+1)fi(wt,k)w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k})

Definizione dell'errore di tracciamento: TE(t)=wtwt\text{TE}(t) = \|w_t - w_t^*\|

Due Strategie di Ponderazione

1. Pesi Uniformi

Impostazione ai(t)=1/ta_i(t) = 1/t per tutti i=1,,ti = 1, \ldots, t, la funzione obiettivo diventa: Ft+1(w)=tt+1Ft(w)+1t+1ft+1(w)F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w)

2. Pesi Scontati

Utilizzo dello sconto geometrico: ai(t)=1γ1γtγtia_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i}, dove 0<γ<10 < \gamma < 1 è il fattore di sconto.

Punti di Innovazione Tecnica

  1. Analisi strutturata: A differenza dell'ottimizzazione generica variabile nel tempo, sfruttamento esplicito della struttura ponderata dei dati in streaming
  2. Analisi della deriva del minimizzatore: Comprensione dei cambiamenti della funzione obiettivo attraverso l'analisi di wi+1wi\|w_{i+1}^* - w_i^*\|
  3. Analisi ricorsiva dell'errore: Stabilimento di relazioni ricorsive per tracciare l'evoluzione dell'errore

Analisi Teorica

Ipotesi Fondamentali

Ipotesi 1 (L-levigatezza e μ-convessità forte): La funzione di perdita di ogni campione di dati soddisfa:

  • ft(x)ft(y)Lxy\|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\|
  • ft(y)ft(x)+ft(x)T(yx)+μ2yx2f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2

Ipotesi 2 (Minimizzatore limitato): Esiste C>0C > 0 tale che wtC\|w_t^*\| \leq C per tutti i t.

Risultati Teorici Principali

Errore di Tracciamento per Pesi Uniformi

Proposizione 1: Per pesi uniformi, l'errore di tracciamento soddisfa: TE(t)αtw0w1+CAt\text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t}

Dove α=(1ημ)E<1\alpha = (1-\eta\mu)^E < 1, C=(1+L/μ)LCμC' = (1+\sqrt{L/\mu})\frac{LC}{\mu}.

Conclusione chiave: Il TE decade con tasso O(1/t), l'errore di tracciamento asintotico è zero.

Errore di Tracciamento per Pesi Scontati

Proposizione 2: Per pesi scontati, l'errore di tracciamento asintotico soddisfa: ATEγ=lim suptwtwt(1+Lμ)LCμ(1γ)α1α\text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha}

Conclusione chiave: Esiste un limite di errore non nullo, controllato dal fattore di sconto γ e dal numero di aggiornamenti del gradiente E.

Impostazione Sperimentale

Generazione dei Dati

Utilizzo di funzione di perdita quadratica scalare: ft(w)=μ2(wct)2f_t(w) = \frac{\mu}{2}(w-c_t)^2

Impostazione dei parametri:

  • ctc_t generato da passeggiata casuale limitata: ct+1=max(Cmax,min(ct+zt+1,Cmax))c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max}))
  • ztN(0,σ2)z_t \sim \mathcal{N}(0, \sigma^2), Cmax=100C_{\max} = 100, σ2=100\sigma^2 = 100, μ=0.1\mu = 0.1

Metriche di Valutazione

  • Errore quadratico medio di tracciamento
  • Errore di tracciamento massimo (caso peggiore)
  • Risultati statistici da 1000 esecuzioni indipendenti

Risultati Sperimentali

Risultati per Pesi Uniformi

  • Verifica del decadimento O(1/t): Gli esperimenti mostrano chiaramente il decadimento monotono coerente con le previsioni teoriche
  • Impatto del numero di aggiornamenti del gradiente: Aumentando E da 10 a 20, il miglioramento empirico del TE è di circa un fattore 0.09, corrispondente quantitativamente alle previsioni teoriche
  • Comportamento a lungo termine: Per grandi t, il TE è dominato dall'errore residuo della deriva del minimizzatore

Risultati per Pesi Scontati

  • Limite di errore non nullo: Tutti gli indicatori di errore convergono a un limite di errore di tracciamento asintotico non nullo
  • Impatto del fattore di sconto: Valori più grandi di γ producono errori di tracciamento asintotico inferiori
  • Verifica teorica: Quando γ=0.99, il TE si avvicina al caso di pesi uniformi, validando l'analisi teorica

Complessità del Gradiente

Proposizione 3: Per garantire ATEγϵ\text{ATE}_\gamma \leq \epsilon, è necessario eseguire: Eln(ϵC(1γ)+ϵ)ln(1ημ)E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)} aggiornamenti del gradiente, risultando in una complessità di iterazione del gradiente O(ln(1/ε)).

Lavori Correlati

Ottimizzazione Variabile nel Tempo

  • Lavori iniziali: Algoritmi di tipo Newton che sfruttano informazioni del secondo ordine per convergenza esponenziale
  • Condizioni di deriva limitata: Metodi che assumono wt+1wtC\|w_{t+1}^* - w_t^*\| \leq C
  • Schemi predittivo-correttivi: Metodi che combinano previsione e correzione del gradiente

Apprendimento Continuo

  • Apprendimento su sequenze di compiti: Apprendimento di modelli ML su sequenze di compiti
  • Dimenticanza catastrofica: Sfida del degrado delle prestazioni su compiti precedenti nell'apprendimento di nuovi compiti
  • Metodi empirici: I metodi esistenti sono principalmente empirici, mancando di fondamenti teorici

Unicità del Contributo di questo Articolo

Questo articolo è il primo a collegare teoricamente l'ottimizzazione variabile nel tempo e l'apprendimento continuo, fornendo un'analisi esplicita della struttura dei dati in streaming.

Conclusioni e Discussione

Conclusioni Principali

  1. Pesi uniformi: Realizzazione di errore di tracciamento con decadimento O(1/t), tracciamento asintotico perfetto
  2. Pesi scontati: Produzione di errore asintotico non nullo esplicitamente quantificabile, riflettendo la dimenticanza dei dati precedenti
  3. Analisi strutturata: Sfruttamento della struttura dei dati in streaming per ottenere limiti più stretti rispetto ai metodi generici

Intuizioni Teoriche

  • Uniforme vs. Scontato: I pesi uniformi diluiscono l'influenza di ogni nuovo campione a O(1/t), mentre i pesi scontati mantengono una deriva O(1)
  • Convergenza dei pesi: Quando γ→1, i pesi scontati convergono ai pesi uniformi, corrispondentemente ATE_γ→0
  • Compromesso del budget computazionale: Più aggiornamenti del gradiente E possono ridurre l'errore di tracciamento, ma aumentano il costo computazionale

Limitazioni

  1. Ipotesi di memoria: Assume l'accesso a tutti i gradienti dei campioni storici, non considerando i vincoli di memoria
  2. Funzioni di perdita specifiche: L'analisi teorica si basa su ipotesi di L-levigatezza e μ-convessità forte
  3. Minimizzatore limitato: Richiede l'ipotesi che i minimizzatori siano uniformemente limitati

Direzioni Future

  1. Analisi con memoria limitata: Studio dell'apprendimento variabile nel tempo sotto vincoli di memoria
  2. Funzioni di perdita più generali: Estensione a perdite non convesse o di altri tipi
  3. Impostazioni distribuite: Applicazioni in ambienti distribuiti come l'apprendimento federato
  4. Pesi adattivi: Studio di strategie di ponderazione dinamiche guidate dai dati

Valutazione Approfondita

Punti di Forza

  1. Rigore teorico: Fornitura di analisi matematica completa e derivazione di limiti stretti
  2. Approccio strutturato: Sfruttamento esplicito della struttura dei dati in streaming, ottenimento di risultati più precisi rispetto ai metodi generici
  3. Valore pratico: Due strategie di ponderazione corrispondono a diversi scenari di applicazione reale
  4. Verifica sperimentale: I risultati numerici sono altamente coerenti con le previsioni teoriche
  5. Presentazione chiara: L'articolo è ben organizzato, le derivazioni matematiche sono chiare

Insufficienze

  1. Limitazioni delle ipotesi: Le ipotesi di L-levigatezza e μ-convessità forte possono essere eccessivamente restrittive nelle applicazioni pratiche
  2. Requisiti di memoria: Necessità di memorizzare tutti i gradienti storici, non realistico in applicazioni su larga scala
  3. Impostazione a singolo agente: Considerazione solo di scenari a singolo agente, senza affrontare scenari multi-agente o distribuiti
  4. Esperimenti semplici: Gli esperimenti utilizzano funzioni di perdita quadratica semplici, mancando di verifica in scenari complessi

Impatto

  1. Contributo teorico: Fornitura di fondamenti teorici importanti per l'ottimizzazione variabile nel tempo e l'apprendimento continuo
  2. Valore metodologico: Il metodo di analisi strutturata può essere generalizzato ad altri problemi di apprendimento variabile nel tempo
  3. Applicazione pratica: Fornitura di guida teorica per la progettazione di sistemi online e adattivi
  4. Riproducibilità: Descrizione dettagliata dei risultati teorici e dell'impostazione sperimentale, facilitando la riproduzione

Scenari Applicabili

  1. Sistemi di apprendimento online: Sistemi di machine learning che devono adattarsi continuamente ai nuovi dati
  2. Controllo adattivo: Progettazione di controllori per sistemi variabili nel tempo
  3. Modellazione finanziaria: Strategie di investimento che devono adattarsi ai cambiamenti del mercato
  4. Applicazioni IoT: Elaborazione dati in tempo reale nelle reti di sensori
  5. Sistemi di raccomandazione: Algoritmi di raccomandazione che devono adattarsi ai cambiamenti delle preferenze degli utenti

Bibliografia

L'articolo cita 40 riferimenti correlati, coprendo lavori importanti nei campi dell'ottimizzazione variabile nel tempo, dell'apprendimento continuo, dell'ottimizzazione convessa e di altri domini chiave, fornendo una base teorica solida per la ricerca.