Time-Varying Optimization for Streaming Data Via Temporal Weighting
Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic
Zeitvariable Optimierung für Streaming-Daten durch zeitliche Gewichtung
Die klassische Optimierungstheorie befasst sich mit festen, zeitinvarianten Zielfunktionen. Zeitvariable Optimierung ist jedoch zu einem wichtigen Thema für Entscheidungsfindung in dynamischen Umgebungen geworden. Dieses Paper untersucht das Lernproblem von Streaming-Daten aus der Perspektive der zeitvariablen Optimierung. Im Gegensatz zu früheren Arbeiten, die sich auf allgemeine Formulierungen konzentrieren, führen wir eine strukturierte, gewichtungsbasierte Formulierung ein, die explizit die Streaming-Datenquellen zeitvariabeler Ziele erfasst. Dabei zielt ein Agent in jedem Zeitschritt darauf ab, den gewichteten Durchschnittsverlust aller vergangenen Datenproben zu minimieren. Wir konzentrieren uns auf zwei spezifische Gewichtungsstrategien: (1) einheitliche Gewichtung, die alle Proben gleich behandelt; (2) diskontierte Gewichtung, die den Einfluss alter Daten geometrisch abschwächt. Für beide Szenarien leiten wir enge Grenzen für den „Tracking-Fehler" (TE) unter Gradient-Descent-Updates (GD) ab, wobei TE als die Abweichung zwischen Modellparametern und der zeitvariablen optimalen Lösung zum gegebenen Zeitschritt definiert ist. Wir zeigen, dass unter einheitlicher Gewichtung der TE mit einer Abklingrate von O(1/t) asymptotisch verschwindet, während diskontierte Gewichtung eine von Null verschiedene Fehlerunterschranke ergibt, die durch den Diskontfaktor und die Anzahl der Gradient-Updates pro Zeitschritt kontrolliert wird.
Das Kernproblem dieses Papers ist das zeitvariable Optimierungslernproblem in einer Streaming-Daten-Umgebung. Konkret:
Einschränkungen klassischer Optimierung: Klassisches Machine-Learning optimiert statische Zielfunktionen unter der Annahme statischer Datenverteilungen, aber reale Lösungen operieren in dynamisch sich entwickelnden Umgebungen
Herausforderungen von Streaming-Daten: Daten treffen sequenziell ein, die Zielfunktion entwickelt sich zeitlich, was zu nicht-stationären Optimierungsproblemen führt
Rechenbeschränkungen: In Echtzeit- oder ressourcenbeschränkten Einstellungen können pro Zeitschritt nur begrenzte Updates durchgeführt werden
Lockere Grenzen allgemeiner Formulierungen: Die meisten bestehenden Arbeiten konzentrieren sich auf allgemeine zeitvariable Formulierungen, ignorieren die inhärente Struktur von Streaming-Daten und können zu lockeren Grenzen des Tracking-Fehlers führen
Fehlende strukturierte Analyse: Bestehende Methoden nutzen nicht explizit die Gewichtungsstruktur von Streaming-Daten, um engere Leistungsgrenzen zu erhalten
Theorie-Praxis-Kluft: Methoden im Bereich des kontinuierlichen Lernens sind größtenteils empirisch und entbehren einer theoretischen Grundlage
Strukturierte Gewichtungsformulierung: Einführung einer zeitvariablen Zielfunktion, die die Struktur von Streaming-Daten explizit erfasst, definiert als gewichteter Durchschnitt der Verluste aller vergangenen Proben
Betrachten Sie eine einzelne Agent-Einstellung (wie einen Edge- oder Cloud-Server), die darauf abzielt, zeitvariable Machine-Learning-Modellparameter zu verfolgen:
Eingabe: Bei jeder Iteration t≥1 empfängt der Agent eine neue Datenprobe (x_t, y_t)
Ausgabe: Modellparameter w_t, die den gewichteten Durchschnittsverlust kumulativer Daten minimieren
Einschränkung: Pro Zeitschritt können nur E Gradient-Updates durchgeführt werden
Validierung O(1/t)-Abklings: Experimente zeigen deutlich monotonen Abfall, konsistent mit theoretischen Vorhersagen
Einfluss der Gradient-Updates: Erhöhung von E von 10 auf 20 verbessert empirischen TE um Faktor etwa 0,09, quantitativ konsistent mit theoretischen Vorhersagen
Langzeitverhalten: Für großes t wird TE durch Residualfehler der Minimierer-Drift dominiert
Proposition 3: Um ATEγ≤ϵ zu sichern, müssen durchgeführt werden:
E≥ln(1−ημ)ln(C′(1−γ)+ϵϵ)
Gradient-Updates, was zu O(ln(1/ε))-Gradient-Iterations-Komplexität führt.
Dieses Paper verbindet erstmals zeitvariable Optimierung und kontinuierliches Lernen aus theoretischer Perspektive mit expliziter Analyse der Streaming-Daten-Struktur.
Einheitlich vs. diskontiert: Einheitliche Gewichtung verdünnt den Einfluss jeder neuen Probe zu O(1/t), während diskontierte Gewichtung O(1)-Drift beibehält
Gewichtskonvergenz: Wenn γ→1, konvergiert diskontierte Gewichtung zu einheitlicher Gewichtung, entsprechend ATE_γ→0
Rechenbugget-Tradeoff: Mehr Gradient-Updates E können Tracking-Fehler reduzieren, erhöhen aber Rechenkosten
Das Paper zitiert 40 verwandte Arbeiten, die wichtige Arbeiten in den Schlüsselbereichen zeitvariable Optimierung, kontinuierliches Lernen und konvexe Optimierung abdecken und eine solide theoretische Grundlage für die Forschung bieten.