2025-11-18T22:10:13.514792

Time-Varying Optimization for Streaming Data Via Temporal Weighting

Abrar, Michelusi, Larsson

Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.

academic

Zeitvariable Optimierung für Streaming-Daten durch zeitliche Gewichtung

Grundinformationen

Paper-ID: 2510.13052
Titel: Time-Varying Optimization for Streaming Data Via Temporal Weighting
Autoren: Muhammad Faraz Ul Abrar (Arizona State University), Nicolò Michelusi (Arizona State University), Erik G. Larsson (Linköping University)
Klassifizierung: cs.LG cs.AI cs.SY eess.SP eess.SY math.OC
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13052

Zusammenfassung

Die klassische Optimierungstheorie befasst sich mit festen, zeitinvarianten Zielfunktionen. Zeitvariable Optimierung ist jedoch zu einem wichtigen Thema für Entscheidungsfindung in dynamischen Umgebungen geworden. Dieses Paper untersucht das Lernproblem von Streaming-Daten aus der Perspektive der zeitvariablen Optimierung. Im Gegensatz zu früheren Arbeiten, die sich auf allgemeine Formulierungen konzentrieren, führen wir eine strukturierte, gewichtungsbasierte Formulierung ein, die explizit die Streaming-Datenquellen zeitvariabeler Ziele erfasst. Dabei zielt ein Agent in jedem Zeitschritt darauf ab, den gewichteten Durchschnittsverlust aller vergangenen Datenproben zu minimieren. Wir konzentrieren uns auf zwei spezifische Gewichtungsstrategien: (1) einheitliche Gewichtung, die alle Proben gleich behandelt; (2) diskontierte Gewichtung, die den Einfluss alter Daten geometrisch abschwächt. Für beide Szenarien leiten wir enge Grenzen für den „Tracking-Fehler" (TE) unter Gradient-Descent-Updates (GD) ab, wobei TE als die Abweichung zwischen Modellparametern und der zeitvariablen optimalen Lösung zum gegebenen Zeitschritt definiert ist. Wir zeigen, dass unter einheitlicher Gewichtung der TE mit einer Abklingrate von O(1/t) asymptotisch verschwindet, während diskontierte Gewichtung eine von Null verschiedene Fehlerunterschranke ergibt, die durch den Diskontfaktor und die Anzahl der Gradient-Updates pro Zeitschritt kontrolliert wird.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieses Papers ist das zeitvariable Optimierungslernproblem in einer Streaming-Daten-Umgebung. Konkret:

Einschränkungen klassischer Optimierung: Klassisches Machine-Learning optimiert statische Zielfunktionen unter der Annahme statischer Datenverteilungen, aber reale Lösungen operieren in dynamisch sich entwickelnden Umgebungen
Herausforderungen von Streaming-Daten: Daten treffen sequenziell ein, die Zielfunktion entwickelt sich zeitlich, was zu nicht-stationären Optimierungsproblemen führt
Rechenbeschränkungen: In Echtzeit- oder ressourcenbeschränkten Einstellungen können pro Zeitschritt nur begrenzte Updates durchgeführt werden

Bedeutung

Dieses Problem ist in mehreren kritischen Anwendungsbereichen von großer Bedeutung:

Verfolgung mobiler Roboter in autonomen Fahrzeugen
Lokalisierung beweglicher Ziele
Portfoliooptimierung
Risikomanagement in volatilen Finanzmärkten
Regleradaption an zeitvariable Systemdynamiken

Einschränkungen bestehender Methoden

Lockere Grenzen allgemeiner Formulierungen: Die meisten bestehenden Arbeiten konzentrieren sich auf allgemeine zeitvariable Formulierungen, ignorieren die inhärente Struktur von Streaming-Daten und können zu lockeren Grenzen des Tracking-Fehlers führen
Fehlende strukturierte Analyse: Bestehende Methoden nutzen nicht explizit die Gewichtungsstruktur von Streaming-Daten, um engere Leistungsgrenzen zu erhalten
Theorie-Praxis-Kluft: Methoden im Bereich des kontinuierlichen Lernens sind größtenteils empirisch und entbehren einer theoretischen Grundlage

Kernbeiträge

Strukturierte Gewichtungsformulierung: Einführung einer zeitvariablen Zielfunktion, die die Struktur von Streaming-Daten explizit erfasst, definiert als gewichteter Durchschnitt der Verluste aller vergangenen Proben
Theoretische Analyse zweier Gewichtungsstrategien:
- Einheitliche Gewichtung: Beweis, dass der Tracking-Fehler mit Rate O(1/t) asymptotisch verschwindet
- Diskontierte Gewichtung: Ableitung expliziter Grenzen für von Null verschiedene asymptotische Tracking-Fehler
Enge Grenzwertableitungen: Nutzung der Streaming-Daten-Struktur zur Erlangung engerer TE-Grenzen als bestehende allgemeine zeitvariable Analysen
Theoretische und experimentelle Validierung: Numerische Simulationen zur Validierung der Wirksamkeit theoretischer Erkenntnisse

Methodische Details

Aufgabendefinition

Betrachten Sie eine einzelne Agent-Einstellung (wie einen Edge- oder Cloud-Server), die darauf abzielt, zeitvariable Machine-Learning-Modellparameter zu verfolgen:

Eingabe: Bei jeder Iteration t≥1 empfängt der Agent eine neue Datenprobe (x_t, y_t)
Ausgabe: Modellparameter w_t, die den gewichteten Durchschnittsverlust kumulativer Daten minimieren
Einschränkung: Pro Zeitschritt können nur E Gradient-Updates durchgeführt werden

Zentrale mathematische Formulierung

Zeitvariable Zielfunktion: $w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{wobei} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w)$

Wobei:

$a_i(t)$ das Gewicht der i-ten Probe zum Zeitpunkt t ist
$f_i(w)$ die Verlustfunktion der i-ten Datenprobe ist
Die Gewichte erfüllen: $0 \leq a_i(t) \leq 1$ und $\sum_{i=1}^t a_i(t) = 1$

Gradient-Descent-Update: $w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k})$

Tracking-Fehler-Definition: $\text{TE}(t) = \|w_t - w_t^*\|$

Zwei Gewichtungsstrategien

1. Einheitliche Gewichtung

Setzen Sie $a_i(t) = 1/t$ für alle $i = 1, \ldots, t$ , die Zielfunktion wird zu: $F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w)$

2. Diskontierte Gewichtung

Verwendung geometrischer Diskontierung: $a_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i}$ , wobei $0 < \gamma < 1$ der Diskontfaktor ist.

Technische Innovationen

Strukturierte Analyse: Im Gegensatz zur allgemeinen zeitvariablen Optimierung wird die Gewichtungsstruktur von Streaming-Daten explizit genutzt
Minimierer-Drift-Analyse: Verständnis der Zielfunktionsänderungen durch Analyse von $\|w_{i+1}^* - w_i^*\|$
Rekursive Fehleranalyse: Etablierung rekursiver Beziehungen zur Verfolgung der Fehlerentwicklung

Theoretische Analyse

Grundlegende Annahmen

Annahme 1 (L-Glattheit und μ-starke Konvexität): Jede Datenprobe-Verlustfunktion erfüllt:

$\|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\|$
$f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2$

Annahme 2 (Begrenzte Minimierer): Es existiert $C > 0$ so dass $\|w_t^*\| \leq C$ für alle t gilt.

Haupttheoretische Ergebnisse

Tracking-Fehler bei einheitlicher Gewichtung

Proposition 1: Für einheitliche Gewichtung erfüllt der Tracking-Fehler: $\text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t}$

Wobei $\alpha = (1-\eta\mu)^E < 1$ , $C' = (1+\sqrt{L/\mu})\frac{LC}{\mu}$ .

Schlüsselfolgerung: Der TE nimmt mit Rate O(1/t) ab, der asymptotische Tracking-Fehler ist Null.

Tracking-Fehler bei diskontierter Gewichtung

Proposition 2: Für diskontierte Gewichtung ist der asymptotische Tracking-Fehler: $\text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha}$

Schlüsselfolgerung: Es existiert eine von Null verschiedene Fehlerunterschranke, kontrolliert durch Diskontfaktor γ und Anzahl der Gradient-Updates E.

Experimentelle Einrichtung

Datengenerierung

Verwendung einer skalaren quadratischen Verlustfunktion: $f_t(w) = \frac{\mu}{2}(w-c_t)^2$

Parametereinstellungen:

$c_t$ wird durch begrenzten Zufallslauf generiert: $c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max}))$
$z_t \sim \mathcal{N}(0, \sigma^2)$ , $C_{\max} = 100$ , $\sigma^2 = 100$ , $\mu = 0.1$

Bewertungsmetriken

Quadratischer Mittelwert des Tracking-Fehlers
Maximaler (Worst-Case-)Tracking-Fehler
Statistische Ergebnisse aus 1000 unabhängigen Durchläufen

Experimentelle Ergebnisse

Ergebnisse einheitlicher Gewichtung

Validierung O(1/t)-Abklings: Experimente zeigen deutlich monotonen Abfall, konsistent mit theoretischen Vorhersagen
Einfluss der Gradient-Updates: Erhöhung von E von 10 auf 20 verbessert empirischen TE um Faktor etwa 0,09, quantitativ konsistent mit theoretischen Vorhersagen
Langzeitverhalten: Für großes t wird TE durch Residualfehler der Minimierer-Drift dominiert

Ergebnisse diskontierter Gewichtung

Von Null verschiedene Fehlerunterschranke: Alle Fehlermetriken konvergieren zu nicht verschwindender asymptotischer Fehlerunterschranke
Einfluss des Diskontfaktors: Größeres γ erzeugt niedrigere asymptotische Tracking-Fehler
Theoretische Validierung: Bei γ=0,99 nähert sich TE dem Fall einheitlicher Gewichtung an, validiert theoretische Analyse

Gradient-Komplexität

Proposition 3: Um $\text{ATE}_\gamma \leq \epsilon$ zu sichern, müssen durchgeführt werden: $E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)}$ Gradient-Updates, was zu O(ln(1/ε))-Gradient-Iterations-Komplexität führt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einheitliche Gewichtung: Erreicht O(1/t)-Abkling-Tracking-Fehler, asymptotisch perfekte Verfolgung
Diskontierte Gewichtung: Erzeugt quantifizierbare von Null verschiedene asymptotische Fehler, reflektiert Vergessenheit alter Daten
Strukturierte Analyse: Nutzung der Streaming-Daten-Struktur ergibt engere Grenzen als allgemeine Methoden

Theoretische Erkenntnisse

Einheitlich vs. diskontiert: Einheitliche Gewichtung verdünnt den Einfluss jeder neuen Probe zu O(1/t), während diskontierte Gewichtung O(1)-Drift beibehält
Gewichtskonvergenz: Wenn γ→1, konvergiert diskontierte Gewichtung zu einheitlicher Gewichtung, entsprechend ATE_γ→0
Rechenbugget-Tradeoff: Mehr Gradient-Updates E können Tracking-Fehler reduzieren, erhöhen aber Rechenkosten

Einschränkungen

Speicherannahme: Annahme des Zugriffs auf alle historischen Gradienten, berücksichtigt keine Speicherbeschränkungen
Spezifische Verlustfunktionen: Theoretische Analyse basiert auf L-Glattheit und μ-starker Konvexität
Begrenzte Minimierer: Erfordert Annahme gleichmäßig beschränkter Minimierer

Zukünftige Richtungen

Speicherbeschränkte Analyse: Untersuchung zeitvariablen Lernens unter Speicherbeschränkungen
Allgemeinere Verlustfunktionen: Erweiterung auf nicht-konvexe oder andere Verlusttypen
Verteilte Einstellungen: Anwendungen in verteilten Umgebungen wie föderiertem Lernen
Adaptive Gewichtung: Untersuchung datengestützter dynamischer Gewichtungsstrategien

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Vollständige mathematische Analyse und enge Grenzwertableitungen
Strukturierter Ansatz: Explizite Nutzung der Streaming-Daten-Struktur ergibt präzisere Ergebnisse als allgemeine Methoden
Praktischer Wert: Zwei Gewichtungsstrategien entsprechen unterschiedlichen praktischen Anwendungsszenarien
Experimentelle Validierung: Numerische Ergebnisse stimmen stark mit theoretischen Vorhersagen überein
Klare Darstellung: Gut organisiertes Paper mit klaren mathematischen Ableitungen

Mängel

Annahme-Einschränkungen: L-Glattheit und μ-starke Konvexität können in praktischen Anwendungen zu streng sein
Speicheranforderungen: Erfordert Speicherung aller historischen Gradienten, in großskaligen Anwendungen unrealistisch
Einzelner Agent: Berücksichtigt nur Einzelagenten-Einstellung, keine Multi-Agent- oder verteilten Szenarien
Einfache Experimente: Experimente verwenden einfache quadratische Verlustfunktion, fehlt Validierung in komplexen Szenarien

Einflussfähigkeit

Theoretischer Beitrag: Bietet wichtige theoretische Grundlagen für zeitvariable Optimierung und kontinuierliches Lernen
Methodologischer Wert: Strukturierte Analysemethode kann auf andere zeitvariable Lernprobleme verallgemeinert werden
Praktische Anwendung: Bietet theoretische Anleitung für Online-Lern- und adaptive Systemgestaltung
Reproduzierbarkeit: Detaillierte Beschreibung theoretischer Ergebnisse und experimenteller Einrichtung ermöglicht Reproduktion

Anwendungsszenarien

Online-Lernsysteme: Machine-Learning-Systeme, die sich kontinuierlich an neue Daten anpassen müssen
Adaptive Steuerung: Reglerentwurf für zeitvariable Systeme
Finanzmodellierung: Investitionsstrategien, die sich an Marktveränderungen anpassen müssen
IoT-Anwendungen: Echtzeit-Datenverarbeitung in Sensornetzwerken
Empfehlungssysteme: Empfehlungsalgorithmen, die sich an sich ändernde Benutzerpräferenzen anpassen

Literaturverzeichnis

Das Paper zitiert 40 verwandte Arbeiten, die wichtige Arbeiten in den Schlüsselbereichen zeitvariable Optimierung, kontinuierliches Lernen und konvexe Optimierung abdecken und eine solide theoretische Grundlage für die Forschung bieten.