2025-11-18T22:10:13.514792

Time-Varying Optimization for Streaming Data Via Temporal Weighting

Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic

Zeitvariable Optimierung für Streaming-Daten durch zeitliche Gewichtung

Grundinformationen

  • Paper-ID: 2510.13052
  • Titel: Time-Varying Optimization for Streaming Data Via Temporal Weighting
  • Autoren: Muhammad Faraz Ul Abrar (Arizona State University), Nicolò Michelusi (Arizona State University), Erik G. Larsson (Linköping University)
  • Klassifizierung: cs.LG cs.AI cs.SY eess.SP eess.SY math.OC
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13052

Zusammenfassung

Die klassische Optimierungstheorie befasst sich mit festen, zeitinvarianten Zielfunktionen. Zeitvariable Optimierung ist jedoch zu einem wichtigen Thema für Entscheidungsfindung in dynamischen Umgebungen geworden. Dieses Paper untersucht das Lernproblem von Streaming-Daten aus der Perspektive der zeitvariablen Optimierung. Im Gegensatz zu früheren Arbeiten, die sich auf allgemeine Formulierungen konzentrieren, führen wir eine strukturierte, gewichtungsbasierte Formulierung ein, die explizit die Streaming-Datenquellen zeitvariabeler Ziele erfasst. Dabei zielt ein Agent in jedem Zeitschritt darauf ab, den gewichteten Durchschnittsverlust aller vergangenen Datenproben zu minimieren. Wir konzentrieren uns auf zwei spezifische Gewichtungsstrategien: (1) einheitliche Gewichtung, die alle Proben gleich behandelt; (2) diskontierte Gewichtung, die den Einfluss alter Daten geometrisch abschwächt. Für beide Szenarien leiten wir enge Grenzen für den „Tracking-Fehler" (TE) unter Gradient-Descent-Updates (GD) ab, wobei TE als die Abweichung zwischen Modellparametern und der zeitvariablen optimalen Lösung zum gegebenen Zeitschritt definiert ist. Wir zeigen, dass unter einheitlicher Gewichtung der TE mit einer Abklingrate von O(1/t) asymptotisch verschwindet, während diskontierte Gewichtung eine von Null verschiedene Fehlerunterschranke ergibt, die durch den Diskontfaktor und die Anzahl der Gradient-Updates pro Zeitschritt kontrolliert wird.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieses Papers ist das zeitvariable Optimierungslernproblem in einer Streaming-Daten-Umgebung. Konkret:

  1. Einschränkungen klassischer Optimierung: Klassisches Machine-Learning optimiert statische Zielfunktionen unter der Annahme statischer Datenverteilungen, aber reale Lösungen operieren in dynamisch sich entwickelnden Umgebungen
  2. Herausforderungen von Streaming-Daten: Daten treffen sequenziell ein, die Zielfunktion entwickelt sich zeitlich, was zu nicht-stationären Optimierungsproblemen führt
  3. Rechenbeschränkungen: In Echtzeit- oder ressourcenbeschränkten Einstellungen können pro Zeitschritt nur begrenzte Updates durchgeführt werden

Bedeutung

Dieses Problem ist in mehreren kritischen Anwendungsbereichen von großer Bedeutung:

  • Verfolgung mobiler Roboter in autonomen Fahrzeugen
  • Lokalisierung beweglicher Ziele
  • Portfoliooptimierung
  • Risikomanagement in volatilen Finanzmärkten
  • Regleradaption an zeitvariable Systemdynamiken

Einschränkungen bestehender Methoden

  1. Lockere Grenzen allgemeiner Formulierungen: Die meisten bestehenden Arbeiten konzentrieren sich auf allgemeine zeitvariable Formulierungen, ignorieren die inhärente Struktur von Streaming-Daten und können zu lockeren Grenzen des Tracking-Fehlers führen
  2. Fehlende strukturierte Analyse: Bestehende Methoden nutzen nicht explizit die Gewichtungsstruktur von Streaming-Daten, um engere Leistungsgrenzen zu erhalten
  3. Theorie-Praxis-Kluft: Methoden im Bereich des kontinuierlichen Lernens sind größtenteils empirisch und entbehren einer theoretischen Grundlage

Kernbeiträge

  1. Strukturierte Gewichtungsformulierung: Einführung einer zeitvariablen Zielfunktion, die die Struktur von Streaming-Daten explizit erfasst, definiert als gewichteter Durchschnitt der Verluste aller vergangenen Proben
  2. Theoretische Analyse zweier Gewichtungsstrategien:
    • Einheitliche Gewichtung: Beweis, dass der Tracking-Fehler mit Rate O(1/t) asymptotisch verschwindet
    • Diskontierte Gewichtung: Ableitung expliziter Grenzen für von Null verschiedene asymptotische Tracking-Fehler
  3. Enge Grenzwertableitungen: Nutzung der Streaming-Daten-Struktur zur Erlangung engerer TE-Grenzen als bestehende allgemeine zeitvariable Analysen
  4. Theoretische und experimentelle Validierung: Numerische Simulationen zur Validierung der Wirksamkeit theoretischer Erkenntnisse

Methodische Details

Aufgabendefinition

Betrachten Sie eine einzelne Agent-Einstellung (wie einen Edge- oder Cloud-Server), die darauf abzielt, zeitvariable Machine-Learning-Modellparameter zu verfolgen:

  • Eingabe: Bei jeder Iteration t≥1 empfängt der Agent eine neue Datenprobe (x_t, y_t)
  • Ausgabe: Modellparameter w_t, die den gewichteten Durchschnittsverlust kumulativer Daten minimieren
  • Einschränkung: Pro Zeitschritt können nur E Gradient-Updates durchgeführt werden

Zentrale mathematische Formulierung

Zeitvariable Zielfunktion: wt=argminwRdFt(w),wobeiFt(w)=i=1tai(t)fi(w)w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{wobei} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w)

Wobei:

  • ai(t)a_i(t) das Gewicht der i-ten Probe zum Zeitpunkt t ist
  • fi(w)f_i(w) die Verlustfunktion der i-ten Datenprobe ist
  • Die Gewichte erfüllen: 0ai(t)10 \leq a_i(t) \leq 1 und i=1tai(t)=1\sum_{i=1}^t a_i(t) = 1

Gradient-Descent-Update: wt,k+1=wt,kηFt+1(wt,k)=wt,kηi=1t+1ai(t+1)fi(wt,k)w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k})

Tracking-Fehler-Definition: TE(t)=wtwt\text{TE}(t) = \|w_t - w_t^*\|

Zwei Gewichtungsstrategien

1. Einheitliche Gewichtung

Setzen Sie ai(t)=1/ta_i(t) = 1/t für alle i=1,,ti = 1, \ldots, t, die Zielfunktion wird zu: Ft+1(w)=tt+1Ft(w)+1t+1ft+1(w)F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w)

2. Diskontierte Gewichtung

Verwendung geometrischer Diskontierung: ai(t)=1γ1γtγtia_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i}, wobei 0<γ<10 < \gamma < 1 der Diskontfaktor ist.

Technische Innovationen

  1. Strukturierte Analyse: Im Gegensatz zur allgemeinen zeitvariablen Optimierung wird die Gewichtungsstruktur von Streaming-Daten explizit genutzt
  2. Minimierer-Drift-Analyse: Verständnis der Zielfunktionsänderungen durch Analyse von wi+1wi\|w_{i+1}^* - w_i^*\|
  3. Rekursive Fehleranalyse: Etablierung rekursiver Beziehungen zur Verfolgung der Fehlerentwicklung

Theoretische Analyse

Grundlegende Annahmen

Annahme 1 (L-Glattheit und μ-starke Konvexität): Jede Datenprobe-Verlustfunktion erfüllt:

  • ft(x)ft(y)Lxy\|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\|
  • ft(y)ft(x)+ft(x)T(yx)+μ2yx2f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2

Annahme 2 (Begrenzte Minimierer): Es existiert C>0C > 0 so dass wtC\|w_t^*\| \leq C für alle t gilt.

Haupttheoretische Ergebnisse

Tracking-Fehler bei einheitlicher Gewichtung

Proposition 1: Für einheitliche Gewichtung erfüllt der Tracking-Fehler: TE(t)αtw0w1+CAt\text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t}

Wobei α=(1ημ)E<1\alpha = (1-\eta\mu)^E < 1, C=(1+L/μ)LCμC' = (1+\sqrt{L/\mu})\frac{LC}{\mu}.

Schlüsselfolgerung: Der TE nimmt mit Rate O(1/t) ab, der asymptotische Tracking-Fehler ist Null.

Tracking-Fehler bei diskontierter Gewichtung

Proposition 2: Für diskontierte Gewichtung ist der asymptotische Tracking-Fehler: ATEγ=lim suptwtwt(1+Lμ)LCμ(1γ)α1α\text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha}

Schlüsselfolgerung: Es existiert eine von Null verschiedene Fehlerunterschranke, kontrolliert durch Diskontfaktor γ und Anzahl der Gradient-Updates E.

Experimentelle Einrichtung

Datengenerierung

Verwendung einer skalaren quadratischen Verlustfunktion: ft(w)=μ2(wct)2f_t(w) = \frac{\mu}{2}(w-c_t)^2

Parametereinstellungen:

  • ctc_t wird durch begrenzten Zufallslauf generiert: ct+1=max(Cmax,min(ct+zt+1,Cmax))c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max}))
  • ztN(0,σ2)z_t \sim \mathcal{N}(0, \sigma^2), Cmax=100C_{\max} = 100, σ2=100\sigma^2 = 100, μ=0.1\mu = 0.1

Bewertungsmetriken

  • Quadratischer Mittelwert des Tracking-Fehlers
  • Maximaler (Worst-Case-)Tracking-Fehler
  • Statistische Ergebnisse aus 1000 unabhängigen Durchläufen

Experimentelle Ergebnisse

Ergebnisse einheitlicher Gewichtung

  • Validierung O(1/t)-Abklings: Experimente zeigen deutlich monotonen Abfall, konsistent mit theoretischen Vorhersagen
  • Einfluss der Gradient-Updates: Erhöhung von E von 10 auf 20 verbessert empirischen TE um Faktor etwa 0,09, quantitativ konsistent mit theoretischen Vorhersagen
  • Langzeitverhalten: Für großes t wird TE durch Residualfehler der Minimierer-Drift dominiert

Ergebnisse diskontierter Gewichtung

  • Von Null verschiedene Fehlerunterschranke: Alle Fehlermetriken konvergieren zu nicht verschwindender asymptotischer Fehlerunterschranke
  • Einfluss des Diskontfaktors: Größeres γ erzeugt niedrigere asymptotische Tracking-Fehler
  • Theoretische Validierung: Bei γ=0,99 nähert sich TE dem Fall einheitlicher Gewichtung an, validiert theoretische Analyse

Gradient-Komplexität

Proposition 3: Um ATEγϵ\text{ATE}_\gamma \leq \epsilon zu sichern, müssen durchgeführt werden: Eln(ϵC(1γ)+ϵ)ln(1ημ)E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)} Gradient-Updates, was zu O(ln(1/ε))-Gradient-Iterations-Komplexität führt.

Verwandte Arbeiten

Zeitvariable Optimierung

  • Frühe Arbeiten: Newton-Typ-Algorithmen nutzen Informationen zweiter Ordnung für exponentielle Konvergenz
  • Begrenzte Drift-Bedingungen: Methoden, die wt+1wtC\|w_{t+1}^* - w_t^*\| \leq C annehmen
  • Prädiktor-Korrektor-Schemata: Methoden, die Vorhersage und Gradient-Korrektur kombinieren

Kontinuierliches Lernen

  • Aufgabensequenz-Lernen: ML-Modell-Lernen über Aufgabensequenzen
  • Katastrophales Vergessen: Herausforderung der Leistungsverschlechterung alter Aufgaben beim Lernen neuer Aufgaben
  • Empirische Methoden: Bestehende Methoden sind größtenteils empirisch und entbehren theoretischer Grundlagen

Einzigartigkeit des Beitrags dieses Papers

Dieses Paper verbindet erstmals zeitvariable Optimierung und kontinuierliches Lernen aus theoretischer Perspektive mit expliziter Analyse der Streaming-Daten-Struktur.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Einheitliche Gewichtung: Erreicht O(1/t)-Abkling-Tracking-Fehler, asymptotisch perfekte Verfolgung
  2. Diskontierte Gewichtung: Erzeugt quantifizierbare von Null verschiedene asymptotische Fehler, reflektiert Vergessenheit alter Daten
  3. Strukturierte Analyse: Nutzung der Streaming-Daten-Struktur ergibt engere Grenzen als allgemeine Methoden

Theoretische Erkenntnisse

  • Einheitlich vs. diskontiert: Einheitliche Gewichtung verdünnt den Einfluss jeder neuen Probe zu O(1/t), während diskontierte Gewichtung O(1)-Drift beibehält
  • Gewichtskonvergenz: Wenn γ→1, konvergiert diskontierte Gewichtung zu einheitlicher Gewichtung, entsprechend ATE_γ→0
  • Rechenbugget-Tradeoff: Mehr Gradient-Updates E können Tracking-Fehler reduzieren, erhöhen aber Rechenkosten

Einschränkungen

  1. Speicherannahme: Annahme des Zugriffs auf alle historischen Gradienten, berücksichtigt keine Speicherbeschränkungen
  2. Spezifische Verlustfunktionen: Theoretische Analyse basiert auf L-Glattheit und μ-starker Konvexität
  3. Begrenzte Minimierer: Erfordert Annahme gleichmäßig beschränkter Minimierer

Zukünftige Richtungen

  1. Speicherbeschränkte Analyse: Untersuchung zeitvariablen Lernens unter Speicherbeschränkungen
  2. Allgemeinere Verlustfunktionen: Erweiterung auf nicht-konvexe oder andere Verlusttypen
  3. Verteilte Einstellungen: Anwendungen in verteilten Umgebungen wie föderiertem Lernen
  4. Adaptive Gewichtung: Untersuchung datengestützter dynamischer Gewichtungsstrategien

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige mathematische Analyse und enge Grenzwertableitungen
  2. Strukturierter Ansatz: Explizite Nutzung der Streaming-Daten-Struktur ergibt präzisere Ergebnisse als allgemeine Methoden
  3. Praktischer Wert: Zwei Gewichtungsstrategien entsprechen unterschiedlichen praktischen Anwendungsszenarien
  4. Experimentelle Validierung: Numerische Ergebnisse stimmen stark mit theoretischen Vorhersagen überein
  5. Klare Darstellung: Gut organisiertes Paper mit klaren mathematischen Ableitungen

Mängel

  1. Annahme-Einschränkungen: L-Glattheit und μ-starke Konvexität können in praktischen Anwendungen zu streng sein
  2. Speicheranforderungen: Erfordert Speicherung aller historischen Gradienten, in großskaligen Anwendungen unrealistisch
  3. Einzelner Agent: Berücksichtigt nur Einzelagenten-Einstellung, keine Multi-Agent- oder verteilten Szenarien
  4. Einfache Experimente: Experimente verwenden einfache quadratische Verlustfunktion, fehlt Validierung in komplexen Szenarien

Einflussfähigkeit

  1. Theoretischer Beitrag: Bietet wichtige theoretische Grundlagen für zeitvariable Optimierung und kontinuierliches Lernen
  2. Methodologischer Wert: Strukturierte Analysemethode kann auf andere zeitvariable Lernprobleme verallgemeinert werden
  3. Praktische Anwendung: Bietet theoretische Anleitung für Online-Lern- und adaptive Systemgestaltung
  4. Reproduzierbarkeit: Detaillierte Beschreibung theoretischer Ergebnisse und experimenteller Einrichtung ermöglicht Reproduktion

Anwendungsszenarien

  1. Online-Lernsysteme: Machine-Learning-Systeme, die sich kontinuierlich an neue Daten anpassen müssen
  2. Adaptive Steuerung: Reglerentwurf für zeitvariable Systeme
  3. Finanzmodellierung: Investitionsstrategien, die sich an Marktveränderungen anpassen müssen
  4. IoT-Anwendungen: Echtzeit-Datenverarbeitung in Sensornetzwerken
  5. Empfehlungssysteme: Empfehlungsalgorithmen, die sich an sich ändernde Benutzerpräferenzen anpassen

Literaturverzeichnis

Das Paper zitiert 40 verwandte Arbeiten, die wichtige Arbeiten in den Schlüsselbereichen zeitvariable Optimierung, kontinuierliches Lernen und konvexe Optimierung abdecken und eine solide theoretische Grundlage für die Forschung bieten.