Time-Varying Optimization for Streaming Data Via Temporal Weighting
Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic
Optimisation Temporelle pour Données en Continu Via Pondération Temporelle
La théorie d'optimisation traditionnelle traite des fonctions objectif fixes et invariantes dans le temps. Cependant, l'optimisation temporelle est devenue un sujet important pour la prise de décision dans les environnements dynamiques. Cet article étudie le problème d'apprentissage sur données en continu sous la perspective de l'optimisation temporelle. Contrairement aux travaux antérieurs axés sur des formulations génériques, nous introduisons une formulation structurée basée sur la pondération qui capture explicitement les sources de données en continu d'objectifs temporels, où l'agent vise à minimiser à chaque pas de temps la perte moyenne pondérée de tous les échantillons de données passés. Nous nous concentrons sur deux stratégies de pondération spécifiques: (1) la pondération uniforme, traitant équitablement tous les échantillons; (2) la pondération avec actualisation, décroissant géométriquement l'influence des anciennes données. Pour les deux schémas, nous dérivons des bornes serrées sur l'« erreur de suivi » (TE) sous les mises à jour de descente de gradient (GD), où TE est définie comme l'écart entre les paramètres du modèle et la solution optimale temporelle à un pas de temps donné. Nous démontrons que sous la pondération uniforme, TE disparaît asymptotiquement avec un taux de décroissance O(1/t), tandis que la pondération avec actualisation produit une borne d'erreur non nulle contrôlée par le facteur d'actualisation et le nombre de mises à jour de gradient exécutées à chaque pas de temps.
Le problème fondamental abordé par cet article est celui de l'optimisation temporelle dans l'apprentissage sur données en continu. Spécifiquement:
Limitations de l'optimisation traditionnelle: L'optimisation classique en apprentissage automatique suppose des fonctions objectif statiques et des distributions de données statiques, alors que les solutions du monde réel opèrent dans des environnements en évolution dynamique
Défis des données en continu: Les données arrivent séquentiellement, la fonction objectif évolue dans le temps, conduisant à des problèmes d'optimisation non stationnaires
Contraintes de calcul: Dans les paramètres en temps réel ou avec ressources limitées, seul un nombre limité de mises à jour peut être exécuté à chaque pas de temps
Bornes lâches pour les formulations génériques: La plupart des travaux existants se concentrent sur des formulations temporelles génériques, ignorant la structure inhérente des données en continu, ce qui peut conduire à des bornes lâches sur l'erreur de suivi
Manque d'analyse structurée: Les méthodes existantes n'exploitent pas explicitement la structure pondérée des données en continu pour obtenir des bornes de performance plus serrées
Déconnexion entre théorie et pratique: Les méthodes du domaine de l'apprentissage continu sont principalement empiriques, manquant de fondements théoriques
Proposition d'une formulation pondérée structurée: Introduction de fonctions objectif temporelles capturant explicitement la structure des données en continu, définies comme la moyenne pondérée des pertes de tous les échantillons passés
Analyse théorique de deux stratégies de pondération:
Pondération uniforme: Preuve que l'erreur de suivi disparaît asymptotiquement au taux O(1/t)
Pondération avec actualisation: Dérivation de bornes explicites d'erreur de suivi asymptotique non nulle
Dérivation de bornes serrées: Utilisation de la structure des données en continu pour obtenir des bornes TE plus serrées que l'analyse temporelle générique existante
Vérification théorique et expérimentale: Validation de l'efficacité des résultats théoriques par simulation numérique
Vérification de la décroissance O(1/t): Les expériences démontrent clairement une décroissance monotone cohérente avec les prédictions théoriques
Impact du nombre de mises à jour de gradient: L'augmentation de E de 10 à 20 améliore l'erreur TE empirique d'un facteur d'environ 0,09, correspondant quantitativement aux prédictions théoriques
Comportement à long terme: Pour les grands t, TE est dominée par l'erreur résiduelle de la dérive du minimiseur
Proposition 3: Pour assurer ATEγ≤ϵ, il est nécessaire d'exécuter:
E≥ln(1−ημ)ln(C′(1−γ)+ϵϵ)
mises à jour de gradient, conduisant à une complexité d'itération de gradient O(ln(1/ε)).
Cet article établit pour la première fois un pont théorique entre l'optimisation temporelle et l'apprentissage continu, fournissant une analyse explicite de la structure des données en continu.
Uniforme vs Actualisation: La pondération uniforme dilue l'influence de chaque nouvel échantillon à O(1/t), tandis que la pondération avec actualisation maintient une dérive O(1)
Convergence des poids: Lorsque γ→1, la pondération avec actualisation converge vers la pondération uniforme, correspondant à ATE_γ→0
Compromis budgétaire de calcul: Plus de mises à jour de gradient E peuvent réduire l'erreur de suivi, mais augmentent le coût de calcul
L'article cite 40 références pertinentes couvrant les domaines clés de l'optimisation temporelle, de l'apprentissage continu et de l'optimisation convexe, fournissant une base théorique solide pour la recherche.