2025-11-18T22:10:13.514792

Time-Varying Optimization for Streaming Data Via Temporal Weighting

Abrar, Michelusi, Larsson
Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
academic

Optimisation Temporelle pour Données en Continu Via Pondération Temporelle

Informations Fondamentales

  • ID de l'article: 2510.13052
  • Titre: Time-Varying Optimization for Streaming Data Via Temporal Weighting
  • Auteurs: Muhammad Faraz Ul Abrar (Arizona State University), Nicolò Michelusi (Arizona State University), Erik G. Larsson (Linköping University)
  • Classification: cs.LG cs.AI cs.SY eess.SP eess.SY math.OC
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.13052

Résumé

La théorie d'optimisation traditionnelle traite des fonctions objectif fixes et invariantes dans le temps. Cependant, l'optimisation temporelle est devenue un sujet important pour la prise de décision dans les environnements dynamiques. Cet article étudie le problème d'apprentissage sur données en continu sous la perspective de l'optimisation temporelle. Contrairement aux travaux antérieurs axés sur des formulations génériques, nous introduisons une formulation structurée basée sur la pondération qui capture explicitement les sources de données en continu d'objectifs temporels, où l'agent vise à minimiser à chaque pas de temps la perte moyenne pondérée de tous les échantillons de données passés. Nous nous concentrons sur deux stratégies de pondération spécifiques: (1) la pondération uniforme, traitant équitablement tous les échantillons; (2) la pondération avec actualisation, décroissant géométriquement l'influence des anciennes données. Pour les deux schémas, nous dérivons des bornes serrées sur l'« erreur de suivi » (TE) sous les mises à jour de descente de gradient (GD), où TE est définie comme l'écart entre les paramètres du modèle et la solution optimale temporelle à un pas de temps donné. Nous démontrons que sous la pondération uniforme, TE disparaît asymptotiquement avec un taux de décroissance O(1/t), tandis que la pondération avec actualisation produit une borne d'erreur non nulle contrôlée par le facteur d'actualisation et le nombre de mises à jour de gradient exécutées à chaque pas de temps.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé par cet article est celui de l'optimisation temporelle dans l'apprentissage sur données en continu. Spécifiquement:

  1. Limitations de l'optimisation traditionnelle: L'optimisation classique en apprentissage automatique suppose des fonctions objectif statiques et des distributions de données statiques, alors que les solutions du monde réel opèrent dans des environnements en évolution dynamique
  2. Défis des données en continu: Les données arrivent séquentiellement, la fonction objectif évolue dans le temps, conduisant à des problèmes d'optimisation non stationnaires
  3. Contraintes de calcul: Dans les paramètres en temps réel ou avec ressources limitées, seul un nombre limité de mises à jour peut être exécuté à chaque pas de temps

Importance

Ce problème revêt une importance critique dans plusieurs domaines d'application clés:

  • Suivi de robots mobiles dans les véhicules autonomes
  • Localisation de cibles mobiles
  • Optimisation de portefeuille
  • Gestion des risques dans les marchés financiers volatiles
  • Adaptation des contrôleurs à la dynamique des systèmes temporels

Limitations des Approches Existantes

  1. Bornes lâches pour les formulations génériques: La plupart des travaux existants se concentrent sur des formulations temporelles génériques, ignorant la structure inhérente des données en continu, ce qui peut conduire à des bornes lâches sur l'erreur de suivi
  2. Manque d'analyse structurée: Les méthodes existantes n'exploitent pas explicitement la structure pondérée des données en continu pour obtenir des bornes de performance plus serrées
  3. Déconnexion entre théorie et pratique: Les méthodes du domaine de l'apprentissage continu sont principalement empiriques, manquant de fondements théoriques

Contributions Fondamentales

  1. Proposition d'une formulation pondérée structurée: Introduction de fonctions objectif temporelles capturant explicitement la structure des données en continu, définies comme la moyenne pondérée des pertes de tous les échantillons passés
  2. Analyse théorique de deux stratégies de pondération:
    • Pondération uniforme: Preuve que l'erreur de suivi disparaît asymptotiquement au taux O(1/t)
    • Pondération avec actualisation: Dérivation de bornes explicites d'erreur de suivi asymptotique non nulle
  3. Dérivation de bornes serrées: Utilisation de la structure des données en continu pour obtenir des bornes TE plus serrées que l'analyse temporelle générique existante
  4. Vérification théorique et expérimentale: Validation de l'efficacité des résultats théoriques par simulation numérique

Détails de la Méthode

Définition de la Tâche

Considérez un agent unique (tel qu'un serveur périphérique ou cloud) visant à suivre les paramètres d'un modèle d'apprentissage automatique temporel:

  • Entrée: À chaque itération t≥1, l'agent reçoit un nouvel échantillon de données (x_t, y_t)
  • Sortie: Paramètres du modèle w_t minimisant la perte moyenne pondérée des données cumulées
  • Contrainte: Seul un nombre E de mises à jour de gradient peut être exécuté à chaque pas de temps

Formules Mathématiques Fondamentales

Fonction objectif temporelle: wt=argminwRdFt(w),ouˋFt(w)=i=1tai(t)fi(w)w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{où} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w)

Où:

  • ai(t)a_i(t) est le poids du i-ème échantillon au temps t
  • fi(w)f_i(w) est la fonction de perte du i-ème échantillon de données
  • Les poids satisfont: 0ai(t)10 \leq a_i(t) \leq 1 et i=1tai(t)=1\sum_{i=1}^t a_i(t) = 1

Mise à jour de descente de gradient: wt,k+1=wt,kηFt+1(wt,k)=wt,kηi=1t+1ai(t+1)fi(wt,k)w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k})

Définition de l'erreur de suivi: TE(t)=wtwt\text{TE}(t) = \|w_t - w_t^*\|

Deux Stratégies de Pondération

1. Pondération Uniforme

Définir ai(t)=1/ta_i(t) = 1/t pour tous i=1,,ti = 1, \ldots, t, la fonction objectif devient: Ft+1(w)=tt+1Ft(w)+1t+1ft+1(w)F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w)

2. Pondération avec Actualisation

Utiliser l'actualisation géométrique: ai(t)=1γ1γtγtia_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i}, où 0<γ<10 < \gamma < 1 est le facteur d'actualisation.

Points d'Innovation Technique

  1. Analyse structurée: Contrairement à l'optimisation temporelle générique, exploitation explicite de la structure pondérée des données en continu
  2. Analyse de la dérive du minimiseur: Compréhension du changement de fonction objectif par l'analyse de wi+1wi\|w_{i+1}^* - w_i^*\|
  3. Analyse d'erreur récursive: Établissement de relations récursives pour suivre l'évolution de l'erreur

Analyse Théorique

Hypothèses Fondamentales

Hypothèse 1 (L-lissité et μ-convexité forte): Chaque fonction de perte d'échantillon satisfait:

  • ft(x)ft(y)Lxy\|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\|
  • ft(y)ft(x)+ft(x)T(yx)+μ2yx2f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2

Hypothèse 2 (Minimiseur borné): Il existe C>0C > 0 tel que wtC\|w_t^*\| \leq C pour tous les t.

Résultats Théoriques Principaux

Erreur de Suivi pour Pondération Uniforme

Proposition 1: Pour la pondération uniforme, l'erreur de suivi satisfait: TE(t)αtw0w1+CAt\text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t}

α=(1ημ)E<1\alpha = (1-\eta\mu)^E < 1, C=(1+L/μ)LCμC' = (1+\sqrt{L/\mu})\frac{LC}{\mu}.

Conclusion clé: TE décroît au taux O(1/t), l'erreur de suivi asymptotique étant nulle.

Erreur de Suivi pour Pondération avec Actualisation

Proposition 2: Pour la pondération avec actualisation, l'erreur de suivi asymptotique satisfait: ATEγ=lim suptwtwt(1+Lμ)LCμ(1γ)α1α\text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha}

Conclusion clé: Il existe une borne d'erreur non nulle, contrôlée par le facteur d'actualisation γ et le nombre de mises à jour de gradient E.

Configuration Expérimentale

Génération de Données

Utilisation de fonctions de perte quadratique scalaire: ft(w)=μ2(wct)2f_t(w) = \frac{\mu}{2}(w-c_t)^2

Paramètres de configuration:

  • ctc_t généré par marche aléatoire bornée: ct+1=max(Cmax,min(ct+zt+1,Cmax))c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max}))
  • ztN(0,σ2)z_t \sim \mathcal{N}(0, \sigma^2), Cmax=100C_{\max} = 100, σ2=100\sigma^2 = 100, μ=0.1\mu = 0.1

Métriques d'Évaluation

  • Erreur quadratique moyenne de suivi
  • Erreur de suivi maximale (pire cas)
  • Résultats statistiques de 1000 exécutions indépendantes

Résultats Expérimentaux

Résultats de Pondération Uniforme

  • Vérification de la décroissance O(1/t): Les expériences démontrent clairement une décroissance monotone cohérente avec les prédictions théoriques
  • Impact du nombre de mises à jour de gradient: L'augmentation de E de 10 à 20 améliore l'erreur TE empirique d'un facteur d'environ 0,09, correspondant quantitativement aux prédictions théoriques
  • Comportement à long terme: Pour les grands t, TE est dominée par l'erreur résiduelle de la dérive du minimiseur

Résultats de Pondération avec Actualisation

  • Borne d'erreur non nulle: Tous les indicateurs d'erreur convergent vers une borne d'erreur de suivi asymptotique non disparaissante
  • Impact du facteur d'actualisation: Les plus grandes valeurs de γ produisent des erreurs de suivi asymptotiques plus faibles
  • Vérification théorique: Lorsque γ=0,99, TE approche le cas de pondération uniforme, validant l'analyse théorique

Complexité de Gradient

Proposition 3: Pour assurer ATEγϵ\text{ATE}_\gamma \leq \epsilon, il est nécessaire d'exécuter: Eln(ϵC(1γ)+ϵ)ln(1ημ)E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)} mises à jour de gradient, conduisant à une complexité d'itération de gradient O(ln(1/ε)).

Travaux Connexes

Optimisation Temporelle

  • Travaux antérieurs: Algorithmes de type Newton exploitant l'information du second ordre pour une convergence exponentielle
  • Conditions de dérive bornée: Méthodes supposant wt+1wtC\|w_{t+1}^* - w_t^*\| \leq C
  • Schémas prédiction-correction: Méthodes combinant prédiction et correction de gradient

Apprentissage Continu

  • Apprentissage de séquences de tâches: Apprentissage de modèles ML sur des séquences de tâches
  • Oubli catastrophique: Défi de la dégradation des performances des tâches anciennes lors de l'apprentissage de nouvelles tâches
  • Méthodes empiriques: Les méthodes existantes sont principalement empiriques, manquant de fondements théoriques

Unicité de la Contribution de cet Article

Cet article établit pour la première fois un pont théorique entre l'optimisation temporelle et l'apprentissage continu, fournissant une analyse explicite de la structure des données en continu.

Conclusion et Discussion

Conclusions Principales

  1. Pondération uniforme: Réalise une erreur de suivi avec décroissance O(1/t), suivi asymptotiquement parfait
  2. Pondération avec actualisation: Produit une erreur asymptotique non nulle explicitement quantifiable, reflétant l'oubli des anciennes données
  3. Analyse structurée: Utilisation de la structure des données en continu pour obtenir des bornes plus serrées que les méthodes génériques

Intuitions Théoriques

  • Uniforme vs Actualisation: La pondération uniforme dilue l'influence de chaque nouvel échantillon à O(1/t), tandis que la pondération avec actualisation maintient une dérive O(1)
  • Convergence des poids: Lorsque γ→1, la pondération avec actualisation converge vers la pondération uniforme, correspondant à ATE_γ→0
  • Compromis budgétaire de calcul: Plus de mises à jour de gradient E peuvent réduire l'erreur de suivi, mais augmentent le coût de calcul

Limitations

  1. Hypothèse de mémoire: Suppose l'accès à tous les gradients d'échantillons historiques, ne considérant pas les contraintes de mémoire
  2. Fonctions de perte spécifiques: L'analyse théorique repose sur les hypothèses de L-lissité et μ-convexité forte
  3. Minimiseur borné: Nécessite l'hypothèse que les minimiseurs sont uniformément bornés

Directions Futures

  1. Analyse avec mémoire limitée: Étude de l'apprentissage temporel sous contraintes de mémoire
  2. Fonctions de perte plus générales: Extension à des pertes non convexes ou d'autres types
  3. Paramètres distribués: Applications dans les environnements distribués tels que l'apprentissage fédéré
  4. Poids adaptatifs: Étude de stratégies de pondération dynamiques pilotées par les données

Évaluation Approfondie

Avantages

  1. Rigueur théorique: Fournit une analyse mathématique complète et une dérivation de bornes serrées
  2. Approche structurée: Exploitation explicite de la structure des données en continu, obtenant des résultats plus précis que les méthodes génériques
  3. Valeur pratique: Les deux stratégies de pondération correspondent à différents scénarios d'application réelle
  4. Vérification expérimentale: Les résultats numériques sont hautement cohérents avec les prédictions théoriques
  5. Présentation claire: L'article est bien organisé avec des dérivations mathématiques claires

Insuffisances

  1. Limitations des hypothèses: Les hypothèses de L-lissité et μ-convexité forte peuvent être trop restrictives dans les applications pratiques
  2. Exigences de mémoire: Nécessite le stockage de tous les gradients historiques, irréaliste dans les applications à grande échelle
  3. Agent unique: Considère uniquement le paramètre d'agent unique, n'abordant pas les scénarios multi-agents ou distribués
  4. Expériences simples: Les expériences utilisent des fonctions de perte quadratique simples, manquant de vérification dans des scénarios complexes

Impact

  1. Contribution théorique: Fournit une base théorique importante pour l'optimisation temporelle et l'apprentissage continu
  2. Valeur méthodologique: La méthode d'analyse structurée peut être généralisée à d'autres problèmes d'apprentissage temporel
  3. Application pratique: Fournit des orientations théoriques pour la conception de systèmes d'apprentissage en ligne et adaptatifs
  4. Reproductibilité: Les résultats théoriques et les configurations expérimentales sont décrits en détail, facilitant la reproduction

Scénarios d'Application

  1. Systèmes d'apprentissage en ligne: Systèmes d'apprentissage automatique nécessitant une adaptation continue aux nouvelles données
  2. Contrôle adaptatif: Conception de contrôleurs pour systèmes temporels
  3. Modélisation financière: Stratégies d'investissement nécessitant une adaptation aux changements de marché
  4. Applications IoT: Traitement de données en temps réel dans les réseaux de capteurs
  5. Systèmes de recommandation: Algorithmes de recommandation s'adaptant aux changements de préférences utilisateur

Références

L'article cite 40 références pertinentes couvrant les domaines clés de l'optimisation temporelle, de l'apprentissage continu et de l'optimisation convexe, fournissant une base théorique solide pour la recherche.