2025-11-18T22:10:13.514792

Time-Varying Optimization for Streaming Data Via Temporal Weighting

Abrar, Michelusi, Larsson

Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.

academic

Optimisation Temporelle pour Données en Continu Via Pondération Temporelle

Informations Fondamentales

ID de l'article: 2510.13052
Titre: Time-Varying Optimization for Streaming Data Via Temporal Weighting
Auteurs: Muhammad Faraz Ul Abrar (Arizona State University), Nicolò Michelusi (Arizona State University), Erik G. Larsson (Linköping University)
Classification: cs.LG cs.AI cs.SY eess.SP eess.SY math.OC
Date de publication: 15 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.13052

Résumé

La théorie d'optimisation traditionnelle traite des fonctions objectif fixes et invariantes dans le temps. Cependant, l'optimisation temporelle est devenue un sujet important pour la prise de décision dans les environnements dynamiques. Cet article étudie le problème d'apprentissage sur données en continu sous la perspective de l'optimisation temporelle. Contrairement aux travaux antérieurs axés sur des formulations génériques, nous introduisons une formulation structurée basée sur la pondération qui capture explicitement les sources de données en continu d'objectifs temporels, où l'agent vise à minimiser à chaque pas de temps la perte moyenne pondérée de tous les échantillons de données passés. Nous nous concentrons sur deux stratégies de pondération spécifiques: (1) la pondération uniforme, traitant équitablement tous les échantillons; (2) la pondération avec actualisation, décroissant géométriquement l'influence des anciennes données. Pour les deux schémas, nous dérivons des bornes serrées sur l'« erreur de suivi » (TE) sous les mises à jour de descente de gradient (GD), où TE est définie comme l'écart entre les paramètres du modèle et la solution optimale temporelle à un pas de temps donné. Nous démontrons que sous la pondération uniforme, TE disparaît asymptotiquement avec un taux de décroissance O(1/t), tandis que la pondération avec actualisation produit une borne d'erreur non nulle contrôlée par le facteur d'actualisation et le nombre de mises à jour de gradient exécutées à chaque pas de temps.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé par cet article est celui de l'optimisation temporelle dans l'apprentissage sur données en continu. Spécifiquement:

Limitations de l'optimisation traditionnelle: L'optimisation classique en apprentissage automatique suppose des fonctions objectif statiques et des distributions de données statiques, alors que les solutions du monde réel opèrent dans des environnements en évolution dynamique
Défis des données en continu: Les données arrivent séquentiellement, la fonction objectif évolue dans le temps, conduisant à des problèmes d'optimisation non stationnaires
Contraintes de calcul: Dans les paramètres en temps réel ou avec ressources limitées, seul un nombre limité de mises à jour peut être exécuté à chaque pas de temps

Importance

Ce problème revêt une importance critique dans plusieurs domaines d'application clés:

Suivi de robots mobiles dans les véhicules autonomes
Localisation de cibles mobiles
Optimisation de portefeuille
Gestion des risques dans les marchés financiers volatiles
Adaptation des contrôleurs à la dynamique des systèmes temporels

Limitations des Approches Existantes

Bornes lâches pour les formulations génériques: La plupart des travaux existants se concentrent sur des formulations temporelles génériques, ignorant la structure inhérente des données en continu, ce qui peut conduire à des bornes lâches sur l'erreur de suivi
Manque d'analyse structurée: Les méthodes existantes n'exploitent pas explicitement la structure pondérée des données en continu pour obtenir des bornes de performance plus serrées
Déconnexion entre théorie et pratique: Les méthodes du domaine de l'apprentissage continu sont principalement empiriques, manquant de fondements théoriques

Contributions Fondamentales

Proposition d'une formulation pondérée structurée: Introduction de fonctions objectif temporelles capturant explicitement la structure des données en continu, définies comme la moyenne pondérée des pertes de tous les échantillons passés
Analyse théorique de deux stratégies de pondération:
- Pondération uniforme: Preuve que l'erreur de suivi disparaît asymptotiquement au taux O(1/t)
- Pondération avec actualisation: Dérivation de bornes explicites d'erreur de suivi asymptotique non nulle
Dérivation de bornes serrées: Utilisation de la structure des données en continu pour obtenir des bornes TE plus serrées que l'analyse temporelle générique existante
Vérification théorique et expérimentale: Validation de l'efficacité des résultats théoriques par simulation numérique

Détails de la Méthode

Définition de la Tâche

Considérez un agent unique (tel qu'un serveur périphérique ou cloud) visant à suivre les paramètres d'un modèle d'apprentissage automatique temporel:

Entrée: À chaque itération t≥1, l'agent reçoit un nouvel échantillon de données (x_t, y_t)
Sortie: Paramètres du modèle w_t minimisant la perte moyenne pondérée des données cumulées
Contrainte: Seul un nombre E de mises à jour de gradient peut être exécuté à chaque pas de temps

Formules Mathématiques Fondamentales

Fonction objectif temporelle: $w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{où} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w)$

Où:

$a_i(t)$ est le poids du i-ème échantillon au temps t
$f_i(w)$ est la fonction de perte du i-ème échantillon de données
Les poids satisfont: $0 \leq a_i(t) \leq 1$ et $\sum_{i=1}^t a_i(t) = 1$

Mise à jour de descente de gradient: $w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k})$

Définition de l'erreur de suivi: $\text{TE}(t) = \|w_t - w_t^*\|$

Deux Stratégies de Pondération

1. Pondération Uniforme

Définir $a_i(t) = 1/t$ pour tous $i = 1, \ldots, t$ , la fonction objectif devient: $F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w)$

2. Pondération avec Actualisation

Utiliser l'actualisation géométrique: $a_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i}$ , où $0 < \gamma < 1$ est le facteur d'actualisation.

Points d'Innovation Technique

Analyse structurée: Contrairement à l'optimisation temporelle générique, exploitation explicite de la structure pondérée des données en continu
Analyse de la dérive du minimiseur: Compréhension du changement de fonction objectif par l'analyse de $\|w_{i+1}^* - w_i^*\|$
Analyse d'erreur récursive: Établissement de relations récursives pour suivre l'évolution de l'erreur

Analyse Théorique

Hypothèses Fondamentales

Hypothèse 1 (L-lissité et μ-convexité forte): Chaque fonction de perte d'échantillon satisfait:

$\|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\|$
$f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2$

Hypothèse 2 (Minimiseur borné): Il existe $C > 0$ tel que $\|w_t^*\| \leq C$ pour tous les t.

Résultats Théoriques Principaux

Erreur de Suivi pour Pondération Uniforme

Proposition 1: Pour la pondération uniforme, l'erreur de suivi satisfait: $\text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t}$

Où $\alpha = (1-\eta\mu)^E < 1$ , $C' = (1+\sqrt{L/\mu})\frac{LC}{\mu}$ .

Conclusion clé: TE décroît au taux O(1/t), l'erreur de suivi asymptotique étant nulle.

Erreur de Suivi pour Pondération avec Actualisation

Proposition 2: Pour la pondération avec actualisation, l'erreur de suivi asymptotique satisfait: $\text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha}$

Conclusion clé: Il existe une borne d'erreur non nulle, contrôlée par le facteur d'actualisation γ et le nombre de mises à jour de gradient E.

Configuration Expérimentale

Génération de Données

Utilisation de fonctions de perte quadratique scalaire: $f_t(w) = \frac{\mu}{2}(w-c_t)^2$

Paramètres de configuration:

$c_t$ généré par marche aléatoire bornée: $c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max}))$
$z_t \sim \mathcal{N}(0, \sigma^2)$ , $C_{\max} = 100$ , $\sigma^2 = 100$ , $\mu = 0.1$

Métriques d'Évaluation

Erreur quadratique moyenne de suivi
Erreur de suivi maximale (pire cas)
Résultats statistiques de 1000 exécutions indépendantes

Résultats Expérimentaux

Résultats de Pondération Uniforme

Vérification de la décroissance O(1/t): Les expériences démontrent clairement une décroissance monotone cohérente avec les prédictions théoriques
Impact du nombre de mises à jour de gradient: L'augmentation de E de 10 à 20 améliore l'erreur TE empirique d'un facteur d'environ 0,09, correspondant quantitativement aux prédictions théoriques
Comportement à long terme: Pour les grands t, TE est dominée par l'erreur résiduelle de la dérive du minimiseur

Résultats de Pondération avec Actualisation

Borne d'erreur non nulle: Tous les indicateurs d'erreur convergent vers une borne d'erreur de suivi asymptotique non disparaissante
Impact du facteur d'actualisation: Les plus grandes valeurs de γ produisent des erreurs de suivi asymptotiques plus faibles
Vérification théorique: Lorsque γ=0,99, TE approche le cas de pondération uniforme, validant l'analyse théorique

Complexité de Gradient

Proposition 3: Pour assurer $\text{ATE}_\gamma \leq \epsilon$ , il est nécessaire d'exécuter: $E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)}$ mises à jour de gradient, conduisant à une complexité d'itération de gradient O(ln(1/ε)).

Travaux Connexes

Optimisation Temporelle

Travaux antérieurs: Algorithmes de type Newton exploitant l'information du second ordre pour une convergence exponentielle
Conditions de dérive bornée: Méthodes supposant $\|w_{t+1}^* - w_t^*\| \leq C$
Schémas prédiction-correction: Méthodes combinant prédiction et correction de gradient

Apprentissage Continu

Apprentissage de séquences de tâches: Apprentissage de modèles ML sur des séquences de tâches
Oubli catastrophique: Défi de la dégradation des performances des tâches anciennes lors de l'apprentissage de nouvelles tâches
Méthodes empiriques: Les méthodes existantes sont principalement empiriques, manquant de fondements théoriques

Unicité de la Contribution de cet Article

Cet article établit pour la première fois un pont théorique entre l'optimisation temporelle et l'apprentissage continu, fournissant une analyse explicite de la structure des données en continu.

Conclusion et Discussion

Conclusions Principales

Pondération uniforme: Réalise une erreur de suivi avec décroissance O(1/t), suivi asymptotiquement parfait
Pondération avec actualisation: Produit une erreur asymptotique non nulle explicitement quantifiable, reflétant l'oubli des anciennes données
Analyse structurée: Utilisation de la structure des données en continu pour obtenir des bornes plus serrées que les méthodes génériques

Intuitions Théoriques

Uniforme vs Actualisation: La pondération uniforme dilue l'influence de chaque nouvel échantillon à O(1/t), tandis que la pondération avec actualisation maintient une dérive O(1)
Convergence des poids: Lorsque γ→1, la pondération avec actualisation converge vers la pondération uniforme, correspondant à ATE_γ→0
Compromis budgétaire de calcul: Plus de mises à jour de gradient E peuvent réduire l'erreur de suivi, mais augmentent le coût de calcul

Limitations

Hypothèse de mémoire: Suppose l'accès à tous les gradients d'échantillons historiques, ne considérant pas les contraintes de mémoire
Fonctions de perte spécifiques: L'analyse théorique repose sur les hypothèses de L-lissité et μ-convexité forte
Minimiseur borné: Nécessite l'hypothèse que les minimiseurs sont uniformément bornés

Directions Futures

Analyse avec mémoire limitée: Étude de l'apprentissage temporel sous contraintes de mémoire
Fonctions de perte plus générales: Extension à des pertes non convexes ou d'autres types
Paramètres distribués: Applications dans les environnements distribués tels que l'apprentissage fédéré
Poids adaptatifs: Étude de stratégies de pondération dynamiques pilotées par les données

Évaluation Approfondie

Avantages

Rigueur théorique: Fournit une analyse mathématique complète et une dérivation de bornes serrées
Approche structurée: Exploitation explicite de la structure des données en continu, obtenant des résultats plus précis que les méthodes génériques
Valeur pratique: Les deux stratégies de pondération correspondent à différents scénarios d'application réelle
Vérification expérimentale: Les résultats numériques sont hautement cohérents avec les prédictions théoriques
Présentation claire: L'article est bien organisé avec des dérivations mathématiques claires

Insuffisances

Limitations des hypothèses: Les hypothèses de L-lissité et μ-convexité forte peuvent être trop restrictives dans les applications pratiques
Exigences de mémoire: Nécessite le stockage de tous les gradients historiques, irréaliste dans les applications à grande échelle
Agent unique: Considère uniquement le paramètre d'agent unique, n'abordant pas les scénarios multi-agents ou distribués
Expériences simples: Les expériences utilisent des fonctions de perte quadratique simples, manquant de vérification dans des scénarios complexes

Impact

Contribution théorique: Fournit une base théorique importante pour l'optimisation temporelle et l'apprentissage continu
Valeur méthodologique: La méthode d'analyse structurée peut être généralisée à d'autres problèmes d'apprentissage temporel
Application pratique: Fournit des orientations théoriques pour la conception de systèmes d'apprentissage en ligne et adaptatifs
Reproductibilité: Les résultats théoriques et les configurations expérimentales sont décrits en détail, facilitant la reproduction

Scénarios d'Application

Systèmes d'apprentissage en ligne: Systèmes d'apprentissage automatique nécessitant une adaptation continue aux nouvelles données
Contrôle adaptatif: Conception de contrôleurs pour systèmes temporels
Modélisation financière: Stratégies d'investissement nécessitant une adaptation aux changements de marché
Applications IoT: Traitement de données en temps réel dans les réseaux de capteurs
Systèmes de recommandation: Algorithmes de recommandation s'adaptant aux changements de préférences utilisateur

Références

L'article cite 40 références pertinentes couvrant les domaines clés de l'optimisation temporelle, de l'apprentissage continu et de l'optimisation convexe, fournissant une base théorique solide pour la recherche.