Continual Learning, Not Training: Online Adaptation For Agents
Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic
Apprentissage Continu, Non Entraînement : Adaptation En Ligne Pour les Agents
Les méthodes traditionnelles d'apprentissage continu (AC) atténuent principalement l'oubli catastrophique par réentraînement basé sur les gradients, mais cette approche ne convient pas aux agents déployés nécessitant une adaptation en temps réel. Cet article introduit le Système d'Enseignement et d'Apprentissage Adaptatif (ATLAS), une architecture à deux agents qui découple l'inférence (Enseignant) de l'exécution (Étudiant), combinée avec une mémoire d'apprentissage persistant guidée par la distillation d'expériences stockées. Le système ajuste dynamiquement les stratégies opérationnelles lors de l'inférence, réalisant un apprentissage continu sans gradients, déplaçant le centre d'adaptation des paramètres du modèle vers l'orchestration au niveau du système. Sur le benchmark ExCyTIn-Bench de Microsoft, ATLAS utilisant GPT-5-mini comme Étudiant atteint un taux de réussite de 54,1%, surpassant GPT-5(High) de 13% tout en réduisant les coûts de 86%.
Contradiction entre l'adaptation en temps réel et l'entraînement hors ligne : Les agents de modèles de langage déployés doivent s'adapter continuellement dans des environnements dynamiques, mais leurs connaissances fondamentales restent statiques après la préformation
Limitations de l'apprentissage continu traditionnel : Les méthodes AC existantes dépendent excessivement des mises à jour de poids basées sur les gradients, nécessitant des boucles d'entraînement spécialisées, du matériel et l'accumulation de données, sans pouvoir fournir une adaptation lors de l'inférence
Dans les systèmes adaptatifs complexes, l'environnement évolue continuellement ; lorsque le modèle termine l'entraînement hors ligne pour une configuration, le système en temps réel peut avoir déjà changé
La rétropropagation, même sous des formes efficaces (comme LoRA), nécessite une infrastructure d'entraînement spécialisée, introduisant des délais de réentraînement
Les contraintes de ressources dans les environnements déployés rendent les méthodes traditionnelles difficiles à mettre en œuvre
Proposition d'un paradigme d'apprentissage continu centré sur le système : Déplace le centre d'adaptation des paramètres du modèle vers l'orchestration au niveau du système
Conception de l'architecture à deux agents ATLAS : Réalise l'adaptation sans gradients lors de l'inférence
Établissement de la Mémoire d'Apprentissage Persistant (MAP) : Stocke les expériences guidées distillées et supporte le transfert entre tâches
Validation sur ExCyTIn-Bench : Surpasse les performances des grands modèles avec des modèles plus petits, réduisant considérablement les coûts
Génération de trajectoires annotées causalement : Fournit des données précieuses pour l'entraînement de modèles du monde explicites
Objectif : Réaliser l'efficacité adaptative - maximiser le taux de réussite des tâches tout en minimisant les coûts de calcul par orchestration lors de l'inférence plutôt que par mises à jour de paramètres.
Entrées : Séquence continue de tâches, chaque tâche contenant des états, des actions et des observations
Sorties : Stratégies d'exécution de tâches améliorées et gains d'efficacité
Contraintes : Aucune mise à jour de gradients, adaptation purement lors de l'inférence
1. Exécution de tâche : L'Étudiant tente la tâche, génère une trajectoire état-action-observation
2. Vérification de la guidance : L'Enseignant observe la trajectoire de l'Étudiant, fournit une guidance au niveau des principes basée sur les résultats
3. Persistance de l'apprentissage : Enregistre la trajectoire complète, la guidance et les scores dans la MAP
4. Ajustement adaptatif : Récupère l'historique d'apprentissage pertinent dans les tâches similaires ultérieures, ajuste dynamiquement la stratégie
Échec initial : L'Étudiant n'a pas vérifié la réponse, manquait de stratégie d'investigation systématisée
Intervention de l'Enseignant : Fournit une guidance au niveau des principes (énumérer les sources de télémétrie, prioriser les tableaux, vérifier le SID)
Réexécution réussie : Approche systématisée, extraction correcte du SID, consommation réduite de tokens
Comparaison : L'exécution autonome a consommé 304 389 tokens sans succès, démontrant la valeur du manuel récupéré
Faisabilité de l'AC centré sur le système : Prouve que l'apprentissage continu sans gradients est une voie viable pour les systèmes d'IA adaptatifs et déployables
Frontière de Pareto entre efficacité et précision : Réalise une précision plus élevée et des coûts de calcul plus faibles par adaptation lors de l'inférence
Capacité de généralisation entre tâches : Les manuels gelés améliorent significativement la performance sur les nouveaux événements sans réentraînement
Moteur de données pour modèles du monde : Génère des trajectoires annotées causalement, fournissant une valeur pour l'entraînement de modèles du monde explicites
Exploration de la conception architecturale : Comparer les intégrations multi-agents, les structures de mémoire hiérarchiques et autres conceptions alternatives
Généralisation des connaissances : Étudier le transfert de principes entre modèles et tâches
Méthodes d'évaluation adaptatives : Développer des benchmarks dynamiques qui s'adaptent conjointement avec les agents
Apprentissage hybride en ligne-hors ligne : Intégrer l'entraînement de modèles du monde dans les systèmes en temps réel
Innovation de paradigme : Le changement de paradigme du centrage sur le modèle vers le centrage sur le système pour l'apprentissage continu a une valeur théorique importante
Forte praticité : Ne nécessite pas de matériel spécialisé ou de réentraînement, facile à déployer sur l'infrastructure d'inférence standard
Expérimentation approfondie : Validation sur des benchmarks réels, incluant des expériences d'ablation détaillées et des analyses de cas
Rentabilité significative : Surpasse les grands modèles avec des modèles plus petits, réduisant considérablement les coûts
Bonne reproductibilité : Fournit des détails complets sur les ensembles de données et l'implémentation
Limitations d'évaluation : Principalement validé dans un seul domaine (cybersécurité), manque de validation dans des domaines plus larges
Problèmes d'extensibilité : Avec l'augmentation des tâches, les frais généraux de calcul de récupération et de gestion de mémoire pourraient devenir un goulot d'étranglement
Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la stabilité du système
Dépendance de l'Enseignant : Nécessite un modèle Enseignant plus puissant, pouvant limiter les scénarios d'application pratique
Apprentissage à long terme : N'a pas suffisamment exploré la performance dans les tâches de séquences extrêmement longues
Environnements aux ressources limitées : Scénarios de déploiement où le réentraînement de modèles ne peut pas être effectué
Environnements de tâches dynamiques : Nécessitant une adaptation rapide aux types et exigences de tâches changeants
Applications sensibles aux coûts : Nécessitant de trouver l'équilibre optimal entre performance et coûts
Applications dans des domaines spécialisés : Tels que la cybersécurité, le diagnostic de défaillances et autres domaines nécessitant des connaissances d'experts
L'article cite les travaux importants dans les domaines connexes de l'apprentissage continu, l'optimisation des invites, l'augmentation par récupération et les mécanismes de mémoire, notamment :
Kirkpatrick et al. (2017) - Surmonter l'oubli catastrophique dans les réseaux de neurones
Hu et al. (2021) - Méthode d'adaptation LoRA de faible rang
Lewis et al. (2020) - Génération augmentée par récupération
Shinn et al. (2023) - Agent de langage Reflexion
Wu et al. (2025) - Benchmark ExCyTIn-Bench
Cet article propose un changement de paradigme important dans le domaine de l'apprentissage continu, passant de l'approche traditionnelle centrée sur le modèle à une approche centrée sur le système, possédant une valeur théorique et une signification pratique importantes. Bien qu'il y ait encore de la place pour l'amélioration en termes de largeur d'évaluation et d'analyse théorique, son caractère innovant et sa praticité en font une contribution importante au domaine.