2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes

Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.

academic

Apprentissage Continu, Non Entraînement : Adaptation En Ligne Pour les Agents

Informations de Base

ID de l'article : 2511.01093
Titre : Continual Learning, Not Training: Online Adaptation For Agents
Auteurs : Aman Jaglan, Jarrod Barnes (Arc Intelligence)
Classification : cs.LG cs.AI
Date de publication : 4 novembre 2025 (Préimpression)
Lien de l'article : https://arxiv.org/abs/2511.01093

Résumé

Les méthodes traditionnelles d'apprentissage continu (AC) atténuent principalement l'oubli catastrophique par réentraînement basé sur les gradients, mais cette approche ne convient pas aux agents déployés nécessitant une adaptation en temps réel. Cet article introduit le Système d'Enseignement et d'Apprentissage Adaptatif (ATLAS), une architecture à deux agents qui découple l'inférence (Enseignant) de l'exécution (Étudiant), combinée avec une mémoire d'apprentissage persistant guidée par la distillation d'expériences stockées. Le système ajuste dynamiquement les stratégies opérationnelles lors de l'inférence, réalisant un apprentissage continu sans gradients, déplaçant le centre d'adaptation des paramètres du modèle vers l'orchestration au niveau du système. Sur le benchmark ExCyTIn-Bench de Microsoft, ATLAS utilisant GPT-5-mini comme Étudiant atteint un taux de réussite de 54,1%, surpassant GPT-5(High) de 13% tout en réduisant les coûts de 86%.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Contradiction entre l'adaptation en temps réel et l'entraînement hors ligne : Les agents de modèles de langage déployés doivent s'adapter continuellement dans des environnements dynamiques, mais leurs connaissances fondamentales restent statiques après la préformation
Limitations de l'apprentissage continu traditionnel : Les méthodes AC existantes dépendent excessivement des mises à jour de poids basées sur les gradients, nécessitant des boucles d'entraînement spécialisées, du matériel et l'accumulation de données, sans pouvoir fournir une adaptation lors de l'inférence

Importance du Problème

Dans les systèmes adaptatifs complexes, l'environnement évolue continuellement ; lorsque le modèle termine l'entraînement hors ligne pour une configuration, le système en temps réel peut avoir déjà changé
La rétropropagation, même sous des formes efficaces (comme LoRA), nécessite une infrastructure d'entraînement spécialisée, introduisant des délais de réentraînement
Les contraintes de ressources dans les environnements déployés rendent les méthodes traditionnelles difficiles à mettre en œuvre

Limitations des Approches Existantes

Méthodes basées sur l'entraînement : Souffrent de l'oubli catastrophique, nécessitent des mises à jour de gradients intensives en calcul
Techniques d'optimisation des invites : Produisent des instructions statiques pour le déploiement, ne peuvent pas évoluer dynamiquement
Systèmes augmentés par récupération : Exécutent des recherches plutôt que la composition de compétences
Mécanismes de mémoire d'agent : Stockent passivement les expériences, n'extraient pas les connaissances généralisables

Contributions Fondamentales

Proposition d'un paradigme d'apprentissage continu centré sur le système : Déplace le centre d'adaptation des paramètres du modèle vers l'orchestration au niveau du système
Conception de l'architecture à deux agents ATLAS : Réalise l'adaptation sans gradients lors de l'inférence
Établissement de la Mémoire d'Apprentissage Persistant (MAP) : Stocke les expériences guidées distillées et supporte le transfert entre tâches
Validation sur ExCyTIn-Bench : Surpasse les performances des grands modèles avec des modèles plus petits, réduisant considérablement les coûts
Génération de trajectoires annotées causalement : Fournit des données précieuses pour l'entraînement de modèles du monde explicites

Détails de la Méthode

Définition de la Tâche

Objectif : Réaliser l'efficacité adaptative - maximiser le taux de réussite des tâches tout en minimisant les coûts de calcul par orchestration lors de l'inférence plutôt que par mises à jour de paramètres.

Entrées : Séquence continue de tâches, chaque tâche contenant des états, des actions et des observations Sorties : Stratégies d'exécution de tâches améliorées et gains d'efficacité Contraintes : Aucune mise à jour de gradients, adaptation purement lors de l'inférence

Architecture du Modèle

1. Conception à Deux Agents

Agent Enseignant : Généralement plus puissant, responsable de l'inférence et de la guidance
Agent Étudiant : Exécute les tâches, reçoit la supervision et la guidance de l'Enseignant
Couche d'Orchestration : Gère l'interaction Enseignant-Étudiant, ajuste dynamiquement les stratégies opérationnelles

2. Composants Fondamentaux

Mémoire d'Apprentissage Persistant (MAP) :

Stocke les trajectoires d'exécution complètes, la guidance de l'Enseignant et les scores pertinents
Indexée par contexte de tâche
Supporte un processus de distillation léger pour extraire la guidance exploitable

Système de Récompense :

Conception d'évaluateur intégré à deux niveaux
Plusieurs évaluateurs rapides évaluent indépendamment
Un arbitre fort intègre et rend un jugement final lorsque la variance ou l'incertitude dépasse un seuil

Moteur d'Apprentissage :

Compilation du manuel de l'Enseignant : principes, modes de défaillance, diagnostics et conditions d'arrêt
Génération du manuel de l'Étudiant : modèles d'action concrets, planification d'outils, protections et vérifications de succès

3. Boucle d'Apprentissage lors de l'Inférence

1. Exécution de tâche : L'Étudiant tente la tâche, génère une trajectoire état-action-observation
2. Vérification de la guidance : L'Enseignant observe la trajectoire de l'Étudiant, fournit une guidance au niveau des principes basée sur les résultats
3. Persistance de l'apprentissage : Enregistre la trajectoire complète, la guidance et les scores dans la MAP
4. Ajustement adaptatif : Récupère l'historique d'apprentissage pertinent dans les tâches similaires ultérieures, ajuste dynamiquement la stratégie

Points d'Innovation Technique

Adaptation sans gradients : Entièrement lors de l'inférence, sans mise à jour des poids du modèle
Orchestration guidée par la mémoire : Utilise l'historique d'apprentissage agrégé pour ajuster dynamiquement les stratégies opérationnelles
Architecture séparée : L'Enseignant responsable de l'inférence, l'Étudiant responsable de l'exécution, réalisant une spécialisation professionnelle
Transfert d'Expérience Distillée (TED) : Transforme les interactions passées en artefacts d'apprentissage réutilisables

Configuration Expérimentale

Ensemble de Données

ExCyTIn-Bench : Benchmark d'investigation de menaces cybernétiques de Microsoft

Incident #5 : Scénario cohérent avec 98 requêtes
Incident #55 : 100 requêtes, pour la validation du transfert entre événements
Fournit une évaluation du raisonnement conscient de l'état, par notation de trajectoire plutôt que par tests statiques

Métriques d'Évaluation

Taux de réussite des tâches : Taux de réussite binaire utilisant les normes officielles du benchmark (seuil ≥0,4)
Efficacité : Nombre moyen de tokens consommés par session
Rentabilité : Coût en dollars par problème basé sur la tarification OpenAI

Méthodes de Comparaison

Baseline interne : GPT-5-mini sans manuels ou guidance de l'Enseignant
Baseline externe : Performance GPT-5(Reasoning=High) rapportée dans la documentation d'ExCyTIn-Bench
Baseline entre événements : Baseline officielle GPT-5-mini sur l'Incident #55

Détails d'Implémentation

Phase d'amorçage : GPT-5 comme Enseignant, GPT-5-mini comme Étudiant
Phase d'évaluation : Initialise les tâches ultérieures après récupération de manuels pertinents par similarité sémantique
Configuration des récompenses : Évaluateur intégré à deux niveaux, notation orientée vers les principes
Récupération de mémoire : Correspondance sémantique basée sur le contexte de tâche

Résultats Expérimentaux

Résultats Principaux

Performance sur l'Incident #5 :

Taux de réussite ATLAS : 54,1% (53/98 tâches)
Par rapport au baseline GPT-5(High) 48,0% : +6,1 points de pourcentage
Par rapport au baseline GPT-5-mini 33,7% : +20,4 points de pourcentage
Réduction des coûts : ~86% ( $0,024 vs$ 0,174 par problème)

Amélioration de l'Efficacité :

Consommation moyenne de tokens : 78 118 (réduction de 45% par rapport aux 141 660 de Student-only)
Améliorations par étapes :
- Étape 1 (tâches 1-25) : 100 810 tokens (-28,8%)
- Étape 2 (tâches 26-60) : 73 980 tokens (-47,8%)
- Étape 3 (tâches 61-98) : 67 002 tokens (-52,7%)

Expériences de Transfert Entre Événements

Validation sur l'Incident #55 :

Précision du baseline : 28% (28/100)
Utilisation de manuels gelés : 41% (41/100), amélioration de 46%
Changements de composition de sortie :
- Réduction des tokens de non-raisonnement de 52,1%
- Augmentation des tokens de raisonnement de 2 135
- Passage de l'exploration verbeuse au raisonnement structuré

Expériences d'Ablation

Analyse de la Progression d'Apprentissage :

69 sur 98 trajectoires de tâches contiennent une guidance récupérée
68 ont injecté des compétences manquantes du texte d'invite original
Montre que les manuels capturent des procédures abstraites plutôt que des modèles spécifiques aux tâches

Analyse des Coûts des Questions de Processus :

Trois premières questions de processus : moyenne de 217,7k tokens
Trois dernières questions de processus : moyenne de 48,8k tokens
Prouve que le même manuel peut raccourcir les tâches de criminalistique de processus différentes

Analyse de Cas

Exemple de Session Incident #5 71 :

Échec initial : L'Étudiant n'a pas vérifié la réponse, manquait de stratégie d'investigation systématisée
Intervention de l'Enseignant : Fournit une guidance au niveau des principes (énumérer les sources de télémétrie, prioriser les tableaux, vérifier le SID)
Réexécution réussie : Approche systématisée, extraction correcte du SID, consommation réduite de tokens
Comparaison : L'exécution autonome a consommé 304 389 tokens sans succès, démontrant la valeur du manuel récupéré

Travaux Connexes

Méthodes Basées sur l'Entraînement

LoRA, QLoRA, DoRA et autres méthodes efficaces en paramètres dépendent toujours de l'optimisation par gradients
Les systèmes d'apprentissage à "deux vitesses" nécessitent toujours le calcul de gradients
Font face au compromis entre taux d'apprentissage et oubli

Optimisation des Invites

Prompt Tuning, DSPy, GEPA et autres méthodes optimisent les invites statiques
Ne peuvent pas évoluer après le déploiement lorsque les conditions environnementales changent
ATLAS réalise l'adaptation des stratégies d'exécution dynamiques basées sur l'historique

Systèmes de Récupération

RAG, Self-RAG et autres augmentent les connaissances au niveau du contenu
ATLAS se concentre sur le raffinage des stratégies de comportement au niveau stratégique
Réalise l'acquisition de compétences plutôt que l'extension de contenu

Mécanismes de Mémoire

Reflexion, LATS, Voyager, MemGPT et autres stockent passivement les expériences
Manquent de mécanismes actifs de compression et de généralisation
ATLAS réalise un substrat d'apprentissage actif, supportant l'apprentissage procédural

Conclusion et Discussion

Conclusions Principales

Faisabilité de l'AC centré sur le système : Prouve que l'apprentissage continu sans gradients est une voie viable pour les systèmes d'IA adaptatifs et déployables
Frontière de Pareto entre efficacité et précision : Réalise une précision plus élevée et des coûts de calcul plus faibles par adaptation lors de l'inférence
Capacité de généralisation entre tâches : Les manuels gelés améliorent significativement la performance sur les nouveaux événements sans réentraînement
Moteur de données pour modèles du monde : Génère des trajectoires annotées causalement, fournissant une valeur pour l'entraînement de modèles du monde explicites

Limitations

Dépendance architecturale : Nécessite une configuration à deux agents Enseignant-Étudiant, augmentant la complexité du système
Spécificité du domaine : Principalement validé dans le domaine de l'investigation de cybersécurité, la généralisation reste à vérifier
Gestion de la mémoire : Problèmes potentiels de gestion et d'efficacité de récupération de mémoire avec la croissance de l'expérience
Méthodes d'évaluation : Les benchmarks statiques sont insuffisants pour évaluer les systèmes d'apprentissage dynamiques

Directions Futures

Exploration de la conception architecturale : Comparer les intégrations multi-agents, les structures de mémoire hiérarchiques et autres conceptions alternatives
Généralisation des connaissances : Étudier le transfert de principes entre modèles et tâches
Méthodes d'évaluation adaptatives : Développer des benchmarks dynamiques qui s'adaptent conjointement avec les agents
Apprentissage hybride en ligne-hors ligne : Intégrer l'entraînement de modèles du monde dans les systèmes en temps réel

Évaluation Approfondie

Points Forts

Innovation de paradigme : Le changement de paradigme du centrage sur le modèle vers le centrage sur le système pour l'apprentissage continu a une valeur théorique importante
Forte praticité : Ne nécessite pas de matériel spécialisé ou de réentraînement, facile à déployer sur l'infrastructure d'inférence standard
Expérimentation approfondie : Validation sur des benchmarks réels, incluant des expériences d'ablation détaillées et des analyses de cas
Rentabilité significative : Surpasse les grands modèles avec des modèles plus petits, réduisant considérablement les coûts
Bonne reproductibilité : Fournit des détails complets sur les ensembles de données et l'implémentation

Insuffisances

Limitations d'évaluation : Principalement validé dans un seul domaine (cybersécurité), manque de validation dans des domaines plus larges
Problèmes d'extensibilité : Avec l'augmentation des tâches, les frais généraux de calcul de récupération et de gestion de mémoire pourraient devenir un goulot d'étranglement
Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la stabilité du système
Dépendance de l'Enseignant : Nécessite un modèle Enseignant plus puissant, pouvant limiter les scénarios d'application pratique
Apprentissage à long terme : N'a pas suffisamment exploré la performance dans les tâches de séquences extrêmement longues

Impact

Contribution académique : Fournit une nouvelle direction de recherche et une méthodologie pour le domaine de l'apprentissage continu
Valeur pratique : Fournit une solution d'adaptation viable pour les systèmes d'IA réellement déployés
Caractère inspirant : L'approche d'adaptation au niveau du système pourrait inspirer d'autres conceptions de systèmes d'IA
Valeur des données : Les données annotées causalement générées ont une importance majeure pour la recherche sur les modèles du monde

Scénarios d'Application

Environnements aux ressources limitées : Scénarios de déploiement où le réentraînement de modèles ne peut pas être effectué
Environnements de tâches dynamiques : Nécessitant une adaptation rapide aux types et exigences de tâches changeants
Applications sensibles aux coûts : Nécessitant de trouver l'équilibre optimal entre performance et coûts
Applications dans des domaines spécialisés : Tels que la cybersécurité, le diagnostic de défaillances et autres domaines nécessitant des connaissances d'experts

Références

L'article cite les travaux importants dans les domaines connexes de l'apprentissage continu, l'optimisation des invites, l'augmentation par récupération et les mécanismes de mémoire, notamment :

Kirkpatrick et al. (2017) - Surmonter l'oubli catastrophique dans les réseaux de neurones
Hu et al. (2021) - Méthode d'adaptation LoRA de faible rang
Lewis et al. (2020) - Génération augmentée par récupération
Shinn et al. (2023) - Agent de langage Reflexion
Wu et al. (2025) - Benchmark ExCyTIn-Bench

Cet article propose un changement de paradigme important dans le domaine de l'apprentissage continu, passant de l'approche traditionnelle centrée sur le modèle à une approche centrée sur le système, possédant une valeur théorique et une signification pratique importantes. Bien qu'il y ait encore de la place pour l'amélioration en termes de largeur d'évaluation et d'analyse théorique, son caractère innovant et sa praticité en font une contribution importante au domaine.