2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

Apprentissage Continu, Non Entraînement : Adaptation En Ligne Pour les Agents

Informations de Base

  • ID de l'article : 2511.01093
  • Titre : Continual Learning, Not Training: Online Adaptation For Agents
  • Auteurs : Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • Classification : cs.LG cs.AI
  • Date de publication : 4 novembre 2025 (Préimpression)
  • Lien de l'article : https://arxiv.org/abs/2511.01093

Résumé

Les méthodes traditionnelles d'apprentissage continu (AC) atténuent principalement l'oubli catastrophique par réentraînement basé sur les gradients, mais cette approche ne convient pas aux agents déployés nécessitant une adaptation en temps réel. Cet article introduit le Système d'Enseignement et d'Apprentissage Adaptatif (ATLAS), une architecture à deux agents qui découple l'inférence (Enseignant) de l'exécution (Étudiant), combinée avec une mémoire d'apprentissage persistant guidée par la distillation d'expériences stockées. Le système ajuste dynamiquement les stratégies opérationnelles lors de l'inférence, réalisant un apprentissage continu sans gradients, déplaçant le centre d'adaptation des paramètres du modèle vers l'orchestration au niveau du système. Sur le benchmark ExCyTIn-Bench de Microsoft, ATLAS utilisant GPT-5-mini comme Étudiant atteint un taux de réussite de 54,1%, surpassant GPT-5(High) de 13% tout en réduisant les coûts de 86%.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Contradiction entre l'adaptation en temps réel et l'entraînement hors ligne : Les agents de modèles de langage déployés doivent s'adapter continuellement dans des environnements dynamiques, mais leurs connaissances fondamentales restent statiques après la préformation
  2. Limitations de l'apprentissage continu traditionnel : Les méthodes AC existantes dépendent excessivement des mises à jour de poids basées sur les gradients, nécessitant des boucles d'entraînement spécialisées, du matériel et l'accumulation de données, sans pouvoir fournir une adaptation lors de l'inférence

Importance du Problème

  • Dans les systèmes adaptatifs complexes, l'environnement évolue continuellement ; lorsque le modèle termine l'entraînement hors ligne pour une configuration, le système en temps réel peut avoir déjà changé
  • La rétropropagation, même sous des formes efficaces (comme LoRA), nécessite une infrastructure d'entraînement spécialisée, introduisant des délais de réentraînement
  • Les contraintes de ressources dans les environnements déployés rendent les méthodes traditionnelles difficiles à mettre en œuvre

Limitations des Approches Existantes

  1. Méthodes basées sur l'entraînement : Souffrent de l'oubli catastrophique, nécessitent des mises à jour de gradients intensives en calcul
  2. Techniques d'optimisation des invites : Produisent des instructions statiques pour le déploiement, ne peuvent pas évoluer dynamiquement
  3. Systèmes augmentés par récupération : Exécutent des recherches plutôt que la composition de compétences
  4. Mécanismes de mémoire d'agent : Stockent passivement les expériences, n'extraient pas les connaissances généralisables

Contributions Fondamentales

  1. Proposition d'un paradigme d'apprentissage continu centré sur le système : Déplace le centre d'adaptation des paramètres du modèle vers l'orchestration au niveau du système
  2. Conception de l'architecture à deux agents ATLAS : Réalise l'adaptation sans gradients lors de l'inférence
  3. Établissement de la Mémoire d'Apprentissage Persistant (MAP) : Stocke les expériences guidées distillées et supporte le transfert entre tâches
  4. Validation sur ExCyTIn-Bench : Surpasse les performances des grands modèles avec des modèles plus petits, réduisant considérablement les coûts
  5. Génération de trajectoires annotées causalement : Fournit des données précieuses pour l'entraînement de modèles du monde explicites

Détails de la Méthode

Définition de la Tâche

Objectif : Réaliser l'efficacité adaptative - maximiser le taux de réussite des tâches tout en minimisant les coûts de calcul par orchestration lors de l'inférence plutôt que par mises à jour de paramètres.

Entrées : Séquence continue de tâches, chaque tâche contenant des états, des actions et des observations Sorties : Stratégies d'exécution de tâches améliorées et gains d'efficacité Contraintes : Aucune mise à jour de gradients, adaptation purement lors de l'inférence

Architecture du Modèle

1. Conception à Deux Agents

  • Agent Enseignant : Généralement plus puissant, responsable de l'inférence et de la guidance
  • Agent Étudiant : Exécute les tâches, reçoit la supervision et la guidance de l'Enseignant
  • Couche d'Orchestration : Gère l'interaction Enseignant-Étudiant, ajuste dynamiquement les stratégies opérationnelles

2. Composants Fondamentaux

Mémoire d'Apprentissage Persistant (MAP) :

  • Stocke les trajectoires d'exécution complètes, la guidance de l'Enseignant et les scores pertinents
  • Indexée par contexte de tâche
  • Supporte un processus de distillation léger pour extraire la guidance exploitable

Système de Récompense :

  • Conception d'évaluateur intégré à deux niveaux
  • Plusieurs évaluateurs rapides évaluent indépendamment
  • Un arbitre fort intègre et rend un jugement final lorsque la variance ou l'incertitude dépasse un seuil

Moteur d'Apprentissage :

  • Compilation du manuel de l'Enseignant : principes, modes de défaillance, diagnostics et conditions d'arrêt
  • Génération du manuel de l'Étudiant : modèles d'action concrets, planification d'outils, protections et vérifications de succès

3. Boucle d'Apprentissage lors de l'Inférence

1. Exécution de tâche : L'Étudiant tente la tâche, génère une trajectoire état-action-observation
2. Vérification de la guidance : L'Enseignant observe la trajectoire de l'Étudiant, fournit une guidance au niveau des principes basée sur les résultats
3. Persistance de l'apprentissage : Enregistre la trajectoire complète, la guidance et les scores dans la MAP
4. Ajustement adaptatif : Récupère l'historique d'apprentissage pertinent dans les tâches similaires ultérieures, ajuste dynamiquement la stratégie

Points d'Innovation Technique

  1. Adaptation sans gradients : Entièrement lors de l'inférence, sans mise à jour des poids du modèle
  2. Orchestration guidée par la mémoire : Utilise l'historique d'apprentissage agrégé pour ajuster dynamiquement les stratégies opérationnelles
  3. Architecture séparée : L'Enseignant responsable de l'inférence, l'Étudiant responsable de l'exécution, réalisant une spécialisation professionnelle
  4. Transfert d'Expérience Distillée (TED) : Transforme les interactions passées en artefacts d'apprentissage réutilisables

Configuration Expérimentale

Ensemble de Données

ExCyTIn-Bench : Benchmark d'investigation de menaces cybernétiques de Microsoft

  • Incident #5 : Scénario cohérent avec 98 requêtes
  • Incident #55 : 100 requêtes, pour la validation du transfert entre événements
  • Fournit une évaluation du raisonnement conscient de l'état, par notation de trajectoire plutôt que par tests statiques

Métriques d'Évaluation

  1. Taux de réussite des tâches : Taux de réussite binaire utilisant les normes officielles du benchmark (seuil ≥0,4)
  2. Efficacité : Nombre moyen de tokens consommés par session
  3. Rentabilité : Coût en dollars par problème basé sur la tarification OpenAI

Méthodes de Comparaison

  1. Baseline interne : GPT-5-mini sans manuels ou guidance de l'Enseignant
  2. Baseline externe : Performance GPT-5(Reasoning=High) rapportée dans la documentation d'ExCyTIn-Bench
  3. Baseline entre événements : Baseline officielle GPT-5-mini sur l'Incident #55

Détails d'Implémentation

  • Phase d'amorçage : GPT-5 comme Enseignant, GPT-5-mini comme Étudiant
  • Phase d'évaluation : Initialise les tâches ultérieures après récupération de manuels pertinents par similarité sémantique
  • Configuration des récompenses : Évaluateur intégré à deux niveaux, notation orientée vers les principes
  • Récupération de mémoire : Correspondance sémantique basée sur le contexte de tâche

Résultats Expérimentaux

Résultats Principaux

Performance sur l'Incident #5 :

  • Taux de réussite ATLAS : 54,1% (53/98 tâches)
  • Par rapport au baseline GPT-5(High) 48,0% : +6,1 points de pourcentage
  • Par rapport au baseline GPT-5-mini 33,7% : +20,4 points de pourcentage
  • Réduction des coûts : ~86% (0,024vs0,024 vs 0,174 par problème)

Amélioration de l'Efficacité :

  • Consommation moyenne de tokens : 78 118 (réduction de 45% par rapport aux 141 660 de Student-only)
  • Améliorations par étapes :
    • Étape 1 (tâches 1-25) : 100 810 tokens (-28,8%)
    • Étape 2 (tâches 26-60) : 73 980 tokens (-47,8%)
    • Étape 3 (tâches 61-98) : 67 002 tokens (-52,7%)

Expériences de Transfert Entre Événements

Validation sur l'Incident #55 :

  • Précision du baseline : 28% (28/100)
  • Utilisation de manuels gelés : 41% (41/100), amélioration de 46%
  • Changements de composition de sortie :
    • Réduction des tokens de non-raisonnement de 52,1%
    • Augmentation des tokens de raisonnement de 2 135
    • Passage de l'exploration verbeuse au raisonnement structuré

Expériences d'Ablation

Analyse de la Progression d'Apprentissage :

  • 69 sur 98 trajectoires de tâches contiennent une guidance récupérée
  • 68 ont injecté des compétences manquantes du texte d'invite original
  • Montre que les manuels capturent des procédures abstraites plutôt que des modèles spécifiques aux tâches

Analyse des Coûts des Questions de Processus :

  • Trois premières questions de processus : moyenne de 217,7k tokens
  • Trois dernières questions de processus : moyenne de 48,8k tokens
  • Prouve que le même manuel peut raccourcir les tâches de criminalistique de processus différentes

Analyse de Cas

Exemple de Session Incident #5 71 :

  • Échec initial : L'Étudiant n'a pas vérifié la réponse, manquait de stratégie d'investigation systématisée
  • Intervention de l'Enseignant : Fournit une guidance au niveau des principes (énumérer les sources de télémétrie, prioriser les tableaux, vérifier le SID)
  • Réexécution réussie : Approche systématisée, extraction correcte du SID, consommation réduite de tokens
  • Comparaison : L'exécution autonome a consommé 304 389 tokens sans succès, démontrant la valeur du manuel récupéré

Travaux Connexes

Méthodes Basées sur l'Entraînement

  • LoRA, QLoRA, DoRA et autres méthodes efficaces en paramètres dépendent toujours de l'optimisation par gradients
  • Les systèmes d'apprentissage à "deux vitesses" nécessitent toujours le calcul de gradients
  • Font face au compromis entre taux d'apprentissage et oubli

Optimisation des Invites

  • Prompt Tuning, DSPy, GEPA et autres méthodes optimisent les invites statiques
  • Ne peuvent pas évoluer après le déploiement lorsque les conditions environnementales changent
  • ATLAS réalise l'adaptation des stratégies d'exécution dynamiques basées sur l'historique

Systèmes de Récupération

  • RAG, Self-RAG et autres augmentent les connaissances au niveau du contenu
  • ATLAS se concentre sur le raffinage des stratégies de comportement au niveau stratégique
  • Réalise l'acquisition de compétences plutôt que l'extension de contenu

Mécanismes de Mémoire

  • Reflexion, LATS, Voyager, MemGPT et autres stockent passivement les expériences
  • Manquent de mécanismes actifs de compression et de généralisation
  • ATLAS réalise un substrat d'apprentissage actif, supportant l'apprentissage procédural

Conclusion et Discussion

Conclusions Principales

  1. Faisabilité de l'AC centré sur le système : Prouve que l'apprentissage continu sans gradients est une voie viable pour les systèmes d'IA adaptatifs et déployables
  2. Frontière de Pareto entre efficacité et précision : Réalise une précision plus élevée et des coûts de calcul plus faibles par adaptation lors de l'inférence
  3. Capacité de généralisation entre tâches : Les manuels gelés améliorent significativement la performance sur les nouveaux événements sans réentraînement
  4. Moteur de données pour modèles du monde : Génère des trajectoires annotées causalement, fournissant une valeur pour l'entraînement de modèles du monde explicites

Limitations

  1. Dépendance architecturale : Nécessite une configuration à deux agents Enseignant-Étudiant, augmentant la complexité du système
  2. Spécificité du domaine : Principalement validé dans le domaine de l'investigation de cybersécurité, la généralisation reste à vérifier
  3. Gestion de la mémoire : Problèmes potentiels de gestion et d'efficacité de récupération de mémoire avec la croissance de l'expérience
  4. Méthodes d'évaluation : Les benchmarks statiques sont insuffisants pour évaluer les systèmes d'apprentissage dynamiques

Directions Futures

  1. Exploration de la conception architecturale : Comparer les intégrations multi-agents, les structures de mémoire hiérarchiques et autres conceptions alternatives
  2. Généralisation des connaissances : Étudier le transfert de principes entre modèles et tâches
  3. Méthodes d'évaluation adaptatives : Développer des benchmarks dynamiques qui s'adaptent conjointement avec les agents
  4. Apprentissage hybride en ligne-hors ligne : Intégrer l'entraînement de modèles du monde dans les systèmes en temps réel

Évaluation Approfondie

Points Forts

  1. Innovation de paradigme : Le changement de paradigme du centrage sur le modèle vers le centrage sur le système pour l'apprentissage continu a une valeur théorique importante
  2. Forte praticité : Ne nécessite pas de matériel spécialisé ou de réentraînement, facile à déployer sur l'infrastructure d'inférence standard
  3. Expérimentation approfondie : Validation sur des benchmarks réels, incluant des expériences d'ablation détaillées et des analyses de cas
  4. Rentabilité significative : Surpasse les grands modèles avec des modèles plus petits, réduisant considérablement les coûts
  5. Bonne reproductibilité : Fournit des détails complets sur les ensembles de données et l'implémentation

Insuffisances

  1. Limitations d'évaluation : Principalement validé dans un seul domaine (cybersécurité), manque de validation dans des domaines plus larges
  2. Problèmes d'extensibilité : Avec l'augmentation des tâches, les frais généraux de calcul de récupération et de gestion de mémoire pourraient devenir un goulot d'étranglement
  3. Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la stabilité du système
  4. Dépendance de l'Enseignant : Nécessite un modèle Enseignant plus puissant, pouvant limiter les scénarios d'application pratique
  5. Apprentissage à long terme : N'a pas suffisamment exploré la performance dans les tâches de séquences extrêmement longues

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche et une méthodologie pour le domaine de l'apprentissage continu
  2. Valeur pratique : Fournit une solution d'adaptation viable pour les systèmes d'IA réellement déployés
  3. Caractère inspirant : L'approche d'adaptation au niveau du système pourrait inspirer d'autres conceptions de systèmes d'IA
  4. Valeur des données : Les données annotées causalement générées ont une importance majeure pour la recherche sur les modèles du monde

Scénarios d'Application

  1. Environnements aux ressources limitées : Scénarios de déploiement où le réentraînement de modèles ne peut pas être effectué
  2. Environnements de tâches dynamiques : Nécessitant une adaptation rapide aux types et exigences de tâches changeants
  3. Applications sensibles aux coûts : Nécessitant de trouver l'équilibre optimal entre performance et coûts
  4. Applications dans des domaines spécialisés : Tels que la cybersécurité, le diagnostic de défaillances et autres domaines nécessitant des connaissances d'experts

Références

L'article cite les travaux importants dans les domaines connexes de l'apprentissage continu, l'optimisation des invites, l'augmentation par récupération et les mécanismes de mémoire, notamment :

  • Kirkpatrick et al. (2017) - Surmonter l'oubli catastrophique dans les réseaux de neurones
  • Hu et al. (2021) - Méthode d'adaptation LoRA de faible rang
  • Lewis et al. (2020) - Génération augmentée par récupération
  • Shinn et al. (2023) - Agent de langage Reflexion
  • Wu et al. (2025) - Benchmark ExCyTIn-Bench

Cet article propose un changement de paradigme important dans le domaine de l'apprentissage continu, passant de l'approche traditionnelle centrée sur le modèle à une approche centrée sur le système, possédant une valeur théorique et une signification pratique importantes. Bien qu'il y ait encore de la place pour l'amélioration en termes de largeur d'évaluation et d'analyse théorique, son caractère innovant et sa praticité en font une contribution importante au domaine.