Continual Learning, Not Training: Online Adaptation For Agents
Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic
Aprendizaje Continuo, No Entrenamiento: Adaptación En Línea Para Agentes
Los métodos tradicionales de aprendizaje continuo (AC) mitigan principalmente el olvido catastrófico mediante reentrenamiento basado en gradientes, pero este enfoque no es adecuado para agentes desplegados que requieren adaptación en tiempo real. Este artículo presenta el Sistema Adaptativo de Enseñanza y Aprendizaje (ATLAS), una arquitectura de doble agente que desacopla la inferencia (Profesor) de la ejecución (Estudiante) e integra una memoria de aprendizaje persistente guiada por destilación de experiencias almacenadas. El sistema ajusta dinámicamente las políticas operacionales durante la inferencia, realizando aprendizaje continuo sin gradientes y trasladando el enfoque de adaptación desde los parámetros del modelo hacia la orquestación a nivel de sistema. En el punto de referencia ExCyTIn-Bench de Microsoft, ATLAS logra una tasa de éxito del 54.1% utilizando GPT-5-mini como Estudiante, superando a GPT-5 (High) en un 13% mientras reduce costos en un 86%.
Contradicción entre necesidad de adaptación en tiempo real y entrenamiento fuera de línea: Los agentes de modelos de lenguaje desplegados requieren adaptación continua en entornos dinámicos, pero su conocimiento central permanece estático después del preentrenamiento
Limitaciones del aprendizaje continuo tradicional: Los métodos AC existentes dependen excesivamente de actualizaciones de pesos basadas en gradientes, requieren ciclos de entrenamiento especializados, hardware y acumulación de datos, sin poder proporcionar adaptación durante la inferencia
En sistemas adaptativos complejos, el entorno evoluciona continuamente; cuando el modelo completa el entrenamiento fuera de línea para una configuración, el sistema en tiempo real puede haber cambiado
La retropropagación, incluso en formas eficientes (como LoRA), requiere infraestructura de entrenamiento especializada, introduciendo latencia de reentrenamiento
Las restricciones de recursos bajo limitaciones de despliegue hacen que los métodos tradicionales sean difíciles de implementar
Propone un paradigma de aprendizaje continuo centrado en sistemas: Traslada el enfoque de adaptación desde parámetros del modelo hacia orquestación a nivel de sistema
Diseña la arquitectura de doble agente ATLAS: Realiza adaptación sin gradientes durante la inferencia
Establece Memoria de Aprendizaje Persistente (PLM): Almacena experiencias de orientación destiladas y respalda transferencia entre tareas
Valida efectividad en ExCyTIn-Bench: Supera el rendimiento de modelos más grandes utilizando modelos más pequeños, reduciendo significativamente costos
Genera trayectorias anotadas causalmente: Proporciona datos valiosos para entrenar modelos de mundo explícitos
Objetivo: Lograr eficiencia adaptativa - maximizar la tasa de éxito de tareas mientras se minimiza el costo computacional mediante orquestación en tiempo de inferencia en lugar de actualizaciones de parámetros.
Entrada: Secuencia continua de tareas, cada una conteniendo estados, acciones y observaciones
Salida: Política de ejecución de tareas mejorada y mejora de eficiencia
Restricciones: Sin actualizaciones de gradientes, adaptación puramente en tiempo de inferencia
1. Ejecución de Tarea: Estudiante intenta tarea, genera trayectoria estado-acción-observación
2. Verificación de Orientación: Profesor observa trayectoria del Estudiante, proporciona orientación a nivel de principios basada en resultados
3. Persistencia de Aprendizaje: Registra trayectoria completa, orientación y puntuación en PLM
4. Ajuste Adaptativo: En tareas similares posteriores, recupera historial de aprendizaje relevante, ajusta dinámicamente estrategia
Viabilidad del AC centrado en sistemas: Demuestra que el aprendizaje continuo sin gradientes es un camino viable para sistemas de IA adaptativos y desplegables
Frontera de Pareto de eficiencia y precisión: Logra mayor precisión y menor costo computacional mediante adaptación en tiempo de inferencia
Capacidad de generalización entre tareas: Los manuales congelados mejoran significativamente el rendimiento en nuevos eventos sin reentrenamiento
Motor de datos de modelo de mundo: Genera trayectorias anotadas causalmente, proporcionando valor para entrenar modelos de mundo explícitos
El artículo cita trabajos importantes en campos relacionados de aprendizaje continuo, optimización de indicaciones, recuperación aumentada y mecanismos de memoria, incluyendo:
Kirkpatrick et al. (2017) - Superación del olvido catastrófico en redes neuronales
Hu et al. (2021) - Método de adaptación de bajo rango LoRA
Lewis et al. (2020) - Generación aumentada por recuperación
Shinn et al. (2023) - Reflexion para agentes de lenguaje
Wu et al. (2025) - Punto de referencia ExCyTIn-Bench
Este artículo propone un cambio de paradigma importante en el campo del aprendizaje continuo, trasladándose de un enfoque centrado en modelos a uno centrado en sistemas, con valor teórico importante y significancia práctica. Aunque hay espacio para mejora en amplitud de evaluación y análisis teórico, su innovación y practicidad lo convierten en una contribución importante al campo.