2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes

Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.

academic

Aprendizaje Continuo, No Entrenamiento: Adaptación En Línea Para Agentes

Información Básica

ID del Artículo: 2511.01093
Título: Continual Learning, Not Training: Online Adaptation For Agents
Autores: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
Clasificación: cs.LG cs.AI
Fecha de Publicación: 4 de noviembre de 2025 (Preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2511.01093

Resumen

Los métodos tradicionales de aprendizaje continuo (AC) mitigan principalmente el olvido catastrófico mediante reentrenamiento basado en gradientes, pero este enfoque no es adecuado para agentes desplegados que requieren adaptación en tiempo real. Este artículo presenta el Sistema Adaptativo de Enseñanza y Aprendizaje (ATLAS), una arquitectura de doble agente que desacopla la inferencia (Profesor) de la ejecución (Estudiante) e integra una memoria de aprendizaje persistente guiada por destilación de experiencias almacenadas. El sistema ajusta dinámicamente las políticas operacionales durante la inferencia, realizando aprendizaje continuo sin gradientes y trasladando el enfoque de adaptación desde los parámetros del modelo hacia la orquestación a nivel de sistema. En el punto de referencia ExCyTIn-Bench de Microsoft, ATLAS logra una tasa de éxito del 54.1% utilizando GPT-5-mini como Estudiante, superando a GPT-5 (High) en un 13% mientras reduce costos en un 86%.

Antecedentes de Investigación y Motivación

Problemas Centrales

Contradicción entre necesidad de adaptación en tiempo real y entrenamiento fuera de línea: Los agentes de modelos de lenguaje desplegados requieren adaptación continua en entornos dinámicos, pero su conocimiento central permanece estático después del preentrenamiento
Limitaciones del aprendizaje continuo tradicional: Los métodos AC existentes dependen excesivamente de actualizaciones de pesos basadas en gradientes, requieren ciclos de entrenamiento especializados, hardware y acumulación de datos, sin poder proporcionar adaptación durante la inferencia

Importancia del Problema

En sistemas adaptativos complejos, el entorno evoluciona continuamente; cuando el modelo completa el entrenamiento fuera de línea para una configuración, el sistema en tiempo real puede haber cambiado
La retropropagación, incluso en formas eficientes (como LoRA), requiere infraestructura de entrenamiento especializada, introduciendo latencia de reentrenamiento
Las restricciones de recursos bajo limitaciones de despliegue hacen que los métodos tradicionales sean difíciles de implementar

Limitaciones de Métodos Existentes

Métodos basados en entrenamiento: Sufren olvido catastrófico, requieren actualizaciones de gradientes computacionalmente intensivas
Técnicas de optimización de indicaciones: Producen instrucciones estáticas para despliegue, no pueden evolucionar dinámicamente
Sistemas aumentados por recuperación: Realizan búsquedas en lugar de síntesis de habilidades
Mecanismos de memoria de agentes: Almacenan experiencias pasivamente, no extraen conocimiento generalizable

Contribuciones Principales

Propone un paradigma de aprendizaje continuo centrado en sistemas: Traslada el enfoque de adaptación desde parámetros del modelo hacia orquestación a nivel de sistema
Diseña la arquitectura de doble agente ATLAS: Realiza adaptación sin gradientes durante la inferencia
Establece Memoria de Aprendizaje Persistente (PLM): Almacena experiencias de orientación destiladas y respalda transferencia entre tareas
Valida efectividad en ExCyTIn-Bench: Supera el rendimiento de modelos más grandes utilizando modelos más pequeños, reduciendo significativamente costos
Genera trayectorias anotadas causalmente: Proporciona datos valiosos para entrenar modelos de mundo explícitos

Detalles del Método

Definición de Tareas

Objetivo: Lograr eficiencia adaptativa - maximizar la tasa de éxito de tareas mientras se minimiza el costo computacional mediante orquestación en tiempo de inferencia en lugar de actualizaciones de parámetros.

Entrada: Secuencia continua de tareas, cada una conteniendo estados, acciones y observaciones Salida: Política de ejecución de tareas mejorada y mejora de eficiencia Restricciones: Sin actualizaciones de gradientes, adaptación puramente en tiempo de inferencia

Arquitectura del Modelo

1. Diseño de Doble Agente

Agente Profesor: Generalmente más capaz, responsable de inferencia y orientación
Agente Estudiante: Ejecuta tareas, recibe supervisión y orientación del Profesor
Capa de Orquestación: Gestiona interacción Profesor-Estudiante, ajusta dinámicamente políticas operacionales

2. Componentes Principales

Memoria de Aprendizaje Persistente (PLM):

Almacena trayectorias de ejecución completas, orientación del Profesor y puntuaciones relevantes
Indexada por contexto de tarea
Respalda proceso de destilación ligera para extraer orientación accionable

Sistema de Recompensas:

Diseño de evaluador integrado de dos capas
Múltiples evaluadores rápidos califican independientemente
Cuando la varianza o incertidumbre excede umbral, árbitro fuerte integra y proporciona juicio final

Motor de Aprendizaje:

Compila manual del Profesor: principios, modos de fallo, diagnósticos y condiciones de parada
Genera manual del Estudiante: patrones de acción concretos, planificación de herramientas, salvaguardas y verificaciones de éxito

3. Ciclo de Aprendizaje en Tiempo de Inferencia

1. Ejecución de Tarea: Estudiante intenta tarea, genera trayectoria estado-acción-observación
2. Verificación de Orientación: Profesor observa trayectoria del Estudiante, proporciona orientación a nivel de principios basada en resultados
3. Persistencia de Aprendizaje: Registra trayectoria completa, orientación y puntuación en PLM
4. Ajuste Adaptativo: En tareas similares posteriores, recupera historial de aprendizaje relevante, ajusta dinámicamente estrategia

Puntos de Innovación Técnica

Adaptación sin gradientes: Completamente durante la inferencia, sin necesidad de actualizaciones de pesos del modelo
Orquestación guiada por memoria: Utiliza historial de aprendizaje agregado para ajustar dinámicamente políticas operacionales
Arquitectura separada: Profesor responsable de inferencia, Estudiante de ejecución, realizando especialización de funciones
Transferencia de Experiencia Destilada (DET): Convierte interacciones pasadas en artefactos de aprendizaje reutilizables

Configuración Experimental

Conjunto de Datos

ExCyTIn-Bench: Punto de referencia de investigación de amenazas cibernéticas de Microsoft

Incidente #5: Escenario consistente con 98 consultas
Incidente #55: 100 consultas, para validación de transferencia entre eventos
Proporciona evaluación de razonamiento consciente del estado, mediante puntuación de trayectorias en lugar de pruebas estáticas

Métricas de Evaluación

Tasa de éxito de tareas: Tasa de éxito binaria (umbral ≥0.4) utilizando estándares oficiales del punto de referencia
Eficiencia: Número promedio de tokens consumidos por sesión
Relación costo-beneficio: Costo en dólares por pregunta basado en precios de OpenAI

Métodos de Comparación

Línea base interna: GPT-5-mini sin manuales o orientación del Profesor
Línea base externa: Rendimiento de GPT-5 (Reasoning=High) reportado en documentación de ExCyTIn-Bench
Línea base entre eventos: Línea base oficial de GPT-5-mini en Incidente #55

Detalles de Implementación

Fase de inicialización: GPT-5 como Profesor, GPT-5-mini como Estudiante
Fase de evaluación: Inicializa tareas posteriores después de recuperar manuales relevantes mediante similitud semántica
Configuración de recompensas: Evaluador integrado de dos capas, puntuación orientada por principios
Recuperación de memoria: Coincidencia semántica basada en contexto de tarea

Resultados Experimentales

Resultados Principales

Rendimiento en Incidente #5:

Tasa de éxito de ATLAS: 54.1% (53/98 tareas)
Comparado con línea base GPT-5 (High) 48.0%: +6.1 puntos porcentuales
Comparado con línea base GPT-5-mini 33.7%: +20.4 puntos porcentuales
Reducción de costos: ~86% ( $0.024 vs$ 0.174 por pregunta)

Mejora de Eficiencia:

Consumo promedio de tokens: 78,118 (45% menos que 141,660 del Estudiante solo)
Mejora por fases:
- Fase 1 (tareas 1-25): 100,810 tokens (-28.8%)
- Fase 2 (tareas 26-60): 73,980 tokens (-47.8%)
- Fase 3 (tareas 61-98): 67,002 tokens (-52.7%)

Experimento de Transferencia Entre Eventos

Validación en Incidente #55:

Precisión de línea base: 28% (28/100)
Usando manuales congelados: 41% (41/100), mejora del 46%
Cambios en composición de salida:
- Tokens de no-razonamiento reducidos 52.1%
- Tokens de razonamiento aumentados 2,135
- Transición de exploración verbosa a razonamiento estructurado

Experimento de Ablación

Análisis de Progreso de Aprendizaje:

69 de 98 trayectorias de tareas contienen orientación recuperada
68 inyectaron habilidades faltantes en el texto de indicación original
Demuestra que los manuales capturan procedimientos abstractos en lugar de plantillas específicas de tareas

Análisis de Costos de Investigación de Procesos:

Primeras tres preguntas de proceso: promedio 217.7k tokens
Últimas tres preguntas de proceso: promedio 48.8k tokens
Prueba que el mismo manual puede acortar diferentes tareas forenses de procesos

Análisis de Casos

Ejemplo de Sesión Incidente #5 #71:

Fallo inicial: Estudiante no verificó respuesta, carecía de estrategia de investigación sistematizada
Intervención del Profesor: Proporciona orientación a nivel de principios (enumerar fuentes de telemetría, priorizar tablas, verificar SID)
Reejercución exitosa: Enfoque sistematizado, extracción correcta de SID, consumo reducido de tokens
Contraste: Ejecución autónoma consumió 304,389 tokens sin éxito, demostrando valor de recuperación de manuales

Trabajo Relacionado

Métodos Basados en Entrenamiento

LoRA, QLoRA, DoRA y otros métodos eficientes en parámetros aún dependen de optimización de gradientes
Sistemas de aprendizaje de "dos velocidades" aún requieren cálculo de gradientes
Enfrentan compensación entre tasa de aprendizaje y olvido

Optimización de Indicaciones

Prompt Tuning, DSPy, GEPA y otros métodos optimizan indicaciones estáticas
No pueden evolucionar después del despliegue cuando cambian condiciones ambientales
ATLAS realiza adaptación de estrategia de ejecución dinámica basada en historial

Sistemas de Recuperación

RAG, Self-RAG y otros aumentan conocimiento a nivel de contenido
ATLAS se enfoca en refinamiento de estrategia de comportamiento a nivel estratégico
Realiza adquisición de habilidades en lugar de expansión de contenido

Mecanismos de Memoria

Reflexion, LATS, Voyager, MemGPT y otros almacenan experiencias pasivamente
Carecen de mecanismos activos de compresión y generalización
ATLAS realiza sustrato de aprendizaje activo, respalda aprendizaje de procedimientos

Conclusiones y Discusión

Conclusiones Principales

Viabilidad del AC centrado en sistemas: Demuestra que el aprendizaje continuo sin gradientes es un camino viable para sistemas de IA adaptativos y desplegables
Frontera de Pareto de eficiencia y precisión: Logra mayor precisión y menor costo computacional mediante adaptación en tiempo de inferencia
Capacidad de generalización entre tareas: Los manuales congelados mejoran significativamente el rendimiento en nuevos eventos sin reentrenamiento
Motor de datos de modelo de mundo: Genera trayectorias anotadas causalmente, proporcionando valor para entrenar modelos de mundo explícitos

Limitaciones

Dependencia de arquitectura: Requiere configuración de doble agente Profesor-Estudiante, aumentando complejidad del sistema
Especificidad de dominio: Validado principalmente en dominio de investigación de seguridad cibernética, generalización requiere verificación adicional
Gestión de memoria: Problemas de gestión de memoria y eficiencia de recuperación con crecimiento de experiencias
Métodos de evaluación: Puntos de referencia estáticos insuficientes para evaluar sistemas de aprendizaje dinámicos

Direcciones Futuras

Exploración de diseño de arquitectura: Comparar integración multiagente, estructuras de memoria jerárquica y otros diseños alternativos
Generalización de conocimiento: Investigar transferencia de principios entre modelos y tareas
Métodos de evaluación adaptativa: Desarrollar puntos de referencia dinámicos que se adapten conjuntamente con agentes
Aprendizaje híbrido en línea-fuera de línea: Integrar entrenamiento de modelo de mundo de vuelta al sistema en tiempo real

Evaluación Profunda

Fortalezas

Innovación de paradigma: El cambio de paradigma de aprendizaje continuo centrado en modelos a centrado en sistemas tiene valor teórico importante
Fuerte practicidad: Sin necesidad de hardware especializado o reentrenamiento, fácil de desplegar en infraestructura de inferencia estándar
Experimentación suficiente: Validación en puntos de referencia reales, incluye experimentos de ablación detallados y análisis de casos
Beneficio de costo significativo: Supera modelos más grandes usando modelos más pequeños, reduciendo costos sustancialmente
Buena reproducibilidad: Proporciona conjunto de datos completo y detalles de implementación

Insuficiencias

Limitaciones de evaluación: Validación principalmente en dominio único (seguridad cibernética), carece de validación en dominios más amplios
Problemas de escalabilidad: Con aumento de tareas, gastos computacionales de recuperación y gestión de memoria pueden convertirse en cuello de botella
Análisis teórico insuficiente: Carece de garantías teóricas sobre convergencia y estabilidad del sistema
Dependencia del Profesor: Requiere modelo Profesor más fuerte, puede limitar escenarios de aplicación práctica
Aprendizaje a largo plazo: No explora suficientemente rendimiento en secuencias de tareas extremadamente largas

Impacto

Contribución académica: Proporciona nueva dirección de investigación y metodología para campo de aprendizaje continuo
Valor práctico: Proporciona solución viable de adaptación para sistemas de IA desplegados en el mundo real
Inspiración: El pensamiento de adaptación a nivel de sistema puede inspirar diseño de otros sistemas de IA
Valor de datos: Datos anotados causalmente generados tienen valor importante para investigación de modelos de mundo

Escenarios Aplicables

Entornos con recursos limitados: Escenarios de despliegue donde no es posible reentrenamiento de modelos
Entornos de tareas dinámicas: Requieren adaptación rápida a cambios en tipos y requisitos de tareas
Aplicaciones sensibles a costos: Requieren encontrar equilibrio óptimo entre rendimiento y costo
Aplicaciones de dominio especializado: Como investigación de seguridad cibernética, diagnóstico de fallas que requieren conocimiento de expertos

Referencias

El artículo cita trabajos importantes en campos relacionados de aprendizaje continuo, optimización de indicaciones, recuperación aumentada y mecanismos de memoria, incluyendo:

Kirkpatrick et al. (2017) - Superación del olvido catastrófico en redes neuronales
Hu et al. (2021) - Método de adaptación de bajo rango LoRA
Lewis et al. (2020) - Generación aumentada por recuperación
Shinn et al. (2023) - Reflexion para agentes de lenguaje
Wu et al. (2025) - Punto de referencia ExCyTIn-Bench

Este artículo propone un cambio de paradigma importante en el campo del aprendizaje continuo, trasladándose de un enfoque centrado en modelos a uno centrado en sistemas, con valor teórico importante y significancia práctica. Aunque hay espacio para mejora en amplitud de evaluación y análisis teórico, su innovación y practicidad lo convierten en una contribución importante al campo.