2025-11-11T12:31:09.652564

Continual Learning, Not Training: Online Adaptation For Agents

Jaglan, Barnes
Continual Learning (CL) methods have traditionally focused on mitigating catastrophic forgetting through gradient-based retraining, an approach ill-suited for deployed agents that must adapt in real time. We introduce our Adaptive Teaching and Learning System (ATLAS), a dual-agent architecture that decouples reasoning (Teacher) from execution (Student) and incorporates a persistent learning memory that stores distilled guidance from experience. This informs the orchestration layer, enabling the system to dynamically adjust its operational strategies, such as supervision level or initial plan selection, at inference time. In doing so, ATLAS achieves gradient-free continual learning, shifting the locus of adaptation from model parameters to system-level orchestration. We formulate this as a system-centric paradigm for continual learning, where the objective is adaptive efficiency: maximizing task success while minimizing computational cost through inference-time orchestration rather than parameter updates. Evaluated on Microsoft's ExCyTIn-Bench, an open-source benchmark simulating complex cyberthreat investigation, ATLAS achieves 54.1% success with GPT-5-mini as its Student, outperforming the larger GPT-5 (High) by 13% while reducing cost by 86%. Cross-incident validation demonstrates generalization: frozen pamphlets from Incident #5 improve accuracy from 28% to 41% with zero retraining, while shifting output composition from verbose exploration to structured reasoning. Together, these findings establish gradient-free continual learning as a viable path toward adaptive, deployable AI systems and provide causally annotated traces valuable for training explicit world models.
academic

Aprendizaje Continuo, No Entrenamiento: Adaptación En Línea Para Agentes

Información Básica

  • ID del Artículo: 2511.01093
  • Título: Continual Learning, Not Training: Online Adaptation For Agents
  • Autores: Aman Jaglan, Jarrod Barnes (Arc Intelligence)
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación: 4 de noviembre de 2025 (Preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2511.01093

Resumen

Los métodos tradicionales de aprendizaje continuo (AC) mitigan principalmente el olvido catastrófico mediante reentrenamiento basado en gradientes, pero este enfoque no es adecuado para agentes desplegados que requieren adaptación en tiempo real. Este artículo presenta el Sistema Adaptativo de Enseñanza y Aprendizaje (ATLAS), una arquitectura de doble agente que desacopla la inferencia (Profesor) de la ejecución (Estudiante) e integra una memoria de aprendizaje persistente guiada por destilación de experiencias almacenadas. El sistema ajusta dinámicamente las políticas operacionales durante la inferencia, realizando aprendizaje continuo sin gradientes y trasladando el enfoque de adaptación desde los parámetros del modelo hacia la orquestación a nivel de sistema. En el punto de referencia ExCyTIn-Bench de Microsoft, ATLAS logra una tasa de éxito del 54.1% utilizando GPT-5-mini como Estudiante, superando a GPT-5 (High) en un 13% mientras reduce costos en un 86%.

Antecedentes de Investigación y Motivación

Problemas Centrales

  1. Contradicción entre necesidad de adaptación en tiempo real y entrenamiento fuera de línea: Los agentes de modelos de lenguaje desplegados requieren adaptación continua en entornos dinámicos, pero su conocimiento central permanece estático después del preentrenamiento
  2. Limitaciones del aprendizaje continuo tradicional: Los métodos AC existentes dependen excesivamente de actualizaciones de pesos basadas en gradientes, requieren ciclos de entrenamiento especializados, hardware y acumulación de datos, sin poder proporcionar adaptación durante la inferencia

Importancia del Problema

  • En sistemas adaptativos complejos, el entorno evoluciona continuamente; cuando el modelo completa el entrenamiento fuera de línea para una configuración, el sistema en tiempo real puede haber cambiado
  • La retropropagación, incluso en formas eficientes (como LoRA), requiere infraestructura de entrenamiento especializada, introduciendo latencia de reentrenamiento
  • Las restricciones de recursos bajo limitaciones de despliegue hacen que los métodos tradicionales sean difíciles de implementar

Limitaciones de Métodos Existentes

  1. Métodos basados en entrenamiento: Sufren olvido catastrófico, requieren actualizaciones de gradientes computacionalmente intensivas
  2. Técnicas de optimización de indicaciones: Producen instrucciones estáticas para despliegue, no pueden evolucionar dinámicamente
  3. Sistemas aumentados por recuperación: Realizan búsquedas en lugar de síntesis de habilidades
  4. Mecanismos de memoria de agentes: Almacenan experiencias pasivamente, no extraen conocimiento generalizable

Contribuciones Principales

  1. Propone un paradigma de aprendizaje continuo centrado en sistemas: Traslada el enfoque de adaptación desde parámetros del modelo hacia orquestación a nivel de sistema
  2. Diseña la arquitectura de doble agente ATLAS: Realiza adaptación sin gradientes durante la inferencia
  3. Establece Memoria de Aprendizaje Persistente (PLM): Almacena experiencias de orientación destiladas y respalda transferencia entre tareas
  4. Valida efectividad en ExCyTIn-Bench: Supera el rendimiento de modelos más grandes utilizando modelos más pequeños, reduciendo significativamente costos
  5. Genera trayectorias anotadas causalmente: Proporciona datos valiosos para entrenar modelos de mundo explícitos

Detalles del Método

Definición de Tareas

Objetivo: Lograr eficiencia adaptativa - maximizar la tasa de éxito de tareas mientras se minimiza el costo computacional mediante orquestación en tiempo de inferencia en lugar de actualizaciones de parámetros.

Entrada: Secuencia continua de tareas, cada una conteniendo estados, acciones y observaciones Salida: Política de ejecución de tareas mejorada y mejora de eficiencia Restricciones: Sin actualizaciones de gradientes, adaptación puramente en tiempo de inferencia

Arquitectura del Modelo

1. Diseño de Doble Agente

  • Agente Profesor: Generalmente más capaz, responsable de inferencia y orientación
  • Agente Estudiante: Ejecuta tareas, recibe supervisión y orientación del Profesor
  • Capa de Orquestación: Gestiona interacción Profesor-Estudiante, ajusta dinámicamente políticas operacionales

2. Componentes Principales

Memoria de Aprendizaje Persistente (PLM):

  • Almacena trayectorias de ejecución completas, orientación del Profesor y puntuaciones relevantes
  • Indexada por contexto de tarea
  • Respalda proceso de destilación ligera para extraer orientación accionable

Sistema de Recompensas:

  • Diseño de evaluador integrado de dos capas
  • Múltiples evaluadores rápidos califican independientemente
  • Cuando la varianza o incertidumbre excede umbral, árbitro fuerte integra y proporciona juicio final

Motor de Aprendizaje:

  • Compila manual del Profesor: principios, modos de fallo, diagnósticos y condiciones de parada
  • Genera manual del Estudiante: patrones de acción concretos, planificación de herramientas, salvaguardas y verificaciones de éxito

3. Ciclo de Aprendizaje en Tiempo de Inferencia

1. Ejecución de Tarea: Estudiante intenta tarea, genera trayectoria estado-acción-observación
2. Verificación de Orientación: Profesor observa trayectoria del Estudiante, proporciona orientación a nivel de principios basada en resultados
3. Persistencia de Aprendizaje: Registra trayectoria completa, orientación y puntuación en PLM
4. Ajuste Adaptativo: En tareas similares posteriores, recupera historial de aprendizaje relevante, ajusta dinámicamente estrategia

Puntos de Innovación Técnica

  1. Adaptación sin gradientes: Completamente durante la inferencia, sin necesidad de actualizaciones de pesos del modelo
  2. Orquestación guiada por memoria: Utiliza historial de aprendizaje agregado para ajustar dinámicamente políticas operacionales
  3. Arquitectura separada: Profesor responsable de inferencia, Estudiante de ejecución, realizando especialización de funciones
  4. Transferencia de Experiencia Destilada (DET): Convierte interacciones pasadas en artefactos de aprendizaje reutilizables

Configuración Experimental

Conjunto de Datos

ExCyTIn-Bench: Punto de referencia de investigación de amenazas cibernéticas de Microsoft

  • Incidente #5: Escenario consistente con 98 consultas
  • Incidente #55: 100 consultas, para validación de transferencia entre eventos
  • Proporciona evaluación de razonamiento consciente del estado, mediante puntuación de trayectorias en lugar de pruebas estáticas

Métricas de Evaluación

  1. Tasa de éxito de tareas: Tasa de éxito binaria (umbral ≥0.4) utilizando estándares oficiales del punto de referencia
  2. Eficiencia: Número promedio de tokens consumidos por sesión
  3. Relación costo-beneficio: Costo en dólares por pregunta basado en precios de OpenAI

Métodos de Comparación

  1. Línea base interna: GPT-5-mini sin manuales o orientación del Profesor
  2. Línea base externa: Rendimiento de GPT-5 (Reasoning=High) reportado en documentación de ExCyTIn-Bench
  3. Línea base entre eventos: Línea base oficial de GPT-5-mini en Incidente #55

Detalles de Implementación

  • Fase de inicialización: GPT-5 como Profesor, GPT-5-mini como Estudiante
  • Fase de evaluación: Inicializa tareas posteriores después de recuperar manuales relevantes mediante similitud semántica
  • Configuración de recompensas: Evaluador integrado de dos capas, puntuación orientada por principios
  • Recuperación de memoria: Coincidencia semántica basada en contexto de tarea

Resultados Experimentales

Resultados Principales

Rendimiento en Incidente #5:

  • Tasa de éxito de ATLAS: 54.1% (53/98 tareas)
  • Comparado con línea base GPT-5 (High) 48.0%: +6.1 puntos porcentuales
  • Comparado con línea base GPT-5-mini 33.7%: +20.4 puntos porcentuales
  • Reducción de costos: ~86% (0.024vs0.024 vs 0.174 por pregunta)

Mejora de Eficiencia:

  • Consumo promedio de tokens: 78,118 (45% menos que 141,660 del Estudiante solo)
  • Mejora por fases:
    • Fase 1 (tareas 1-25): 100,810 tokens (-28.8%)
    • Fase 2 (tareas 26-60): 73,980 tokens (-47.8%)
    • Fase 3 (tareas 61-98): 67,002 tokens (-52.7%)

Experimento de Transferencia Entre Eventos

Validación en Incidente #55:

  • Precisión de línea base: 28% (28/100)
  • Usando manuales congelados: 41% (41/100), mejora del 46%
  • Cambios en composición de salida:
    • Tokens de no-razonamiento reducidos 52.1%
    • Tokens de razonamiento aumentados 2,135
    • Transición de exploración verbosa a razonamiento estructurado

Experimento de Ablación

Análisis de Progreso de Aprendizaje:

  • 69 de 98 trayectorias de tareas contienen orientación recuperada
  • 68 inyectaron habilidades faltantes en el texto de indicación original
  • Demuestra que los manuales capturan procedimientos abstractos en lugar de plantillas específicas de tareas

Análisis de Costos de Investigación de Procesos:

  • Primeras tres preguntas de proceso: promedio 217.7k tokens
  • Últimas tres preguntas de proceso: promedio 48.8k tokens
  • Prueba que el mismo manual puede acortar diferentes tareas forenses de procesos

Análisis de Casos

Ejemplo de Sesión Incidente #5 #71:

  • Fallo inicial: Estudiante no verificó respuesta, carecía de estrategia de investigación sistematizada
  • Intervención del Profesor: Proporciona orientación a nivel de principios (enumerar fuentes de telemetría, priorizar tablas, verificar SID)
  • Reejercución exitosa: Enfoque sistematizado, extracción correcta de SID, consumo reducido de tokens
  • Contraste: Ejecución autónoma consumió 304,389 tokens sin éxito, demostrando valor de recuperación de manuales

Trabajo Relacionado

Métodos Basados en Entrenamiento

  • LoRA, QLoRA, DoRA y otros métodos eficientes en parámetros aún dependen de optimización de gradientes
  • Sistemas de aprendizaje de "dos velocidades" aún requieren cálculo de gradientes
  • Enfrentan compensación entre tasa de aprendizaje y olvido

Optimización de Indicaciones

  • Prompt Tuning, DSPy, GEPA y otros métodos optimizan indicaciones estáticas
  • No pueden evolucionar después del despliegue cuando cambian condiciones ambientales
  • ATLAS realiza adaptación de estrategia de ejecución dinámica basada en historial

Sistemas de Recuperación

  • RAG, Self-RAG y otros aumentan conocimiento a nivel de contenido
  • ATLAS se enfoca en refinamiento de estrategia de comportamiento a nivel estratégico
  • Realiza adquisición de habilidades en lugar de expansión de contenido

Mecanismos de Memoria

  • Reflexion, LATS, Voyager, MemGPT y otros almacenan experiencias pasivamente
  • Carecen de mecanismos activos de compresión y generalización
  • ATLAS realiza sustrato de aprendizaje activo, respalda aprendizaje de procedimientos

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad del AC centrado en sistemas: Demuestra que el aprendizaje continuo sin gradientes es un camino viable para sistemas de IA adaptativos y desplegables
  2. Frontera de Pareto de eficiencia y precisión: Logra mayor precisión y menor costo computacional mediante adaptación en tiempo de inferencia
  3. Capacidad de generalización entre tareas: Los manuales congelados mejoran significativamente el rendimiento en nuevos eventos sin reentrenamiento
  4. Motor de datos de modelo de mundo: Genera trayectorias anotadas causalmente, proporcionando valor para entrenar modelos de mundo explícitos

Limitaciones

  1. Dependencia de arquitectura: Requiere configuración de doble agente Profesor-Estudiante, aumentando complejidad del sistema
  2. Especificidad de dominio: Validado principalmente en dominio de investigación de seguridad cibernética, generalización requiere verificación adicional
  3. Gestión de memoria: Problemas de gestión de memoria y eficiencia de recuperación con crecimiento de experiencias
  4. Métodos de evaluación: Puntos de referencia estáticos insuficientes para evaluar sistemas de aprendizaje dinámicos

Direcciones Futuras

  1. Exploración de diseño de arquitectura: Comparar integración multiagente, estructuras de memoria jerárquica y otros diseños alternativos
  2. Generalización de conocimiento: Investigar transferencia de principios entre modelos y tareas
  3. Métodos de evaluación adaptativa: Desarrollar puntos de referencia dinámicos que se adapten conjuntamente con agentes
  4. Aprendizaje híbrido en línea-fuera de línea: Integrar entrenamiento de modelo de mundo de vuelta al sistema en tiempo real

Evaluación Profunda

Fortalezas

  1. Innovación de paradigma: El cambio de paradigma de aprendizaje continuo centrado en modelos a centrado en sistemas tiene valor teórico importante
  2. Fuerte practicidad: Sin necesidad de hardware especializado o reentrenamiento, fácil de desplegar en infraestructura de inferencia estándar
  3. Experimentación suficiente: Validación en puntos de referencia reales, incluye experimentos de ablación detallados y análisis de casos
  4. Beneficio de costo significativo: Supera modelos más grandes usando modelos más pequeños, reduciendo costos sustancialmente
  5. Buena reproducibilidad: Proporciona conjunto de datos completo y detalles de implementación

Insuficiencias

  1. Limitaciones de evaluación: Validación principalmente en dominio único (seguridad cibernética), carece de validación en dominios más amplios
  2. Problemas de escalabilidad: Con aumento de tareas, gastos computacionales de recuperación y gestión de memoria pueden convertirse en cuello de botella
  3. Análisis teórico insuficiente: Carece de garantías teóricas sobre convergencia y estabilidad del sistema
  4. Dependencia del Profesor: Requiere modelo Profesor más fuerte, puede limitar escenarios de aplicación práctica
  5. Aprendizaje a largo plazo: No explora suficientemente rendimiento en secuencias de tareas extremadamente largas

Impacto

  1. Contribución académica: Proporciona nueva dirección de investigación y metodología para campo de aprendizaje continuo
  2. Valor práctico: Proporciona solución viable de adaptación para sistemas de IA desplegados en el mundo real
  3. Inspiración: El pensamiento de adaptación a nivel de sistema puede inspirar diseño de otros sistemas de IA
  4. Valor de datos: Datos anotados causalmente generados tienen valor importante para investigación de modelos de mundo

Escenarios Aplicables

  1. Entornos con recursos limitados: Escenarios de despliegue donde no es posible reentrenamiento de modelos
  2. Entornos de tareas dinámicas: Requieren adaptación rápida a cambios en tipos y requisitos de tareas
  3. Aplicaciones sensibles a costos: Requieren encontrar equilibrio óptimo entre rendimiento y costo
  4. Aplicaciones de dominio especializado: Como investigación de seguridad cibernética, diagnóstico de fallas que requieren conocimiento de expertos

Referencias

El artículo cita trabajos importantes en campos relacionados de aprendizaje continuo, optimización de indicaciones, recuperación aumentada y mecanismos de memoria, incluyendo:

  • Kirkpatrick et al. (2017) - Superación del olvido catastrófico en redes neuronales
  • Hu et al. (2021) - Método de adaptación de bajo rango LoRA
  • Lewis et al. (2020) - Generación aumentada por recuperación
  • Shinn et al. (2023) - Reflexion para agentes de lenguaje
  • Wu et al. (2025) - Punto de referencia ExCyTIn-Bench

Este artículo propone un cambio de paradigma importante en el campo del aprendizaje continuo, trasladándose de un enfoque centrado en modelos a uno centrado en sistemas, con valor teórico importante y significancia práctica. Aunque hay espacio para mejora en amplitud de evaluación y análisis teórico, su innovación y practicidad lo convierten en una contribución importante al campo.