We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
- ID del Artículo: 2510.13008
- Título: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- Autores: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: 14 de octubre de 2025 (Preimpresión)
- Enlace del Artículo: https://arxiv.org/abs/2510.13008
Este artículo propone CurLL, un conjunto de datos integral de aprendizaje continuo y un marco de evaluación basado en trayectorias de desarrollo humano (5-10 años), que permite evaluar sistemáticamente y con granularidad fina la capacidad de los modelos para adquirir progresivamente nuevas habilidades. CurLL abarca cinco etapas de desarrollo (0-4), respaldadas por un gráfico de habilidades que descompone habilidades amplias en capacidades más pequeñas, objetivos concretos e indicadores medibles, mientras captura las dependencias entre habilidades. Se generó un conjunto de datos sintético de 23.4B tokens con progresión de habilidades controlable, complejidad de vocabulario y diversidad de formato, incluyendo párrafos, preguntas de comprensión (CQA), preguntas de prueba de habilidades (CSQA) y pares instrucción-respuesta (IR). El número de tokens en cada etapa varía de 2.12B a 6.78B, permitiendo análisis precisos del olvido, transferencia hacia adelante y transferencia hacia atrás.
El desafío central que enfrentan los grandes modelos de lenguaje es el problema del aprendizaje continuo:
- Limitaciones de conocimiento estático: El conocimiento y las habilidades de los LLMs existentes se vuelven estáticos después del entrenamiento, sin poder aprender continuamente nuevos conocimientos como lo hacen los humanos
- Olvido catastrófico: Al aprender nuevas tareas, los modelos tienden a olvidar las habilidades aprendidas anteriormente
- Falta de modelado de dependencias de habilidades: Los métodos existentes carecen de control y modelado precisos de las relaciones de dependencia entre habilidades
La capacidad de aprendizaje continuo es una característica importante de la inteligencia humana, crucial para construir sistemas de IA verdaderamente inteligentes:
- Los humanos pueden integrar nuevos conocimientos con la comprensión existente
- Mantienen capacidades previas mientras dominan nuevas habilidades
- Logran aprendizaje de por vida con eficiencia de muestra extremadamente alta
- Control de habilidades impreciso: Los puntos de referencia existentes carecen de control preciso sobre habilidades específicas
- Relaciones de conocimiento poco claras: Las relaciones entre habilidades rara vez se modelan explícitamente
- Medición insuficiente del olvido: Muchas evaluaciones no pueden medir adecuadamente el olvido catastrófico en tareas de aprendizaje secuencial
- Marco innovador: Introduce por primera vez el sistema de currículo educativo humano en la evaluación del aprendizaje continuo, proporcionando una estructura de habilidades basada en psicología del desarrollo
- Conjunto de datos sintético a gran escala: Construye un conjunto de datos sintético de múltiples formatos de 23.4B tokens, abarcando 5 etapas de desarrollo, con complejidad de vocabulario y progresión de habilidades controlables
- Modelado de gráfico de habilidades: Construye un gráfico explícito de dependencias de habilidades que contiene más de 1300 habilidades de grano fino, permitiendo análisis cuantitativo de relaciones de requisitos previos
- Sistema de evaluación de grano fino: Permite evaluación refinada en tres niveles: métricas, habilidades y etapas, midiendo con precisión el olvido, la transferencia y la eficiencia de muestra
Tarea de aprendizaje continuo: Dado una serie de tareas de aprendizaje organizadas por etapas de desarrollo, el modelo debe:
- Entrada: Datos de entrenamiento multietapa serializados
- Salida: Mantener buen desempeño en todas las etapas
- Restricciones: Minimizar el olvido catastrófico, maximizar la transferencia hacia adelante y hacia atrás
Construye una estructura de habilidades de cuatro niveles basada en dos marcos educativos:
- Skills (Habilidades): Dominios de alto nivel (como matemáticas, ciencias)
- Sub-skills (Subhabilidades): Componentes específicos (como conteo y cardinalidad)
- Goals (Objetivos): Declaraciones amplias de expectativas de aprendizaje
- Indicators (Indicadores): Comportamientos observables concretos
- Nodos: Más de 1300 indicadores
- Aristas: Relaciones de dependencia de requisitos previos, con pesos 1-5 que indican la intensidad de dependencia
- Validación: Utiliza predicción de LLM para relaciones de dependencia, validada mediante distribución de aristas entre etapas
Construcción de semillas:
- Tuplas de habilidades (skill-tuple)
- Vocabulario apropiado para la edad (basado en datos de Edad de Adquisición)
- Tipo de instancia (IR/CQA/CSQA)
- Tipo de plantilla
Estrategia de generación:
- Genera ≥15 plantillas de contexto y plantillas IR para cada tupla de habilidad
- Utiliza LLM para generar instancias diversificadas basadas en semillas
- Asegura la idoneidad por edad y alineación de habilidades
- Impulsado por psicología del desarrollo: Introduce por primera vez los marcos Cambridge Primary Curriculum y ELOF en la evaluación de IA
- Modelado de habilidades multinivel: Descomposición jerárquica de habilidades abstractas a indicadores concretos
- Cuantificación de relaciones de dependencia: Modelado explícito de relaciones de requisitos previos entre habilidades usando gráficos dirigidos ponderados
- Fusión de datos multiformato: Manejo unificado de plantillas de chat para párrafos, preguntas-respuestas y respuestas de instrucciones
| Etapa | Habilidades | Subhabilidades | Objetivos | Indicadores | Cantidad CQA | Cantidad CSQA | Cantidad IR | Tokens (miles de millones) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1.0M | 3.01M | 3.30M | 2.12 |
| 1 | 7 | 29 | 86 | 292 | 20.2M | 4.04M | 4.10M | 3.47 |
| 2 | 6 | 26 | 67 | 249 | 23.5M | 4.70M | 4.78M | 4.56 |
| 3 | 6 | 26 | 68 | 271 | 31.2M | 6.24M | 6.29M | 6.47 |
| 4 | 6 | 23 | 70 | 349 | 27.4M | 5.49M | 5.52M | 6.78 |
- Puntuación de corrección: Utiliza LLM para calificar respuestas del modelo en escala 1-5
- Análisis de olvido: Diferencia de desempeño entre entrenamiento conjunto y continuo
- Efecto de transferencia: Análisis de cambios de desempeño entre etapas
- Modelo: Transformer SmolLM2 con 135M parámetros
- Modos de entrenamiento:
- Independiente: Entrenamiento separado por etapa
- Conjunto: Entrenamiento con datos multietapa mezclados
- Continuo: Entrenamiento serializado
- Hiperparámetros: Tasa de aprendizaje 5e-3, tamaño de lote 1536, una época
Del mapa de calor en la Figura 4 se puede observar:
- Entrenamiento Independiente:
- Desempeño más alto en etapas de entrenamiento
- Capacidad de generalización limitada a etapas no entrenadas
- La etapa 0 muestra el mejor desempeño en todas las etapas de prueba (12.62→6.73)
- Entrenamiento Conjunto:
- Mantiene desempeño alto y estable en todas las etapas
- Evita el olvido catastrófico
- Desempeño relativamente equilibrado (12.62→9.79)
- Entrenamiento Continuo:
- Mejor desempeño en etapas posteriores
- Fenómeno de olvido evidente
- Demuestra la mejor capacidad de transferencia hacia adelante
La Figura 5 muestra la diferencia de desempeño entre entrenamiento conjunto y continuo:
- Transferencia hacia adelante: El entrenamiento continuo muestra mejor desempeño en etapas futuras (regiones de valores positivos)
- Olvido catastrófico: El desempeño del entrenamiento continuo disminuye en etapas anteriores (regiones de valores negativos)
- Diferencias de formato: Las tareas IR muestran el olvido más severo, CSQA es relativamente más leve
Hallazgos clave:
- Habilidades con bajo grado de salida más propensas al olvido: Como "percepción, movimiento y desarrollo corporal", "alfabetización digital"
- Impacto de relaciones de dependencia: Las capacidades con menos habilidades de requisitos previos se olvidan más fácilmente en el aprendizaje continuo
- Patrones de conexión entre etapas: Significativamente más aristas de etapas bajas a altas que en la dirección inversa
- Diversidad: El inverso de la tasa de compresión gzip muestra diversidad de 30.77%-35.60%
- Tasa de deduplicación: Tasa de deduplicación semántica <5%, asegurando contenido único
- Legibilidad creciente: La complejidad del texto en cada etapa aumenta con la edad
Limitaciones de puntos de referencia existentes:
- TRACE: Tareas demasiado simples o ya incluidas en el conjunto de entrenamiento de LLM
- MMLM-CL: Falta de aplicabilidad en el mundo real
- TemporalWiki: Se enfoca principalmente en actualización de conocimiento factual
- SuperNI: Colección de tareas NLP tradicionales, falta de modelado de dependencias de habilidades
- Skill-it: Propone algoritmo de ordenamiento de habilidades con complejidad creciente
- Métodos de eficiencia de parámetros: LoRA, adaptadores y otras técnicas para reducir olvido
- Reproducción de memoria: Uso de muestras históricas para mitigar olvido
La singularidad de este trabajo radica en:
- Organización de habilidades basada en currículo de desarrollo humano
- Gráfico explícito de dependencias de habilidades
- Generación de datos sintéticos a gran escala y controlable
- Importancia del orden de datos: Cambiar simplemente el orden de datos puede afectar significativamente el olvido y la generalización
- Rol de dependencias de habilidades: Las habilidades con bajo grado de salida se olvidan más fácilmente en el aprendizaje continuo
- Necesidad de granularidad de evaluación: La evaluación de grano fino puede revelar patrones importantes enmascarados por métricas macroscópicas
- Limitaciones de datos sintéticos: Uso completamente de datos sintéticos, puede no reflejar escenarios del mundo real
- Escala de modelo: Validación solo en modelo de 135M parámetros, el comportamiento de modelos grandes puede diferir
- Falta de aprendizaje interactivo: El conjunto de datos estático no puede simular verdadero aprendizaje interactivo
- Paradigma de modelado de lenguaje: El modelo aprende simultáneamente instrucciones y respuestas, no completamente alineado con el patrón de aprendizaje humano
- Extensión de rango de edad: Extender el marco a 14 años (más etapas de desarrollo)
- Validación en modelos grandes: Verificar hallazgos en modelos de escala de miles de millones de parámetros
- Integración de datos reales: Validar el marco combinando datos educativos reales
- Entorno interactivo: Desarrollar ambiente de aprendizaje que soporte interacción dinámica
- Fuerte innovación: Introduce por primera vez sistemáticamente la psicología del desarrollo en la evaluación del aprendizaje continuo
- Escala de datos grande: Conjunto de datos de 23.4B tokens que permite experimentación suficiente
- Evaluación detallada: Sistema de evaluación multinivel y multidimensional que proporciona perspectivas profundas
- Buena reproducibilidad: Código y datos públicos que apoyan investigación posterior
- Base teórica sólida: Basado en marcos educativos maduros
- Limitación de escala experimental: Validación solo en modelos pequeños, la universalidad de conclusiones requiere verificación
- Sesgo de datos sintéticos: Posible sesgo de generación que afecta la confiabilidad de conclusiones
- Dependencia de método de evaluación: Uso de LLM para evaluación puede introducir sesgo adicional
- Calidad del gráfico de habilidades: Las relaciones de aristas predichas por LLM pueden no ser suficientemente precisas
- Contribución académica: Proporciona nuevo paradigma de evaluación para investigación en aprendizaje continuo
- Valor práctico: Puede usarse para evaluar y mejorar algoritmos de aprendizaje continuo existentes
- Significado inspirador: Demuestra el valor de enfoques interdisciplinarios en investigación de IA
- Recurso comunitario: Proporciona conjunto de datos abierto y herramientas valiosas
- Desarrollo de algoritmos de aprendizaje continuo: Proporciona plataforma de evaluación estandarizada
- Sistemas de IA educativa: Proporciona referencia para aplicaciones de IA en contextos educativos
- Investigación de modelado cognitivo: Apoya modelado computacional del proceso de aprendizaje humano
- Evaluación de capacidades de LLM: Evaluación de grano fino del comportamiento de aprendizaje y olvido de modelos grandes
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
- Puntos de referencia de aprendizaje continuo: TRACE, MMLM-CL, OCKL, etc.
- Marcos educativos: Cambridge Primary Curriculum, ELOF
- Métodos técnicos: Skill-it, varios algoritmos de aprendizaje continuo
- Herramientas de evaluación: Datos de Edad de Adquisición, herramientas de prueba de legibilidad
Evaluación General: Este es un trabajo de investigación de alta calidad que introduce innovadoramente la psicología del desarrollo humano en la evaluación del aprendizaje continuo, construyendo un marco de evaluación a gran escala y estructurado. A pesar de algunas limitaciones, abre nuevas direcciones para la investigación en aprendizaje continuo, con importante valor académico y práctico.