2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.

We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.

academic

CurLL: Un Marco de Desarrollo para Evaluar el Aprendizaje Continuo en Modelos de Lenguaje

Información Básica

ID del Artículo: 2510.13008
Título: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
Autores: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 14 de octubre de 2025 (Preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.13008

Resumen

Este artículo propone CurLL, un conjunto de datos integral de aprendizaje continuo y un marco de evaluación basado en trayectorias de desarrollo humano (5-10 años), que permite evaluar sistemáticamente y con granularidad fina la capacidad de los modelos para adquirir progresivamente nuevas habilidades. CurLL abarca cinco etapas de desarrollo (0-4), respaldadas por un gráfico de habilidades que descompone habilidades amplias en capacidades más pequeñas, objetivos concretos e indicadores medibles, mientras captura las dependencias entre habilidades. Se generó un conjunto de datos sintético de 23.4B tokens con progresión de habilidades controlable, complejidad de vocabulario y diversidad de formato, incluyendo párrafos, preguntas de comprensión (CQA), preguntas de prueba de habilidades (CSQA) y pares instrucción-respuesta (IR). El número de tokens en cada etapa varía de 2.12B a 6.78B, permitiendo análisis precisos del olvido, transferencia hacia adelante y transferencia hacia atrás.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central que enfrentan los grandes modelos de lenguaje es el problema del aprendizaje continuo:

Limitaciones de conocimiento estático: El conocimiento y las habilidades de los LLMs existentes se vuelven estáticos después del entrenamiento, sin poder aprender continuamente nuevos conocimientos como lo hacen los humanos
Olvido catastrófico: Al aprender nuevas tareas, los modelos tienden a olvidar las habilidades aprendidas anteriormente
Falta de modelado de dependencias de habilidades: Los métodos existentes carecen de control y modelado precisos de las relaciones de dependencia entre habilidades

Importancia de la Investigación

La capacidad de aprendizaje continuo es una característica importante de la inteligencia humana, crucial para construir sistemas de IA verdaderamente inteligentes:

Los humanos pueden integrar nuevos conocimientos con la comprensión existente
Mantienen capacidades previas mientras dominan nuevas habilidades
Logran aprendizaje de por vida con eficiencia de muestra extremadamente alta

Limitaciones de Métodos Existentes

Control de habilidades impreciso: Los puntos de referencia existentes carecen de control preciso sobre habilidades específicas
Relaciones de conocimiento poco claras: Las relaciones entre habilidades rara vez se modelan explícitamente
Medición insuficiente del olvido: Muchas evaluaciones no pueden medir adecuadamente el olvido catastrófico en tareas de aprendizaje secuencial

Contribuciones Principales

Marco innovador: Introduce por primera vez el sistema de currículo educativo humano en la evaluación del aprendizaje continuo, proporcionando una estructura de habilidades basada en psicología del desarrollo
Conjunto de datos sintético a gran escala: Construye un conjunto de datos sintético de múltiples formatos de 23.4B tokens, abarcando 5 etapas de desarrollo, con complejidad de vocabulario y progresión de habilidades controlables
Modelado de gráfico de habilidades: Construye un gráfico explícito de dependencias de habilidades que contiene más de 1300 habilidades de grano fino, permitiendo análisis cuantitativo de relaciones de requisitos previos
Sistema de evaluación de grano fino: Permite evaluación refinada en tres niveles: métricas, habilidades y etapas, midiendo con precisión el olvido, la transferencia y la eficiencia de muestra

Detalles del Método

Definición de Tareas

Tarea de aprendizaje continuo: Dado una serie de tareas de aprendizaje organizadas por etapas de desarrollo, el modelo debe:

Entrada: Datos de entrenamiento multietapa serializados
Salida: Mantener buen desempeño en todas las etapas
Restricciones: Minimizar el olvido catastrófico, maximizar la transferencia hacia adelante y hacia atrás

Arquitectura del Marco

1. Sistema de Clasificación de Habilidades

Construye una estructura de habilidades de cuatro niveles basada en dos marcos educativos:

Skills (Habilidades): Dominios de alto nivel (como matemáticas, ciencias)
Sub-skills (Subhabilidades): Componentes específicos (como conteo y cardinalidad)
Goals (Objetivos): Declaraciones amplias de expectativas de aprendizaje
Indicators (Indicadores): Comportamientos observables concretos

2. Construcción del Gráfico de Habilidades

Nodos: Más de 1300 indicadores
Aristas: Relaciones de dependencia de requisitos previos, con pesos 1-5 que indican la intensidad de dependencia
Validación: Utiliza predicción de LLM para relaciones de dependencia, validada mediante distribución de aristas entre etapas

3. Proceso de Generación de Datos

Construcción de semillas:

Tuplas de habilidades (skill-tuple)
Vocabulario apropiado para la edad (basado en datos de Edad de Adquisición)
Tipo de instancia (IR/CQA/CSQA)
Tipo de plantilla

Estrategia de generación:

Genera ≥15 plantillas de contexto y plantillas IR para cada tupla de habilidad
Utiliza LLM para generar instancias diversificadas basadas en semillas
Asegura la idoneidad por edad y alineación de habilidades

Puntos de Innovación Técnica

Impulsado por psicología del desarrollo: Introduce por primera vez los marcos Cambridge Primary Curriculum y ELOF en la evaluación de IA
Modelado de habilidades multinivel: Descomposición jerárquica de habilidades abstractas a indicadores concretos
Cuantificación de relaciones de dependencia: Modelado explícito de relaciones de requisitos previos entre habilidades usando gráficos dirigidos ponderados
Fusión de datos multiformato: Manejo unificado de plantillas de chat para párrafos, preguntas-respuestas y respuestas de instrucciones

Configuración Experimental

Escala del Conjunto de Datos

Etapa	Habilidades	Subhabilidades	Objetivos	Indicadores	Cantidad CQA	Cantidad CSQA	Cantidad IR	Tokens (miles de millones)
0	7	24	59	182	1.0M	3.01M	3.30M	2.12
1	7	29	86	292	20.2M	4.04M	4.10M	3.47
2	6	26	67	249	23.5M	4.70M	4.78M	4.56
3	6	26	68	271	31.2M	6.24M	6.29M	6.47
4	6	23	70	349	27.4M	5.49M	5.52M	6.78

Métricas de Evaluación

Puntuación de corrección: Utiliza LLM para calificar respuestas del modelo en escala 1-5
Análisis de olvido: Diferencia de desempeño entre entrenamiento conjunto y continuo
Efecto de transferencia: Análisis de cambios de desempeño entre etapas

Configuración de Entrenamiento

Modelo: Transformer SmolLM2 con 135M parámetros
Modos de entrenamiento:
- Independiente: Entrenamiento separado por etapa
- Conjunto: Entrenamiento con datos multietapa mezclados
- Continuo: Entrenamiento serializado
Hiperparámetros: Tasa de aprendizaje 5e-3, tamaño de lote 1536, una época

Resultados Experimentales

Resultados Principales

Del mapa de calor en la Figura 4 se puede observar:

Entrenamiento Independiente:
- Desempeño más alto en etapas de entrenamiento
- Capacidad de generalización limitada a etapas no entrenadas
- La etapa 0 muestra el mejor desempeño en todas las etapas de prueba (12.62→6.73)
Entrenamiento Conjunto:
- Mantiene desempeño alto y estable en todas las etapas
- Evita el olvido catastrófico
- Desempeño relativamente equilibrado (12.62→9.79)
Entrenamiento Continuo:
- Mejor desempeño en etapas posteriores
- Fenómeno de olvido evidente
- Demuestra la mejor capacidad de transferencia hacia adelante

Análisis de Olvido

La Figura 5 muestra la diferencia de desempeño entre entrenamiento conjunto y continuo:

Transferencia hacia adelante: El entrenamiento continuo muestra mejor desempeño en etapas futuras (regiones de valores positivos)
Olvido catastrófico: El desempeño del entrenamiento continuo disminuye en etapas anteriores (regiones de valores negativos)
Diferencias de formato: Las tareas IR muestran el olvido más severo, CSQA es relativamente más leve

Perspectivas del Gráfico de Habilidades

Hallazgos clave:

Habilidades con bajo grado de salida más propensas al olvido: Como "percepción, movimiento y desarrollo corporal", "alfabetización digital"
Impacto de relaciones de dependencia: Las capacidades con menos habilidades de requisitos previos se olvidan más fácilmente en el aprendizaje continuo
Patrones de conexión entre etapas: Significativamente más aristas de etapas bajas a altas que en la dirección inversa

Validación de Calidad de Datos

Diversidad: El inverso de la tasa de compresión gzip muestra diversidad de 30.77%-35.60%
Tasa de deduplicación: Tasa de deduplicación semántica <5%, asegurando contenido único
Legibilidad creciente: La complejidad del texto en cada etapa aumenta con la edad

Trabajo Relacionado

Puntos de Referencia de Aprendizaje Continuo

Limitaciones de puntos de referencia existentes:

TRACE: Tareas demasiado simples o ya incluidas en el conjunto de entrenamiento de LLM
MMLM-CL: Falta de aplicabilidad en el mundo real
TemporalWiki: Se enfoca principalmente en actualización de conocimiento factual
SuperNI: Colección de tareas NLP tradicionales, falta de modelado de dependencias de habilidades

Métodos Técnicos

Skill-it: Propone algoritmo de ordenamiento de habilidades con complejidad creciente
Métodos de eficiencia de parámetros: LoRA, adaptadores y otras técnicas para reducir olvido
Reproducción de memoria: Uso de muestras históricas para mitigar olvido

La singularidad de este trabajo radica en:

Organización de habilidades basada en currículo de desarrollo humano
Gráfico explícito de dependencias de habilidades
Generación de datos sintéticos a gran escala y controlable

Conclusiones y Discusión

Conclusiones Principales

Importancia del orden de datos: Cambiar simplemente el orden de datos puede afectar significativamente el olvido y la generalización
Rol de dependencias de habilidades: Las habilidades con bajo grado de salida se olvidan más fácilmente en el aprendizaje continuo
Necesidad de granularidad de evaluación: La evaluación de grano fino puede revelar patrones importantes enmascarados por métricas macroscópicas

Limitaciones

Limitaciones de datos sintéticos: Uso completamente de datos sintéticos, puede no reflejar escenarios del mundo real
Escala de modelo: Validación solo en modelo de 135M parámetros, el comportamiento de modelos grandes puede diferir
Falta de aprendizaje interactivo: El conjunto de datos estático no puede simular verdadero aprendizaje interactivo
Paradigma de modelado de lenguaje: El modelo aprende simultáneamente instrucciones y respuestas, no completamente alineado con el patrón de aprendizaje humano

Direcciones Futuras

Extensión de rango de edad: Extender el marco a 14 años (más etapas de desarrollo)
Validación en modelos grandes: Verificar hallazgos en modelos de escala de miles de millones de parámetros
Integración de datos reales: Validar el marco combinando datos educativos reales
Entorno interactivo: Desarrollar ambiente de aprendizaje que soporte interacción dinámica

Evaluación Profunda

Fortalezas

Fuerte innovación: Introduce por primera vez sistemáticamente la psicología del desarrollo en la evaluación del aprendizaje continuo
Escala de datos grande: Conjunto de datos de 23.4B tokens que permite experimentación suficiente
Evaluación detallada: Sistema de evaluación multinivel y multidimensional que proporciona perspectivas profundas
Buena reproducibilidad: Código y datos públicos que apoyan investigación posterior
Base teórica sólida: Basado en marcos educativos maduros

Insuficiencias

Limitación de escala experimental: Validación solo en modelos pequeños, la universalidad de conclusiones requiere verificación
Sesgo de datos sintéticos: Posible sesgo de generación que afecta la confiabilidad de conclusiones
Dependencia de método de evaluación: Uso de LLM para evaluación puede introducir sesgo adicional
Calidad del gráfico de habilidades: Las relaciones de aristas predichas por LLM pueden no ser suficientemente precisas

Impacto

Contribución académica: Proporciona nuevo paradigma de evaluación para investigación en aprendizaje continuo
Valor práctico: Puede usarse para evaluar y mejorar algoritmos de aprendizaje continuo existentes
Significado inspirador: Demuestra el valor de enfoques interdisciplinarios en investigación de IA
Recurso comunitario: Proporciona conjunto de datos abierto y herramientas valiosas

Escenarios Aplicables

Desarrollo de algoritmos de aprendizaje continuo: Proporciona plataforma de evaluación estandarizada
Sistemas de IA educativa: Proporciona referencia para aplicaciones de IA en contextos educativos
Investigación de modelado cognitivo: Apoya modelado computacional del proceso de aprendizaje humano
Evaluación de capacidades de LLM: Evaluación de grano fino del comportamiento de aprendizaje y olvido de modelos grandes

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Puntos de referencia de aprendizaje continuo: TRACE, MMLM-CL, OCKL, etc.
Marcos educativos: Cambridge Primary Curriculum, ELOF
Métodos técnicos: Skill-it, varios algoritmos de aprendizaje continuo
Herramientas de evaluación: Datos de Edad de Adquisición, herramientas de prueba de legibilidad

Evaluación General: Este es un trabajo de investigación de alta calidad que introduce innovadoramente la psicología del desarrollo humano en la evaluación del aprendizaje continuo, construyendo un marco de evaluación a gran escala y estructurado. A pesar de algunas limitaciones, abre nuevas direcciones para la investigación en aprendizaje continuo, con importante valor académico y práctico.