2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.
We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic

CurLL: Un Marco de Desarrollo para Evaluar el Aprendizaje Continuo en Modelos de Lenguaje

Información Básica

  • ID del Artículo: 2510.13008
  • Título: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
  • Autores: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 14 de octubre de 2025 (Preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13008

Resumen

Este artículo propone CurLL, un conjunto de datos integral de aprendizaje continuo y un marco de evaluación basado en trayectorias de desarrollo humano (5-10 años), que permite evaluar sistemáticamente y con granularidad fina la capacidad de los modelos para adquirir progresivamente nuevas habilidades. CurLL abarca cinco etapas de desarrollo (0-4), respaldadas por un gráfico de habilidades que descompone habilidades amplias en capacidades más pequeñas, objetivos concretos e indicadores medibles, mientras captura las dependencias entre habilidades. Se generó un conjunto de datos sintético de 23.4B tokens con progresión de habilidades controlable, complejidad de vocabulario y diversidad de formato, incluyendo párrafos, preguntas de comprensión (CQA), preguntas de prueba de habilidades (CSQA) y pares instrucción-respuesta (IR). El número de tokens en cada etapa varía de 2.12B a 6.78B, permitiendo análisis precisos del olvido, transferencia hacia adelante y transferencia hacia atrás.

Antecedentes de Investigación y Motivación

Definición del Problema

El desafío central que enfrentan los grandes modelos de lenguaje es el problema del aprendizaje continuo:

  1. Limitaciones de conocimiento estático: El conocimiento y las habilidades de los LLMs existentes se vuelven estáticos después del entrenamiento, sin poder aprender continuamente nuevos conocimientos como lo hacen los humanos
  2. Olvido catastrófico: Al aprender nuevas tareas, los modelos tienden a olvidar las habilidades aprendidas anteriormente
  3. Falta de modelado de dependencias de habilidades: Los métodos existentes carecen de control y modelado precisos de las relaciones de dependencia entre habilidades

Importancia de la Investigación

La capacidad de aprendizaje continuo es una característica importante de la inteligencia humana, crucial para construir sistemas de IA verdaderamente inteligentes:

  • Los humanos pueden integrar nuevos conocimientos con la comprensión existente
  • Mantienen capacidades previas mientras dominan nuevas habilidades
  • Logran aprendizaje de por vida con eficiencia de muestra extremadamente alta

Limitaciones de Métodos Existentes

  1. Control de habilidades impreciso: Los puntos de referencia existentes carecen de control preciso sobre habilidades específicas
  2. Relaciones de conocimiento poco claras: Las relaciones entre habilidades rara vez se modelan explícitamente
  3. Medición insuficiente del olvido: Muchas evaluaciones no pueden medir adecuadamente el olvido catastrófico en tareas de aprendizaje secuencial

Contribuciones Principales

  1. Marco innovador: Introduce por primera vez el sistema de currículo educativo humano en la evaluación del aprendizaje continuo, proporcionando una estructura de habilidades basada en psicología del desarrollo
  2. Conjunto de datos sintético a gran escala: Construye un conjunto de datos sintético de múltiples formatos de 23.4B tokens, abarcando 5 etapas de desarrollo, con complejidad de vocabulario y progresión de habilidades controlables
  3. Modelado de gráfico de habilidades: Construye un gráfico explícito de dependencias de habilidades que contiene más de 1300 habilidades de grano fino, permitiendo análisis cuantitativo de relaciones de requisitos previos
  4. Sistema de evaluación de grano fino: Permite evaluación refinada en tres niveles: métricas, habilidades y etapas, midiendo con precisión el olvido, la transferencia y la eficiencia de muestra

Detalles del Método

Definición de Tareas

Tarea de aprendizaje continuo: Dado una serie de tareas de aprendizaje organizadas por etapas de desarrollo, el modelo debe:

  • Entrada: Datos de entrenamiento multietapa serializados
  • Salida: Mantener buen desempeño en todas las etapas
  • Restricciones: Minimizar el olvido catastrófico, maximizar la transferencia hacia adelante y hacia atrás

Arquitectura del Marco

1. Sistema de Clasificación de Habilidades

Construye una estructura de habilidades de cuatro niveles basada en dos marcos educativos:

  • Skills (Habilidades): Dominios de alto nivel (como matemáticas, ciencias)
  • Sub-skills (Subhabilidades): Componentes específicos (como conteo y cardinalidad)
  • Goals (Objetivos): Declaraciones amplias de expectativas de aprendizaje
  • Indicators (Indicadores): Comportamientos observables concretos

2. Construcción del Gráfico de Habilidades

  • Nodos: Más de 1300 indicadores
  • Aristas: Relaciones de dependencia de requisitos previos, con pesos 1-5 que indican la intensidad de dependencia
  • Validación: Utiliza predicción de LLM para relaciones de dependencia, validada mediante distribución de aristas entre etapas

3. Proceso de Generación de Datos

Construcción de semillas:

  • Tuplas de habilidades (skill-tuple)
  • Vocabulario apropiado para la edad (basado en datos de Edad de Adquisición)
  • Tipo de instancia (IR/CQA/CSQA)
  • Tipo de plantilla

Estrategia de generación:

  • Genera ≥15 plantillas de contexto y plantillas IR para cada tupla de habilidad
  • Utiliza LLM para generar instancias diversificadas basadas en semillas
  • Asegura la idoneidad por edad y alineación de habilidades

Puntos de Innovación Técnica

  1. Impulsado por psicología del desarrollo: Introduce por primera vez los marcos Cambridge Primary Curriculum y ELOF en la evaluación de IA
  2. Modelado de habilidades multinivel: Descomposición jerárquica de habilidades abstractas a indicadores concretos
  3. Cuantificación de relaciones de dependencia: Modelado explícito de relaciones de requisitos previos entre habilidades usando gráficos dirigidos ponderados
  4. Fusión de datos multiformato: Manejo unificado de plantillas de chat para párrafos, preguntas-respuestas y respuestas de instrucciones

Configuración Experimental

Escala del Conjunto de Datos

EtapaHabilidadesSubhabilidadesObjetivosIndicadoresCantidad CQACantidad CSQACantidad IRTokens (miles de millones)
0724591821.0M3.01M3.30M2.12
17298629220.2M4.04M4.10M3.47
26266724923.5M4.70M4.78M4.56
36266827131.2M6.24M6.29M6.47
46237034927.4M5.49M5.52M6.78

Métricas de Evaluación

  • Puntuación de corrección: Utiliza LLM para calificar respuestas del modelo en escala 1-5
  • Análisis de olvido: Diferencia de desempeño entre entrenamiento conjunto y continuo
  • Efecto de transferencia: Análisis de cambios de desempeño entre etapas

Configuración de Entrenamiento

  • Modelo: Transformer SmolLM2 con 135M parámetros
  • Modos de entrenamiento:
    • Independiente: Entrenamiento separado por etapa
    • Conjunto: Entrenamiento con datos multietapa mezclados
    • Continuo: Entrenamiento serializado
  • Hiperparámetros: Tasa de aprendizaje 5e-3, tamaño de lote 1536, una época

Resultados Experimentales

Resultados Principales

Del mapa de calor en la Figura 4 se puede observar:

  1. Entrenamiento Independiente:
    • Desempeño más alto en etapas de entrenamiento
    • Capacidad de generalización limitada a etapas no entrenadas
    • La etapa 0 muestra el mejor desempeño en todas las etapas de prueba (12.62→6.73)
  2. Entrenamiento Conjunto:
    • Mantiene desempeño alto y estable en todas las etapas
    • Evita el olvido catastrófico
    • Desempeño relativamente equilibrado (12.62→9.79)
  3. Entrenamiento Continuo:
    • Mejor desempeño en etapas posteriores
    • Fenómeno de olvido evidente
    • Demuestra la mejor capacidad de transferencia hacia adelante

Análisis de Olvido

La Figura 5 muestra la diferencia de desempeño entre entrenamiento conjunto y continuo:

  • Transferencia hacia adelante: El entrenamiento continuo muestra mejor desempeño en etapas futuras (regiones de valores positivos)
  • Olvido catastrófico: El desempeño del entrenamiento continuo disminuye en etapas anteriores (regiones de valores negativos)
  • Diferencias de formato: Las tareas IR muestran el olvido más severo, CSQA es relativamente más leve

Perspectivas del Gráfico de Habilidades

Hallazgos clave:

  • Habilidades con bajo grado de salida más propensas al olvido: Como "percepción, movimiento y desarrollo corporal", "alfabetización digital"
  • Impacto de relaciones de dependencia: Las capacidades con menos habilidades de requisitos previos se olvidan más fácilmente en el aprendizaje continuo
  • Patrones de conexión entre etapas: Significativamente más aristas de etapas bajas a altas que en la dirección inversa

Validación de Calidad de Datos

  • Diversidad: El inverso de la tasa de compresión gzip muestra diversidad de 30.77%-35.60%
  • Tasa de deduplicación: Tasa de deduplicación semántica <5%, asegurando contenido único
  • Legibilidad creciente: La complejidad del texto en cada etapa aumenta con la edad

Trabajo Relacionado

Puntos de Referencia de Aprendizaje Continuo

Limitaciones de puntos de referencia existentes:

  • TRACE: Tareas demasiado simples o ya incluidas en el conjunto de entrenamiento de LLM
  • MMLM-CL: Falta de aplicabilidad en el mundo real
  • TemporalWiki: Se enfoca principalmente en actualización de conocimiento factual
  • SuperNI: Colección de tareas NLP tradicionales, falta de modelado de dependencias de habilidades

Métodos Técnicos

  • Skill-it: Propone algoritmo de ordenamiento de habilidades con complejidad creciente
  • Métodos de eficiencia de parámetros: LoRA, adaptadores y otras técnicas para reducir olvido
  • Reproducción de memoria: Uso de muestras históricas para mitigar olvido

La singularidad de este trabajo radica en:

  1. Organización de habilidades basada en currículo de desarrollo humano
  2. Gráfico explícito de dependencias de habilidades
  3. Generación de datos sintéticos a gran escala y controlable

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia del orden de datos: Cambiar simplemente el orden de datos puede afectar significativamente el olvido y la generalización
  2. Rol de dependencias de habilidades: Las habilidades con bajo grado de salida se olvidan más fácilmente en el aprendizaje continuo
  3. Necesidad de granularidad de evaluación: La evaluación de grano fino puede revelar patrones importantes enmascarados por métricas macroscópicas

Limitaciones

  1. Limitaciones de datos sintéticos: Uso completamente de datos sintéticos, puede no reflejar escenarios del mundo real
  2. Escala de modelo: Validación solo en modelo de 135M parámetros, el comportamiento de modelos grandes puede diferir
  3. Falta de aprendizaje interactivo: El conjunto de datos estático no puede simular verdadero aprendizaje interactivo
  4. Paradigma de modelado de lenguaje: El modelo aprende simultáneamente instrucciones y respuestas, no completamente alineado con el patrón de aprendizaje humano

Direcciones Futuras

  1. Extensión de rango de edad: Extender el marco a 14 años (más etapas de desarrollo)
  2. Validación en modelos grandes: Verificar hallazgos en modelos de escala de miles de millones de parámetros
  3. Integración de datos reales: Validar el marco combinando datos educativos reales
  4. Entorno interactivo: Desarrollar ambiente de aprendizaje que soporte interacción dinámica

Evaluación Profunda

Fortalezas

  1. Fuerte innovación: Introduce por primera vez sistemáticamente la psicología del desarrollo en la evaluación del aprendizaje continuo
  2. Escala de datos grande: Conjunto de datos de 23.4B tokens que permite experimentación suficiente
  3. Evaluación detallada: Sistema de evaluación multinivel y multidimensional que proporciona perspectivas profundas
  4. Buena reproducibilidad: Código y datos públicos que apoyan investigación posterior
  5. Base teórica sólida: Basado en marcos educativos maduros

Insuficiencias

  1. Limitación de escala experimental: Validación solo en modelos pequeños, la universalidad de conclusiones requiere verificación
  2. Sesgo de datos sintéticos: Posible sesgo de generación que afecta la confiabilidad de conclusiones
  3. Dependencia de método de evaluación: Uso de LLM para evaluación puede introducir sesgo adicional
  4. Calidad del gráfico de habilidades: Las relaciones de aristas predichas por LLM pueden no ser suficientemente precisas

Impacto

  1. Contribución académica: Proporciona nuevo paradigma de evaluación para investigación en aprendizaje continuo
  2. Valor práctico: Puede usarse para evaluar y mejorar algoritmos de aprendizaje continuo existentes
  3. Significado inspirador: Demuestra el valor de enfoques interdisciplinarios en investigación de IA
  4. Recurso comunitario: Proporciona conjunto de datos abierto y herramientas valiosas

Escenarios Aplicables

  1. Desarrollo de algoritmos de aprendizaje continuo: Proporciona plataforma de evaluación estandarizada
  2. Sistemas de IA educativa: Proporciona referencia para aplicaciones de IA en contextos educativos
  3. Investigación de modelado cognitivo: Apoya modelado computacional del proceso de aprendizaje humano
  4. Evaluación de capacidades de LLM: Evaluación de grano fino del comportamiento de aprendizaje y olvido de modelos grandes

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Puntos de referencia de aprendizaje continuo: TRACE, MMLM-CL, OCKL, etc.
  • Marcos educativos: Cambridge Primary Curriculum, ELOF
  • Métodos técnicos: Skill-it, varios algoritmos de aprendizaje continuo
  • Herramientas de evaluación: Datos de Edad de Adquisición, herramientas de prueba de legibilidad

Evaluación General: Este es un trabajo de investigación de alta calidad que introduce innovadoramente la psicología del desarrollo humano en la evaluación del aprendizaje continuo, construyendo un marco de evaluación a gran escala y estructurado. A pesar de algunas limitaciones, abre nuevas direcciones para la investigación en aprendizaje continuo, con importante valor académico y práctico.