We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
- ID de l'article : 2510.13008
- Titre : CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- Auteurs : Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
- Classification : cs.CL cs.AI
- Date de publication : 14 octobre 2025 (Préimpression)
- Lien de l'article : https://arxiv.org/abs/2510.13008
Cet article propose CurLL, un ensemble de données complet d'apprentissage continu et un cadre d'évaluation basés sur les trajectoires de développement humain (5-10 ans), permettant une évaluation systématique et granulaire de la capacité des modèles à acquérir progressivement de nouvelles compétences. CurLL couvre cinq étapes développementales (0-4), soutenues par un graphe de compétences qui décompose les compétences générales en capacités plus petites, objectifs concrets et métriques mesurables, tout en capturant les dépendances entre compétences. Les chercheurs ont généré un ensemble de données synthétiques de 23,4B tokens, avec une progression de compétences contrôlable, une complexité lexicale et une diversité de format, incluant des paragraphes, des questions-réponses de compréhension (CQA), des questions-réponses de test de compétences (CSQA) et des paires instruction-réponse (IR). Le nombre de tokens par étape varie de 2,12B à 6,78B, permettant une analyse précise de l'oubli, du transfert avant et du transfert arrière.
Le défi fondamental auquel font face les grands modèles de langage est le problème de l'apprentissage continu :
- Limitations des connaissances statiques : Les connaissances et compétences des LLMs existants deviennent statiques après l'entraînement, incapables d'apprendre continuellement de nouvelles connaissances comme les humains
- Oubli catastrophique : Lors de l'apprentissage de nouvelles tâches, les modèles oublient souvent les compétences précédemment acquises
- Manque de modélisation des dépendances de compétences : Les méthodes existantes manquent de contrôle et de modélisation précis des relations entre compétences
La capacité d'apprentissage continu est une caractéristique importante de l'intelligence humaine, cruciale pour construire des systèmes d'IA véritablement intelligents :
- Les humains peuvent intégrer de nouvelles connaissances avec la compréhension existante
- Maintenir les capacités antérieures tout en maîtrisant de nouvelles compétences
- Réaliser un apprentissage tout au long de la vie avec une efficacité d'échantillon extrêmement élevée
- Contrôle de compétences imprécis : Les repères existants manquent de contrôle précis sur les compétences spécifiques
- Relations de dépendances de connaissances peu claires : Les relations entre compétences sont rarement modélisées explicitement
- Mesure insuffisante de l'oubli : De nombreuses évaluations ne mesurent pas correctement l'oubli catastrophique dans les tâches d'apprentissage séquencé
- Cadre innovant : Introduction pionnière du système de curriculum éducatif humain dans l'évaluation de l'apprentissage continu, fournissant une structure de compétences basée sur la psychologie du développement
- Ensemble de données synthétiques à grande échelle : Construction d'un ensemble de données synthétiques multi-formats de 23,4B tokens, couvrant 5 étapes développementales, avec complexité lexicale et progression de compétences contrôlables
- Modélisation du graphe de compétences : Construction d'un graphe de dépendances de compétences explicite contenant plus de 1300 compétences granulaires, supportant l'analyse quantitative des relations de prérequis
- Système d'évaluation granulaire : Support pour une évaluation affinée à trois niveaux : métriques, compétences et étapes, capable de mesurer précisément l'oubli, le transfert et l'efficacité des échantillons
Tâche d'apprentissage continu : Étant donné une série de tâches d'apprentissage organisées par étapes développementales, le modèle doit :
- Entrée : Données d'entraînement multi-étapes sérialisées
- Sortie : Maintenir de bonnes performances sur toutes les étapes
- Contraintes : Minimiser l'oubli catastrophique, maximiser le transfert avant et arrière
Structure de compétences à quatre niveaux construite sur la base de deux cadres éducatifs :
- Skills : Domaines de haut niveau (par exemple, mathématiques, sciences)
- Sub-skills : Composants spécifiques (par exemple, comptage et cardinalité)
- Goals : Énoncés généraux des attentes d'apprentissage
- Indicators : Comportements observables concrets
- Nœuds : Plus de 1300 indicateurs
- Arêtes : Relations de dépendance de prérequis, poids 1-5 indiquant la force de la dépendance
- Validation : Utilisation de prédictions LLM pour les relations de dépendance, validation par distribution d'arêtes inter-étapes
Construction de semences :
- Tuples de compétences (skill-tuple)
- Vocabulaire approprié à l'âge (basé sur les données Age-of-Acquisition)
- Type d'instance (IR/CQA/CSQA)
- Type de modèle
Stratégie de génération :
- Générer ≥15 modèles de contexte et modèles IR pour chaque tuple de compétences
- Utiliser LLM pour générer des instances diversifiées basées sur les semences
- Assurer l'appropriation à l'âge et l'alignement des compétences
- Motivation par la psychologie du développement : Introduction pionnière des cadres Cambridge Primary Curriculum et ELOF dans l'évaluation de l'IA
- Modélisation multi-niveaux des compétences : Décomposition hiérarchique des compétences abstraites aux indicateurs concrets
- Quantification des relations de dépendance : Modélisation explicite des relations de prérequis entre compétences utilisant un graphe orienté pondéré
- Fusion de données multi-formats : Traitement unifié des paragraphes, questions-réponses et réponses aux instructions via modèles de chat
| Étape | Compétences | Sous-compétences | Objectifs | Indicateurs | Quantité CQA | Quantité CSQA | Quantité IR | Tokens (milliards) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1,0M | 3,01M | 3,30M | 2,12 |
| 1 | 7 | 29 | 86 | 292 | 20,2M | 4,04M | 4,10M | 3,47 |
| 2 | 6 | 26 | 67 | 249 | 23,5M | 4,70M | 4,78M | 4,56 |
| 3 | 6 | 26 | 68 | 271 | 31,2M | 6,24M | 6,29M | 6,47 |
| 4 | 6 | 23 | 70 | 349 | 27,4M | 5,49M | 5,52M | 6,78 |
- Score de correction : Utilisation de LLM pour évaluer les réponses du modèle sur une échelle 1-5
- Analyse de l'oubli : Différence de performance entre entraînement conjoint et entraînement continu
- Effet de transfert : Analyse des changements de performance inter-étapes
- Modèle : Transformer SmolLM2 avec 135M paramètres
- Modes d'entraînement :
- Indépendant : Entraînement séparé pour chaque étape
- Conjoint : Entraînement sur données multi-étapes mélangées
- Continu : Entraînement séquencé
- Hyperparamètres : Taux d'apprentissage 5e-3, taille de batch 1536, une époque
À partir de la carte thermique de la Figure 4, on peut observer :
- Entraînement Indépendant :
- Performance maximale sur les étapes d'entraînement
- Capacité de généralisation limitée aux étapes non entraînées
- L'étape 0 montre les meilleures performances sur tous les tests (12,62→6,73)
- Entraînement Conjoint :
- Maintient une performance élevée stable sur toutes les étapes
- Évite l'oubli catastrophique
- Performance relativement équilibrée (12,62→9,79)
- Entraînement Continu :
- Meilleures performances aux étapes ultérieures
- Phénomène d'oubli évident
- Démontre la meilleure capacité de transfert avant
La Figure 5 montre les différences de performance entre entraînement conjoint et continu :
- Transfert avant : L'entraînement continu montre de meilleures performances aux étapes futures (zones positives)
- Oubli catastrophique : Baisse de performance de l'entraînement continu aux étapes antérieures (zones négatives)
- Différences de format : Les tâches IR souffrent de l'oubli le plus grave, CSQA relativement moins
Découvertes clés :
- Compétences à faible degré de sortie plus oubliées : Comme « perception, motricité et développement physique », « littératie numérique »
- Impact des relations de dépendance : Les capacités avec moins de compétences prérequises sont plus facilement oubliées dans l'apprentissage continu
- Modèles de connexion inter-étapes : Le nombre d'arêtes des étapes basses vers les étapes hautes est significativement supérieur à l'inverse
- Diversité : L'inverse du taux de compression gzip montre une diversité de 30,77%-35,60%
- Taux de dédoublonnage : Taux de dédoublonnage sémantique <5%, assurant l'unicité du contenu
- Lisibilité croissante : La complexité textuelle de chaque étape augmente avec l'âge
Limitations des repères existants :
- TRACE : Tâches trop simples ou déjà incluses dans l'ensemble d'entraînement des LLMs
- MMLM-CL : Manque d'applicabilité dans le monde réel
- TemporalWiki : Principalement axé sur la mise à jour des connaissances factuelles
- SuperNI : Ensemble de tâches NLP traditionnelles, manquant de modélisation des dépendances de compétences
- Skill-it : Propose un algorithme de tri de compétences avec complexité croissante
- Méthodes d'efficacité paramétrique : LoRA, adaptateurs et autres techniques réduisant l'oubli
- Relecture de mémoire : Utilisation d'échantillons historiques pour atténuer l'oubli
L'unicité de ce travail réside dans :
- Organisation des compétences basée sur le curriculum de développement humain
- Graphe de dépendances de compétences explicite
- Génération de données synthétiques à grande échelle et contrôlable
- Importance de l'ordre des données : Simplement modifier l'ordre des données peut affecter significativement l'oubli et la généralisation
- Rôle des dépendances de compétences : Les compétences à faible degré de sortie sont plus facilement oubliées dans l'apprentissage continu
- Nécessité de l'évaluation granulaire : L'évaluation granulaire peut révéler des modèles importants masqués par les métriques macroscopiques
- Limitations des données synthétiques : Utilisation entièrement de données synthétiques, peut ne pas refléter les scénarios du monde réel
- Échelle du modèle : Validation uniquement sur des modèles de 135M paramètres, le comportement des grands modèles peut différer
- Absence d'apprentissage interactif : Les ensembles de données statiques ne peuvent pas simuler un véritable environnement d'apprentissage interactif
- Paradigme de modélisation du langage : Le modèle apprend simultanément les instructions et les réponses, ne correspondant pas entièrement au mode d'apprentissage humain
- Extension de la plage d'âge : Étendre le cadre à 14 ans (plus d'étapes développementales)
- Validation sur grands modèles : Vérifier les découvertes sur des modèles au niveau du milliard de paramètres
- Intégration de données réelles : Combiner les données éducatives réelles pour valider le cadre
- Environnement interactif : Développer un environnement d'apprentissage supportant l'interaction dynamique
- Forte innovativité : Introduction pionnière et systématique de la psychologie du développement dans l'évaluation de l'apprentissage continu
- Ensemble de données à grande échelle : Ensemble de données de 23,4B tokens supportant des expériences suffisantes
- Évaluation détaillée : Système d'évaluation multi-niveaux et multi-dimensions, fournissant des perspectives approfondies
- Bonne reproductibilité : Code et données publics, supportant la recherche ultérieure
- Fondations théoriques solides : Basé sur des cadres éducatifs matures
- Limitations de l'échelle expérimentale : Validation uniquement sur petits modèles, la généralité des conclusions reste à vérifier
- Biais des données synthétiques : Peut exister des biais de génération affectant la fiabilité des conclusions
- Dépendance de la méthode d'évaluation : Utilisation de LLM pour l'évaluation, peut introduire des biais supplémentaires
- Qualité du graphe de compétences : Les relations d'arêtes prédites par LLM peuvent ne pas être suffisamment précises
- Contribution académique : Fournit un nouveau paradigme d'évaluation pour la recherche en apprentissage continu
- Valeur pratique : Peut être utilisé pour évaluer et améliorer les algorithmes d'apprentissage continu existants
- Signification inspirante : Démontre la valeur des approches interdisciplinaires dans la recherche en IA
- Ressources communautaires : Fournit un ensemble de données et des outils open-source précieux
- Développement d'algorithmes d'apprentissage continu : Fournit une plateforme d'évaluation standardisée
- Systèmes d'IA éducatifs : Fournit des références pour les applications d'IA dans les contextes éducatifs
- Recherche en modélisation cognitive : Supporte la modélisation computationnelle des processus d'apprentissage humain
- Évaluation des capacités des LLMs : Évaluation granulaire du comportement d'apprentissage et d'oubli des grands modèles
L'article cite plusieurs travaux connexes importants, incluant :
- Repères d'apprentissage continu : TRACE, MMLM-CL, OCKL, etc.
- Cadres éducatifs : Cambridge Primary Curriculum, ELOF
- Méthodes techniques : Skill-it, divers algorithmes d'apprentissage continu
- Outils d'évaluation : Données Age-of-Acquisition, outils de test de lisibilité
Évaluation Globale : Ceci est un travail de recherche de haute qualité qui introduit de manière innovante la psychologie du développement humain dans l'évaluation de l'apprentissage continu, construisant un cadre d'évaluation à grande échelle et structuré. Malgré certaines limitations, il ouvre de nouvelles directions pour la recherche en apprentissage continu, possédant une valeur académique et pratique importante.