2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.
We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic

CurLL: Ein Entwicklungsrahmen zur Bewertung des kontinuierlichen Lernens in Sprachmodellen

Grundinformationen

  • Paper-ID: 2510.13008
  • Titel: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
  • Autoren: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 14. Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13008

Zusammenfassung

Dieses Paper präsentiert CurLL, einen umfassenden Datensatz und Benchmark-Rahmen für kontinuierliches Lernen, der auf menschlichen Entwicklungstraditionen (5-10 Jahre) basiert. CurLL ermöglicht eine systematische und feinkörnige Bewertung der Fähigkeit von Modellen, neue Fertigkeiten schrittweise zu erwerben. Der Rahmen umfasst fünf Entwicklungsstufen (0-4), die durch eine Fertigkeitsgraph unterstützt werden, welcher umfangreiche Fähigkeiten in kleinere Kompetenzen, konkrete Ziele und messbare Indikatoren zerlegt und gleichzeitig Abhängigkeiten zwischen Fertigkeiten erfasst. Die Forscher haben einen synthetischen Datensatz mit 23,4 Milliarden Token generiert, der kontrollierbare Fertigkeitsentwicklung, Wortschatzkomplexit und Formatvielfalt aufweist, einschließlich Absätze, Verständnis-Frage-Antwort (CQA), Fertigkeits-Test-Frage-Antwort (CSQA) und Anweisung-Antwort-Paare (IR). Die Token-Anzahl pro Stufe reicht von 2,12 Milliarden bis 6,78 Milliarden und ermöglicht präzise Analysen von Vergessen, Vorwärts- und Rückwärtstransfer.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernherausforderung, der sich große Sprachmodelle gegenübersehen, ist das kontinuierliche Lernproblem:

  1. Statische Wissensbeschränkung: Das Wissen und die Fähigkeiten bestehender LLMs werden nach dem Training statisch und können nicht wie Menschen kontinuierlich neue Kenntnisse erwerben
  2. Katastrophales Vergessen: Beim Erlernen neuer Aufgaben vergessen Modelle häufig zuvor erlernte Fähigkeiten
  3. Mangelnde Modellierung von Fertigkeitsabhängigkeiten: Bestehende Methoden ermangeln präziser Kontrolle und Modellierung von Abhängigkeitsbeziehungen zwischen Fertigkeiten

Forschungsbedeutung

Die Fähigkeit zum kontinuierlichen Lernen ist ein wichtiges Merkmal menschlicher Intelligenz und entscheidend für den Aufbau wirklich intelligenter KI-Systeme:

  • Menschen können neues Wissen in bestehendes Verständnis integrieren
  • Sie bewahren frühere Fähigkeiten, während sie neue Fertigkeiten erwerben
  • Sie erreichen lebenslanges Lernen mit extrem hoher Stichprobeneffizienz

Einschränkungen bestehender Methoden

  1. Ungenaue Fertigkeitskontrolle: Bestehende Benchmarks ermangeln präziser Kontrolle über spezifische Fertigkeiten
  2. Unklar Wissenabhängigkeitsbeziehungen: Fertigkeitsbeziehungen werden selten explizit modelliert
  3. Unzureichende Vergessensmetriken: Viele Bewertungen können katastrophales Vergessen bei sequenziellen Lernaufgaben nicht angemessen messen

Kernbeiträge

  1. Innovativer Rahmen: Erstmals Integration von menschlichen Lehrplansystemen in die Bewertung kontinuierlichen Lernens, basierend auf entwicklungspsychologischen Fertigkeitsstrukturen
  2. Großflächiger synthetischer Datensatz: Konstruktion eines Datensatzes mit 23,4 Milliarden Token im Mehrformat-Format, umfassend 5 Entwicklungsstufen mit kontrollierbarer Wortschatzkomplexität und Fertigkeitsentwicklung
  3. Fertigkeitsgraph-Modellierung: Konstruktion eines expliziten Fertigkeitsabhängigkeitsgraphen mit über 1.300 feinkörnigen Fertigkeiten, unterstützend für quantitative Analyse von Voraussetzungsbeziehungen
  4. Feinkörniges Bewertungssystem: Unterstützung für dreistufige Bewertung auf Metrik-, Fertigkeits- und Stufenebene, ermöglichend präzise Messung von Vergessen, Transfer und Stichprobeneffizienz

Methodische Details

Aufgabendefinition

Kontinuierliche Lernaufgabe: Gegeben eine Serie von Lernaufgaben, organisiert nach Entwicklungsstufen, muss das Modell:

  • Eingabe: Sequenzialisierte mehrstufige Trainingsdaten
  • Ausgabe: Gute Leistung über alle Stufen hinweg beibehalten
  • Einschränkung: Katastrophales Vergessen minimieren, Vorwärts- und Rückwärtstransfer maximieren

Rahmenarchitektur

1. Fertigkeitsklassifizierungssystem

Basierend auf zwei Bildungsrahmen, konstruiert eine vierschichtige Fertigkeitsstruktur:

  • Skills: Hochrangige Domänen (z.B. Mathematik, Naturwissenschaften)
  • Sub-skills: Spezifische Komponenten (z.B. Zählen und Kardinalität)
  • Goals: Breite Aussagen über Lernerwartungen
  • Indicators: Konkrete beobachtbare Verhaltensweisen

2. Fertigkeitsgraph-Konstruktion

  • Knoten: Über 1.300 Indikatoren
  • Kanten: Voraussetzungsabhängigkeitsbeziehungen, Gewichte 1-5 zeigen Abhängigkeitsstärke an
  • Validierung: Verwendung von LLM zur Vorhersage von Abhängigkeitsbeziehungen, Validierung durch Verteilungen von Kanten zwischen Stufen

3. Datengenerierungsprozess

Seed-Konstruktion:

  • Fertigkeits-Tupel (skill-tuple)
  • Altersgerechtes Vokabular (basierend auf Age-of-Acquisition-Daten)
  • Instanztypen (IR/CQA/CSQA)
  • Template-Typen

Generierungsstrategie:

  • Mindestens 15 Kontext-Templates und IR-Templates pro Fertigkeits-Tupel
  • Verwendung von LLM zur Generierung vielfältiger Instanzen basierend auf Seeds
  • Sicherstellung von Altersgerechheit und Fertigkeitsausrichtung

Technische Innovationen

  1. Entwicklungspsychologie-gesteuert: Erstmals Integration des Cambridge Primary Curriculum und ELOF-Rahmens in KI-Bewertung
  2. Mehrstufige Fertigkeitsmodellierung: Hierarchische Zerlegung von abstrakten Fertigkeiten zu konkreten Indikatoren
  3. Quantifizierung von Abhängigkeitsbeziehungen: Verwendung gewichteter gerichteter Graphen zur expliziten Modellierung von Voraussetzungsbeziehungen zwischen Fertigkeiten
  4. Mehrformat-Datenfusion: Einheitliche Chat-Template-Verarbeitung von Absätzen, Frage-Antwort und Anweisung-Antwort

Experimentelle Einrichtung

Datensatzgröße

StufeFertigkeitenUnter-FertigkeitenZieleIndikatorenCQA-AnzahlCSQA-AnzahlIR-AnzahlToken (Milliarden)
0724591821,0M3,01M3,30M2,12
17298629220,2M4,04M4,10M3,47
26266724923,5M4,70M4,78M4,56
36266827131,2M6,24M6,29M6,47
46237034927,4M5,49M5,52M6,78

Bewertungsmetriken

  • Korrektheitsbewertung: Verwendung von LLM zur Bewertung von Modellreaktionen auf einer Skala von 1-5
  • Vergessensanalyse: Leistungsunterschiede zwischen gemeinsamen und kontinuierlichen Trainings
  • Transfereffekt: Analyse von Leistungsveränderungen über Stufen hinweg

Trainingseinrichtung

  • Modell: SmolLM2-135M-Parameter-Transformer
  • Trainingsmodi:
    • Independent: Unabhängiges Training pro Stufe
    • Joint: Gemischtes mehrstufiges Datentraining
    • Continual: Sequenzialisiertes Training
  • Hyperparameter: Lernrate 5e-3, Batch-Größe 1536, eine Epoche

Experimentelle Ergebnisse

Hauptergebnisse

Aus der Wärmekarte in Abbildung 4 können folgende Erkenntnisse gewonnen werden:

  1. Unabhängiges Training (Independent):
    • Höchste Leistung bei trainierten Stufen
    • Begrenzte Generalisierungsfähigkeit auf untrainierte Stufen
    • Stufe 0 zeigt beste Leistung über alle Teststufen (12,62→6,73)
  2. Gemeinsames Training (Joint):
    • Stabile hohe Leistung über alle Stufen
    • Vermeidung von katastrophalem Vergessen
    • Relativ ausgewogene Leistung (12,62→9,79)
  3. Kontinuierliches Training (Continual):
    • Beste Leistung in späteren Stufen
    • Deutliche Vergessensphänomene
    • Zeigt beste Vorwärtstransfer-Fähigkeiten

Vergessensanalyse

Abbildung 5 zeigt Leistungsunterschiede zwischen gemeinsamen und kontinuierlichen Trainings:

  • Vorwärtstransfer: Kontinuierliches Training zeigt bessere Leistung in zukünftigen Stufen (positive Wertebereiche)
  • Katastrophales Vergessen: Leistungsabfall bei kontinuierlichem Training in frühen Stufen (negative Wertebereiche)
  • Formatunterschiede: IR-Aufgaben zeigen schwerste Vergessensphänomene, CSQA relativ leichter

Fertigkeitsgraph-Erkenntnisse

Wichtige Erkenntnisse:

  • Fertigkeiten mit niedrigem Ausgangsgrad vergessen leichter: Wie "Wahrnehmung, Motorik und körperliche Entwicklung", "digitale Kompetenz"
  • Abhängigkeitsbeziehungen beeinflussen Vergessen: Fähigkeiten mit weniger Voraussetzungsfähigkeiten werden beim kontinuierlichen Lernen leichter vergessen
  • Verbindungsmuster zwischen Stufen: Kanten von niedrigen zu hohen Stufen sind deutlich zahlreicher als umgekehrt

Datenqualitätsvalidierung

  • Vielfalt: Gzip-Kompressionsrate-Reziprok zeigt 30,77%-35,60% Vielfalt
  • Deduplizierungsrate: Semantische Deduplizierungsrate <5%, sichert Inhaltseinzigartigkeit
  • Steigende Lesbarkeit: Textkomplexität jeder Stufe nimmt mit dem Alter zu

Verwandte Arbeiten

Kontinuierliche Lernbenchmarks

Einschränkungen bestehender Benchmarks:

  • TRACE: Aufgaben zu einfach oder bereits in LLM-Trainingssätzen enthalten
  • MMLM-CL: Mangelnde reale Anwendbarkeit
  • TemporalWiki: Hauptsächlich auf Aktualisierung faktischen Wissens fokussiert
  • SuperNI: Traditionelle NLP-Aufgabensammlung, mangelnde Fertigkeitsabhängigkeitsmodellierung

Technische Methoden

  • Skill-it: Vorschlag komplexitätssteigernder Fertigkeitssortierungsalgorithmen
  • Parametereffizienzmethoden: LoRA, Adapter und andere Techniken zur Vergessensreduktion
  • Speicher-Replay: Verwendung historischer Stichproben zur Vergessensminderung

Die Einzigartigkeit dieser Arbeit liegt in:

  1. Fertigkeitsorganisation basierend auf menschlichen Entwicklungslehrplänen
  2. Expliziter Fertigkeitsabhängigkeitsgraph
  3. Großflächige kontrollierbare synthetische Datengenerierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bedeutung der Datenreihenfolge: Allein die Änderung der Datenreihenfolge kann Vergessen und Generalisierung erheblich beeinflussen
  2. Rolle von Fertigkeitsabhängigkeiten: Fertigkeiten mit niedrigem Ausgangsgrad werden beim kontinuierlichen Lernen leichter vergessen
  3. Notwendigkeit feinkörniger Bewertung: Feinkörnige Bewertung kann wichtige Muster offenbaren, die makroskopische Metriken verbergen

Einschränkungen

  1. Synthetische Datenbeschränkungen: Vollständige Verwendung synthetischer Daten kann reale Szenarien möglicherweise nicht widerspiegeln
  2. Modellgröße: Validierung nur auf 135M-Parameter-Modellen, Verhalten größerer Modelle könnte unterschiedlich sein
  3. Fehlende interaktive Lernfähigkeit: Statische Datensätze können echte interaktive Lernumgebungen nicht simulieren
  4. Sprachmodellierungsparadigma: Modelle lernen gleichzeitig Anweisungen und Antworten, nicht vollständig konform mit menschlichem Lernmuster

Zukünftige Richtungen

  1. Altersbereichserweiterung: Erweiterung des Rahmens auf 14 Jahre (mehr Entwicklungsstufen)
  2. Validierung großer Modelle: Validierung von Erkenntnissen auf Milliarden-Parameter-Modellen
  3. Integration echter Daten: Kombination echter Bildungsdaten zur Rahmenvalidierung
  4. Interaktive Umgebungen: Entwicklung von Umgebungen, die dynamische Interaktion unterstützen

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige systematische Integration von Entwicklungspsychologie in die Bewertung kontinuierlichen Lernens
  2. Große Datengröße: 23,4 Milliarden Token großflächiger Datensatz unterstützt umfangreiche Experimente
  3. Detaillierte Bewertung: Mehrstufiges, multidimensionales Bewertungssystem bietet tiefe Erkenntnisse
  4. Gute Reproduzierbarkeit: Offene Veröffentlichung von Code und Daten unterstützt Folgeforschung
  5. Solide theoretische Grundlagen: Basierend auf etablierten Bildungsrahmen

Mängel

  1. Experimentelle Skalabeschränkung: Validierung nur auf kleinen Modellen, Universalität von Schlussfolgerungen bedarf Überprüfung
  2. Synthetische Datenschiefe: Mögliche Generierungsschiefe könnte Zuverlässigkeit von Schlussfolgerungen beeinflussen
  3. Abhängigkeit von Bewertungsmethoden: Verwendung von LLM zur Bewertung könnte zusätzliche Schiefe einführen
  4. Fertigkeitsgraph-Qualität: LLM-vorhergesagte Kantenbeziehungen könnten nicht ausreichend genau sein

Auswirkungen

  1. Akademischer Beitrag: Bietet neues Bewertungsparadigma für Forschung zum kontinuierlichen Lernen
  2. Praktischer Wert: Kann zur Bewertung und Verbesserung bestehender kontinuierlicher Lernalgorithmen verwendet werden
  3. Inspirationswert: Demonstriert Wert interdisziplinärer Ansätze in der KI-Forschung
  4. Gemeinschaftsressource: Bietet wertvollen offenen Datensatz und Werkzeuge

Anwendungsszenarien

  1. Entwicklung kontinuierlicher Lernalgorithmen: Bietet standardisierte Bewertungsplattform
  2. Bildungs-KI-Systeme: Bietet Referenz für KI-Anwendungen in Bildungsszenarien
  3. Kognitive Modellierungsforschung: Unterstützt rechnerische Modellierung menschlicher Lernprozesse
  4. LLM-Fähigkeitsbewertung: Feinkörnige Bewertung von Lern- und Vergessensverhalten großer Modelle

Literaturverzeichnis

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Kontinuierliche Lernbenchmarks: TRACE, MMLM-CL, OCKL usw.
  • Bildungsrahmen: Cambridge Primary Curriculum, ELOF
  • Technische Methoden: Skill-it, verschiedene kontinuierliche Lernalgorithmen
  • Bewertungswerkzeuge: Age-of-Acquisition-Daten, Lesbarkeitstest-Werkzeuge

Gesamtbewertung: Dies ist eine hochwertige Forschungsarbeit, die innovativ Entwicklungspsychologie in die Bewertung kontinuierlichen Lernens integriert und einen großflächigen, strukturierten Bewertungsrahmen konstruiert. Trotz einiger Einschränkungen eröffnet sie neue Richtungen für Forschung zum kontinuierlichen Lernen und hat bedeutende akademische und praktische Werte.