2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.

We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.

academic

CurLL: 언어 모델의 지속적 학습을 평가하기 위한 발달 프레임워크

기본 정보

논문 ID: 2510.13008
제목: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
저자: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
분류: cs.CL cs.AI
발표 시간: 2025년 10월 14일 (프리프린트)
논문 링크: https://arxiv.org/abs/2510.13008

초록

본 논문은 인간의 발달 궤적(5-10세)을 기반으로 한 포괄적인 지속적 학습 데이터셋 및 벤치마크 프레임워크인 CurLL을 제안합니다. 이는 모델이 새로운 기술을 점진적으로 습득하는 능력을 체계적이고 세밀하게 평가할 수 있습니다. CurLL은 5개의 발달 단계(0-4)를 포함하며, 기술 그래프로 지원되어 광범위한 기술을 더 작은 능력, 구체적인 목표 및 측정 가능한 지표로 분해하면서 기술 간의 의존성을 포착합니다. 연구진은 23.4B 토큰의 합성 데이터셋을 생성했으며, 제어 가능한 기술 진행, 어휘 복잡도 및 형식 다양성(단락, 이해형 질의응답(CQA), 기술 검사 질의응답(CSQA) 및 지시-응답(IR) 쌍 포함)을 특징으로 합니다. 각 단계의 토큰 수는 2.12B에서 6.78B까지 다양하며, 망각, 정방향 전이 및 역방향 전이에 대한 정확한 분석을 지원합니다.

연구 배경 및 동기

문제 정의

현재 대규모 언어 모델이 직면한 핵심 과제는 지속적 학습 문제입니다:

정적 지식 제한: 기존 LLM의 지식과 기술은 훈련 후 정적이 되어 인간처럼 지속적으로 새로운 지식을 학습할 수 없습니다
재앙적 망각: 새로운 작업을 학습할 때 모델은 이전에 학습한 기술을 종종 잊어버립니다
기술 의존성 모델링 부재: 기존 방법은 기술 간 의존성 관계의 정확한 제어 및 모델링이 부족합니다

연구의 중요성

지속적 학습 능력은 인간 지능의 중요한 특징이며, 진정으로 지능형인 AI 시스템 구축에 필수적입니다:

인간은 새로운 지식을 기존 이해와 통합할 수 있습니다
새로운 기술을 습득하면서 이전 능력을 유지합니다
매우 높은 표본 효율성으로 평생 학습을 실현합니다

기존 방법의 한계

기술 제어 부정확성: 기존 벤치마크는 특정 기술에 대한 정확한 제어가 부족합니다
지식 의존성 관계 불명확: 기술 간 관계가 거의 명시적으로 모델링되지 않습니다
망각 측정 불충분: 많은 평가가 순차적 학습 작업에서 재앙적 망각을 제대로 측정하지 못합니다

핵심 기여

혁신적 프레임워크: 인간 교육 커리큘럼 체계를 지속적 학습 평가에 처음으로 도입하여 발달 심리학 기반의 기술 구조 제공
대규모 합성 데이터셋: 5개 발달 단계를 포함하는 23.4B 토큰의 다중 형식 합성 데이터셋 구축, 제어 가능한 어휘 복잡도 및 기술 진행 포함
기술 그래프 모델링: 1,300개 이상의 세밀한 기술을 포함하는 명시적 기술 의존성 그래프 구축, 전제 관계의 정량적 분석 지원
세밀한 평가 체계: 지표, 기술 및 단계의 세 가지 수준에서 정교한 평가 지원, 망각, 전이 및 표본 효율성을 정확하게 측정

방법론 상세 설명

작업 정의

지속적 학습 작업: 발달 단계별로 조직된 일련의 학습 작업이 주어졌을 때, 모델은 다음을 수행해야 합니다:

입력: 순차화된 다단계 훈련 데이터
출력: 모든 단계에서 양호한 성능 유지
제약: 재앙적 망각 최소화, 정방향 및 역방향 전이 최대화

프레임워크 아키텍처

1. 기술 분류 체계

두 가지 교육 프레임워크를 기반으로 4계층 기술 구조 구축:

Skills: 상위 영역(예: 수학, 과학)
Sub-skills: 특정 구성 요소(예: 계산 및 기수)
Goals: 학습 기대의 광범위한 진술
Indicators: 구체적인 관찰 가능한 행동 표현

2. 기술 그래프 구축

노드: 1,300개 이상의 지표(indicators)
엣지: 전제 의존성 관계, 가중치 1-5는 의존성 강도를 나타냄
검증: LLM을 사용하여 의존성 관계 예측, 단계 간 엣지 분포를 통해 합리성 검증

3. 데이터 생성 프로세스

시드 구성:

기술 튜플(skill-tuple)
연령 적절 어휘(Age-of-Acquisition 데이터 기반)
인스턴스 유형(IR/CQA/CSQA)
템플릿 유형

생성 전략:

각 기술 튜플에 대해 ≥15개의 컨텍스트 템플릿 및 IR 템플릿 생성
LLM을 사용하여 시드를 기반으로 다양한 인스턴스 생성
연령 적절성 및 기술 정렬 보장

기술 혁신 포인트

발달 심리학 기반: Cambridge Primary Curriculum 및 ELOF 프레임워크를 AI 평가에 처음으로 도입
다계층 기술 모델링: 추상 기술에서 구체적 지표까지의 계층적 분해
의존성 관계 정량화: 가중 방향 그래프를 사용하여 기술 간 전제 관계 명시적 모델링
다중 형식 데이터 융합: 단락, 질의응답 및 지시 응답을 처리하는 통일된 채팅 템플릿

실험 설정

데이터셋 규모

단계	기술 수	부기술 수	목표 수	지표 수	CQA 수량	CSQA 수량	IR 수량	토큰 수(십억)
0	7	24	59	182	1.0M	3.01M	3.30M	2.12
1	7	29	86	292	20.2M	4.04M	4.10M	3.47
2	6	26	67	249	23.5M	4.70M	4.78M	4.56
3	6	26	68	271	31.2M	6.24M	6.29M	6.47
4	6	23	70	349	27.4M	5.49M	5.52M	6.78

평가 지표

정확성 점수: LLM을 사용하여 모델 응답에 1-5점 평가
망각 분석: 결합 훈련과 지속적 훈련 성능 차이
전이 효과: 단계 간 성능 변화 분석

훈련 설정

모델: SmolLM2-135M 파라미터 Transformer
훈련 모드:
- Independent: 각 단계별 독립 훈련
- Joint: 다단계 데이터 혼합 훈련
- Continual: 순차적 훈련
하이퍼파라미터: 학습률 5e-3, 배치 크기 1536, 1 에포크

실험 결과

주요 결과

Figure 4의 히트맵에서 다음을 볼 수 있습니다:

독립 훈련(Independent):
- 훈련 단계에서 최고 성능
- 미훈련 단계에 대한 일반화 능력 제한적
- 단계 0이 모든 테스트 단계에서 최고 성능(12.62→6.73)
결합 훈련(Joint):
- 모든 단계에서 안정적인 높은 성능 유지
- 재앙적 망각 회피
- 상대적으로 균형잡힌 성능(12.62→9.79)
지속적 훈련(Continual):
- 후기 단계에서 최고 성능
- 명백한 망각 현상 존재
- 최고의 정방향 전이 능력 시현