We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic- 논문 ID: 2510.13008
- 제목: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- 저자: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
- 분류: cs.CL cs.AI
- 발표 시간: 2025년 10월 14일 (프리프린트)
- 논문 링크: https://arxiv.org/abs/2510.13008
본 논문은 인간의 발달 궤적(5-10세)을 기반으로 한 포괄적인 지속적 학습 데이터셋 및 벤치마크 프레임워크인 CurLL을 제안합니다. 이는 모델이 새로운 기술을 점진적으로 습득하는 능력을 체계적이고 세밀하게 평가할 수 있습니다. CurLL은 5개의 발달 단계(0-4)를 포함하며, 기술 그래프로 지원되어 광범위한 기술을 더 작은 능력, 구체적인 목표 및 측정 가능한 지표로 분해하면서 기술 간의 의존성을 포착합니다. 연구진은 23.4B 토큰의 합성 데이터셋을 생성했으며, 제어 가능한 기술 진행, 어휘 복잡도 및 형식 다양성(단락, 이해형 질의응답(CQA), 기술 검사 질의응답(CSQA) 및 지시-응답(IR) 쌍 포함)을 특징으로 합니다. 각 단계의 토큰 수는 2.12B에서 6.78B까지 다양하며, 망각, 정방향 전이 및 역방향 전이에 대한 정확한 분석을 지원합니다.
현재 대규모 언어 모델이 직면한 핵심 과제는 지속적 학습 문제입니다:
- 정적 지식 제한: 기존 LLM의 지식과 기술은 훈련 후 정적이 되어 인간처럼 지속적으로 새로운 지식을 학습할 수 없습니다
- 재앙적 망각: 새로운 작업을 학습할 때 모델은 이전에 학습한 기술을 종종 잊어버립니다
- 기술 의존성 모델링 부재: 기존 방법은 기술 간 의존성 관계의 정확한 제어 및 모델링이 부족합니다
지속적 학습 능력은 인간 지능의 중요한 특징이며, 진정으로 지능형인 AI 시스템 구축에 필수적입니다:
- 인간은 새로운 지식을 기존 이해와 통합할 수 있습니다
- 새로운 기술을 습득하면서 이전 능력을 유지합니다
- 매우 높은 표본 효율성으로 평생 학습을 실현합니다
- 기술 제어 부정확성: 기존 벤치마크는 특정 기술에 대한 정확한 제어가 부족합니다
- 지식 의존성 관계 불명확: 기술 간 관계가 거의 명시적으로 모델링되지 않습니다
- 망각 측정 불충분: 많은 평가가 순차적 학습 작업에서 재앙적 망각을 제대로 측정하지 못합니다
- 혁신적 프레임워크: 인간 교육 커리큘럼 체계를 지속적 학습 평가에 처음으로 도입하여 발달 심리학 기반의 기술 구조 제공
- 대규모 합성 데이터셋: 5개 발달 단계를 포함하는 23.4B 토큰의 다중 형식 합성 데이터셋 구축, 제어 가능한 어휘 복잡도 및 기술 진행 포함
- 기술 그래프 모델링: 1,300개 이상의 세밀한 기술을 포함하는 명시적 기술 의존성 그래프 구축, 전제 관계의 정량적 분석 지원
- 세밀한 평가 체계: 지표, 기술 및 단계의 세 가지 수준에서 정교한 평가 지원, 망각, 전이 및 표본 효율성을 정확하게 측정
지속적 학습 작업: 발달 단계별로 조직된 일련의 학습 작업이 주어졌을 때, 모델은 다음을 수행해야 합니다:
- 입력: 순차화된 다단계 훈련 데이터
- 출력: 모든 단계에서 양호한 성능 유지
- 제약: 재앙적 망각 최소화, 정방향 및 역방향 전이 최대화
두 가지 교육 프레임워크를 기반으로 4계층 기술 구조 구축:
- Skills: 상위 영역(예: 수학, 과학)
- Sub-skills: 특정 구성 요소(예: 계산 및 기수)
- Goals: 학습 기대의 광범위한 진술
- Indicators: 구체적인 관찰 가능한 행동 표현
- 노드: 1,300개 이상의 지표(indicators)
- 엣지: 전제 의존성 관계, 가중치 1-5는 의존성 강도를 나타냄
- 검증: LLM을 사용하여 의존성 관계 예측, 단계 간 엣지 분포를 통해 합리성 검증
시드 구성:
- 기술 튜플(skill-tuple)
- 연령 적절 어휘(Age-of-Acquisition 데이터 기반)
- 인스턴스 유형(IR/CQA/CSQA)
- 템플릿 유형
생성 전략:
- 각 기술 튜플에 대해 ≥15개의 컨텍스트 템플릿 및 IR 템플릿 생성
- LLM을 사용하여 시드를 기반으로 다양한 인스턴스 생성
- 연령 적절성 및 기술 정렬 보장
- 발달 심리학 기반: Cambridge Primary Curriculum 및 ELOF 프레임워크를 AI 평가에 처음으로 도입
- 다계층 기술 모델링: 추상 기술에서 구체적 지표까지의 계층적 분해
- 의존성 관계 정량화: 가중 방향 그래프를 사용하여 기술 간 전제 관계 명시적 모델링
- 다중 형식 데이터 융합: 단락, 질의응답 및 지시 응답을 처리하는 통일된 채팅 템플릿
| 단계 | 기술 수 | 부기술 수 | 목표 수 | 지표 수 | CQA 수량 | CSQA 수량 | IR 수량 | 토큰 수(십억) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1.0M | 3.01M | 3.30M | 2.12 |
| 1 | 7 | 29 | 86 | 292 | 20.2M | 4.04M | 4.10M | 3.47 |
| 2 | 6 | 26 | 67 | 249 | 23.5M | 4.70M | 4.78M | 4.56 |
| 3 | 6 | 26 | 68 | 271 | 31.2M | 6.24M | 6.29M | 6.47 |
| 4 | 6 | 23 | 70 | 349 | 27.4M | 5.49M | 5.52M | 6.78 |
- 정확성 점수: LLM을 사용하여 모델 응답에 1-5점 평가
- 망각 분석: 결합 훈련과 지속적 훈련 성능 차이
- 전이 효과: 단계 간 성능 변화 분석
- 모델: SmolLM2-135M 파라미터 Transformer
- 훈련 모드:
- Independent: 각 단계별 독립 훈련
- Joint: 다단계 데이터 혼합 훈련
- Continual: 순차적 훈련
- 하이퍼파라미터: 학습률 5e-3, 배치 크기 1536, 1 에포크
Figure 4의 히트맵에서 다음을 볼 수 있습니다:
- 독립 훈련(Independent):
- 훈련 단계에서 최고 성능
- 미훈련 단계에 대한 일반화 능력 제한적
- 단계 0이 모든 테스트 단계에서 최고 성능(12.62→6.73)
- 결합 훈련(Joint):
- 모든 단계에서 안정적인 높은 성능 유지
- 재앙적 망각 회피
- 상대적으로 균형잡힌 성능(12.62→9.79)
- 지속적 훈련(Continual):
- 후기 단계에서 최고 성능
- 명백한 망각 현상 존재
- 최고의 정방향 전이 능력 시현
Figure 5는 결합 훈련과 지속적 훈련의 성능 차이를 보여줍니다:
- 정방향 전이: 지속적 훈련이 미래 단계에서 더 나은 성능(양수 영역)
- 재앙적 망각: 지속적 훈련이 초기 단계에서 성능 저하(음수 영역)
- 형식 차이: IR 작업에서 망각이 가장 심각하고, CSQA는 상대적으로 경미함
주요 발견:
- 낮은 출도 기술이 더 쉽게 망각됨: "인지, 운동 및 신체 발달", "디지털 문해력" 등
- 의존성 관계가 망각에 영향: 전제 기술이 적은 능력이 지속적 학습에서 더 쉽게 망각됨
- 단계 간 연결 패턴: 낮은 단계에서 높은 단계로의 엣지 수가 역방향보다 훨씬 많음
- 다양성: gzip 압축률 역수는 30.77%-35.60%의 다양성을 나타냄
- 중복 제거율: 의미론적 중복 제거율 <5%, 콘텐츠 독특성 보장
- 가독성 증가: 각 단계의 텍스트 복잡도가 연령 증가에 따라 상승
기존 벤치마크의 한계:
- TRACE: 작업이 너무 단순하거나 이미 LLM 훈련 세트에 포함됨
- MMLM-CL: 현실 세계 적용성 부족
- TemporalWiki: 주로 사실 지식 업데이트에 초점
- SuperNI: 전통적 NLP 작업 모음, 기술 의존성 모델링 부재
- Skill-it: 복잡도 증가 기술 정렬 알고리즘 제안
- 파라미터 효율 방법: LoRA, 어댑터 등 망각 감소 기술
- 메모리 재생: 역사적 샘플을 사용하여 망각 완화
본 연구의 독특성:
- 인간 발달 커리큘럼 기반 기술 조직
- 명시적 기술 의존성 그래프
- 대규모 제어 가능한 합성 데이터 생성
- 데이터 순서의 중요성: 데이터 순서만 변경해도 망각 및 일반화에 상당한 영향을 미칠 수 있습니다
- 기술 의존성의 역할: 낮은 출도 기술이 지속적 학습에서 더 쉽게 망각됩니다
- 평가 세밀도의 필요성: 세밀한 평가는 거시적 지표가 숨기는 중요한 패턴을 드러낼 수 있습니다
- 합성 데이터 한계: 완전히 합성 데이터를 사용하여 실제 시나리오를 반영하지 못할 수 있습니다
- 모델 규모: 135M 파라미터 모델에서만 검증되었으며, 대형 모델의 동작이 다를 수 있습니다
- 상호작용적 학습 부재: 정적 데이터셋은 진정한 상호작용적 학습 환경을 시뮬레이션할 수 없습니다
- 언어 모델링 패러다임: 모델이 지시와 응답을 동시에 학습하여 인간 학습 방식과 완전히 일치하지 않습니다
- 연령 범위 확장: 프레임워크를 14세(더 많은 발달 단계)로 확장
- 대형 모델 검증: 십억 파라미터급 모델에서 발견 검증
- 실제 데이터 통합: 실제 교육 데이터를 결합하여 프레임워크 검증
- 상호작용적 환경: 동적 상호작용을 지원하는 학습 환경 개발
- 높은 혁신성: 발달 심리학을 지속적 학습 평가에 체계적으로 도입한 첫 사례
- 대규모 데이터: 23.4B 토큰의 대규모 데이터셋으로 충분한 실험 지원
- 정교한 평가: 다계층, 다차원 평가 체계로 깊이 있는 통찰 제공
- 우수한 재현성: 코드 및 데이터 공개로 후속 연구 지원
- 견고한 이론적 기초: 성숙한 교육 이론 프레임워크 기반
- 실험 규모 제한: 소형 모델에서만 검증되어 결론의 보편성 미검증
- 합성 데이터 편향: 생성 편향이 존재할 수 있어 결론 신뢰성에 영향
- 평가 방법 의존성: LLM을 사용한 평가로 추가 편향 가능성
- 기술 그래프 품질: LLM 예측 엣지 관계의 정확성 미흡 가능성
- 학술 기여: 지속적 학습 연구에 새로운 평가 패러다임 제공
- 실용적 가치: 기존 지속적 학습 알고리즘 평가 및 개선에 활용 가능
- 영감 제공: AI 연구에서 학제 간 방법의 가치 시연
- 커뮤니티 자산: 귀중한 오픈소스 데이터셋 및 도구 제공
- 지속적 학습 알고리즘 개발: 표준화된 평가 플랫폼 제공
- 교육 AI 시스템: 교육 분야 AI 응용에 참고 자료 제공
- 인지 모델링 연구: 인간 학습 과정의 계산 모델링 지원
- LLM 능력 평가: 대형 모델의 학습 및 망각 행동의 세밀한 평가
논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:
- 지속적 학습 벤치마크: TRACE, MMLM-CL, OCKL 등
- 교육 프레임워크: Cambridge Primary Curriculum, ELOF
- 기술 방법: Skill-it, 다양한 지속적 학습 알고리즘
- 평가 도구: Age-of-Acquisition 데이터, 가독성 테스트 도구
종합 평가: 이는 발달 심리학을 지속적 학습 평가에 혁신적으로 도입하여 대규모, 구조화된 평가 프레임워크를 구축한 고품질 연구 작업입니다. 일부 한계가 있지만, 지속적 학습 연구에 새로운 방향을 개척하여 중요한 학술적 가치와 실용적 의의를 지닙니다.