2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.
We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
academic

CurLL: 언어 모델의 지속적 학습을 평가하기 위한 발달 프레임워크

기본 정보

  • 논문 ID: 2510.13008
  • 제목: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
  • 저자: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 14일 (프리프린트)
  • 논문 링크: https://arxiv.org/abs/2510.13008

초록

본 논문은 인간의 발달 궤적(5-10세)을 기반으로 한 포괄적인 지속적 학습 데이터셋 및 벤치마크 프레임워크인 CurLL을 제안합니다. 이는 모델이 새로운 기술을 점진적으로 습득하는 능력을 체계적이고 세밀하게 평가할 수 있습니다. CurLL은 5개의 발달 단계(0-4)를 포함하며, 기술 그래프로 지원되어 광범위한 기술을 더 작은 능력, 구체적인 목표 및 측정 가능한 지표로 분해하면서 기술 간의 의존성을 포착합니다. 연구진은 23.4B 토큰의 합성 데이터셋을 생성했으며, 제어 가능한 기술 진행, 어휘 복잡도 및 형식 다양성(단락, 이해형 질의응답(CQA), 기술 검사 질의응답(CSQA) 및 지시-응답(IR) 쌍 포함)을 특징으로 합니다. 각 단계의 토큰 수는 2.12B에서 6.78B까지 다양하며, 망각, 정방향 전이 및 역방향 전이에 대한 정확한 분석을 지원합니다.

연구 배경 및 동기

문제 정의

현재 대규모 언어 모델이 직면한 핵심 과제는 지속적 학습 문제입니다:

  1. 정적 지식 제한: 기존 LLM의 지식과 기술은 훈련 후 정적이 되어 인간처럼 지속적으로 새로운 지식을 학습할 수 없습니다
  2. 재앙적 망각: 새로운 작업을 학습할 때 모델은 이전에 학습한 기술을 종종 잊어버립니다
  3. 기술 의존성 모델링 부재: 기존 방법은 기술 간 의존성 관계의 정확한 제어 및 모델링이 부족합니다

연구의 중요성

지속적 학습 능력은 인간 지능의 중요한 특징이며, 진정으로 지능형인 AI 시스템 구축에 필수적입니다:

  • 인간은 새로운 지식을 기존 이해와 통합할 수 있습니다
  • 새로운 기술을 습득하면서 이전 능력을 유지합니다
  • 매우 높은 표본 효율성으로 평생 학습을 실현합니다

기존 방법의 한계

  1. 기술 제어 부정확성: 기존 벤치마크는 특정 기술에 대한 정확한 제어가 부족합니다
  2. 지식 의존성 관계 불명확: 기술 간 관계가 거의 명시적으로 모델링되지 않습니다
  3. 망각 측정 불충분: 많은 평가가 순차적 학습 작업에서 재앙적 망각을 제대로 측정하지 못합니다

핵심 기여

  1. 혁신적 프레임워크: 인간 교육 커리큘럼 체계를 지속적 학습 평가에 처음으로 도입하여 발달 심리학 기반의 기술 구조 제공
  2. 대규모 합성 데이터셋: 5개 발달 단계를 포함하는 23.4B 토큰의 다중 형식 합성 데이터셋 구축, 제어 가능한 어휘 복잡도 및 기술 진행 포함
  3. 기술 그래프 모델링: 1,300개 이상의 세밀한 기술을 포함하는 명시적 기술 의존성 그래프 구축, 전제 관계의 정량적 분석 지원
  4. 세밀한 평가 체계: 지표, 기술 및 단계의 세 가지 수준에서 정교한 평가 지원, 망각, 전이 및 표본 효율성을 정확하게 측정

방법론 상세 설명

작업 정의

지속적 학습 작업: 발달 단계별로 조직된 일련의 학습 작업이 주어졌을 때, 모델은 다음을 수행해야 합니다:

  • 입력: 순차화된 다단계 훈련 데이터
  • 출력: 모든 단계에서 양호한 성능 유지
  • 제약: 재앙적 망각 최소화, 정방향 및 역방향 전이 최대화

프레임워크 아키텍처

1. 기술 분류 체계

두 가지 교육 프레임워크를 기반으로 4계층 기술 구조 구축:

  • Skills: 상위 영역(예: 수학, 과학)
  • Sub-skills: 특정 구성 요소(예: 계산 및 기수)
  • Goals: 학습 기대의 광범위한 진술
  • Indicators: 구체적인 관찰 가능한 행동 표현

2. 기술 그래프 구축

  • 노드: 1,300개 이상의 지표(indicators)
  • 엣지: 전제 의존성 관계, 가중치 1-5는 의존성 강도를 나타냄
  • 검증: LLM을 사용하여 의존성 관계 예측, 단계 간 엣지 분포를 통해 합리성 검증

3. 데이터 생성 프로세스

시드 구성:

  • 기술 튜플(skill-tuple)
  • 연령 적절 어휘(Age-of-Acquisition 데이터 기반)
  • 인스턴스 유형(IR/CQA/CSQA)
  • 템플릿 유형

생성 전략:

  • 각 기술 튜플에 대해 ≥15개의 컨텍스트 템플릿 및 IR 템플릿 생성
  • LLM을 사용하여 시드를 기반으로 다양한 인스턴스 생성
  • 연령 적절성 및 기술 정렬 보장

기술 혁신 포인트

  1. 발달 심리학 기반: Cambridge Primary Curriculum 및 ELOF 프레임워크를 AI 평가에 처음으로 도입
  2. 다계층 기술 모델링: 추상 기술에서 구체적 지표까지의 계층적 분해
  3. 의존성 관계 정량화: 가중 방향 그래프를 사용하여 기술 간 전제 관계 명시적 모델링
  4. 다중 형식 데이터 융합: 단락, 질의응답 및 지시 응답을 처리하는 통일된 채팅 템플릿

실험 설정

데이터셋 규모

단계기술 수부기술 수목표 수지표 수CQA 수량CSQA 수량IR 수량토큰 수(십억)
0724591821.0M3.01M3.30M2.12
17298629220.2M4.04M4.10M3.47
26266724923.5M4.70M4.78M4.56
36266827131.2M6.24M6.29M6.47
46237034927.4M5.49M5.52M6.78

평가 지표

  • 정확성 점수: LLM을 사용하여 모델 응답에 1-5점 평가
  • 망각 분석: 결합 훈련과 지속적 훈련 성능 차이
  • 전이 효과: 단계 간 성능 변화 분석

훈련 설정

  • 모델: SmolLM2-135M 파라미터 Transformer
  • 훈련 모드:
    • Independent: 각 단계별 독립 훈련
    • Joint: 다단계 데이터 혼합 훈련
    • Continual: 순차적 훈련
  • 하이퍼파라미터: 학습률 5e-3, 배치 크기 1536, 1 에포크

실험 결과

주요 결과

Figure 4의 히트맵에서 다음을 볼 수 있습니다:

  1. 독립 훈련(Independent):
    • 훈련 단계에서 최고 성능
    • 미훈련 단계에 대한 일반화 능력 제한적
    • 단계 0이 모든 테스트 단계에서 최고 성능(12.62→6.73)
  2. 결합 훈련(Joint):
    • 모든 단계에서 안정적인 높은 성능 유지
    • 재앙적 망각 회피
    • 상대적으로 균형잡힌 성능(12.62→9.79)
  3. 지속적 훈련(Continual):
    • 후기 단계에서 최고 성능
    • 명백한 망각 현상 존재
    • 최고의 정방향 전이 능력 시현

망각 분석

Figure 5는 결합 훈련과 지속적 훈련의 성능 차이를 보여줍니다:

  • 정방향 전이: 지속적 훈련이 미래 단계에서 더 나은 성능(양수 영역)
  • 재앙적 망각: 지속적 훈련이 초기 단계에서 성능 저하(음수 영역)
  • 형식 차이: IR 작업에서 망각이 가장 심각하고, CSQA는 상대적으로 경미함

기술 그래프 통찰

주요 발견:

  • 낮은 출도 기술이 더 쉽게 망각됨: "인지, 운동 및 신체 발달", "디지털 문해력" 등
  • 의존성 관계가 망각에 영향: 전제 기술이 적은 능력이 지속적 학습에서 더 쉽게 망각됨
  • 단계 간 연결 패턴: 낮은 단계에서 높은 단계로의 엣지 수가 역방향보다 훨씬 많음

데이터 품질 검증

  • 다양성: gzip 압축률 역수는 30.77%-35.60%의 다양성을 나타냄
  • 중복 제거율: 의미론적 중복 제거율 <5%, 콘텐츠 독특성 보장
  • 가독성 증가: 각 단계의 텍스트 복잡도가 연령 증가에 따라 상승

관련 연구

지속적 학습 벤치마크

기존 벤치마크의 한계:

  • TRACE: 작업이 너무 단순하거나 이미 LLM 훈련 세트에 포함됨
  • MMLM-CL: 현실 세계 적용성 부족
  • TemporalWiki: 주로 사실 지식 업데이트에 초점
  • SuperNI: 전통적 NLP 작업 모음, 기술 의존성 모델링 부재

기술 방법

  • Skill-it: 복잡도 증가 기술 정렬 알고리즘 제안
  • 파라미터 효율 방법: LoRA, 어댑터 등 망각 감소 기술
  • 메모리 재생: 역사적 샘플을 사용하여 망각 완화

본 연구의 독특성:

  1. 인간 발달 커리큘럼 기반 기술 조직
  2. 명시적 기술 의존성 그래프
  3. 대규모 제어 가능한 합성 데이터 생성

결론 및 논의

주요 결론

  1. 데이터 순서의 중요성: 데이터 순서만 변경해도 망각 및 일반화에 상당한 영향을 미칠 수 있습니다
  2. 기술 의존성의 역할: 낮은 출도 기술이 지속적 학습에서 더 쉽게 망각됩니다
  3. 평가 세밀도의 필요성: 세밀한 평가는 거시적 지표가 숨기는 중요한 패턴을 드러낼 수 있습니다

한계

  1. 합성 데이터 한계: 완전히 합성 데이터를 사용하여 실제 시나리오를 반영하지 못할 수 있습니다
  2. 모델 규모: 135M 파라미터 모델에서만 검증되었으며, 대형 모델의 동작이 다를 수 있습니다
  3. 상호작용적 학습 부재: 정적 데이터셋은 진정한 상호작용적 학습 환경을 시뮬레이션할 수 없습니다
  4. 언어 모델링 패러다임: 모델이 지시와 응답을 동시에 학습하여 인간 학습 방식과 완전히 일치하지 않습니다

향후 방향

  1. 연령 범위 확장: 프레임워크를 14세(더 많은 발달 단계)로 확장
  2. 대형 모델 검증: 십억 파라미터급 모델에서 발견 검증
  3. 실제 데이터 통합: 실제 교육 데이터를 결합하여 프레임워크 검증
  4. 상호작용적 환경: 동적 상호작용을 지원하는 학습 환경 개발

심층 평가

장점

  1. 높은 혁신성: 발달 심리학을 지속적 학습 평가에 체계적으로 도입한 첫 사례
  2. 대규모 데이터: 23.4B 토큰의 대규모 데이터셋으로 충분한 실험 지원
  3. 정교한 평가: 다계층, 다차원 평가 체계로 깊이 있는 통찰 제공
  4. 우수한 재현성: 코드 및 데이터 공개로 후속 연구 지원
  5. 견고한 이론적 기초: 성숙한 교육 이론 프레임워크 기반

부족한 점

  1. 실험 규모 제한: 소형 모델에서만 검증되어 결론의 보편성 미검증
  2. 합성 데이터 편향: 생성 편향이 존재할 수 있어 결론 신뢰성에 영향
  3. 평가 방법 의존성: LLM을 사용한 평가로 추가 편향 가능성
  4. 기술 그래프 품질: LLM 예측 엣지 관계의 정확성 미흡 가능성

영향력

  1. 학술 기여: 지속적 학습 연구에 새로운 평가 패러다임 제공
  2. 실용적 가치: 기존 지속적 학습 알고리즘 평가 및 개선에 활용 가능
  3. 영감 제공: AI 연구에서 학제 간 방법의 가치 시연
  4. 커뮤니티 자산: 귀중한 오픈소스 데이터셋 및 도구 제공

적용 시나리오

  1. 지속적 학습 알고리즘 개발: 표준화된 평가 플랫폼 제공
  2. 교육 AI 시스템: 교육 분야 AI 응용에 참고 자료 제공
  3. 인지 모델링 연구: 인간 학습 과정의 계산 모델링 지원
  4. LLM 능력 평가: 대형 모델의 학습 및 망각 행동의 세밀한 평가

참고 문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

  • 지속적 학습 벤치마크: TRACE, MMLM-CL, OCKL 등
  • 교육 프레임워크: Cambridge Primary Curriculum, ELOF
  • 기술 방법: Skill-it, 다양한 지속적 학습 알고리즘
  • 평가 도구: Age-of-Acquisition 데이터, 가독성 테스트 도구

종합 평가: 이는 발달 심리학을 지속적 학습 평가에 혁신적으로 도입하여 대규모, 구조화된 평가 프레임워크를 구축한 고품질 연구 작업입니다. 일부 한계가 있지만, 지속적 학습 연구에 새로운 방향을 개척하여 중요한 학술적 가치와 실용적 의의를 지닙니다.