We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
- पेपर ID: 2510.13008
- शीर्षक: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- लेखक: Pavan Kalyan (Microsoft Research), Shubhra Mishra (KTH Royal Institute of Technology), Satya Lokam (Microsoft Research), Navin Goyal (Microsoft Research)
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन तिथि: 14 अक्टूबर 2025 (प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13008
यह पेपर मानव विकास प्रक्षेपवक्र (5-10 वर्ष) के आधार पर एक व्यापक सतत शिक्षा डेटासेट और बेंचमार्क ढांचा CurLL प्रस्तावित करता है, जो मॉडल द्वारा क्रमिक रूप से नई कौशल प्राप्त करने की क्षमता का व्यवस्थित रूप से सूक्ष्म-दानेदार मूल्यांकन कर सकता है। CurLL पाँच विकासात्मक चरणों (0-4) को कवर करता है, जो कौशल ग्राफ द्वारा समर्थित है, व्यापक कौशल को छोटी क्षमताओं, ठोस लक्ष्यों और मापनीय संकेतकों में विघटित करता है, साथ ही कौशल के बीच निर्भरता संबंधों को कैप्चर करता है। अनुसंधान ने 23.4B टोकन का एक सिंथेटिक डेटासेट तैयार किया है, जिसमें नियंत्रणीय कौशल प्रगति, शब्दावली जटिलता और प्रारूप विविधता है, जिसमें पैराग्राफ, समझ-आधारित प्रश्नोत्तर (CQA), कौशल परीक्षण प्रश्नोत्तर (CSQA) और निर्देश-प्रतिक्रिया (IR) जोड़े शामिल हैं। प्रत्येक चरण में टोकन की संख्या 2.12B से 6.78B तक भिन्न होती है, जो विस्मृति, अग्रगामी स्थानांतरण और पश्चगामी स्थानांतरण के सटीक विश्लेषण का समर्थन करती है।
वर्तमान बड़े भाषा मॉडल का सामना करने वाली मुख्य चुनौती सतत शिक्षा समस्या है:
- स्थिर ज्ञान सीमा: मौजूदा LLM का ज्ञान और कौशल प्रशिक्षण के बाद स्थिर हो जाता है, मानव की तरह नया ज्ञान सीखने में असमर्थ
- विनाशकारी विस्मृति: नए कार्य सीखते समय, मॉडल अक्सर पहले सीखे गए कौशल को भूल जाता है
- कौशल निर्भरता मॉडलिंग की कमी: मौजूदा विधियों में कौशल के बीच निर्भरता संबंधों के सटीक नियंत्रण और मॉडलिंग की कमी है
सतत शिक्षा की क्षमता मानव बुद्धिमत्ता की एक महत्वपूर्ण विशेषता है, जो वास्तव में बुद्धिमान AI प्रणाली बनाने के लिए महत्वपूर्ण है:
- मानव नए ज्ञान को पहले से मौजूद समझ के साथ एकीकृत कर सकते हैं
- नए कौशल में महारत हासिल करते हुए पिछली क्षमताओं को बनाए रखना
- अत्यधिक नमूना दक्षता के साथ आजीवन शिक्षा प्राप्त करना
- कौशल नियंत्रण अनुचित: मौजूदा बेंचमार्क में विशिष्ट कौशल का सटीक नियंत्रण नहीं है
- ज्ञान निर्भरता संबंध अस्पष्ट: कौशल के बीच संबंध शायद ही कभी स्पष्ट रूप से मॉडल किए जाते हैं
- विस्मृति माप अपर्याप्त: कई मूल्यांकन अनुक्रमिक शिक्षण कार्यों में विनाशकारी विस्मृति को सही तरीके से माप नहीं सकते
- नवीन ढांचा: पहली बार मानव शिक्षा पाठ्यक्रम प्रणाली को सतत शिक्षा मूल्यांकन में पेश किया, विकासात्मक मनोविज्ञान के आधार पर कौशल संरचना प्रदान की
- बड़े पैमाने पर सिंथेटिक डेटासेट: 23.4B टोकन का बहु-प्रारूप सिंथेटिक डेटासेट बनाया, जो 5 विकासात्मक चरणों को कवर करता है, नियंत्रणीय शब्दावली जटिलता और कौशल प्रगति के साथ
- कौशल ग्राफ मॉडलिंग: 1300+ सूक्ष्म-दानेदार कौशल युक्त स्पष्ट कौशल निर्भरता ग्राफ बनाया, पूर्वापेक्षा संबंधों के मात्रात्मक विश्लेषण का समर्थन करता है
- सूक्ष्म-दानेदार मूल्यांकन प्रणाली: संकेतक, कौशल और चरण के तीन स्तरों पर परिष्कृत मूल्यांकन का समर्थन करता है, विस्मृति, स्थानांतरण और नमूना दक्षता को सटीक रूप से माप सकता है
सतत शिक्षा कार्य: विकासात्मक चरणों द्वारा संगठित शिक्षण कार्यों की एक श्रृंखला दी गई, मॉडल को आवश्यकता है:
- इनपुट: अनुक्रमित बहु-चरण प्रशिक्षण डेटा
- आउटपुट: सभी चरणों पर अच्छा प्रदर्शन बनाए रखना
- बाधा: विनाशकारी विस्मृति को कम करना, अग्रगामी और पश्चगामी स्थानांतरण को अधिकतम करना
दो शिक्षा ढांचे के आधार पर चार-स्तरीय कौशल संरचना बनाई गई:
- कौशल (Skills): उच्च-स्तरीय डोमेन (जैसे गणित, विज्ञान)
- उप-कौशल (Sub-skills): विशिष्ट घटक (जैसे गिनती और कार्डिनैलिटी)
- लक्ष्य (Goals): सीखने की अपेक्षाओं का व्यापक विवरण
- संकेतक (Indicators): ठोस अवलोकनीय व्यवहार प्रदर्शन
- नोड्स: 1300+ संकेतक (indicators)
- किनारे: पूर्वापेक्षा निर्भरता संबंध, वजन 1-5 निर्भरता की शक्ति को दर्शाता है
- सत्यापन: LLM का उपयोग करके निर्भरता संबंधों की भविष्यवाणी करना, चरणों के बीच किनारे वितरण के माध्यम से सत्यापन
बीज निर्माण:
- कौशल टपल (skill-tuple)
- आयु-उपयुक्त शब्दावली (Age-of-Acquisition डेटा के आधार पर)
- उदाहरण प्रकार (IR/CQA/CSQA)
- टेम्पलेट प्रकार
जनरेशन रणनीति:
- प्रत्येक कौशल टपल के लिए ≥15 संदर्भ टेम्पलेट और IR टेम्पलेट जनरेट करना
- बीज के आधार पर विविध उदाहरण जनरेट करने के लिए LLM का उपयोग करना
- आयु-उपयुक्तता और कौशल संरेखण सुनिश्चित करना
- विकासात्मक मनोविज्ञान-संचालित: पहली बार Cambridge Primary Curriculum और ELOF ढांचे को AI मूल्यांकन में पेश किया
- बहु-स्तरीय कौशल मॉडलिंग: अमूर्त कौशल से ठोस संकेतकों तक पदानुक्रमित विघटन
- निर्भरता संबंध मात्रा: भारित निर्देशित ग्राफ का उपयोग करके कौशल के बीच पूर्वापेक्षा संबंधों को स्पष्ट रूप से मॉडल करना
- बहु-प्रारूप डेटा संलयन: पैराग्राफ, प्रश्नोत्तर और निर्देश प्रतिक्रिया को संभालने के लिए एकीकृत चैट टेम्पलेट
| चरण | कौशल संख्या | उप-कौशल संख्या | लक्ष्य संख्या | संकेतक संख्या | CQA संख्या | CSQA संख्या | IR संख्या | टोकन संख्या (अरब) |
|---|
| 0 | 7 | 24 | 59 | 182 | 1.0M | 3.01M | 3.30M | 2.12 |
| 1 | 7 | 29 | 86 | 292 | 20.2M | 4.04M | 4.10M | 3.47 |
| 2 | 6 | 26 | 67 | 249 | 23.5M | 4.70M | 4.78M | 4.56 |
| 3 | 6 | 26 | 68 | 271 | 31.2M | 6.24M | 6.29M | 6.47 |
| 4 | 6 | 23 | 70 | 349 | 27.4M | 5.49M | 5.52M | 6.78 |
- सटीकता स्कोर: मॉडल प्रतिक्रियाओं के लिए 1-5 स्कोर देने के लिए LLM का उपयोग करना
- विस्मृति विश्लेषण: संयुक्त प्रशिक्षण और सतत प्रशिक्षण प्रदर्शन में अंतर
- स्थानांतरण प्रभाव: चरणों के बीच प्रदर्शन परिवर्तन विश्लेषण
- मॉडल: SmolLM2-135M पैरामीटर Transformer
- प्रशिक्षण मोड:
- Independent: प्रत्येक चरण को स्वतंत्र रूप से प्रशिक्षित करना
- Joint: बहु-चरण डेटा को मिश्रित करके प्रशिक्षण
- Continual: अनुक्रमित प्रशिक्षण
- हाइपरपैरामीटर: सीखने की दर 5e-3, बैच आकार 1536, एक epoch
Figure 4 के हीटमैप से निम्नलिखित देखा जा सकता है:
- स्वतंत्र प्रशिक्षण (Independent):
- प्रशिक्षण चरण पर सर्वोच्च प्रदर्शन
- अप्रशिक्षित चरणों पर सामान्यीकरण क्षमता सीमित
- चरण 0 सभी परीक्षण चरणों पर सर्वश्रेष्ठ प्रदर्शन करता है (12.62→6.73)
- संयुक्त प्रशिक्षण (Joint):
- सभी चरणों पर स्थिर उच्च प्रदर्शन बनाए रखना
- विनाशकारी विस्मृति से बचा गया
- अपेक्षाकृत संतुलित प्रदर्शन (12.62→9.79)
- सतत प्रशिक्षण (Continual):
- बाद के चरणों में सर्वश्रेष्ठ प्रदर्शन
- स्पष्ट विस्मृति घटना
- सर्वश्रेष्ठ अग्रगामी स्थानांतरण क्षमता प्रदर्शित करना
Figure 5 संयुक्त प्रशिक्षण और सतत प्रशिक्षण के प्रदर्शन अंतर को दर्शाता है:
- अग्रगामी स्थानांतरण: सतत प्रशिक्षण भविष्य के चरणों में बेहतर प्रदर्शन करता है (सकारात्मक मान क्षेत्र)
- विनाशकारी विस्मृति: सतत प्रशिक्षण में प्रारंभिक चरणों पर प्रदर्शन में गिरावट (नकारात्मक मान क्षेत्र)
- प्रारूप अंतर: IR कार्य में विस्मृति सबसे गंभीर है, CSQA अपेक्षाकृत हल्का है
मुख्य निष्कर्ष:
- कम आउटडिग्री कौशल अधिक भूलने योग्य: जैसे "धारणा, गति और शारीरिक विकास", "डिजिटल साक्षरता"
- निर्भरता संबंध विस्मृति को प्रभावित करते हैं: कम पूर्वापेक्षा कौशल वाली क्षमताएं सतत शिक्षा में अधिक भूलने योग्य होती हैं
- चरण-अंतर कनेक्शन पैटर्न: निम्न चरण से उच्च चरण तक किनारों की संख्या विपरीत दिशा से काफी अधिक है
- विविधता: gzip संपीड़न दर पारस्परिक 30.77%-35.60% की विविधता दर्शाता है
- डीडुप्लिकेशन दर: सिमेंटिक डीडुप्लिकेशन दर <5%, सामग्री की विशिष्टता सुनिश्चित करता है
- पठनीयता में वृद्धि: प्रत्येक चरण की पाठ जटिलता आयु के साथ बढ़ती है
मौजूदा बेंचमार्क की सीमाएं:
- TRACE: कार्य बहुत सरल हैं या पहले से LLM प्रशिक्षण सेट में शामिल हैं
- MMLM-CL: वास्तविक दुनिया की प्रयोज्यता की कमी
- TemporalWiki: मुख्य रूप से तथ्यात्मक ज्ञान अपडेट पर ध्यान केंद्रित
- SuperNI: पारंपरिक NLP कार्य संग्रह, कौशल निर्भरता मॉडलिंग की कमी
- Skill-it: जटिलता-वर्धमान कौशल क्रमबद्धता एल्गोरिदम प्रस्तावित करता है
- पैरामीटर दक्षता विधियां: LoRA, अनुकूलक आदि विस्मृति को कम करने की तकनीकें
- स्मृति पुनरावृत्ति: ऐतिहासिक नमूनों का उपयोग करके विस्मृति को कम करना
इस कार्य की विशिष्टता:
- मानव विकास पाठ्यक्रम के आधार पर कौशल संगठन
- स्पष्ट कौशल निर्भरता ग्राफ
- बड़े पैमाने पर नियंत्रणीय सिंथेटिक डेटा जनरेशन
- डेटा क्रम का महत्व: केवल डेटा क्रम को बदलने से विस्मृति और सामान्यीकरण में महत्वपूर्ण अंतर आ सकता है
- कौशल निर्भरता की भूमिका: कम आउटडिग्री कौशल सतत शिक्षा में अधिक भूलने योग्य होते हैं
- मूल्यांकन दानेदारता की आवश्यकता: सूक्ष्म-दानेदार मूल्यांकन महत्वपूर्ण पैटर्न को प्रकट कर सकता है जो व्यापक संकेतक छिपाते हैं
- सिंथेटिक डेटा सीमा: पूरी तरह से सिंथेटिक डेटा का उपयोग, वास्तविक दुनिया के परिदृश्य को प्रतिबिंबित नहीं कर सकता
- मॉडल आकार: केवल 135M पैरामीटर मॉडल पर सत्यापित, बड़े मॉडल का व्यवहार भिन्न हो सकता है
- इंटरैक्टिव शिक्षा की कमी: स्थिर डेटासेट वास्तविक इंटरैक्टिव शिक्षा वातावरण का अनुकरण नहीं कर सकता
- भाषा मॉडलिंग प्रतिमान: मॉडल निर्देश और प्रतिक्रिया दोनों को एक साथ सीखता है, पूरी तरह से मानव शिक्षण पद्धति के अनुरूप नहीं है
- आयु सीमा का विस्तार: ढांचे को 14 वर्ष तक विस्तारित करना (अधिक विकासात्मक चरण)
- बड़े मॉडल सत्यापन: अरब पैरामीटर स्तर के मॉडल पर निष्कर्षों का सत्यापन
- वास्तविक डेटा एकीकरण: ढांचे को सत्यापित करने के लिए वास्तविक शिक्षा डेटा को संयोजित करना
- इंटरैक्टिव वातावरण: गतिशील इंटरैक्शन का समर्थन करने वाले शिक्षण वातावरण का विकास
- मजबूत नवाचार: पहली बार विकासात्मक मनोविज्ञान को व्यवस्थित रूप से सतत शिक्षा मूल्यांकन में पेश किया
- बड़े डेटा आकार: 23.4B टोकन का बड़े पैमाने पर डेटासेट, पर्याप्त प्रयोग का समर्थन करता है
- विस्तृत मूल्यांकन: बहु-स्तरीय, बहु-आयामी मूल्यांकन प्रणाली, गहन अंतर्दृष्टि प्रदान करती है
- अच्छी पुनरुत्पादनीयता: कोड और डेटा सार्वजनिक, बाद के अनुसंधान का समर्थन करता है
- ठोस सैद्धांतिक आधार: परिपक्व शिक्षा सिद्धांत ढांचे पर आधारित
- प्रयोग आकार सीमा: केवल छोटे मॉडल पर सत्यापित, निष्कर्षों की सार्वभौमिकता की पुष्टि की आवश्यकता है
- सिंथेटिक डेटा पूर्वाग्रह: संभावित जनरेशन पूर्वाग्रह, निष्कर्षों की विश्वसनीयता को प्रभावित कर सकता है
- मूल्यांकन विधि निर्भरता: मूल्यांकन के लिए LLM का उपयोग, अतिरिक्त पूर्वाग्रह पेश कर सकता है
- कौशल ग्राफ गुणवत्ता: LLM द्वारा भविष्यवाणी किए गए किनारे संबंध पर्याप्त सटीक नहीं हो सकते
- शैक्षणिक योगदान: सतत शिक्षा अनुसंधान के लिए नई मूल्यांकन प्रतिमान प्रदान करता है
- व्यावहारिक मूल्य: मौजूदा सतत शिक्षण एल्गोरिदम का मूल्यांकन और सुधार करने के लिए उपयोग किया जा सकता है
- प्रेरणा महत्व: AI अनुसंधान में अंतःविषय दृष्टिकोण के मूल्य को प्रदर्शित करता है
- सामुदायिक संसाधन: मूल्यवान खुले स्रोत डेटासेट और उपकरण प्रदान करता है
- सतत शिक्षा एल्गोरिदम विकास: मानकीकृत मूल्यांकन मंच प्रदान करता है
- शिक्षा AI प्रणाली: शिक्षा परिदृश्य में AI अनुप्रयोग के लिए संदर्भ प्रदान करता है
- संज्ञानात्मक मॉडलिंग अनुसंधान: मानव शिक्षण प्रक्रिया के कम्प्यूटेशनल मॉडलिंग का समर्थन करता है
- LLM क्षमता मूल्यांकन: बड़े मॉडल के शिक्षण और विस्मृति व्यवहार का सूक्ष्म-दानेदार मूल्यांकन करता है
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
- सतत शिक्षा बेंचमार्क: TRACE, MMLM-CL, OCKL आदि
- शिक्षा ढांचे: Cambridge Primary Curriculum, ELOF
- तकनीकी विधियां: Skill-it, विभिन्न सतत शिक्षण एल्गोरिदम
- मूल्यांकन उपकरण: Age-of-Acquisition डेटा, पठनीयता परीक्षण उपकरण
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान कार्य है जो मानव विकास मनोविज्ञान को सतत शिक्षा मूल्यांकन में नवीनतापूर्वक पेश करता है, एक बड़े पैमाने पर, संरचित मूल्यांकन ढांचा बनाता है। हालांकि कुछ सीमाएं हैं, लेकिन यह सतत शिक्षा अनुसंधान के लिए नई दिशा खोलता है, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व रखता है।