2025-11-12T16:52:10.345418

CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models

Kalyan, Mishra, Lokam et al.

We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.

academic

CurLL: إطار عمل تطويري لتقييم التعلم المستمر في نماذج اللغة

المعلومات الأساسية

معرّف الورقة: 2510.13008
العنوان: CurLL: إطار عمل تطويري لتقييم التعلم المستمر في نماذج اللغة
المؤلفون: Pavan Kalyan (Microsoft Research)، Shubhra Mishra (KTH Royal Institute of Technology)، Satya Lokam (Microsoft Research)، Navin Goyal (Microsoft Research)
التصنيف: cs.CL cs.AI
تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية)
رابط الورقة: https://arxiv.org/abs/2510.13008

الملخص

تقترح هذه الورقة إطار عمل شامل للتعلم المستمر وقياس الأداء يُسمى CurLL، مستوحى من مسارات التطور البشري (5-10 سنوات)، يمكّن من التقييم المنهجي والدقيق لقدرة النموذج على اكتساب المهارات الجديدة بشكل تدريجي. يغطي CurLL خمس مراحل تطويرية (0-4)، مدعومة بخريطة مهارات تقسم المهارات الواسعة إلى قدرات أصغر وأهداف محددة ومؤشرات قابلة للقياس، مع التقاط العلاقات التبعية بين المهارات. تم إنشاء مجموعة بيانات اصطناعية بحجم 23.4 مليار رمز، تتميز بتقدم مهارات قابل للتحكم وتعقيد مفردات وتنوع تنسيقي، بما في ذلك الفقرات وأسئلة الفهم (CQA) وأسئلة اختبار المهارات (CSQA) وأزواج التعليمات والاستجابة (IR). يتراوح عدد الرموز في كل مرحلة من 2.12 مليار إلى 6.78 مليار، مما يدعم التحليل الدقيق للنسيان والنقل الأمامي والنقل العكسي.

السياق البحثي والدافع

تعريف المشكلة

التحدي الأساسي الذي تواجهه نماذج اللغة الكبيرة هو مشكلة التعلم المستمر:

قيود المعرفة الثابتة: تصبح معرفة ومهارات نماذج اللغة الكبيرة الحالية ثابتة بعد التدريب، وغير قادرة على التعلم المستمر للمعرفة الجديدة كما يفعل البشر
النسيان الكارثي: عند تعلم مهام جديدة، يميل النموذج إلى نسيان المهارات المكتسبة سابقاً
نقص نمذجة التبعيات بين المهارات: تفتقر الطرق الحالية إلى التحكم الدقيق ونمذجة العلاقات بين المهارات

أهمية البحث

القدرة على التعلم المستمر هي سمة مهمة من سمات الذكاء البشري، وضرورية لبناء أنظمة ذكاء اصطناعي حقيقية:

يمكن للبشر دمج المعرفة الجديدة مع الفهم الموجود
الحفاظ على القدرات السابقة أثناء إتقان المهارات الجديدة
تحقيق التعلم مدى الحياة بكفاءة عينة عالية جداً

قيود الطرق الموجودة

التحكم غير الدقيق بالمهارات: تفتقر المعايير الحالية إلى التحكم الدقيق بالمهارات المحددة
علاقات المعرفة غير الواضحة: نادراً ما يتم نمذجة العلاقات بين المهارات بشكل صريح
قياس النسيان غير الكافي: لا تتمكن العديد من التقييمات من قياس النسيان الكارثي بشكل صحيح عبر مهام التعلم المتسلسلة

المساهمات الأساسية

إطار عمل مبتكر: أول من يدمج نظام المناهج التعليمية البشرية في تقييم التعلم المستمر، مما يوفر هيكل مهارات مستند إلى علم النفس التطوري
مجموعة بيانات اصطناعية واسعة النطاق: بناء مجموعة بيانات اصطناعية متعددة التنسيقات بحجم 23.4 مليار رمز، تغطي 5 مراحل تطويرية، مع تعقيد مفردات وتقدم مهارات قابل للتحكم
نمذجة خريطة المهارات: بناء خريطة تبعيات مهارات صريحة تحتوي على أكثر من 1300 مهارة دقيقة، مما يدعم التحليل الكمي للعلاقات الأساسية
نظام تقييم دقيق: يدعم التقييم المكرر على ثلاثة مستويات: المؤشرات والمهارات والمراحل، قادر على قياس النسيان والنقل وكفاءة العينة بدقة

شرح الطريقة

تعريف المهمة

مهمة التعلم المستمر: بالنظر إلى سلسلة من مهام التعلم المنظمة حسب المراحل التطويرية، يجب على النموذج:

الإدخال: بيانات تدريب متعددة المراحل مسلسلة
الإخراج: الحفاظ على أداء جيدة عبر جميع المراحل
القيود: تقليل النسيان الكارثي، وتعظيم النقل الأمامي والعكسي

معمارية الإطار

1. نظام تصنيف المهارات

بناء هيكل مهارات رباعي الطبقات بناءً على إطاري عمل تعليميين:

المهارات: المجالات عالية المستوى (مثل الرياضيات والعلوم)
المهارات الفرعية: المكونات المحددة (مثل العد والأساسية)
الأهداف: البيانات الواسعة للنتائج المتوقعة للتعلم
المؤشرات: السلوكيات الملموسة والقابلة للملاحظة

2. بناء خريطة المهارات

العقد: أكثر من 1300 مؤشر
الحواف: علاقات التبعية الأساسية، مع أوزان 1-5 تشير إلى قوة التبعية
التحقق: استخدام نموذج لغة كبير للتنبؤ بالعلاقات التبعية، مع التحقق من خلال توزيع الحواف بين المراحل

3. عملية توليد البيانات

بناء البذور:

مجموعات المهارات (skill-tuple)
المفردات المناسبة للعمر (بناءً على بيانات Age-of-Acquisition)
نوع المثيل (IR/CQA/CSQA)
نوع القالب

استراتيجية التوليد:

توليد ≥15 قالب سياق وقالب IR لكل مجموعة مهارات
استخدام نموذج لغة كبير لتوليد مثيلات متنوعة بناءً على البذور
ضمان الملاءمة للعمر والمحاذاة مع المهارات

نقاط الابتكار التقني

مدفوع بعلم النفس التطوري: أول من يدمج منهج Cambridge Primary Curriculum وإطار عمل ELOF في تقييم الذكاء الاصطناعي
نمذجة مهارات متعددة المستويات: تحليل هرمي من المهارات المجردة إلى المؤشرات الملموسة
تحديد كمي للعلاقات التبعية: استخدام رسم بياني موجه مرجح لنمذجة العلاقات الأساسية بين المهارات بشكل صريح
دمج البيانات متعددة التنسيقات: معالجة موحدة للفقرات والأسئلة والاستجابات من خلال قالب دردشة موحد

إعداد التجارب

حجم مجموعة البيانات

المرحلة	عدد المهارات	عدد المهارات الفرعية	عدد الأهداف	عدد المؤشرات	عدد CQA	عدد CSQA	عدد IR	الرموز (مليار)
0	7	24	59	182	1.0M	3.01M	3.30M	2.12
1	7	29	86	292	20.2M	4.04M	4.10M	3.47
2	6	26	67	249	23.5M	4.70M	4.78M	4.56
3	6	26	68	271	31.2M	6.24M	6.29M	6.47
4	6	23	70	349	27.4M	5.49M	5.52M	6.78

مؤشرات التقييم

درجة الصحة: استخدام نموذج لغة كبير لتقييم استجابات النموذج على مقياس 1-5
تحليل النسيان: الفرق بين الأداء المدرب بشكل مشترك والمدرب بشكل مستمر
تأثير النقل: تحليل تغيير الأداء عبر المراحل

إعدادات التدريب

النموذج: SmolLM2 بـ 135 مليون معامل Transformer
أنماط التدريب:
- مستقل: تدريب كل مرحلة بشكل مستقل
- مشترك: تدريب مع خلط بيانات متعددة المراحل
- مستمر: تدريب متسلسل
المعاملات الفائقة: معدل التعلم 5e-3، حجم الدفعة 1536، حقبة واحدة

نتائج التجارب

النتائج الرئيسية

من خريطة الحرارة في الشكل 4 يمكن ملاحظة:

التدريب المستقل (Independent):
- أداء أعلى على المراحل المدربة
- قدرة تعميم محدودة على المراحل غير المدربة
- المرحلة 0 تظهر أفضل أداء عبر جميع مراحل الاختبار (12.62→6.73)
التدريب المشترك (Joint):
- الحفاظ على أداء عالية مستقرة عبر جميع المراحل
- تجنب النسيان الكارثي
- أداء نسبية متوازنة (12.62→9.79)
التدريب المستمر (Continual):
- أفضل أداء في المراحل اللاحقة
- وجود ظاهرة نسيان واضحة
- إظهار أفضل قدرة نقل أمامية

تحليل النسيان

يوضح الشكل 5 الفرق في الأداء بين التدريب المشترك والمستمر:

النقل الأمامي: التدريب المستمر يظهر أداء أفضل في المراحل المستقبلية (المناطق الموجبة)
النسيان الكارثي: انخفاض أداء التدريب المستمر في المراحل المبكرة (المناطق السالبة)
اختلافات التنسيق: مهام IR تعاني من أشد النسيان، بينما CSQA نسبياً أخف

رؤى خريطة المهارات

النتائج الرئيسية:

المهارات ذات الدرجة الخارجية المنخفضة أكثر عرضة للنسيان: مثل "الإدراك والحركة والتطور البدني" و"محو الأمية الرقمية"
تأثير العلاقات التبعية: القدرات التي لها عدد أقل من المهارات الأساسية أكثر عرضة للنسيان في التعلم المستمر
أنماط الاتصال بين المراحل: عدد الحواف من المراحل المنخفضة إلى المراحل العالية أكثر بكثير من الاتجاه المعاكس

التحقق من جودة البيانات

التنوع: معدل الضغط العكسي gzip يظهر تنوع 30.77%-35.60%
معدل إزالة التكرار: معدل إزالة التكرار الدلالي <5%، مما يضمن تفرد المحتوى
قابلية القراءة المتزايدة: تزداد تعقيد النص في كل مرحلة مع نمو العمر

الأعمال ذات الصلة

معايير التعلم المستمر

قيود المعايير الموجودة:

TRACE: المهام بسيطة جداً أو مدرجة بالفعل في مجموعة تدريب نموذج اللغة الكبيرة
MMLM-CL: تفتقر إلى القابلية للتطبيق في العالم الحقيقي
TemporalWiki: التركيز الأساسي على تحديث المعرفة الواقعية
SuperNI: مجموعة مهام معالجة اللغة الطبيعية التقليدية، تفتقر إلى نمذجة التبعيات بين المهارات

الطرق التقنية

Skill-it: اقتراح خوارزمية ترتيب المهارات ذات التعقيد المتزايد
طرق الكفاءة البارامترية: LoRA والمحولات وغيرها من التقنيات لتقليل النسيان
إعادة تشغيل الذاكرة: استخدام العينات التاريخية لتخفيف النسيان

تكمن الفرادة في هذا العمل في:

تنظيم المهارات بناءً على المناهج التطويرية البشرية
خريطة تبعيات مهارات صريحة
توليد بيانات اصطناعية واسعة النطاق وقابلة للتحكم

الخلاصة والمناقشة

الاستنتاجات الرئيسية

أهمية ترتيب البيانات: تغيير ترتيب البيانات وحده يمكن أن يؤثر بشكل كبير على النسيان والتعميم
دور التبعيات بين المهارات: المهارات ذات الدرجة الخارجية المنخفضة أكثر عرضة للنسيان في التعلم المستمر
ضرورة دقة التقييم: يمكن للتقييم الدقيق أن يكشف عن أنماط مهمة مخفية بواسطة المؤشرات الكلية

القيود

قيود البيانات الاصطناعية: استخدام البيانات الاصطناعية بالكامل قد لا يعكس السيناريوهات الحقيقية
حجم النموذج: التحقق فقط على نموذج بـ 135 مليون معامل، قد يختلف سلوك النماذج الكبيرة
غياب التعلم التفاعلي: لا يمكن لمجموعة البيانات الثابتة محاكاة بيئة التعلم التفاعلي الحقيقية
نموذج نمذجة اللغة: يتعلم النموذج التعليمات والاستجابات معاً، وهو لا يتطابق تماماً مع نمط التعلم البشري

الاتجاهات المستقبلية

توسيع نطاق العمر: توسيع الإطار ليشمل سن 14 سنة (مراحل تطويرية أكثر)
التحقق من النماذج الكبيرة: التحقق من الاستنتاجات على نماذج بمليارات المعاملات
دمج البيانات الحقيقية: دمج بيانات تعليمية حقيقية للتحقق من الإطار
البيئات التفاعلية: تطوير بيئات تعليمية تدعم التفاعل الديناميكي

التقييم المتعمق

المميزات

ابتكار قوي: أول من يدمج علم النفس التطوري بشكل منهجي في تقييم التعلم المستمر
حجم البيانات الكبير: مجموعة بيانات بـ 23.4 مليار رمز، تدعم تجارب شاملة
تقييم دقيق: نظام تقييم متعدد المستويات والأبعاد، يوفر رؤى عميقة
قابلية إعادة الإنتاج الجيدة: الكود والبيانات مفتوحة المصدر، تدعم الأبحاث اللاحقة
أساس نظري متين: مستند إلى إطار عمل تعليمي ناضج

أوجه القصور

قيود نطاق التجارب: التحقق فقط على نماذج صغيرة، تعميمية الاستنتاجات تحتاج إلى التحقق
انحيازات البيانات الاصطناعية: قد توجد انحيازات في التوليد، مما يؤثر على موثوقية الاستنتاجات
اعتماد طريقة التقييم: استخدام نموذج لغة كبير للتقييم قد يدخل انحيازات إضافية
جودة خريطة المهارات: قد تكون العلاقات الحدية المتنبأ بها بواسطة نموذج لغة كبير غير دقيقة بما يكفي

التأثير

المساهمة الأكاديمية: توفير نموذج تقييم جديد لأبحاث التعلم المستمر
القيمة العملية: يمكن استخدامها لتقييم وتحسين خوارزميات التعلم المستمر الموجودة
الدلالة الإرشادية: توضيح قيمة الطرق متعددة التخصصات في أبحاث الذكاء الاصطناعي
موارد المجتمع: توفير مجموعة بيانات مفتوحة المصدر وأدوات قيمة

السيناريوهات القابلة للتطبيق

تطوير خوارزميات التعلم المستمر: توفير منصة تقييم موحدة
أنظمة الذكاء الاصطناعي التعليمية: توفير مرجع لتطبيقات الذكاء الاصطناعي في السياقات التعليمية
أبحاث النمذجة المعرفية: دعم النمذجة الحسابية لعمليات التعلم البشري
تقييم قدرات نموذج اللغة الكبيرة: تقييم دقيق لسلوك التعلم والنسيان في النماذج الكبيرة

المراجع

تستشهد الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:

معايير التعلم المستمر: TRACE, MMLM-CL, OCKL وغيرها
الأطر التعليمية: Cambridge Primary Curriculum, ELOF
الطرق التقنية: Skill-it، خوارزميات التعلم المستمر المختلفة
أدوات التقييم: بيانات Age-of-Acquisition، أدوات اختبار القراءة

التقييم الشامل: هذا عمل بحثي عالي الجودة، يدمج بشكل مبتكر علم النفس التطوري البشري في تقييم التعلم المستمر، وينشئ إطار عمل تقييم واسع النطاق ومنظم. على الرغم من وجود بعض القيود، إلا أنه يفتح اتجاهات جديدة لأبحاث التعلم المستمر، ويتمتع بقيمة أكاديمية وعملية مهمة.