2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.
We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
academic

BabyBabelLM: معيار متعدد اللغات للبيانات التدريبية المعقولة من الناحية التطورية

المعلومات الأساسية

  • معرّف الورقة: 2510.10159
  • العنوان: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
  • المؤلفون: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck وسبعة وعشرون مؤلفاً آخر
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: تم تقديمه إلى arXiv في 11 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.10159

الملخص

تقدم هذه الورقة BabyBabelLM، وهي مجموعة من مجموعات البيانات متعددة اللغات، مصممة لمحاكاة البيئة اللغوية التي يتعرض لها الإنسان من الولادة حتى اكتساب اللغة الأم. قام الباحثون بتنظيم بيانات تدريبية معقولة من الناحية التطورية بعناية، بهدف توفير محتوى يعادل مائة مليون كلمة إنجليزية لكل من 45 لغة. تم أيضاً تجميع مجموعة تقييم وتدريب نماذج أساسية لكل لغة. يهدف BabyBabelLM إلى تعزيز البحث في التدريب المسبق متعدد اللغات والنمذجة المعرفية.

السياق البحثي والدافع

تعريف المشكلة

يركز البحث الحالي في نماذج اللغة بشكل أساسي على توسيع النطاق، بسعي لنماذج أكبر وبيانات تدريبية أكثر، لكن هذا الاتجاه يتجاهل الأسئلة الأساسية حول جوهر تعلم اللغة. يكتسب الإنسان القدرة اللغوية من مرحلة الرضاعة إلى مرحلة البلوغ من خلال التعرض لأقل من مائة مليون كلمة إنجليزية، مما يشكل فرقاً بعدة رتب من حيث الحجم مقارنة بنماذج اللغة الحديثة التي تتطلب أكثر من مائة تريليون كلمة.

الدافع البحثي

  1. مشكلة كفاءة البيانات: استكشاف كيفية تحقيق نمذجة لغوية فعالة ضمن ميزانية بيانات محدودة
  2. المعقولية التطورية: دراسة تكوين بيانات التدريب المتوافقة مع عملية اكتساب اللغة البشرية
  3. التغطية متعددة اللغات: توسيع نطاق تحدي BabyLM من اللغة الإنجليزية إلى بيئة متعددة اللغات
  4. النمذجة المعرفية: توفير موارد لفهم العلاقة بين اكتساب اللغة البشرية وتعلم نماذج اللغة

قيود الطرق الموجودة

  • يقتصر تحدي BabyLM على اللغة الإنجليزية، مما يفتقد التحقق عبر اللغات
  • نقص مجموعات البيانات المنهجية متعددة اللغات المعقولة من الناحية التطورية
  • معظم الأبحاث الموجودة تمثل جهوداً منفصلة، تفتقد معايير جمع البيانات المتسقة
  • توزيع غير متساوٍ للموارد التقييمية عبر اللغات المختلفة

المساهمات الأساسية

  1. بناء مجموعة بيانات تدريب معقولة من الناحية التطورية تغطي 45 لغة، مقسمة إلى ثلاث فئات حسب حجم البيانات (100 مليون، 10 ملايين، 1 مليون كلمة إنجليزية معادلة)
  2. توفير خط أنابيب توسيع مفتوح المصدر يدعم المجتمع في إضافة لغات جديدة وتوسيع مجموعات البيانات الموجودة
  3. تجميع مجموعة تقييم شاملة متعددة اللغات تغطي القدرات اللغوية الرسمية والوظيفية
  4. تدريب 45 نموذجاً أحادي اللغة و7 نماذج ثنائية اللغة ونموذج واحد متعدد اللغات كخطوط أساسية
  5. إنشاء إطار عمل تعاوني يقوده المجتمع لتعزيز توسيع وتحسين مجموعة البيانات بشكل مستمر

شرح الطريقة

مبادئ جمع البيانات

معايير المعقولية التطورية

  • اللغة الموجهة للأطفال (CDS): نسخ محادثات الكبار مع الأطفال
  • المواد التعليمية: الكتب المدرسية والاختبارات الموجهة للأطفال
  • وسائط الأطفال: كتب الأطفال وويكي الأطفال وأخبار الأطفال
  • محتوى الترجمات: ترجمات أفلام وبرامج تلفزيونية مناسبة للأطفال
  • استبعاد البيانات الاصطناعية: تجنب استخدام المحتوى المولد بشكل مصطنع مثل TinyStories

قيادة البيانات التي يقودها المجتمع

يتولى جمع البيانات لكل لغة باحثون مألوفون بتلك اللغة، مما يضمن جودة البيانات والملاءمة الثقافية.

تكوين مجموعة البيانات

فئات البيانات

  1. بيانات النسخ (Transcription)
    • اللغة الموجهة للأطفال: التفاعلات بين مقدمي الرعاية والأطفال من قاعدة بيانات CHILDES
    • اللغة المتاحة للأطفال: محادثات الكبار التي قد يسمعها الأطفال بشكل عرضي
  2. المحتوى التعليمي (Education)
    • الكتب المدرسية الموجهة للأطفال ومواد الاختبارات
    • توفير تعليماً مباشراً، يكمل الأنماط اللغوية الرسمية في CDS
  3. الكتب والويكي والأخبار (Books, Wiki, News)
    • كتب الأطفال ومقالات ويكي الأطفال وأخبار الأطفال
    • تحتوي على هياكل جملة أكثر تعقيداً ومفردات متنوعة
  4. الترجمات (Subtitles)
    • ترجمات الأفلام والبرامج التلفزيونية المناسبة للأطفال
    • محتوى تعليمي من قاعدة بيانات QED
  5. بيانات الملء (Padding)
    • قاعدة بيانات OpenSubtitles (مع تصفية المحتوى غير المناسب)
    • بيانات FineWeb-C وويكيبيديا كخيار احتياطي

التدرج اللغوي

  • المستوى الأول (Tier 1): 9 لغات، حوالي 100 مليون كلمة إنجليزية معادلة
  • المستوى الثاني (Tier 2): 15 لغة، حوالي 10 ملايين كلمة إنجليزية معادلة
  • المستوى الثالث (Tier 3): 21 لغة، حوالي 1 مليون كلمة إنجليزية معادلة

معالجة البيانات المسبقة

المعالجة المسبقة الخاصة باللغة

يقوم مسؤول اللغة بالمعالجة الأولية وفقاً للغة المحددة واحتياجات البيانات.

خط الأنابيب الموحد للمعالجة

  1. التطبيع: تطبيع Unicode والمسافات البيضاء والعلامات الترقيمية
  2. المعالجة الخاصة بالفئة:
    • نسخ المحادثات: إزالة التعليقات اللسانية
    • بيانات الترجمات: إزالة تسميات المتحدثين والرموز الموسيقية والتعليمات المسرحية
    • تنسيقات الكتب: إزالة علامات XML والعناوين
  3. التحقق من اللغة: استخدام GlotLID v3 للتعرف على اللغة والتحقق منها

إعداد التجارب

تكوين النموذج

  • النماذج أحادية اللغة: معمارية GPT-2، 4 طبقات محول، 8 رؤوس انتباه، بُعد مخفي 512
  • النماذج ثنائية اللغة: دمج بيانات اللغة المستهدفة والإنجليزية (200 مليون كلمة مجتمعة)
  • النموذج متعدد اللغات: 12 طبقة، بُعد مخفي 768، حجم المفردات 32,768، 111 مليون معامل
  • حجم المفردات: 8,192 (أحادي اللغة)، 32,768 (متعدد اللغات)
  • استراتيجية التدريب: ترميز BPE، 10 حقب (أحادي اللغة)، 5 حقب (ثنائي اللغة)، حقبة واحدة (متعدد اللغات)

إطار التقييم

القدرات اللغوية الرسمية

  • MonoBLiMP: معايير المقارنة الدنيا الخاصة باللغة
  • MultiBLiMP: مجموعة بيانات مقارنة دنيا واسعة النطاق بناءً على Universal Dependencies
  • CLAMS: معيار اتفاق الفاعل والفعل عبر اللغات

القدرات اللغوية الوظيفية

  • المهام المعرفية: Global-MMLU, INCLUDE, BM-LAMA
  • مهام الاستدلال: XNLI, HellaSwag, Belebele, ARC, XCOPA وغيرها

طرق التقييم

  • التقييم بدون عينات: مقارنة دنيا بناءً على احتمالية مخرجات النموذج
  • التقييم بالضبط الدقيق: مهام التصنيف والإجابة على الأسئلة، بحد أقصى 8000 عينة تدريب، 10 حقب

الطرق المقارنة

  • النماذج الأساسية: الأداء العشوائي
  • نماذج المقارنة: Qwen3-0.6B (نموذج متعدد اللغات بحجم معتدل)
  • مقارنة المعمارية: GPT-BERT مقابل GPT-2

نتائج التجارب

النتائج الرئيسية

أداء النماذج أحادية اللغة

  • مهام MultiBLiMP: عادة ما تتجاوز لغات المستوى الأول دقة 80%، مما يدل على قدرة تعلم نحوي جيدة
  • المعايير الأخرى: أداء معظم المهام قريبة من المستوى العشوائي، مما يعكس قيود حجم البيانات
  • تأثير حجم البيانات: المستوى الأول > المستوى الثاني > المستوى الثالث، مما يدل على أهمية حجم البيانات للأداء

مقارنة متعدد اللغات مقابل أحادي اللغة

  • MultiBLiMP: عادة ما تتفوق النماذج أحادية اللغة على نماذج متعددة اللغات، باستثناء 4 لغات من المستوى الثالث
  • Belebele: كلا النموذجين قريب من المستوى العشوائي، بينما يُظهر Qwen أداءً أفضل بشكل ملحوظ
  • الاتجاه العام: يتفوق Qwen على نماذج هذه الورقة في معظم المهام، لكن النموذج متعدد اللغات في هذه الورقة أقوى في 8 لغات

تأثير النماذج ثنائية اللغة

  • المهام الكثيفة المعرفية: SIB-200, BM-LAMA, XCOMPS, INCLUDE تُظهر تحسناً متسقاً في الأداء
  • المهام النحوية: أداء MultiBLiMP تبقى دون تغيير بشكل أساسي، مما يشير إلى أن القدرة النحوية ليست حساسة جداً للمدخلات ثنائية اللغة
  • حالات خاصة: اللغة الهولندية تُظهر انخفاضاً طفيفاً في مهمة INCLUDE، ربما بسبب عدم توافق المجال

التجارب الاستئصالية

مقارنة المعمارية (GPT-2 مقابل GPT-BERT)

  • يتفوق نموذج GPT-2 بشكل متسق على GPT-BERT في مهام SIB-200 و MultiBLiMP
  • تشير النتائج إلى أن معمارية GPT-2 أكثر ملاءمة لتدريب البيانات الصغيرة في الإعداد الحالي

تحليل التغطية اللغوية

  • لغات المستوى الأول: الصينية والفرنسية والبلغارية وغيرها، تتمتع ببيانات تطورية معقولة نسبياً غنية
  • لغات المستوى الثاني: اليابانية والصربية والكانتونية وغيرها، بيانات متوسطة الحجم
  • لغات المستوى الثالث: في الغالب لغات محدودة الموارد، تعتمد بشكل أساسي على موارد متعددة اللغات للملء

الأعمال ذات الصلة

تحدي BabyLM

  • الإصدار الأول: مدونة إنجليزية بـ 10 ملايين و100 مليون كلمة، 39% بيانات معقولة من الناحية التطورية
  • الإصدار الثاني: تحسين إلى 70% بيانات موجهة للأطفال
  • طرق التقييم: مقارنة دنيا بدون عينات وتقييم بالضبط الدقيق

جهود التوسيع متعدد اللغات

  • Salhan وآخرون (2024): تعلم المناهج الدراسية المستوحاة من الاكتساب للفرنسية والألمانية واليابانية والصينية
  • Prévot وآخرون (2024): بحث مدونة الكلام التلقائي للإنجليزية والفرنسية
  • Matzopoulos وآخرون (2025): بحث BabyLM لـ isiXhosa، يبرز تحديات اللغات منخفضة الموارد

الموارد متعددة اللغات الموجودة

  • CHILDES: قاعدة بيانات تفاعلات الأطفال والكبار بأكثر من 40 لغة
  • MAO-CHILDES: مجموعة بيانات مرتبة حسب العمر بـ 5 لغات
  • IPA-CHILDES: مدونة صوتية بـ 31 لغة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. التحقق من الجدوى: نجح في بناء مجموعة بيانات معقولة من الناحية التطورية لـ 45 لغة، مما يثبت جدوى البحث متعدد اللغات في BabyLM
  2. تأثير حجم البيانات: المزيد من البيانات المعقولة من الناحية التطورية يحسن بالفعل قدرة التعلم النحوي، خاصة في مهام MultiBLiMP
  3. فوائد التدريب ثنائي اللغة: يجلب التدريب ثنائي اللغة تحسناً متسقاً في الأداء في المهام الكثيفة المعرفية
  4. اختيار المعمارية: في إعدادات البيانات الصغيرة، تتفوق معمارية GPT-2 على GPT-BERT

القيود

  1. عدم التوازن في التغطية اللغوية: على الرغم من تغطية 45 لغة، لا تزال اللغات الأفريقية واللغات الصغيرة ممثلة بشكل ناقص
  2. اختلافات تكوين البيانات: تختلف نسبة البيانات المعقولة من الناحية التطورية بشكل كبير عبر اللغات المختلفة، مما قد يؤثر على المقارنات عبر اللغات
  3. قيود موارد التقييم: نقص معايير التقييم الموحدة التي تغطي جميع اللغات
  4. تقريب البيانات: مجموعة البيانات هي فقط تقريب تقريبي للمدخلات اللغوية الحقيقية للأطفال

الاتجاهات المستقبلية

  1. توسيع التغطية اللغوية: خاصة اللغات الأفريقية واللغات الأخرى منخفضة الموارد
  2. تحسين جودة البيانات: جمع المزيد من بيانات اللغة الموجهة للأطفال عالية الجودة
  3. توحيد التقييم: تطوير إطار تقييم متسق عبر اللغات
  4. بحث القدرات متعددة اللغات: دراسة متعمقة لآليات اكتساب اللغات الثنائية والمتعددة

التقييم المتعمق

المميزات

  1. مساهمة منهجية: أول بناء منهجي لمجموعة بيانات معقولة من الناحية التطورية على نطاق واسع متعدد اللغات
  2. توجه المجتمع: إنشاء إطار عمل لجمع البيانات مستدام يقوده المجتمع
  3. صرامة منهجية: استخدام طريقة الفائض البايت لضمان قابلية المقارنة بين حجم البيانات عبر اللغات
  4. قوة الانفتاح: توفير البيانات والأكواد والنماذج الكاملة، مما يعزز البحث القابل للتكرار
  5. قيمة عملية عالية: توفير موارد مهمة لأبحاث النمذجة المعرفية متعددة اللغات وكفاءة البيانات

أوجه القصور

  1. تباين جودة البيانات: اختلافات كبيرة في نسبة البيانات المعقولة من الناحية التطورية عبر اللغات المختلفة
  2. أداء النموذج المحدودة: أداء النماذج الأساسية قريبة من المستوى العشوائي في معظم المهام
  3. عدم اكتمال تغطية التقييم: بعض اللغات تفتقد معايير تقييم كافية
  4. نقص التحليل النظري: نقص التحليل المتعمق لسبب تفوق بعض اللغات أو المهام

التأثير

  1. مساهمة المجال: ملء الفراغ في مجموعات البيانات المعقولة من الناحية التطورية متعددة اللغات، وتعزيز تطور الأبحاث ذات الصلة
  2. القيمة العملية: توفير نقطة انطلاق مهمة لأبحاث نماذج اللغة للغات منخفضة الموارد
  3. قابلية التكرار: ضمان موارد مفتوحة المصدر كاملة قابلية التكرار والتوسع للبحث
  4. بناء المجتمع: إنشاء إطار عمل تعاوني مستدام يعزز التطور طويل الأجل

سيناريوهات التطبيق

  1. أبحاث اللسانيات المعرفية: استكشاف العلاقة بين اكتساب اللغة البشرية وتعلم الآلة
  2. نمذجة اللغات منخفضة الموارد: توفير نقطة انطلاق تدريب مهمة للغات الموارد الناقصة
  3. التعليم متعدد اللغات: دعم أبحاث التعلم ثنائي اللغة ومتعدد اللغات
  4. أبحاث كفاءة البيانات: دراسة استراتيجيات تدريب النموذج ضمن ميزانية بيانات محدودة

نقاط الابتكار التقني

ابتكار جمع البيانات

  1. معايرة فائض البايت: استخدام حجم ترميز UTF-8 لتعديل حجم البيانات عبر اللغات المختلفة، مما يضمن المقارنة العادلة
  2. التنظيم الهرمي للبيانات: تقسيم اللغات إلى ثلاث طبقات حسب حجم البيانات المتاحة، موازنة التغطية وجودة البيانات
  3. التحكم في الجودة الذي يقوده المجتمع: كل لغة يتولاها متحدث أصلي أو مستخدم ماهر، مما يضمن الملاءمة الثقافية واللغوية

ابتكار إطار التقييم

  1. التقييم ثنائي الوسيط: دمج التقييم بدون عينات والتقييم بالضبط الدقيق، اختبار شامل لقدرات النموذج
  2. الاتساق عبر اللغات: استخدام أدوات مثل MultiBLiMP لضمان قابلية المقارنة عبر اللغات للتقييم
  3. تقييم تصنيف القدرات: التمييز بين تقييم القدرات اللغوية الرسمية والوظيفية

ممارسات العلوم المفتوحة

  1. نشر الموارد الكاملة: البيانات والأكواد والنماذج جميعها مفتوحة المصدر
  2. التصميم القابل للتوسع: توفير خط أنابيب موحد يدعم مساهمات المجتمع
  3. التوثيق الشفاف: معلومات تفصيلية عن مصادر البيانات والترخيص والمعالجة المسبقة

يمثل هذا العمل مساهمة مهمة في مجال البحث متعدد اللغات في نماذج اللغة والمجال المتقاطع بين اللسانيات المعرفية، وقد أنشأ منصة بحثية قابلة للتطور المستمر، من المتوقع أن يعزز الفهم العميق لآليات اكتساب اللغة البشرية.