2025-11-24T05:22:18.264640

BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data

Jumelet, Fourtassi, Haga et al.
We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
academic

BabyBabelLM: विकासात्मक रूप से प्रशंसनीय प्रशिक्षण डेटा का बहुभाषी बेंचमार्क

बुनियादी जानकारी

  • पेपर ID: 2510.10159
  • शीर्षक: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
  • लेखक: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck और 27 अन्य लेखक
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन तिथि: 11 अक्टूबर 2025 को arXiv पर प्रस्तुत
  • पेपर लिंक: https://arxiv.org/abs/2510.10159

सारांश

यह पेपर BabyBabelLM प्रस्तुत करता है, जो एक बहुभाषी डेटासेट संग्रह है जो जन्म से मातृभाषा अधिग्रहण तक मनुष्यों द्वारा सामना किए जाने वाले भाषाई वातावरण को अनुकरण करने के लिए डिज़ाइन किया गया है। शोधकर्ताओं ने विकासात्मक रूप से प्रशंसनीय पूर्व-प्रशिक्षण डेटा को सावधानीपूर्वक क्यूरेट किया है, जिसका लक्ष्य 45 भाषाओं में से प्रत्येक के लिए 100 मिलियन अंग्रेजी शब्दों के समकक्ष सामग्री प्रदान करना है। साथ ही, एक मूल्यांकन सूट संकलित किया गया है और प्रत्येक भाषा के लिए आधारभूत मॉडल प्रशिक्षित किए गए हैं। BabyBabelLM का उद्देश्य बहुभाषी पूर्व-प्रशिक्षण और संज्ञानात्मक मॉडलिंग अनुसंधान को बढ़ावा देना है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वर्तमान भाषा मॉडल अनुसंधान मुख्य रूप से स्केल विस्तार पर केंद्रित है, बड़े मॉडल और अधिक प्रशिक्षण डेटा की मांग करता है, लेकिन यह प्रवृत्ति भाषा सीखने के मौलिक प्रश्नों को नजरअंदाज करती है। मनुष्य शैशवावस्था से वयस्कता तक 100 मिलियन अंग्रेजी शब्दों से कम के संपर्क में आकर भाषा क्षमता प्राप्त करते हैं, जो 100 ट्रिलियन से अधिक शब्दों की आवश्यकता वाले आधुनिक भाषा मॉडल से कई परिमाण का अंतर दर्शाता है।

अनुसंधान प्रेरणा

  1. डेटा दक्षता समस्या: सीमित डेटा बजट के तहत कुशल भाषा मॉडलिंग कैसे प्राप्त करें इसका अन्वेषण
  2. विकासात्मक प्रशंसनीयता: मानव भाषा अधिग्रहण प्रक्रिया के अनुरूप प्रशिक्षण डेटा संरचना का अध्ययन
  3. बहुभाषी कवरेज: BabyLM चुनौती के दायरे को अंग्रेजी से बहुभाषी वातावरण तक विस्तारित करना
  4. संज्ञानात्मक मॉडलिंग: मानव भाषा अधिग्रहण और भाषा मॉडल सीखने के बीच संबंध को समझने के लिए संसाधन प्रदान करना

मौजूदा विधियों की सीमाएं

  • BabyLM चुनौती केवल अंग्रेजी तक सीमित है, भाषा-पार सत्यापन की कमी है
  • व्यवस्थित बहुभाषी विकासात्मक प्रशंसनीय डेटासेट की कमी
  • मौजूदा अनुसंधान अधिकांशतः अलग-अलग प्रयास हैं, समन्वित डेटा संग्रह मानकों की कमी
  • मूल्यांकन संसाधन विभिन्न भाषाओं में असमान रूप से वितरित हैं

मुख्य योगदान

  1. 45 भाषाओं को कवर करने वाले विकासात्मक प्रशंसनीय पूर्व-प्रशिक्षण डेटासेट का निर्माण, डेटा मात्रा के आधार पर तीन स्तरों में विभाजित (100M, 10M, 1M अंग्रेजी समकक्ष शब्द)
  2. खुले स्रोत डेटा विस्तार पाइपलाइन प्रदान करना, जो समुदाय को नई भाषाएं जोड़ने और मौजूदा डेटासेट विस्तारित करने का समर्थन करता है
  3. व्यापक बहुभाषी मूल्यांकन सूट संकलित करना, जो औपचारिक और कार्यात्मक भाषा क्षमता को कवर करता है
  4. 45 एकभाषी मॉडल, 7 द्विभाषी मॉडल और 1 बहुभाषी मॉडल प्रशिक्षित करना आधारभूत के रूप में
  5. समुदाय-संचालित सहयोग ढांचा स्थापित करना, जो निरंतर डेटासेट विस्तार और सुधार को बढ़ावा देता है

विधि विवरण

डेटा संग्रह सिद्धांत

विकासात्मक प्रशंसनीयता मानदंड

  • बाल-निर्देशित भाषण (CDS): वयस्कों द्वारा बच्चों से बोली जाने वाली भाषा का प्रतिलेखन
  • शैक्षिक सामग्री: बच्चों के लिए पाठ्यपुस्तकें और परीक्षा सामग्री
  • बाल मीडिया: बाल पुस्तकें, बाल विकिपीडिया, बाल समाचार
  • उपशीर्षक सामग्री: बच्चों के लिए उपयुक्त फिल्म/टीवी शो के उपशीर्षक
  • सिंथेटिक डेटा को बाहर रखना: TinyStories जैसी कृत्रिम रूप से उत्पन्न सामग्री से बचना

समुदाय-संचालित डेटा नेतृत्व

प्रत्येक भाषा के लिए डेटा संग्रह उस भाषा से परिचित शोधकर्ताओं द्वारा किया जाता है, जो डेटा गुणवत्ता और सांस्कृतिक अनुकूलन सुनिश्चित करता है।

डेटासेट संरचना

डेटा श्रेणियां

  1. प्रतिलेखन डेटा (Transcription)
    • बाल-निर्देशित भाषण: CHILDES डेटाबेस में देखभालकर्ता-बाल अंतःक्रिया
    • बाल-सुलभ भाषण: वयस्क संवाद, जिसे बच्चे अनजाने में सुन सकते हैं
  2. शैक्षिक सामग्री (Education)
    • बच्चों के लिए पाठ्यपुस्तकें, परीक्षा सामग्री
    • प्रत्यक्ष निर्देश प्रदान करता है, CDS के औपचारिक भाषा पैटर्न को पूरक करता है
  3. पुस्तकें, विकिपीडिया, समाचार (Books, Wiki, News)
    • बाल पुस्तकें, बाल विकिपीडिया लेख, बाल समाचार
    • अधिक जटिल वाक्य संरचना और विविध शब्दावली शामिल करता है
  4. उपशीर्षक (Subtitles)
    • बच्चों के लिए उपयुक्त फिल्म/टीवी शो के उपशीर्षक
    • QED कॉर्पस में शैक्षिक सामग्री के उपशीर्षक
  5. भरण डेटा (Padding)
    • OpenSubtitles कॉर्पस (अनुपयुक्त सामग्री को फ़िल्टर किया गया)
    • FineWeb-C और विकिपीडिया डेटा बैकअप के रूप में

भाषा स्तरीकरण

  • प्रथम स्तर (Tier 1): 9 भाषाएं, लगभग 100 मिलियन अंग्रेजी समकक्ष शब्द
  • द्वितीय स्तर (Tier 2): 15 भाषाएं, लगभग 10 मिलियन अंग्रेजी समकक्ष शब्द
  • तृतीय स्तर (Tier 3): 21 भाषाएं, लगभग 1 मिलियन अंग्रेजी समकक्ष शब्द

डेटा पूर्व-प्रसंस्करण

भाषा-विशिष्ट पूर्व-प्रसंस्करण

भाषा नेता द्वारा विशिष्ट भाषा और डेटा आवश्यकताओं के अनुसार प्रारंभिक प्रसंस्करण किया जाता है।

एकीकृत प्रसंस्करण पाइपलाइन

  1. मानकीकरण: यूनिकोड, व्हाइटस्पेस, विराम चिह्न सामान्यीकरण
  2. श्रेणी-विशिष्ट प्रसंस्करण:
    • संवाद प्रतिलेखन: भाषाविज्ञान संकेतन हटाना
    • उपशीर्षक डेटा: वक्ता लेबल, संगीत प्रतीक, मंच निर्देश हटाना
    • पुस्तक प्रारूप: XML टैग और URL हटाना
  3. भाषा सत्यापन: GlotLID v3 का उपयोग करके भाषा पहचान और सत्यापन

प्रयोगात्मक सेटअप

मॉडल कॉन्फ़िगरेशन

  • एकभाषी मॉडल: GPT-2 आर्किटेक्चर, 4 ट्रांसफॉर्मर परतें, 8 ध्यान सिर, छिपी हुई आयाम 512
  • द्विभाषी मॉडल: लक्ष्य भाषा और अंग्रेजी डेटा को जोड़ता है (कुल 200M शब्द)
  • बहुभाषी मॉडल: 12 परतें, छिपी हुई आयाम 768, शब्दावली आकार 32,768, 111M पैरामीटर
  • शब्दावली आकार: 8,192 (एकभाषी), 32,768 (बहुभाषी)
  • प्रशिक्षण रणनीति: BPE टोकनाइजेशन, 10 epoch (एकभाषी), 5 epoch (द्विभाषी), 1 epoch (बहुभाषी)

मूल्यांकन ढांचा

औपचारिक भाषा क्षमता

  • MonoBLiMP: भाषा-विशिष्ट न्यूनतम विपरीत बेंचमार्क
  • MultiBLiMP: Universal Dependencies पर आधारित बड़े पैमाने पर न्यूनतम विपरीत डेटासेट
  • CLAMS: क्रॉस-भाषीय विषय-क्रिया समझौता बेंचमार्क

कार्यात्मक भाषा क्षमता

  • ज्ञान-आधारित कार्य: Global-MMLU, INCLUDE, BM-LAMA
  • तर्क-आधारित कार्य: XNLI, HellaSwag, Belebele, ARC, XCOPA आदि

मूल्यांकन विधि

  • शून्य-शॉट मूल्यांकन: मॉडल आउटपुट संभावना के आधार पर न्यूनतम विपरीत
  • सूक्ष्म-ट्यूनिंग मूल्यांकन: वर्गीकरण और प्रश्नोत्तर कार्य, अधिकतम 8000 प्रशिक्षण नमूने, 10 epoch

तुलनात्मक विधियां

  • आधारभूत मॉडल: यादृच्छिक प्रदर्शन
  • तुलनात्मक मॉडल: Qwen3-0.6B (आकार में उपयुक्त बहुभाषी मॉडल)
  • आर्किटेक्चर तुलना: GPT-BERT बनाम GPT-2

प्रयोगात्मक परिणाम

मुख्य परिणाम

एकभाषी मॉडल प्रदर्शन

  • MultiBLiMP कार्य: प्रथम स्तर की भाषाएं आमतौर पर 80% से अधिक सटीकता प्राप्त करती हैं, अच्छी व्याकरण सीखने की क्षमता दर्शाती हैं
  • अन्य बेंचमार्क: अधिकांश कार्यों पर प्रदर्शन यादृच्छिक स्तर के करीब है, डेटा आकार सीमा को प्रतिबिंबित करता है
  • डेटा आकार प्रभाव: प्रथम स्तर > द्वितीय स्तर > तृतीय स्तर, डेटा मात्रा के प्रदर्शन पर महत्वपूर्ण प्रभाव दर्शाता है

बहुभाषी बनाम एकभाषी तुलना

  • MultiBLiMP: एकभाषी मॉडल आमतौर पर बहुभाषी मॉडल से बेहतर होते हैं, तृतीय स्तर की 4 भाषाओं को छोड़कर
  • Belebele: दोनों मॉडल यादृच्छिक स्तर के करीब हैं, जबकि Qwen काफी बेहतर प्रदर्शन करता है
  • समग्र प्रवृत्ति: Qwen अधिकांश कार्यों पर इस पेपर के मॉडल से आगे है, लेकिन 8 भाषाओं पर इस पेपर का बहुभाषी मॉडल अधिक मजबूत है

द्विभाषी मॉडल प्रभाव

  • ज्ञान-गहन कार्य: SIB-200, BM-LAMA, XCOMPS, INCLUDE सुसंगत प्रदर्शन सुधार दर्शाते हैं
  • व्याकरण कार्य: MultiBLiMP प्रदर्शन मूलतः अपरिवर्तित रहता है, यह दर्शाता है कि वाक्य रचना क्षमता द्विभाषी इनपुट के प्रति कम संवेदनशील है
  • विशेष मामला: डच भाषा INCLUDE कार्य पर थोड़ी गिरावट दर्शाती है, संभवतः डोमेन बेमेल के कारण

विलोपन प्रयोग

आर्किटेक्चर तुलना (GPT-2 बनाम GPT-BERT)

  • GPT-2 मॉडल SIB-200 और MultiBLiMP कार्यों पर लगातार GPT-BERT से बेहतर होते हैं
  • परिणाम दर्शाते हैं कि वर्तमान कॉन्फ़िगरेशन में GPT-2 आर्किटेक्चर छोटे पैमाने के डेटा प्रशिक्षण के लिए अधिक उपयुक्त है

भाषा कवरेज विश्लेषण

  • प्रथम स्तर की भाषाएं: चीनी, फ्रेंच, बल्गेरियाई आदि, जिनके पास अपेक्षाकृत समृद्ध विकासात्मक प्रशंसनीय डेटा है
  • द्वितीय स्तर की भाषाएं: जापानी, सर्बियाई, कैंटोनीज़ आदि, मध्यम डेटा मात्रा
  • तृतीय स्तर की भाषाएं: अधिकांशतः संसाधन-सीमित भाषाएं, मुख्य रूप से बहुभाषी संसाधन भरण पर निर्भर

संबंधित कार्य

BabyLM चुनौती

  • प्रथम संस्करण: 10M और 100M शब्दों की अंग्रेजी कॉर्पस, 39% विकासात्मक प्रशंसनीय डेटा
  • द्वितीय संस्करण: 70% बाल-निर्देशित डेटा तक वृद्धि
  • मूल्यांकन विधि: शून्य-शॉट न्यूनतम विपरीत और सूक्ष्म-ट्यूनिंग मूल्यांकन

बहुभाषी विस्तार प्रयास

  • Salhan आदि (2024): फ्रेंच, जर्मन, जापानी, चीनी के लिए अधिग्रहण-प्रेरित पाठ्यक्रम सीखना
  • Prévot आदि (2024): अंग्रेजी और फ्रेंच के स्वतःस्फूर्त भाषण कॉर्पस अनुसंधान
  • Matzopoulos आदि (2025): isiXhosa के लिए BabyLM अनुसंधान, कम-संसाधन भाषा चुनौतियों को उजागर करता है

मौजूदा बहुभाषी संसाधन

  • CHILDES: 40 से अधिक भाषाओं में बाल-वयस्क अंतःक्रिया डेटाबेस
  • MAO-CHILDES: 5 भाषाओं का आयु-क्रमबद्ध डेटासेट
  • IPA-CHILDES: 31 भाषाओं का फोनीमाइज़्ड कॉर्पस

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. व्यवहार्यता सत्यापन: 45 भाषाओं का विकासात्मक प्रशंसनीय डेटासेट सफलतापूर्वक निर्मित किया गया, बहुभाषी BabyLM अनुसंधान की व्यवहार्यता साबित करता है
  2. डेटा मात्रा प्रभाव: अधिक विकासात्मक प्रशंसनीय डेटा वास्तव में व्याकरण सीखने की क्षमता को बढ़ाता है, विशेषकर MultiBLiMP कार्यों पर
  3. द्विभाषी लाभ: ज्ञान-गहन कार्यों पर, द्विभाषी प्रशिक्षण सुसंगत प्रदर्शन सुधार लाता है
  4. आर्किटेक्चर चयन: छोटे पैमाने के डेटा सेटिंग में, GPT-2 आर्किटेक्चर GPT-BERT से बेहतर है

सीमाएं

  1. भाषा कवरेज असमानता: 45 भाषाओं को कवर करने के बावजूद, अफ्रीकी भाषाएं और अल्पसंख्यक भाषाएं अभी भी अपर्याप्त प्रतिनिधित्व वाली हैं
  2. डेटा संरचना भिन्नता: विभिन्न भाषाओं में विकासात्मक प्रशंसनीय डेटा के अनुपात में महत्वपूर्ण भिन्नता है, जो भाषा-पार तुलना को प्रभावित कर सकती है
  3. मूल्यांकन संसाधन सीमा: सभी भाषाओं को कवर करने वाले मानकीकृत मूल्यांकन बेंचमार्क की कमी
  4. डेटा सन्निकटन: डेटासेट वास्तविक बाल भाषा इनपुट का केवल एक मोटा अनुमान है

भविष्य की दिशाएं

  1. भाषा कवरेज विस्तार: विशेषकर अफ्रीकी भाषाएं और अन्य कम-संसाधन भाषाएं
  2. डेटा गुणवत्ता सुधार: अधिक उच्च-गुणवत्ता वाले बाल-निर्देशित भाषण डेटा संग्रह
  3. मानकीकृत मूल्यांकन: भाषा-पार सुसंगत मूल्यांकन ढांचा विकास
  4. बहुभाषी क्षमता अनुसंधान: द्विभाषी और बहुभाषी अधिग्रहण तंत्र का गहन अध्ययन

गहन मूल्यांकन

शक्तियां

  1. व्यवस्थित योगदान: बड़े पैमाने पर बहुभाषी विकासात्मक प्रशंसनीय डेटासेट का पहला व्यवस्थित निर्माण
  2. समुदाय-उन्मुख: टिकाऊ समुदाय-संचालित डेटा संग्रह ढांचा स्थापित करता है
  3. पद्धति कठोरता: बाइट-समतुल्य विधि का उपयोग करके भाषा-पार डेटा मात्रा की तुलनीयता सुनिश्चित करता है
  4. उच्च खुलापन: पूर्ण डेटा, कोड और मॉडल प्रदान करता है, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है
  5. उच्च व्यावहारिक मूल्य: बहुभाषी संज्ञानात्मक मॉडलिंग और डेटा दक्षता अनुसंधान के लिए महत्वपूर्ण संसाधन प्रदान करता है

कमियां

  1. डेटा गुणवत्ता असमानता: विभिन्न भाषाओं में विकासात्मक प्रशंसनीय डेटा के अनुपात में महत्वपूर्ण भिन्नता
  2. सीमित मॉडल प्रदर्शन: आधारभूत मॉडल अधिकांश कार्यों पर यादृच्छिक स्तर के करीब प्रदर्शन करते हैं
  3. अधूरा मूल्यांकन कवरेज: कुछ भाषाओं में पर्याप्त मूल्यांकन बेंचमार्क की कमी
  4. अपर्याप्त सैद्धांतिक विश्लेषण: कुछ भाषाओं या कार्यों के बेहतर प्रदर्शन के कारणों का गहन विश्लेषण नहीं

प्रभाव

  1. क्षेत्र योगदान: बहुभाषी विकासात्मक प्रशंसनीय डेटासेट के रिक्त स्थान को भरता है, संबंधित अनुसंधान विकास को बढ़ावा देता है
  2. व्यावहारिक मूल्य: कम-संसाधन भाषाओं के भाषा मॉडल अनुसंधान के लिए महत्वपूर्ण प्रारंभिक बिंदु प्रदान करता है
  3. पुनरुत्पादनीयता: पूर्ण खुले स्रोत संसाधन अनुसंधान की पुनरुत्पादनीयता और विस्तारशीलता सुनिश्चित करता है
  4. समुदाय निर्माण: टिकाऊ सहयोग ढांचा स्थापित करता है, दीर्घकालीन विकास को बढ़ावा देता है

लागू परिदृश्य

  1. संज्ञानात्मक भाषाविज्ञान अनुसंधान: मानव भाषा अधिग्रहण और मशीन लर्निंग के बीच संबंध का अन्वेषण
  2. कम-संसाधन भाषा मॉडलिंग: संसाधन-सीमित भाषाओं के लिए प्रशिक्षण का प्रारंभिक बिंदु प्रदान करता है
  3. बहुभाषी शिक्षा: द्विभाषी और बहुभाषी सीखने के अनुसंधान का समर्थन करता है
  4. डेटा दक्षता अनुसंधान: सीमित डेटा बजट के तहत मॉडल प्रशिक्षण रणनीति अनुसंधान

तकनीकी नवाचार बिंदु

डेटा संग्रह नवाचार

  1. बाइट-समतुल्य कैलिब्रेशन: विभिन्न भाषाओं के डेटा मात्रा को समायोजित करने के लिए UTF-8 एन्कोडिंग आकार का उपयोग, निष्पक्ष तुलना सुनिश्चित करता है
  2. स्तरीकृत डेटा संगठन: उपलब्ध डेटा मात्रा के अनुसार भाषाओं को तीन स्तरों में विभाजित करता है, कवरेज और डेटा गुणवत्ता को संतुलित करता है
  3. समुदाय-संचालित गुणवत्ता नियंत्रण: प्रत्येक भाषा मातृभाषी या प्रवीण उपयोगकर्ता द्वारा जिम्मेदार, सांस्कृतिक और भाषाई अनुकूलन सुनिश्चित करता है

मूल्यांकन ढांचा नवाचार

  1. द्वि-विधि मूल्यांकन: शून्य-शॉट और सूक्ष्म-ट्यूनिंग मूल्यांकन को जोड़ता है, मॉडल क्षमता का व्यापक परीक्षण करता है
  2. भाषा-पार सुसंगतता: MultiBLiMP जैसे उपकरणों का उपयोग करके मूल्यांकन की भाषा-पार तुलनीयता सुनिश्चित करता है
  3. क्षमता वर्गीकरण मूल्यांकन: औपचारिक भाषा क्षमता और कार्यात्मक भाषा क्षमता के मूल्यांकन को अलग करता है

खुली विज्ञान प्रथाएं

  1. पूर्ण संसाधन प्रकाशन: डेटा, कोड, मॉडल सभी खुले स्रोत
  2. विस्तारशील डिजाइन: समुदाय योगदान का समर्थन करने के लिए मानकीकृत पाइपलाइन प्रदान करता है
  3. पारदर्शी दस्तावेज: डेटा स्रोत, लाइसेंस और पूर्व-प्रसंस्करण जानकारी का विस्तृत विवरण

यह कार्य बहुभाषी भाषा मॉडल अनुसंधान और संज्ञानात्मक भाषाविज्ञान के अंतःविषय क्षेत्र में महत्वपूर्ण योगदान देता है, एक टिकाऊ अनुसंधान मंच स्थापित करता है, और मानव भाषा अधिग्रहण तंत्र की गहन समझ को बढ़ावा देने की संभावना रखता है।