We present BabyBabelLM, a multilingual collection of datasets modeling the language a person observes from birth until they acquire a native language. We curate developmentally plausible pretraining data aiming to cover the equivalent of 100M English words of content in each of 45 languages. We compile evaluation suites and train baseline models in each language. BabyBabelLM aims to facilitate multilingual pretraining and cognitive modeling.
- पेपर ID: 2510.10159
- शीर्षक: BabyBabelLM: A Multilingual Benchmark of Developmentally Plausible Training Data
- लेखक: Jaap Jumelet, Abdellah Fourtassi, Akari Haga, Bastian Bunzeck और 27 अन्य लेखक
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन तिथि: 11 अक्टूबर 2025 को arXiv पर प्रस्तुत
- पेपर लिंक: https://arxiv.org/abs/2510.10159
यह पेपर BabyBabelLM प्रस्तुत करता है, जो एक बहुभाषी डेटासेट संग्रह है जो जन्म से मातृभाषा अधिग्रहण तक मनुष्यों द्वारा सामना किए जाने वाले भाषाई वातावरण को अनुकरण करने के लिए डिज़ाइन किया गया है। शोधकर्ताओं ने विकासात्मक रूप से प्रशंसनीय पूर्व-प्रशिक्षण डेटा को सावधानीपूर्वक क्यूरेट किया है, जिसका लक्ष्य 45 भाषाओं में से प्रत्येक के लिए 100 मिलियन अंग्रेजी शब्दों के समकक्ष सामग्री प्रदान करना है। साथ ही, एक मूल्यांकन सूट संकलित किया गया है और प्रत्येक भाषा के लिए आधारभूत मॉडल प्रशिक्षित किए गए हैं। BabyBabelLM का उद्देश्य बहुभाषी पूर्व-प्रशिक्षण और संज्ञानात्मक मॉडलिंग अनुसंधान को बढ़ावा देना है।
वर्तमान भाषा मॉडल अनुसंधान मुख्य रूप से स्केल विस्तार पर केंद्रित है, बड़े मॉडल और अधिक प्रशिक्षण डेटा की मांग करता है, लेकिन यह प्रवृत्ति भाषा सीखने के मौलिक प्रश्नों को नजरअंदाज करती है। मनुष्य शैशवावस्था से वयस्कता तक 100 मिलियन अंग्रेजी शब्दों से कम के संपर्क में आकर भाषा क्षमता प्राप्त करते हैं, जो 100 ट्रिलियन से अधिक शब्दों की आवश्यकता वाले आधुनिक भाषा मॉडल से कई परिमाण का अंतर दर्शाता है।
- डेटा दक्षता समस्या: सीमित डेटा बजट के तहत कुशल भाषा मॉडलिंग कैसे प्राप्त करें इसका अन्वेषण
- विकासात्मक प्रशंसनीयता: मानव भाषा अधिग्रहण प्रक्रिया के अनुरूप प्रशिक्षण डेटा संरचना का अध्ययन
- बहुभाषी कवरेज: BabyLM चुनौती के दायरे को अंग्रेजी से बहुभाषी वातावरण तक विस्तारित करना
- संज्ञानात्मक मॉडलिंग: मानव भाषा अधिग्रहण और भाषा मॉडल सीखने के बीच संबंध को समझने के लिए संसाधन प्रदान करना
- BabyLM चुनौती केवल अंग्रेजी तक सीमित है, भाषा-पार सत्यापन की कमी है
- व्यवस्थित बहुभाषी विकासात्मक प्रशंसनीय डेटासेट की कमी
- मौजूदा अनुसंधान अधिकांशतः अलग-अलग प्रयास हैं, समन्वित डेटा संग्रह मानकों की कमी
- मूल्यांकन संसाधन विभिन्न भाषाओं में असमान रूप से वितरित हैं
- 45 भाषाओं को कवर करने वाले विकासात्मक प्रशंसनीय पूर्व-प्रशिक्षण डेटासेट का निर्माण, डेटा मात्रा के आधार पर तीन स्तरों में विभाजित (100M, 10M, 1M अंग्रेजी समकक्ष शब्द)
- खुले स्रोत डेटा विस्तार पाइपलाइन प्रदान करना, जो समुदाय को नई भाषाएं जोड़ने और मौजूदा डेटासेट विस्तारित करने का समर्थन करता है
- व्यापक बहुभाषी मूल्यांकन सूट संकलित करना, जो औपचारिक और कार्यात्मक भाषा क्षमता को कवर करता है
- 45 एकभाषी मॉडल, 7 द्विभाषी मॉडल और 1 बहुभाषी मॉडल प्रशिक्षित करना आधारभूत के रूप में
- समुदाय-संचालित सहयोग ढांचा स्थापित करना, जो निरंतर डेटासेट विस्तार और सुधार को बढ़ावा देता है
- बाल-निर्देशित भाषण (CDS): वयस्कों द्वारा बच्चों से बोली जाने वाली भाषा का प्रतिलेखन
- शैक्षिक सामग्री: बच्चों के लिए पाठ्यपुस्तकें और परीक्षा सामग्री
- बाल मीडिया: बाल पुस्तकें, बाल विकिपीडिया, बाल समाचार
- उपशीर्षक सामग्री: बच्चों के लिए उपयुक्त फिल्म/टीवी शो के उपशीर्षक
- सिंथेटिक डेटा को बाहर रखना: TinyStories जैसी कृत्रिम रूप से उत्पन्न सामग्री से बचना
प्रत्येक भाषा के लिए डेटा संग्रह उस भाषा से परिचित शोधकर्ताओं द्वारा किया जाता है, जो डेटा गुणवत्ता और सांस्कृतिक अनुकूलन सुनिश्चित करता है।
- प्रतिलेखन डेटा (Transcription)
- बाल-निर्देशित भाषण: CHILDES डेटाबेस में देखभालकर्ता-बाल अंतःक्रिया
- बाल-सुलभ भाषण: वयस्क संवाद, जिसे बच्चे अनजाने में सुन सकते हैं
- शैक्षिक सामग्री (Education)
- बच्चों के लिए पाठ्यपुस्तकें, परीक्षा सामग्री
- प्रत्यक्ष निर्देश प्रदान करता है, CDS के औपचारिक भाषा पैटर्न को पूरक करता है
- पुस्तकें, विकिपीडिया, समाचार (Books, Wiki, News)
- बाल पुस्तकें, बाल विकिपीडिया लेख, बाल समाचार
- अधिक जटिल वाक्य संरचना और विविध शब्दावली शामिल करता है
- उपशीर्षक (Subtitles)
- बच्चों के लिए उपयुक्त फिल्म/टीवी शो के उपशीर्षक
- QED कॉर्पस में शैक्षिक सामग्री के उपशीर्षक
- भरण डेटा (Padding)
- OpenSubtitles कॉर्पस (अनुपयुक्त सामग्री को फ़िल्टर किया गया)
- FineWeb-C और विकिपीडिया डेटा बैकअप के रूप में
- प्रथम स्तर (Tier 1): 9 भाषाएं, लगभग 100 मिलियन अंग्रेजी समकक्ष शब्द
- द्वितीय स्तर (Tier 2): 15 भाषाएं, लगभग 10 मिलियन अंग्रेजी समकक्ष शब्द
- तृतीय स्तर (Tier 3): 21 भाषाएं, लगभग 1 मिलियन अंग्रेजी समकक्ष शब्द
भाषा नेता द्वारा विशिष्ट भाषा और डेटा आवश्यकताओं के अनुसार प्रारंभिक प्रसंस्करण किया जाता है।
- मानकीकरण: यूनिकोड, व्हाइटस्पेस, विराम चिह्न सामान्यीकरण
- श्रेणी-विशिष्ट प्रसंस्करण:
- संवाद प्रतिलेखन: भाषाविज्ञान संकेतन हटाना
- उपशीर्षक डेटा: वक्ता लेबल, संगीत प्रतीक, मंच निर्देश हटाना
- पुस्तक प्रारूप: XML टैग और URL हटाना
- भाषा सत्यापन: GlotLID v3 का उपयोग करके भाषा पहचान और सत्यापन
- एकभाषी मॉडल: GPT-2 आर्किटेक्चर, 4 ट्रांसफॉर्मर परतें, 8 ध्यान सिर, छिपी हुई आयाम 512
- द्विभाषी मॉडल: लक्ष्य भाषा और अंग्रेजी डेटा को जोड़ता है (कुल 200M शब्द)
- बहुभाषी मॉडल: 12 परतें, छिपी हुई आयाम 768, शब्दावली आकार 32,768, 111M पैरामीटर
- शब्दावली आकार: 8,192 (एकभाषी), 32,768 (बहुभाषी)
- प्रशिक्षण रणनीति: BPE टोकनाइजेशन, 10 epoch (एकभाषी), 5 epoch (द्विभाषी), 1 epoch (बहुभाषी)
- MonoBLiMP: भाषा-विशिष्ट न्यूनतम विपरीत बेंचमार्क
- MultiBLiMP: Universal Dependencies पर आधारित बड़े पैमाने पर न्यूनतम विपरीत डेटासेट
- CLAMS: क्रॉस-भाषीय विषय-क्रिया समझौता बेंचमार्क
- ज्ञान-आधारित कार्य: Global-MMLU, INCLUDE, BM-LAMA
- तर्क-आधारित कार्य: XNLI, HellaSwag, Belebele, ARC, XCOPA आदि
- शून्य-शॉट मूल्यांकन: मॉडल आउटपुट संभावना के आधार पर न्यूनतम विपरीत
- सूक्ष्म-ट्यूनिंग मूल्यांकन: वर्गीकरण और प्रश्नोत्तर कार्य, अधिकतम 8000 प्रशिक्षण नमूने, 10 epoch
- आधारभूत मॉडल: यादृच्छिक प्रदर्शन
- तुलनात्मक मॉडल: Qwen3-0.6B (आकार में उपयुक्त बहुभाषी मॉडल)
- आर्किटेक्चर तुलना: GPT-BERT बनाम GPT-2
- MultiBLiMP कार्य: प्रथम स्तर की भाषाएं आमतौर पर 80% से अधिक सटीकता प्राप्त करती हैं, अच्छी व्याकरण सीखने की क्षमता दर्शाती हैं
- अन्य बेंचमार्क: अधिकांश कार्यों पर प्रदर्शन यादृच्छिक स्तर के करीब है, डेटा आकार सीमा को प्रतिबिंबित करता है
- डेटा आकार प्रभाव: प्रथम स्तर > द्वितीय स्तर > तृतीय स्तर, डेटा मात्रा के प्रदर्शन पर महत्वपूर्ण प्रभाव दर्शाता है
- MultiBLiMP: एकभाषी मॉडल आमतौर पर बहुभाषी मॉडल से बेहतर होते हैं, तृतीय स्तर की 4 भाषाओं को छोड़कर
- Belebele: दोनों मॉडल यादृच्छिक स्तर के करीब हैं, जबकि Qwen काफी बेहतर प्रदर्शन करता है
- समग्र प्रवृत्ति: Qwen अधिकांश कार्यों पर इस पेपर के मॉडल से आगे है, लेकिन 8 भाषाओं पर इस पेपर का बहुभाषी मॉडल अधिक मजबूत है
- ज्ञान-गहन कार्य: SIB-200, BM-LAMA, XCOMPS, INCLUDE सुसंगत प्रदर्शन सुधार दर्शाते हैं
- व्याकरण कार्य: MultiBLiMP प्रदर्शन मूलतः अपरिवर्तित रहता है, यह दर्शाता है कि वाक्य रचना क्षमता द्विभाषी इनपुट के प्रति कम संवेदनशील है
- विशेष मामला: डच भाषा INCLUDE कार्य पर थोड़ी गिरावट दर्शाती है, संभवतः डोमेन बेमेल के कारण
- GPT-2 मॉडल SIB-200 और MultiBLiMP कार्यों पर लगातार GPT-BERT से बेहतर होते हैं
- परिणाम दर्शाते हैं कि वर्तमान कॉन्फ़िगरेशन में GPT-2 आर्किटेक्चर छोटे पैमाने के डेटा प्रशिक्षण के लिए अधिक उपयुक्त है
- प्रथम स्तर की भाषाएं: चीनी, फ्रेंच, बल्गेरियाई आदि, जिनके पास अपेक्षाकृत समृद्ध विकासात्मक प्रशंसनीय डेटा है
- द्वितीय स्तर की भाषाएं: जापानी, सर्बियाई, कैंटोनीज़ आदि, मध्यम डेटा मात्रा
- तृतीय स्तर की भाषाएं: अधिकांशतः संसाधन-सीमित भाषाएं, मुख्य रूप से बहुभाषी संसाधन भरण पर निर्भर
- प्रथम संस्करण: 10M और 100M शब्दों की अंग्रेजी कॉर्पस, 39% विकासात्मक प्रशंसनीय डेटा
- द्वितीय संस्करण: 70% बाल-निर्देशित डेटा तक वृद्धि
- मूल्यांकन विधि: शून्य-शॉट न्यूनतम विपरीत और सूक्ष्म-ट्यूनिंग मूल्यांकन
- Salhan आदि (2024): फ्रेंच, जर्मन, जापानी, चीनी के लिए अधिग्रहण-प्रेरित पाठ्यक्रम सीखना
- Prévot आदि (2024): अंग्रेजी और फ्रेंच के स्वतःस्फूर्त भाषण कॉर्पस अनुसंधान
- Matzopoulos आदि (2025): isiXhosa के लिए BabyLM अनुसंधान, कम-संसाधन भाषा चुनौतियों को उजागर करता है
- CHILDES: 40 से अधिक भाषाओं में बाल-वयस्क अंतःक्रिया डेटाबेस
- MAO-CHILDES: 5 भाषाओं का आयु-क्रमबद्ध डेटासेट
- IPA-CHILDES: 31 भाषाओं का फोनीमाइज़्ड कॉर्पस
- व्यवहार्यता सत्यापन: 45 भाषाओं का विकासात्मक प्रशंसनीय डेटासेट सफलतापूर्वक निर्मित किया गया, बहुभाषी BabyLM अनुसंधान की व्यवहार्यता साबित करता है
- डेटा मात्रा प्रभाव: अधिक विकासात्मक प्रशंसनीय डेटा वास्तव में व्याकरण सीखने की क्षमता को बढ़ाता है, विशेषकर MultiBLiMP कार्यों पर
- द्विभाषी लाभ: ज्ञान-गहन कार्यों पर, द्विभाषी प्रशिक्षण सुसंगत प्रदर्शन सुधार लाता है
- आर्किटेक्चर चयन: छोटे पैमाने के डेटा सेटिंग में, GPT-2 आर्किटेक्चर GPT-BERT से बेहतर है
- भाषा कवरेज असमानता: 45 भाषाओं को कवर करने के बावजूद, अफ्रीकी भाषाएं और अल्पसंख्यक भाषाएं अभी भी अपर्याप्त प्रतिनिधित्व वाली हैं
- डेटा संरचना भिन्नता: विभिन्न भाषाओं में विकासात्मक प्रशंसनीय डेटा के अनुपात में महत्वपूर्ण भिन्नता है, जो भाषा-पार तुलना को प्रभावित कर सकती है
- मूल्यांकन संसाधन सीमा: सभी भाषाओं को कवर करने वाले मानकीकृत मूल्यांकन बेंचमार्क की कमी
- डेटा सन्निकटन: डेटासेट वास्तविक बाल भाषा इनपुट का केवल एक मोटा अनुमान है
- भाषा कवरेज विस्तार: विशेषकर अफ्रीकी भाषाएं और अन्य कम-संसाधन भाषाएं
- डेटा गुणवत्ता सुधार: अधिक उच्च-गुणवत्ता वाले बाल-निर्देशित भाषण डेटा संग्रह
- मानकीकृत मूल्यांकन: भाषा-पार सुसंगत मूल्यांकन ढांचा विकास
- बहुभाषी क्षमता अनुसंधान: द्विभाषी और बहुभाषी अधिग्रहण तंत्र का गहन अध्ययन
- व्यवस्थित योगदान: बड़े पैमाने पर बहुभाषी विकासात्मक प्रशंसनीय डेटासेट का पहला व्यवस्थित निर्माण
- समुदाय-उन्मुख: टिकाऊ समुदाय-संचालित डेटा संग्रह ढांचा स्थापित करता है
- पद्धति कठोरता: बाइट-समतुल्य विधि का उपयोग करके भाषा-पार डेटा मात्रा की तुलनीयता सुनिश्चित करता है
- उच्च खुलापन: पूर्ण डेटा, कोड और मॉडल प्रदान करता है, पुनरुत्पादनीय अनुसंधान को बढ़ावा देता है
- उच्च व्यावहारिक मूल्य: बहुभाषी संज्ञानात्मक मॉडलिंग और डेटा दक्षता अनुसंधान के लिए महत्वपूर्ण संसाधन प्रदान करता है
- डेटा गुणवत्ता असमानता: विभिन्न भाषाओं में विकासात्मक प्रशंसनीय डेटा के अनुपात में महत्वपूर्ण भिन्नता
- सीमित मॉडल प्रदर्शन: आधारभूत मॉडल अधिकांश कार्यों पर यादृच्छिक स्तर के करीब प्रदर्शन करते हैं
- अधूरा मूल्यांकन कवरेज: कुछ भाषाओं में पर्याप्त मूल्यांकन बेंचमार्क की कमी
- अपर्याप्त सैद्धांतिक विश्लेषण: कुछ भाषाओं या कार्यों के बेहतर प्रदर्शन के कारणों का गहन विश्लेषण नहीं
- क्षेत्र योगदान: बहुभाषी विकासात्मक प्रशंसनीय डेटासेट के रिक्त स्थान को भरता है, संबंधित अनुसंधान विकास को बढ़ावा देता है
- व्यावहारिक मूल्य: कम-संसाधन भाषाओं के भाषा मॉडल अनुसंधान के लिए महत्वपूर्ण प्रारंभिक बिंदु प्रदान करता है
- पुनरुत्पादनीयता: पूर्ण खुले स्रोत संसाधन अनुसंधान की पुनरुत्पादनीयता और विस्तारशीलता सुनिश्चित करता है
- समुदाय निर्माण: टिकाऊ सहयोग ढांचा स्थापित करता है, दीर्घकालीन विकास को बढ़ावा देता है
- संज्ञानात्मक भाषाविज्ञान अनुसंधान: मानव भाषा अधिग्रहण और मशीन लर्निंग के बीच संबंध का अन्वेषण
- कम-संसाधन भाषा मॉडलिंग: संसाधन-सीमित भाषाओं के लिए प्रशिक्षण का प्रारंभिक बिंदु प्रदान करता है
- बहुभाषी शिक्षा: द्विभाषी और बहुभाषी सीखने के अनुसंधान का समर्थन करता है
- डेटा दक्षता अनुसंधान: सीमित डेटा बजट के तहत मॉडल प्रशिक्षण रणनीति अनुसंधान
- बाइट-समतुल्य कैलिब्रेशन: विभिन्न भाषाओं के डेटा मात्रा को समायोजित करने के लिए UTF-8 एन्कोडिंग आकार का उपयोग, निष्पक्ष तुलना सुनिश्चित करता है
- स्तरीकृत डेटा संगठन: उपलब्ध डेटा मात्रा के अनुसार भाषाओं को तीन स्तरों में विभाजित करता है, कवरेज और डेटा गुणवत्ता को संतुलित करता है
- समुदाय-संचालित गुणवत्ता नियंत्रण: प्रत्येक भाषा मातृभाषी या प्रवीण उपयोगकर्ता द्वारा जिम्मेदार, सांस्कृतिक और भाषाई अनुकूलन सुनिश्चित करता है
- द्वि-विधि मूल्यांकन: शून्य-शॉट और सूक्ष्म-ट्यूनिंग मूल्यांकन को जोड़ता है, मॉडल क्षमता का व्यापक परीक्षण करता है
- भाषा-पार सुसंगतता: MultiBLiMP जैसे उपकरणों का उपयोग करके मूल्यांकन की भाषा-पार तुलनीयता सुनिश्चित करता है
- क्षमता वर्गीकरण मूल्यांकन: औपचारिक भाषा क्षमता और कार्यात्मक भाषा क्षमता के मूल्यांकन को अलग करता है
- पूर्ण संसाधन प्रकाशन: डेटा, कोड, मॉडल सभी खुले स्रोत
- विस्तारशील डिजाइन: समुदाय योगदान का समर्थन करने के लिए मानकीकृत पाइपलाइन प्रदान करता है
- पारदर्शी दस्तावेज: डेटा स्रोत, लाइसेंस और पूर्व-प्रसंस्करण जानकारी का विस्तृत विवरण
यह कार्य बहुभाषी भाषा मॉडल अनुसंधान और संज्ञानात्मक भाषाविज्ञान के अंतःविषय क्षेत्र में महत्वपूर्ण योगदान देता है, एक टिकाऊ अनुसंधान मंच स्थापित करता है, और मानव भाषा अधिग्रहण तंत्र की गहन समझ को बढ़ावा देने की संभावना रखता है।