2025-11-11T15:01:09.602202

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models

Oepen, Arefev, Aulamo et al.
We present an ongoing initiative to provide open, very large, high-quality, and richly annotated textual datasets for almost 200 languages. At 30 trillion tokens, this is likely the largest generally available multilingual collection of LLM pre-training data. These datasets are derived from web crawls from different sources and accompanied with a complete, open-source pipeline for document selection from web archives, text extraction from HTML, language identification for noisy texts, exact and near-deduplication, annotation with, among others, register labels, text quality estimates, and personally identifiable information; and final selection and filtering. We report on data quality probes through contrastive and analytical statistics, through manual inspection of samples for 24 languages, and through end-to-end evaluation of various language model architectures trained on this data. For multilingual LLM evaluation, we provide a comprehensive collection of benchmarks for nine European languages, with special emphasis on natively created tasks, mechanisms to mitigate prompt sensitivity, and refined normalization and aggregation of scores. Additionally, we train and evaluate a family of 57 monolingual encoder-decoder models, as well as a handful of monolingual GPT-like reference models. Besides the monolingual data and models, we also present a very large collection of parallel texts automatically mined from this data, together with a novel parallel corpus synthesized via machine translation.
academic

HPLT 3.0: LLM और MT के लिए अत्यंत बड़े पैमाने पर बहुभाषी संसाधन। एकभाषी और द्विभाषी डेटा, बहुभाषी मूल्यांकन, और पूर्व-प्रशिक्षित मॉडल

मूल जानकारी

  • पेपर ID: 2511.01066
  • शीर्षक: HPLT 3.0: LLM और MT के लिए अत्यंत बड़े पैमाने पर बहुभाषी संसाधन। एकभाषी और द्विभाषी डेटा, बहुभाषी मूल्यांकन, और पूर्व-प्रशिक्षित मॉडल
  • लेखक: Stephan Oepen और कई यूरोपीय शैक्षणिक संस्थानों के शोधकर्ता
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: नवंबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2511.01066

सारांश

यह पेपर HPLT 3.0 परियोजना का परिचय देता है, जो लगभग 200 भाषाओं के लिए खुले, अत्यंत बड़े पैमाने पर, उच्च गुणवत्ता वाले और समृद्ध रूप से एनोटेट किए गए पाठ डेटासेट प्रदान करने की एक पहल है। इस डेटासेट में 30 ट्रिलियन टोकन हैं, जो संभवतः वर्तमान में सबसे बड़ा सार्वजनिक रूप से उपलब्ध बहुभाषी LLM प्रशिक्षण डेटासेट है। डेटा विभिन्न वेब क्रॉलर से आता है और इसमें दस्तावेज़ चयन, पाठ निष्कर्षण, भाषा पहचान, डुप्लिकेट हटाना, गुणवत्ता मूल्यांकन आदि कार्यों के साथ एक संपूर्ण ओपन-सोर्स प्रसंस्करण पाइपलाइन है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. डेटा की कमी: बड़े पैमाने पर उच्च गुणवत्ता वाले बहुभाषी प्रशिक्षण डेटा आमतौर पर बड़ी कंपनियों द्वारा नियंत्रित होते हैं, शैक्षणिक समुदाय के पास सुलभ संसाधनों की कमी है
  2. भाषा असमानता: मौजूदा डेटासेट मुख्य रूप से अंग्रेजी की ओर पक्षपाती हैं, अन्य भाषाओं, विशेषकर कम संसाधन वाली भाषाओं का डेटा गंभीर रूप से अपर्याप्त है
  3. गुणवत्ता नियंत्रण: वेब से खुरचे गए डेटा की गुणवत्ता असमान है, व्यवस्थित सफाई और फ़िल्टरिंग तंत्र की आवश्यकता है
  4. मूल्यांकन मानदंड: एकीकृत बहुभाषी मॉडल मूल्यांकन ढांचे की कमी है

अनुसंधान का महत्व

  • AI का लोकतांत्रीकरण: बड़े पैमाने पर डेटासेट खोलकर, LLM विकास की बाधा को कम करना
  • बहुभाषी न्यायसंगतता: कम संसाधन वाली भाषाओं के लिए अधिक प्रशिक्षण डेटा प्रदान करना, भाषा विविधता को बढ़ावा देना
  • शैक्षणिक अनुसंधान: अनुसंधान समुदाय को पुनरुत्पादन योग्य प्रयोग का आधार प्रदान करना

मौजूदा विधियों की सीमाएं

  • C4, FineWeb आदि डेटासेट मुख्य रूप से अंग्रेजी पर केंद्रित हैं
  • MADLAD-400 जैसे बहुभाषी डेटासेट अपेक्षाकृत छोटे हैं
  • एकीकृत डेटा प्रसंस्करण और मूल्यांकन मानदंड की कमी है

मुख्य योगदान

  1. 30 ट्रिलियन टोकन का अत्यंत बड़े पैमाने पर बहुभाषी डेटासेट बनाया, जो लगभग 200 भाषाओं को कवर करता है
  2. संपूर्ण ओपन-सोर्स डेटा प्रसंस्करण पाइपलाइन विकसित की, जिसमें पाठ निष्कर्षण, भाषा पहचान, डुप्लिकेट हटाना, गुणवत्ता मूल्यांकन आदि शामिल हैं
  3. HPLT-E बहुभाषी मूल्यांकन ढांचा प्रस्तावित किया, जिसमें 9 यूरोपीय भाषाओं के 127 कार्य शामिल हैं
  4. 57 एकभाषी एनकोडर-डिकोडर मॉडल प्रशिक्षित किए और कई GPT-शैली संदर्भ मॉडल
  5. बड़े पैमाने पर समानांतर पाठ डेटासेट बनाया, जिसमें स्वचालित रूप से खनन किए गए और मशीन अनुवाद द्वारा संश्लेषित डेटा शामिल हैं
  6. व्यापक डेटा गुणवत्ता विश्लेषण प्रदान किया, जिसमें सांख्यिकीय विश्लेषण और मानव जांच शामिल है

विधि विवरण

डेटा संग्रह और प्रसंस्करण पाइपलाइन

कच्चे डेटा के स्रोत

  • Internet Archive (IA): 2012-2020 की अवधि के 3.3 PB क्रॉलर डेटा
  • Common Crawl (CC): 57 पूर्ण स्नैपशॉट (2014-2025), लगभग 7.2 PB कुल मात्रा

मुख्य प्रसंस्करण चरण

  1. पाठ निष्कर्षण
    • HTML पाठ निष्कर्षण के लिए Trafilatura फ्रेमवर्क का उपयोग
    • हाइपरपैरामीटर सेटिंग्स को अनुकूलित करना, गति की तुलना में निष्कर्षण गुणवत्ता को प्राथमिकता देना
  2. भाषा पहचान
    • भाषा भविष्यवाणी के लिए OpenLID-v2 मॉडल का उपयोग
    • Flores+ मूल्यांकन सेट में भाषा लेबल का समर्थन
    • पूर्व-प्रसंस्करण प्रवाह में सुधार: स्पेस सामान्यीकरण, लोअरकेसिंग, गैर-शब्द वर्णों को हटाना
  3. डुप्लिकेट हटाना
    • अंग्रेजी, रूसी, चीनी को छोड़कर सभी भाषाओं के लिए MinHash-आधारित वैश्विक अनुमानित डुप्लिकेट हटाना लागू करना
    • बड़ी भाषाओं के लिए कम्प्यूटेशनल दक्षता बढ़ाने के लिए क्रॉलर-दर डुप्लिकेट हटाना
  4. गुणवत्ता मूल्यांकन और एनोटेशन
    • Web Docs Scorer (WDS): अनुमानी दस्तावेज़ फ़िल्टरिंग विधियों को एकीकृत करना
    • रजिस्टर लेबल: 104 भाषाओं के लिए शैली लेबल जोड़ने के लिए Turku वेब रजिस्टर क्लासिफायर का उपयोग
    • WDS ग्रेड: दस्तावेज़ों को गुणवत्ता के आधार पर {5,6,7,8,9,10} छह ग्रेड में विभाजित करना

डेटा पैकेजिंग और रिलीज़

  • प्रत्येक भाषा के दस्तावेज़ों को WDS ग्रेड के अनुसार बिन करना और वैश्विक रूप से क्रमबद्ध करना
  • Zstandard संपीड़न के साथ JSONlines प्रारूप का उपयोग
  • कुल लगभग 50TB डेटा, 3000 फ़ाइलों में वितरित

प्रयोगात्मक सेटअप

HPLT-E मूल्यांकन ढांचा

भाषा चयन

9 यूरोपीय भाषाएं चुनी गईं: अंग्रेजी, स्पेनिश, फ्रेंच, जर्मन, इतालवी, चेक, फिनिश, नॉर्वेजियन, यूक्रेनी आदि

मॉडल प्रशिक्षण कॉन्फ़िगरेशन

  • आर्किटेक्चर: Llama आर्किटेक्चर का डिकोडर मॉडल
  • स्केल: 2.15B पैरामीटर, 24 परतें, 32 ध्यान सिर
  • प्रशिक्षण डेटा: प्रत्येक भाषा के लिए 100B टोकन
  • अनुक्रम लंबाई: 2048
  • प्रशिक्षण प्लेटफॉर्म: LUMI सुपरकंप्यूटर, 16 नोड AMD MI250x GPU

मूल्यांकन कार्य

127 भाषा समझ और पीढ़ी कार्य शामिल हैं:

  • पाठ निहितार्थ
  • सामान्य ज्ञान तर्क
  • भाषा-विशिष्ट और विश्व ज्ञान
  • पैराफ्रेसिंग
  • पढ़ने की समझ
  • भावना विश्लेषण
  • विषाक्तता पहचान
  • प्रामाणिकता मूल्यांकन

एनकोडर-डिकोडर मॉडल

मॉडल कॉन्फ़िगरेशन

  • आर्किटेक्चर: T5-base (लगभग 275M पैरामीटर)
  • भाषा कवरेज: 57 भाषाएं
  • भाषा परिवार: 14 भाषा परिवारों को कवर करता है

मूल्यांकन कार्य

  1. नामित इकाई पहचान: WikiAnn बेंचमार्क परीक्षण
  2. भाषा क्षमता: MultiBLiMP बेंचमार्क परीक्षण

प्रयोगात्मक परिणाम

डेटासेट तुलनात्मक विश्लेषण

डेटासेटअंग्रेजी दस्तावेज़अंग्रेजी टोकनबहुभाषी दस्तावेज़बहुभाषी टोकनकुल टोकन
HPLT 3.018B16T11B13T29T
FineWeb24B17T5.0B4.9T22T
HPLT 2.04.4B3.9T6.1B7.2T11T
MADLAD-4001.5B1.7T2.1B2.7T4.4T

बहुभाषी LLM मूल्यांकन परिणाम

डेटासेट प्रदर्शन तुलना

HPLT-E ढांचे के अनुसार मूल्यांकन के अनुसार, मॉडल प्रदर्शन क्रम:

  1. MADLAD-400: उच्चतम बहुभाषी स्कोर
  2. HPLT 3.0: दूसरा स्थान, पिछले संस्करण से काफी बेहतर
  3. HPLT 2.0 और FineWeb: तुलनीय प्रदर्शन

WDS गुणवत्ता ग्रेड प्रयोग

  • निम्न गुणवत्ता डेटा (निचले WDS ग्रेड): मॉडल प्रदर्शन में स्पष्ट कमी
  • उच्च गुणवत्ता डेटा (शीर्ष WDS ग्रेड): यादृच्छिक नमूने के प्रदर्शन के बराबर, संभवतः विविधता की कमी के कारण
  • यादृच्छिक नमूना: स्पेनिश और फ्रेंच पर सर्वोत्तम प्रदर्शन

एनकोडर-डिकोडर मॉडल परिणाम

नामित इकाई पहचान (WikiAnn F1 स्कोर)

भाषाHPLT T5mT5-baseBERT HPLT
कातालान92.787.494.5
चेक91.685.291.8
अंग्रेजी82.177.682.7
बास्क92.082.892.9
फिनिश90.31.891.6

भाषा क्षमता (MultiBLIMP सटीकता)

भाषाHPLT T5mT5-basemT5-xxl
कातालान95.691.693.0
चेक95.988.893.4
अंग्रेजी94.290.695.3
बास्क97.494.996.0

औसत प्रदर्शन: HPLT T5 मॉडल MultiBLIMP पर 93.5% तक पहुंचता है, mT5-base के 86.8% से काफी बेहतर

डेटा गुणवत्ता विश्लेषण

मानव जांच परिणाम (24 भाषाएं)

  • अश्लील सामग्री: अधिकांश भाषाओं में 2% से कम
  • भाषा पहचान त्रुटि: समग्र रूप से कम, लेकिन बोस्नियाई डेटासेट मुख्य रूप से सर्बियाई है, अस्तुरियन में अक्सर स्पेनिश शामिल है
  • गैर-प्राकृतिक पाठ: भाषाओं में बड़ा अंतर, आंशिक रूप से एनोटेशन मानकों की व्यक्तिपरकता को दर्शाता है
  • पाठ दोष: नेविगेशन तत्व, काटे गए पाठ आदि शामिल हैं, अनुपात भाषा के अनुसार भिन्न होता है

सांख्यिकीय विशेषता सुधार

  • अद्वितीय पैराग्राफ अनुपात: HPLT 3.0 में 73% बनाम HPLT 2.0 में 52%, वैश्विक डुप्लिकेट हटाने के प्रभाव को दर्शाता है
  • डोमेन विविधता: HPLT 2.0 की तुलना में Wikipedia पृष्ठों के अत्यधिक प्रतिनिधित्व में कमी
  • भौगोलिक TLD वितरण: भाषा उपयोग क्षेत्र से अत्यधिक संबंधित

संबंधित कार्य

बड़े पैमाने पर प्रशिक्षण डेटासेट

  • C4: Google और Allen AI का अंग्रेजी-केंद्रित डेटासेट
  • FineWeb: Hugging Face का उच्च गुणवत्ता वाला वेब डेटा
  • MADLAD-400: Google का 400 भाषा डेटासेट
  • Nemotron-CC: Nvidia का Common Crawl परिष्कृत डेटा

बहुभाषी मॉडल मूल्यांकन

  • मौजूदा बेंचमार्क: अधिकांश अंग्रेजी या कुछ उच्च-संसाधन भाषाओं की ओर पक्षपाती
  • मूल्यांकन चुनौतियां: प्रॉम्प्ट संवेदनशीलता, क्रॉस-भाषा सामंजस्य, सांस्कृतिक पूर्वाग्रह आदि

डेटा प्रसंस्करण तकनीकें

  • पाठ निष्कर्षण: Trafilatura जैसे उपकरणों का विकास
  • भाषा पहचान: पारंपरिक विधियों से गहन शिक्षण मॉडल तक
  • डुप्लिकेट हटाने की तकनीकें: सटीक मिलान से अनुमानित मिलान विधियों तक

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. स्केल में सफलता: HPLT 3.0 30 ट्रिलियन टोकन के साथ सबसे बड़ा सार्वजनिक बहुभाषी प्रशिक्षण डेटासेट है
  2. गुणवत्ता में सुधार: सुधारी गई प्रसंस्करण पाइपलाइन ने डेटा गुणवत्ता में काफी सुधार किया है, जो मॉडल प्रदर्शन में परिलक्षित होता है
  3. मूल्यांकन में नवाचार: HPLT-E ढांचा बहुभाषी मॉडल मूल्यांकन के लिए नया मानदंड प्रदान करता है
  4. मॉडल योगदान: 57 एकभाषी एनकोडर-डिकोडर मॉडल समुदाय के लिए व्यावहारिक उपकरण प्रदान करते हैं

सीमाएं

  1. गुणवत्ता मूल्यांकन: मानव जांच के बावजूद, बड़े पैमाने पर डेटा की गुणवत्ता मूल्यांकन अभी भी एक चुनौती है
  2. भाषा कवरेज: हालांकि लगभग 200 भाषाओं का समर्थन करता है, लेकिन संसाधन वितरण अभी भी असंतुलित है
  3. मूल्यांकन सीमा: HPLT-E ढांचा वर्तमान में केवल 9 यूरोपीय भाषाओं को कवर करता है
  4. कम्प्यूटेशनल संसाधन: बड़े पैमाने पर प्रशिक्षण को बड़ी मात्रा में कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो पुनरुत्पादन क्षमता को सीमित करता है

भविष्य की दिशा

  1. डेटा विस्तार: 2026 की शुरुआत में ArchiveBot डेटा युक्त विस्तारित संस्करण जारी करने की योजना
  2. मूल्यांकन विस्तार: HPLT-E ढांचे को अधिक भाषाओं और कार्यों तक विस्तारित करना
  3. गुणवत्ता सुधार: डेटा प्रसंस्करण पाइपलाइन और गुणवत्ता नियंत्रण तंत्र को लगातार अनुकूलित करना
  4. अनुप्रयोग अनुसंधान: कम संसाधन वाली भाषाओं में संश्लेषित डेटा के अनुप्रयोग प्रभाव की खोज करना

गहन मूल्यांकन

लाभ

  1. अभूतपूर्व स्केल: 30 ट्रिलियन टोकन का स्केल सार्वजनिक डेटासेट में अग्रणी है
  2. खुली पारदर्शिता: संपूर्ण ओपन-सोर्स पाइपलाइन और विस्तृत तकनीकी दस्तावेज़
  3. व्यवस्थितता: डेटा संग्रह से मॉडल प्रशिक्षण तक संपूर्ण पारिस्थितिकी तंत्र
  4. गुणवत्ता नियंत्रण: बहु-स्तरीय गुणवत्ता मूल्यांकन और मानव सत्यापन तंत्र
  5. व्यावहारिक मूल्य: सीधे उपयोग के लिए पूर्व-प्रशिक्षित मॉडल प्रदान करता है

कमियां

  1. कम्प्यूटेशनल बाधा: हालांकि डेटा खुला है, लेकिन बड़े मॉडल प्रशिक्षण के लिए अभी भी बड़ी मात्रा में कम्प्यूटेशनल संसाधनों की आवश्यकता है
  2. गुणवत्ता असमानता: विभिन्न भाषाओं के डेटा की गुणवत्ता और मात्रा में बड़ा अंतर
  3. मूल्यांकन सीमा: मानव मूल्यांकन नमूने अपेक्षाकृत छोटे हैं, संभवतः पूर्वाग्रह हो सकता है
  4. सांस्कृतिक पूर्वाग्रह: वेब डेटा की अंतर्निहित भौगोलिक और सांस्कृतिक पूर्वाग्रह को पूरी तरह से समाप्त करना मुश्किल है

प्रभाव

  1. शैक्षणिक योगदान: बहुभाषी NLP अनुसंधान के लिए महत्वपूर्ण बुनियादी ढांचा प्रदान करता है
  2. औद्योगिक प्रभाव: बहुभाषी AI अनुप्रयोग विकास की बाधा को कम करता है
  3. सामाजिक मूल्य: भाषा विविधता और AI तकनीक के लोकतांत्रीकरण को बढ़ावा देता है
  4. मानदंड निर्धारण: HPLT-E मूल्यांकन ढांचा उद्योग मानदंड बन सकता है

लागू परिदृश्य

  1. बहुभाषी LLM प्रशिक्षण: बड़ी भाषा मॉडल के प्रशिक्षण के लिए सीधे उपयोग
  2. विशिष्ट भाषा मॉडल: कम संसाधन वाली भाषाओं के लिए विशेष मॉडल विकास
  3. क्रॉस-भाषा अनुसंधान: भाषाविज्ञान और कम्प्यूटेशनल भाषाविज्ञान अनुसंधान का समर्थन
  4. मशीन अनुवाद: समानांतर कॉर्पस और एकभाषी डेटा प्रदान करता है
  5. शैक्षणिक अनुप्रयोग: भाषा सीखने और शिक्षण के लिए संसाधन प्रदान करता है

तकनीकी नवाचार बिंदु

डेटा प्रसंस्करण नवाचार

  1. वैश्विक डुप्लिकेट हटाना: क्रॉलर-व्यापी वैश्विक अनुमानित डुप्लिकेट हटाना, डेटा विविधता में सुधार
  2. गुणवत्ता ग्रेडिंग: WDS स्कोरिंग सिस्टम सूक्ष्म-दानेदार गुणवत्ता नियंत्रण प्रदान करता है
  3. बहु-आयामी एनोटेशन: रजिस्टर लेबल, गुणवत्ता मूल्यांकन, PII पहचान आदि को जोड़ता है

मूल्यांकन विधि नवाचार

  1. बहु-प्रॉम्प्ट डिज़ाइन: प्रत्येक कार्य 3-7 मानव-लिखित प्रॉम्प्ट का समर्थन करता है, प्रॉम्प्ट संवेदनशीलता को कम करता है
  2. कार्य चयन मानदंड: एकरसता, स्थिरता आदि सात मानदंडों के आधार पर मूल्यांकन कार्य चुनना
  3. एकत्रीकरण विधि: औसत स्कोर, रैंकिंग और Borda गणना के कई तरीकों को जोड़ता है

मॉडल प्रशिक्षण नवाचार

  1. भाषा-विशिष्ट मॉडल: 57 भाषाओं के लिए अलग-अलग एनकोडर-डिकोडर मॉडल प्रशिक्षित करना
  2. मध्यवर्ती चेकपॉइंट: प्रशिक्षण प्रक्रिया में मध्यवर्ती चेकपॉइंट प्रदान करता है, सीखने की प्रक्रिया अनुसंधान का समर्थन करता है
  3. संश्लेषित डेटा: मशीन अनुवाद के माध्यम से अतिरिक्त प्रशिक्षण डेटा उत्पन्न करना

संदर्भ

यह पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

  • Raffel et al. (2020): T5 मॉडल और C4 डेटासेट
  • Penedo et al. (2024, 2025): FineWeb डेटासेट श्रृंखला
  • Kudugunta et al. (2023): MADLAD-400 डेटासेट
  • Burchell et al. (2025): HPLT 2.0 डेटासेट
  • कई बहुभाषी मूल्यांकन बेंचमार्क परीक्षण संबंधित पेपर

सारांश: HPLT 3.0 परियोजना बहुभाषी NLP क्षेत्र में एक महत्वपूर्ण मील का पत्थर का प्रतिनिधित्व करती है, न केवल डेटा स्केल में सफलता प्राप्त की है, बल्कि खुलेपन, गुणवत्ता नियंत्रण और मूल्यांकन मानदंडों में नए मानदंड स्थापित किए हैं। हालांकि कुछ सीमाएं अभी भी मौजूद हैं, लेकिन बहुभाषी AI तकनीक के लोकतांत्रीकरण और विकास को बढ़ावा देने में इसका महत्वपूर्ण महत्व है।