2025-11-22T04:49:16.383386

Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World

Marinas, Kucherenko, Sternfeld et al.
The performance of Large Language Models (LLMs) is determined by their training data. Despite the proliferation of open-weight LLMs, access to LLM training data has remained limited. Even for fully open LLMs, the scale of the data makes it all but inscrutable to the general scientific community, despite potentially containing critical data scraped from the internet. In this paper, we present the full-text indexing pipeline for the Apertus LLM training data. Leveraging Elasticsearch parallel indices and the Alps infrastructure, a state-of-the-art, highly energy-efficient arm64 supercluster, we were able to index 8.6T tokens out of 15.2T used to train the Apertus LLM family, creating both a critical LLM safety tool and effectively an offline, curated, open web search engine. Our contribution is threefold. First, we demonstrate that Elasticsearch can be successfully ported onto next-generation arm64-based infrastructure. Second, we demonstrate that full-text indexing at the scale of modern LLM training datasets and the entire open web is feasible and accessible. Finally, we demonstrate that such indices can be used to ensure previously inaccessible jailbreak-agnostic LLM safety. We hope that our findings will be useful to other teams attempting large-scale data indexing and facilitate the general transition towards greener computation.
academic

अपने इंडेक्स को क्रम में रखना: वास्तविक दुनिया के लिए LLM प्रशिक्षण डेटा के लिए पूर्ण-पाठ खोज

मूल जानकारी

  • पेपर ID: 2510.09471
  • शीर्षक: Getting Your Indices in a Row: Full-Text Search for LLM Training Data for Real World
  • लेखक: Inés Altemir Mariñas (EPFL), Anastasiia Kucherenko (HES-SO Valais-Wallis), Alexander Sternfeld (HES-SO Valais-Wallis), Andrei Kucharavy (HES-SO Valais-Wallis)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन सम्मेलन: WWW '26 (द वेब कॉन्फ्रेंस 2026)
  • पेपर लिंक: https://arxiv.org/abs/2510.09471

सारांश

बड़े भाषा मॉडल (LLMs) का प्रदर्शन उनके प्रशिक्षण डेटा पर निर्भर करता है। हालांकि खुले वजन वाले LLMs बढ़ रहे हैं, लेकिन LLM प्रशिक्षण डेटा तक पहुंच अभी भी सीमित है। पूरी तरह से खुले LLMs के लिए भी, डेटा का आकार सामान्य वैज्ञानिक समुदाय के लिए गहन विश्लेषण को कठिन बनाता है, भले ही इंटरनेट से स्क्रैप किए गए महत्वपूर्ण डेटा शामिल हो सकते हैं। यह पेपर Apertus LLM प्रशिक्षण डेटा की पूर्ण-पाठ अनुक्रमण पाइपलाइन प्रदर्शित करता है। Elasticsearch समानांतर अनुक्रमण और Alps अवसंरचना (एक अत्याधुनिक उच्च-ऊर्जा-दक्ष arm64 सुपरक्लस्टर) का उपयोग करके, Apertus LLM परिवार को प्रशिक्षित करने के लिए उपयोग किए गए 15.2T टोकन में से 8.6T टोकन को सफलतापूर्वक अनुक्रमित किया गया, एक महत्वपूर्ण LLM सुरक्षा उपकरण और ऑफलाइन, क्यूरेटेड खुली वेब खोज इंजन बनाया गया।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्याएं

  1. प्रशिक्षण डेटा पारदर्शिता की कमी: हालांकि खुले वजन वाले LLMs तेजी से लोकप्रिय हो रहे हैं, प्रशिक्षण डेटा अभी भी प्राप्त करना और विश्लेषण करना कठिन है
  2. डेटा स्केल चुनौती: आधुनिक LLM प्रशिक्षण डेटा विशाल आकार (ट्रिलियन-स्तरीय टोकन) का है, जिससे व्यवस्थित जांच लगभग असंभव है
  3. सुरक्षा जोखिम: प्रशिक्षण डेटा में हानिकारक सामग्री हो सकती है, जैसे व्यक्तिगत जानकारी, कॉपीराइट सामग्री, जहरीली भाषा, और यहां तक कि खतरनाक जानकारी

अनुसंधान का महत्व

  • LLM सुरक्षा: प्रशिक्षण डेटा में समस्याएं सीधे मॉडल व्यवहार को प्रभावित करती हैं, जिससे हानिकारक आउटपुट होता है
  • पारदर्शिता की आवश्यकता: वैज्ञानिक समुदाय और नियामक एजेंसियों को LLM प्रशिक्षण डेटा की समीक्षा करने में सक्षम होने की आवश्यकता है
  • अनुपालन आवश्यकताएं: कॉपीराइट सामग्री, व्यक्तिगत जानकारी आदि की पहचान और हटाने की आवश्यकता है

मौजूदा विधियों की सीमाएं

  • नमूना विश्लेषण: मौजूदा उपकरण मुख्य रूप से छोटे नमूनों (जैसे Common Crawl का 1%) पर आधारित हैं, व्यापक कवरेज की गारंटी नहीं दे सकते
  • स्केल सीमा: पिछली सबसे बड़ी पूर्ण-पाठ अनुक्रमणिका (Infinigram) केवल 4.6T टोकन का समर्थन करती है, और केवल सटीक मिलान का समर्थन करती है
  • कार्यक्षमता सीमा: अस्पष्ट खोज और तार्किक संचालन क्षमता की कमी

मुख्य योगदान

  1. ARM64 आर्किटेक्चर माइग्रेशन: ARM64-आधारित GH200 HPC सिस्टम पर Elasticsearch के सफल तैनाती का पहला प्रदर्शन
  2. बड़े पैमाने पर अनुक्रमण कार्यान्वयन: 8.6T टोकन डेटासेट को अनुक्रमित करना, पिछली Elasticsearch-आधारित अनुक्रमणिका का 4 गुना, कुल आकार का 2 गुना
  3. LLM सुरक्षा अनुप्रयोग: LLM सुरक्षा और सुरक्षा उपयोग मामलों में पूर्ण-पाठ अनुक्रमण के अनुप्रयोग का प्रदर्शन, जेलब्रेक के बिना सुरक्षा प्रदान करना
  4. ओपन सोर्स योगदान: पूर्ण ओपन सोर्स कोड और प्रदर्शन बेंचमार्क प्रदान करना, भविष्य के अनुसंधान का समर्थन करना

विधि विवरण

कार्य परिभाषा

एक ऐसी प्रणाली बनाना जो LLM प्रशिक्षण डेटा के ट्रिलियन-स्तरीय टोकन पर पूर्ण-पाठ खोज कर सके, समर्थन करते हुए:

  • सटीक और अस्पष्ट मिलान
  • बहुभाषी सामग्री खोज
  • तार्किक संचालन और जटिल प्रश्न
  • वास्तविक समय खोज प्रतिक्रिया

सिस्टम आर्किटेक्चर

1. डेटा प्रसंस्करण पाइपलाइन

कच्ची Parquet फाइलें → स्ट्रीम प्रसंस्करण → पाठ विश्लेषण → Elasticsearch अनुक्रमणिका

2. मुख्य घटक

  • Elasticsearch इंजन: वितरित खोज और विश्लेषण इंजन
  • समानांतर अनुक्रमण: elasticsearch.helpers.parallel_bulk का उपयोग करके मल्टी-थ्रेडेड समवर्ती प्रसंस्करण
  • पाठ विश्लेषक: web_content_analyzer HTML सफाई, मानक टोकनाइजेशन, लोअरकेसिंग, ASCII फोल्डिंग निष्पादित करता है

3. मुख्य पैरामीटर ट्यूनिंग

  • थ्रेड संख्या: CPU कोर संख्या से अधिक नहीं, समवर्तिता और मेमोरी दबाव को संतुलित करना
  • खंड आकार: सूत्र द्वारा निर्धारित chunk_size ≤ max_chunk_size / avg_doc_size
  • अधिकतम खंड बाइट: बल्क अनुरोध के अधिकतम पेलोड को नियंत्रित करना
  • कतार आकार: उत्पादक और उपभोक्ता थ्रेड्स के बीच असंतुलन को बफर करना

तकनीकी नवाचार बिंदु

1. ARM64 अनुकूलन

  • OCI-संगत कस्टम कंटेनर इमेज बनाना
  • Docker संगतता समस्याओं को हल करना, Podman का उपयोग करना
  • SLURM जॉब परिभाषा के माध्यम से ऑर्केस्ट्रेशन को फिर से लागू करना

2. HPC पर्यावरण अनुकूलन

  • मेमोरी मैपिंग को अक्षम करना कर्नेल पैरामीटर सीमाओं के अनुकूल करने के लिए
  • नेटवर्क को प्रॉक्सी को बायपास करने के लिए कॉन्फ़िगर करना, 127.0.0.1 से बांधना
  • SLURM जॉब अलगाव के अनुकूल एकल-नोड ऑपरेशन मोड

3. प्रश्न अनुकूलन

  • match_phrase_query: कॉन्फ़िगर करने योग्य शब्द दूरी सहिष्णुता (SLOP पैरामीटर) का समर्थन करना
  • बहु-स्तरीय पाठ प्रसंस्करण: HTML सफाई → मानक टोकनाइजेशन → सामान्यीकरण → ASCII फोल्डिंग

प्रायोगिक सेटअप

डेटासेट

Apertus प्रशिक्षण डेटा उपसमुच्चय (8.6T टोकन, कुल प्रशिक्षण डेटा का 58%):

डेटासेटटोकन (B)
FineWeb-Edu (Score-2)4815
FineWeb-2-HQ (33% उच्चतम गुणवत्ता)3557
StarCoder235
FineMath CommonCrawl उपसमुच्चय32
Gutenberg और Poison2

प्रश्न डेटासेट

  1. Weaponized Words शब्दकोश: 137 भाषाओं में हानिकारक शब्दावली
  2. LDNOOBW सूची: 28 भाषाओं में अपमानजनक शब्दावली
  3. रासायनिक हथियार डेटासेट: 17 खतरनाक रासायनिक अभिकर्मक शर्तें

कम्प्यूटिंग पर्यावरण

  • Alps सुपरकंप्यूटर: HPE Cray EX सिस्टम, 434 PFlops प्रदर्शन
  • नोड कॉन्फ़िगरेशन: ARM64-आधारित NVIDIA Grace Hopper GH200
  • भंडारण प्रणाली: 100PB ClusterStor HDD + 3PB SSD + 1PB VAST

प्रायोगिक परिणाम

अनुक्रमण प्रदर्शन

डेटासेटडेटा आकार(GB)समय(h)अनुक्रमण दर(doc/s)अनुक्रमण ओवरहेड अनुपातशिखर मेमोरी(GB)
FineWeb-2 Edu (EN)12,737143.710,2961.34.9
FineWeb-2 Europe HQ2,660408.35891.17.5
StarCoder2294.210,9191.412.7

मुख्य निष्कर्ष:

  • अंग्रेजी पाठ अनुक्रमण गति बहुभाषी डेटासेट से काफी तेज है (10,297 बनाम 589 doc/s)
  • कोड डेटा को अधिक मेमोरी संसाधनों की आवश्यकता है (12.7GB बनाम 4.9GB)
  • बहुभाषी डेटासेट अनुक्रमण ओवरहेड अधिक है

प्रश्न प्रदर्शन

  • प्रश्न समय प्रश्न लंबाई के साथ रैखिक रूप से बढ़ता है
  • एकल शब्द प्रश्न: <100ms
  • 300 शब्द प्रश्न: ~1000ms
  • सिस्टम विभिन्न प्रश्न लंबाई में स्थिर प्रदर्शन बनाए रखता है

हानिकारक सामग्री विश्लेषण

बहुभाषी हानिकारक शब्दावली सांख्यिकी

भाषाWeaponized Words (मिलियन)LDNOOBW (मिलियन)
अंग्रेजी1,245.8661.6
फ्रेंच16.8202.5
जर्मन9.914.9
इतालवी1.618.5

रासायनिक हथियार संबंधित शर्तें

सामान्य रासायनिक पदार्थों (जैसे ग्लिसरीन, नाइट्रिक एसिड) की अत्यधिक आवृत्ति पाई गई, जबकि विशेष रूप से रासायनिक हथियार संश्लेषण शर्तें गैर-अंग्रेजी भाषाओं में भी महत्वपूर्ण रूप से दिखाई देती हैं, जो बहुभाषी डेटा क्यूरेशन के महत्व को दर्शाता है।

संबंधित कार्य

मौजूदा LLM डेटा विश्लेषण उपकरण

  1. Data Portraits: कम्प्यूटेशनल लागत को कम करने के लिए अनुमानित सदस्यता अनुमान का उपयोग करना
  2. सांख्यिकीय नमूना विधियां: जैसे Luccioni आदि द्वारा Common Crawl का 1% विश्लेषण
  3. छोटे पैमाने पर डेटासेट उपकरण: HuggingFace के Data Measurements, Google के Know Your Data

बड़े पैमाने पर अनुक्रमण प्रणाली

  1. WhatIsInMyBigData: अधिकतम 1.4T टोकन अनुक्रमणिका (RedPajama)
  2. Infinigram: प्रत्यय सरणी का उपयोग करके, 4.6T टोकन सटीक खोज का समर्थन करना
  3. ROOTS उपकरण: 1.6TB बहुभाषी कॉर्पस के लिए अस्पष्ट और सटीक खोज

इस पेपर के लाभ

  • स्केल: 8.6T टोकन, मौजूदा Elasticsearch-आधारित सिस्टम से 4 गुना अधिक
  • कार्यक्षमता: अस्पष्ट खोज और तार्किक संचालन का समर्थन करना
  • बहुभाषी: सुरक्षा विश्लेषण के लिए कई भाषाओं को कवर करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: ARM64 आर्किटेक्चर पर Elasticsearch तैनाती की व्यवहार्यता साबित करना
  2. स्केल प्राप्यता: ट्रिलियन-स्तरीय टोकन की पूर्ण-पाठ अनुक्रमणिका छोटी टीमों के लिए प्राप्य है
  3. सुरक्षा अनुप्रयोग: LLM प्रशिक्षण डेटा के गहन सुरक्षा विश्लेषण के लिए पूर्ण-पाठ अनुक्रमण का उपयोग किया जा सकता है

सीमाएं

  1. कवरेज रेंज: केवल Apertus प्रशिक्षण डेटा का 58% अनुक्रमित किया गया
  2. आर्किटेक्चर सीमा: ARM64 अनुकूलन अभी भी संगतता चुनौतियों का सामना करता है
  3. मेमोरी मैपिंग: मेमोरी मैपिंग का उपयोग नहीं कर सकते जिससे I/O दक्षता कम होती है

भविष्य की दिशाएं

  1. पूर्ण इंटरनेट अनुक्रमण: संपूर्ण खुली वेब की ऑफलाइन खोज अनुक्रमणिका बनाना
  2. LLM तथ्य आधार: ऑफलाइन खोज के आधार पर LLM जनरेट सामग्री सत्यापन
  3. आर्थिक नैतिकता समस्याएं: सामग्री निर्माताओं के लिए न्यायसंगत मुआवजा तंत्र

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: LLM प्रशिक्षण डेटा पारदर्शिता की महत्वपूर्ण समस्या को हल करना
  2. महत्वपूर्ण तकनीकी योगदान: पहली बार ट्रिलियन-स्तरीय टोकन की Elasticsearch अनुक्रमणिका को लागू करना
  3. ओपन सोर्स अनुकूल: पूर्ण कोड और विस्तृत तैनाती गाइड प्रदान करना
  4. स्पष्ट सुरक्षा अनुप्रयोग: विशिष्ट LLM सुरक्षा उपयोग मामलों का प्रदर्शन करना
  5. पर्यावरण अनुकूल: उच्च ऊर्जा-दक्ष ARM64 आर्किटेक्चर का उपयोग, केवल 90kg CO2eq कार्बन उत्सर्जन

कमियां

  1. डेटा कवरेज अधूरा: सभी प्रशिक्षण डेटा अनुक्रमित नहीं किए गए
  2. ARM64 चुनौतियां: तकनीकी अनुकूलन प्रक्रिया जटिल है, प्रचार को प्रभावित कर सकती है
  3. प्रदर्शन व्यापार: HPC पर्यावरण के अनुकूल होने के लिए कुछ I/O प्रदर्शन का त्याग करना
  4. सुरक्षा विश्लेषण की गहराई: हानिकारक सामग्री का विश्लेषण अपेक्षाकृत सतही है

प्रभाव

  1. शैक्षणिक योगदान: LLM प्रशिक्षण डेटा विश्लेषण के लिए नया तकनीकी पथ प्रदान करना
  2. व्यावहारिक मूल्य: LLM सुरक्षा लेखापरीक्षा में सीधे अनुप्रयोग
  3. तकनीकी प्रचार: उद्यम अनुप्रयोगों में ARM64 को अपनाने को बढ़ावा देना
  4. नीति समर्थन: LLM विनियमन के लिए तकनीकी उपकरण प्रदान करना

लागू परिदृश्य

  1. LLM विकास टीमें: प्रशिक्षण डेटा गुणवत्ता नियंत्रण और सुरक्षा लेखापरीक्षा
  2. अनुसंधान संस्थान: बड़े पैमाने पर पाठ डेटा विश्लेषण और खनन
  3. नियामक एजेंसियां: LLM अनुपालन जांच और जोखिम मूल्यांकन
  4. उद्यम अनुप्रयोग: सामग्री फ़िल्टरिंग और डेटा गवर्नेंस

संदर्भ

पेपर ने 60 संबंधित संदर्भों का हवाला दिया है, जो LLM प्रशिक्षण, डेटा सुरक्षा, पूर्ण-पाठ खोज और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह एक महत्वपूर्ण व्यावहारिक मूल्य वाला तकनीकी पेपर है जो LLM प्रशिक्षण डेटा पारदर्शिता और सुरक्षा विश्लेषण की मुख्य समस्या को सफलतापूर्वक हल करता है। हालांकि डेटा कवरेज और तकनीकी अनुकूलन के मामले में कुछ सीमाएं हैं, लेकिन इसका अग्रणी कार्य इस क्षेत्र के लिए महत्वपूर्ण तकनीकी आधार और व्यावहारिक दिशानिर्देश प्रदान करता है।