2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

पूर्ण स्वचालित और स्केलेबल समानांतर डेटा संवर्धन निम्न संसाधन भाषाओं के लिए छवि और पाठ विश्लेषण का उपयोग करते हुए

मूल जानकारी

  • पेपर ID: 2510.13211
  • शीर्षक: पूर्ण स्वचालित और स्केलेबल समानांतर डेटा संवर्धन निम्न संसाधन भाषाओं के लिए छवि और पाठ विश्लेषण का उपयोग करते हुए
  • लेखक: प्रवाल शर्मा (इनफोसिस), नवनीत गोयल (बिट्स पिलानी), पूनम गोयल (बिट्स पिलानी), विष्णुप्रियन के आर (इनफोसिस)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन सम्मेलन: SAC '23 (38वां ACM/SIGAPP सिम्पोजियम एप्लाइड कंप्यूटिंग पर), 27-31 मार्च, 2023, तल्लिन, एस्टोनिया
  • पेपर लिंक: https://arxiv.org/abs/2510.13211

सारांश

वैश्विक भाषाई विविधता गुणवत्तापूर्ण डिजिटल भाषा संसाधनों की उपलब्धता में असमानता का कारण बनती है, जिससे अधिकांश जनसंख्या के लिए तकनीकी लाभ प्राप्त करना सीमित हो जाता है। डेटा संसाधनों की कमी या अनुपस्थिति निम्न संसाधन भाषाओं के लिए NLP कार्य करना कठिन बनाती है। यह पेपर एक नवीन, स्केलेबल, पूर्ण स्वचालित विधि प्रस्तुत करता है जो समाचार पत्र लेखों से छवि और पाठ विश्लेषण का उपयोग करके द्विभाषिक समानांतर कॉर्पस निकालता है। लेखकों ने दो विभिन्न भाषा संयोजनों के लिए समानांतर डेटा कॉर्पस का निर्माण करके विधि को सत्यापित किया है और मशीन अनुवाद डाउनस्ट्रीम कार्य के माध्यम से डेटासेट का मूल्य प्रदर्शित किया है, जो वर्तमान आधारभूत की तुलना में लगभग 3 BLEU अंक में सुधार करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: विश्व की 7000 भाषाओं में से केवल 20 को इंटरनेट पर पर्याप्त संसाधन हैं, शेष को निम्न संसाधन भाषाएं (LRLs) कहा जाता है, जिनमें डिजिटल डेटा समर्थन की कमी है
  2. प्रभाव की सीमा: 2.5 अरब से अधिक लोग 2000 निम्न संसाधन भाषाओं का उपयोग करते हैं, मुख्य रूप से भारत और अफ्रीका में वितरित
  3. तकनीकी बाधा: आधुनिक NLP कार्यों को बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है, जबकि निम्न संसाधन भाषाओं के डिजिटल डेटा की दुर्लभता NLP तकनीक को जनता तक पहुंचाने की मुख्य चुनौती है

अनुसंधान प्रेरणा

  • निम्न संसाधन भाषाओं के लिए समानांतर कॉर्पस का निर्माण, विशेष रूप से संसाधन-दुर्लभ-संसाधन-समृद्ध भाषा संयोजन
  • कोंकणी-मराठी को मुख्य उदाहरण के रूप में चुना: कोंकणी एक विशिष्ट निम्न संसाधन भाषा है, डिजिटल संसाधनों में दुर्लभ और मातृभाषा उपयोगकर्ताओं में कम; मराठी संसाधन-समृद्ध है
  • बड़े प्रकाशकों के स्थानीय समाचार पत्रों में संसाधन अनुकूलन के लिए विभिन्न भाषा संस्करणों में चित्रों का पुनः उपयोग करने का अवलोकन

मूल योगदान

  1. नवीन विधि: समाचार पत्र लेख छवियों को लेख मैपिंग के लिए हब के रूप में उपयोग करने वाली पहली बार, जो समान अनुसंधान में अभी तक अन्वेषण नहीं किया गया है
  2. तकनीकी सफलता: निम्न संसाधन भाषा संयोजनों पर वाक्य मैपिंग के लिए भाषा-अज्ञेयवादी एम्बेडिंग का उपयोग, और अनुभवजन्य सत्यापन प्रदान करता है
  3. डेटासेट योगदान: मानव एनोटेशन के बिना सबसे बड़ा कोंकणी-मराठी कॉर्पस बनाया
  4. सार्वभौमिकता सत्यापन: पंजाबी-हिंदी भाषा जोड़ी पर विधि की भाषा-अज्ञेयवादी प्रकृति को सत्यापित किया

विधि विवरण

कार्य परिभाषा

इनपुट: विभिन्न भाषाओं की समाचार पत्र PDF फाइलें आउटपुट: द्विभाषिक समानांतर वाक्य जोड़ी कॉर्पस बाधाएं: पूर्ण स्वचालन, मानव एनोटेशन की आवश्यकता नहीं, भाषा-अज्ञेयवादी

मॉडल आर्किटेक्चर

संपूर्ण डेटा संवर्धन पाइपलाइन में चार मुख्य घटक हैं:

1. क्रॉलर मॉड्यूल (Crawler)

  • ऑनलाइन स्रोतों से समाचार पत्र की प्रतियां डाउनलोड करता है
  • फाइलों को अलग-अलग पृष्ठों में विभाजित करता है
  • तारीख, पृष्ठ संख्या और भाषा कोड के साथ उचित रूप से टैग करता है

2. लेख निकालक (Article Extractor)

  • कार्यक्षमता:
    • व्यक्तिगत लेख सीमाओं को चिह्नित करता है
    • टैग किए गए लेखों के भीतर छवियों और पाठ (OCR का उपयोग करके) निकालता है
  • तकनीकी कार्यान्वयन:
    • लेख सीमा पहचान के लिए PRImA की लेआउट विश्लेषण डेटासेट का उपयोग
    • OpenCV का उपयोग करके रुचि के क्षेत्र (ROI) निकालता है
    • EasyOCR, PaddleOCR और Tesseract को जोड़ता है, बहुमत मतदान निर्णय अपनाता है
  • लेख विभाजन: लेख को चार ROI में विभाजित करता है:
    • शीर्षक (H): उपशीर्षक सहित
    • छवि (I)
    • चित्र कैप्शन (P)
    • सामग्री (C)

3. लेख मैपर (Article Mapper)

  • मैपिंग रणनीति: दो भाषाओं के बीच लेख छवि समानता की तुलना करता है
  • एल्गोरिथ्म: छवि मिलान के लिए SIFT (स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म) का उपयोग करता है
  • गणितीय प्रतिनिधित्व:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

जहां θ छवि मिलान एल्गोरिथ्म फ़ंक्शन है

4. वाक्य मैपर (Sentence Mapper)

  • मुख्य चुनौती: मैप किए गए लेखों के भीतर वाक्य क्रम में नहीं हो सकते हैं
  • तीन समानता उपाय:
    1. भाषा-अज्ञेयवादी वाक्य एम्बेडिंग (LAS): BERT आर्किटेक्चर पर आधारित, 119 भाषाओं पर प्रशिक्षित, कोसाइन समानता का उपयोग करता है
    2. सरल लंबाई अनुमानी (SLAS): वाक्य लंबाई और लेख के भीतर स्थिति पर आधारित
    3. शब्दावली ओवरलैप (LO): अंग्रेजी को हब भाषा के रूप में उपयोग करके सटीकता, रिकॉल और F-स्कोर

तकनीकी नवाचार बिंदु

  1. छवि हब रणनीति: समाचार पत्र के क्रॉस-भाषा संस्करणों में छवियों के पुनः उपयोग की विशेषता का लाभ उठाता है, छवि को लेख मैपिंग के लिए विश्वसनीय एंकर बिंदु के रूप में उपयोग करता है
  2. मल्टीमॉडल फ्यूजन: छवि विश्लेषण और पाठ विश्लेषण को जोड़ता है, मैपिंग सटीकता में सुधार करता है
  3. भाषा-अज्ञेयवादी: पूर्व-प्रशिक्षित बहुभाषिक मॉडल का उपयोग करता है, विशिष्ट भाषा जोड़ी के लिए अनुकूलन की आवश्यकता नहीं है
  4. अंत-से-अंत स्वचालन: कच्ची PDF से अंतिम समानांतर कॉर्पस तक पूर्ण स्वचालित प्रक्रिया

प्रायोगिक सेटअप

डेटासेट

  • मुख्य भाषा जोड़ी: कोंकणी-मराठी
  • सत्यापन भाषा जोड़ी: पंजाबी-हिंदी
  • डेटा स्रोत: ऑनलाइन समाचार पत्र PDF फाइलें
  • समय अवधि: समान तारीख के विभिन्न भाषा संस्करण

मूल्यांकन मेट्रिक्स

  • आंतरिक मूल्यांकन: सिमेंटिक टेक्स्ट समानता (STS), 6-स्तरीय क्रमिक स्कोरिंग (0-5)
    • 5: पूर्ण सिमेंटिक समतुल्यता
    • 0: पूर्ण सिमेंटिक असमानता
  • बाहरी मूल्यांकन: मशीन अनुवाद कार्य के लिए BLEU स्कोर

तुलनात्मक विधियां

  • वाक्य मैपिंग रणनीति तुलना: LAS बनाम SLAS बनाम LO
  • मौजूदा कोंकणी-मराठी आधारभूत (BLEU=23.5) के साथ तुलना

कार्यान्वयन विवरण

  • मानव मूल्यांकन: 900 वाक्य जोड़ियों का दो-चरणीय नमूना
  • पहला चरण: प्रत्येक वाक्य संरेखण रणनीति के लिए 200 जोड़ियां (कुल 600 जोड़ियां)
  • दूसरा चरण: सर्वश्रेष्ठ रणनीति के लिए अतिरिक्त 300 जोड़ियां
  • नमूना रणनीति: स्तरीकृत यादृच्छिक नमूना, क्रम संरक्षण के बिना

प्रायोगिक परिणाम

मुख्य परिणाम

आंतरिक मूल्यांकन परिणाम

वाक्य लंबाईलेख लंबाईLASSLASLO
1-10 शब्द1-5 वाक्य3.83.42.9
11-19 शब्द6-15 वाक्य3.73.43.0
20+ शब्द16+ वाक्य3.83.22.6

भाषा जोड़ी तुलना परिणाम

मेट्रिककोंकणी-मराठीपंजाबी-हिंदी
मैप किए गए लेख संख्या1,320150
मैप किए गए वाक्य जोड़ियां14,4482,200
मानव मूल्यांकन नमूना600100
STS औसत स्कोर3.703.73

मुख्य निष्कर्ष

  1. LAS सर्वश्रेष्ठ प्रदर्शन: सभी वाक्य लंबाई और लेख लंबाई संयोजनों में, भाषा-अज्ञेयवादी वाक्य एम्बेडिंग (LAS) सर्वश्रेष्ठ प्रदर्शन करता है
  2. उच्च गुणवत्ता मैपिंग: 92% से अधिक मैप किए गए वाक्यों का STS स्कोर >3 है
  3. भाषा-अज्ञेयवादी: पंजाबी-हिंदी प्रयोग परिणाम मुख्य प्रयोग के अनुरूप हैं, विधि की सार्वभौमिकता को सत्यापित करते हैं

बाहरी मूल्यांकन: मशीन अनुवाद कार्य

  • मॉडल: mT5 (बहुभाषिक पूर्व-प्रशिक्षित टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर) पर आधारित सूक्ष्म-ट्यूनिंग
  • प्रशिक्षण डेटा: कोंकणी-मराठी समानांतर कॉर्पस (शीर्षक और लेख सामग्री)
  • परीक्षण डेटा: चित्र कैप्शन सत्य मानक के रूप में
  • परिणाम: BLEU स्कोर 26.4, मौजूदा आधारभूत (23.5) की तुलना में लगभग 3 BLEU अंक में सुधार

विलोपन प्रयोग

विभिन्न वाक्य मैपिंग रणनीतियों की तुलना के माध्यम से, यह साबित किया:

  1. भाषा-अज्ञेयवादी एम्बेडिंग लंबाई अनुमानी और शब्दावली ओवरलैप विधियों की तुलना में काफी बेहतर है
  2. विधि विभिन्न लेख लंबाई और वाक्य लंबाई में स्थिर प्रदर्शन बनाए रखता है
  3. एम्बेडिंग-आधारित लेख प्रसंस्करण रणनीति की प्रभावशीलता

संबंधित कार्य

छवि विश्लेषण क्षेत्र

  • लेख विभाजन: अनुमानी विधियां, ग्राफ एम्बेडिंग विधियां, गहन शिक्षण विधियां
  • छवि मिलान: SIFT, SURF, BRIEF आदि पारंपरिक विधियां, और CNN आदि तंत्रिका नेटवर्क विधियां

पाठ विश्लेषण क्षेत्र

  • OCR तकनीक: देवनागरी लिपि के लिए व्यापक अनुसंधान
  • वाक्य संरेखण: लंबाई अनुमानी, शब्दावली पत्राचार, गहन शिक्षण-आधारित भाषा-अज्ञेयवादी वाक्य एम्बेडिंग पर आधारित

कोंकणी NLP अनुसंधान

  • मौजूदा कार्य: मुख्य रूप से POS टैगिंग, भावना विश्लेषण, NER आदि बुनियादी कार्यों तक सीमित
  • ILCI परियोजना: 25,000 वाक्यों का हिंदी-कोंकणी कॉर्पस बनाया, 23.5 का BLEU स्कोर प्राप्त किया

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रस्तावित विधि निम्न संसाधन भाषा समानांतर कॉर्पस के निर्माण में भाषा-अज्ञेयवादी और अच्छी स्केलेबिलिटी है
  2. लेख मैपिंग हब के रूप में छवि की रणनीति प्रभावी और नवीन साबित हुई है
  3. भाषा-अज्ञेयवादी वाक्य एम्बेडिंग निम्न संसाधन भाषा वाक्य संरेखण कार्य में उत्कृष्ट प्रदर्शन करता है

सीमाएं

  1. छवि निर्भरता: विधि क्रॉस-भाषा संस्करणों द्वारा साझा छवियों पर निर्भर है, जो लागू सीमा को सीमित करता है
  2. गुणवत्ता बाधा: डेटासेट गुणवत्ता को और बढ़ाने के लिए अतिरिक्त बाधाओं की आवश्यकता है
  3. पैमाने की सीमा: वर्तमान में मुख्य रूप से समाचार पत्र क्षेत्र में सत्यापित, अन्य क्षेत्रों में लागू करने की आवश्यकता है

भविष्य की दिशा

  1. छवि स्रोत विस्तार: विभिन्न लोगों द्वारा एक ही समाचार घटना के लिए ली गई छवियों पर विचार करना
  2. गुणवत्ता सुधार: डेटासेट गुणवत्ता बढ़ाने के लिए अतिरिक्त बाधा शर्तों की खोज करना
  3. क्षेत्र विस्तार: विधि को अधिक पाठ प्रकारों और क्षेत्रों में लागू करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवीनता: पहली बार छवि को क्रॉस-भाषा लेख मैपिंग के लिए हब के रूप में उपयोग करता है, विचार नवीन है
  2. उच्च व्यावहारिक मूल्य: निम्न संसाधन भाषा NLP अनुसंधान के लिए व्यावहारिक डेटा संवर्धन विधि प्रदान करता है
  3. व्यवस्थित पूर्णता: डेटा संग्रह से अंतिम मूल्यांकन तक पूर्ण प्रक्रिया डिजाइन
  4. पर्याप्त सत्यापन: आंतरिक और बाहरी मूल्यांकन के माध्यम से बहु-कोण विधि प्रभावशीलता सत्यापन
  5. अच्छी पुनरुत्पादनीयता: विधि विवरण विस्तृत, तकनीकी चयन सुविचारित है

कमियां

  1. सीमित लागू सीमा: समाचार पत्र क्रॉस-भाषा संस्करणों द्वारा साझा छवियों के विशिष्ट परिदृश्य पर गंभीर निर्भरता
  2. मूल्यांकन पैमाने छोटा: मानव मूल्यांकन नमूना अपेक्षाकृत छोटा है (600-900 वाक्य जोड़ियां)
  3. आधारभूत तुलना अपर्याप्त: अन्य स्वचालित समानांतर कॉर्पस निर्माण विधियों के साथ तुलना की कमी
  4. त्रुटि विश्लेषण अनुपस्थित: विफलता मामलों और त्रुटि पैटर्न का गहन विश्लेषण नहीं

प्रभाव

  1. शैक्षणिक योगदान: निम्न संसाधन भाषा समानांतर कॉर्पस निर्माण के लिए नई सोच प्रदान करता है
  2. व्यावहारिक अनुप्रयोग: बहुभाषिक समाचार पत्र वाले क्षेत्रों में सीधे लागू किया जा सकता है
  3. तकनीक प्रचार: छवि हब रणनीति अन्य मल्टीमॉडल NLP कार्यों को प्रेरित कर सकती है

लागू परिदृश्य

  1. आदर्श परिदृश्य: बहुभाषिक समाचार पत्र और छवि साझाकरण वाले क्षेत्र
  2. विस्तार परिदृश्य: अन्य क्रॉस-भाषा छवि साझाकरण विशेषता वाली मीडिया सामग्री
  3. सीमित परिदृश्य: शुद्ध पाठ या छवि साझाकरण के बिना भाषा जोड़ियां

संदर्भ

पेपर में 19 संबंधित संदर्भ हैं, जिनमें शामिल हैं:

  • बहुभाषिक पुनः प्राप्ति और व्यक्तिगतकरण प्रणालियां
  • दस्तावेज़ लेआउट विश्लेषण और छवि प्रसंस्करण
  • वाक्य संरेखण और समानांतर कॉर्पस निर्माण
  • निम्न संसाधन भाषा NLP अनुसंधान
  • तंत्रिका मशीन अनुवाद संबंधित कार्य

समग्र मूल्यांकन: यह निम्न संसाधन भाषा समानांतर कॉर्पस निर्माण क्षेत्र में नवीनता वाला एक पेपर है। हालांकि विधि का लागू परिदृश्य अपेक्षाकृत विशिष्ट है, लेकिन संबंधित परिदृश्य में अच्छा प्रदर्शन दिखाता है। छवि हब रणनीति का प्रस्ताव मल्टीमॉडल NLP अनुसंधान के लिए मूल्यवान विचार प्रदान करता है, निम्न संसाधन भाषाओं की डिजिटलकरण प्रक्रिया को आगे बढ़ाने में सकारात्मक महत्व है।