2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

সম্পূর্ণ স্বয়ংক্রিয় এবং স্কেলেবল সমান্তরাল ডেটা বর্ধন নিম্ন সম্পদ ভাষার জন্য ইমেজ এবং টেক্সট বিশ্লেষণ ব্যবহার করে

মৌলিক তথ্য

  • পেপার আইডি: 2510.13211
  • শিরোনাম: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • লেখক: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান)
  • প্রকাশনা সম্মেলন: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), ২৭-৩১ মার্চ, ২০২৩, তালিন, এস্তোনিয়া
  • পেপার লিংক: https://arxiv.org/abs/2510.13211

সারসংক্ষেপ

বৈশ্বিক ভাষাগত বৈচিত্র্য মানসম্পন্ন ডিজিটাল ভাষা সম্পদের প্রাপ্যতায় বিষম্যতা সৃষ্টি করে, যা অধিকাংশ জনগোষ্ঠীর প্রযুক্তিগত সুবিধা অর্জনে বাধা সৃষ্টি করে। নিম্ন সম্পদ ভাষার জন্য ডেটা অভাব বা অনুপস্থিতি এনএলপি কাজ সম্পাদন করা কঠিন করে তোলে। এই পেপারটি একটি উপন্যাস, স্কেলেবল, সম্পূর্ণ স্বয়ংক্রিয় পদ্ধতি প্রস্তাব করে যা সংবাদপত্র নিবন্ধ থেকে ইমেজ এবং টেক্সট বিশ্লেষণ ব্যবহার করে দ্বিভাষিক সমান্তরাল কর্পাস নিষ্কাশন করে। লেখকরা দুটি ভিন্ন ভাষা সংমিশ্রণের সমান্তরাল ডেটা কর্পাস নির্মাণের মাধ্যমে পদ্ধতিটি যাচাই করেন এবং মেশিন অনুবাদ ডাউনস্ট্রিম কাজের মাধ্যমে ডেটাসেটের মূল্য প্রমাণ করেন, বর্তমান ভিত্তিরেখার তুলনায় প্রায় ৩ BLEU পয়েন্ট উন্নতি করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: বৈশ্বিক ৭০০০ ভাষার মধ্যে মাত্র ২০টি ইন্টারনেটে পর্যাপ্ত সম্পদ রয়েছে, বাকিগুলি নিম্ন সম্পদ ভাষা (LRLs) হিসাবে পরিচিত, যা ডিজিটাল ডেটা সহায়তার অভাব রয়েছে ২. প্রভাবের পরিধি: ২.৫ বিলিয়নেরও বেশি মানুষ ২০০০টি নিম্ন সম্পদ ভাষা ব্যবহার করে, প্রধানত ভারত এবং আফ্রিকায় বিতরণ করা ३. প্রযুক্তিগত বাধা: আধুনিক এনএলপি কাজের জন্য বিশাল প্রশিক্ষণ ডেটা প্রয়োজন, যখন নিম্ন সম্পদ ভাষার ডিজিটাল ডেটা বিরলতা এনএলপি প্রযুক্তি জনসাধারণের কাছে প্রসারিত করার প্রধান চ্যালেঞ্জ

গবেষণা প্রেরণা

  • নিম্ন সম্পদ ভাষার জন্য সমান্তরাল কর্পাস নির্মাণ, বিশেষত সম্পদ-বিরল থেকে সম্পদ-সমৃদ্ধ ভাষা সংমিশ্রণ
  • কোঙ্কণী-মারাঠী নির্বাচন করা প্রধান উদাহরণ হিসাবে: কোঙ্কণী একটি সাধারণ নিম্ন সম্পদ ভাষা, ডিজিটাল সম্পদ বিরল এবং মাতৃভাষা ব্যবহারকারী কম; মারাঠী সম্পদ-সমৃদ্ধ
  • বড় প্রকাশনা সংস্থার স্থানীয় সংবাদপত্রগুলি সম্পদ অপ্টিমাইজ করার জন্য বিভিন্ন ভাষা সংস্করণে ছবি পুনরায় ব্যবহার করার পর্যবেক্ষণ

মূল অবদান

१. উদ্ভাবনী পদ্ধতি: সংবাদপত্র নিবন্ধ ছবি নিবন্ধ ম্যাপিংয়ের জন্য একটি হাব হিসাবে প্রথমবারের মতো ব্যবহার করা, যা অনুরূপ গবেষণায় এখনও অন্বেষণ করা হয়নি २. প্রযুক্তিগত অগ্রগতি: নিম্ন সম্পদ ভাষা সংমিশ্রণে বাক্য ম্যাপিংয়ের জন্য ভাষা-নিরপেক্ষ এমবেডিং ব্যবহার করা এবং অভিজ্ঞতামূলক যাচাইকরণ প্রদান করা ३. ডেটাসেট অবদান: বৃহত্তম মানব-মুক্ত কোঙ্কণী-মারাঠী কর্পাস তৈরি করা ४. সর্বজনীনতা যাচাইকরণ: পাঞ্জাবী-হিন্দি ভাষা জোড়ায় পদ্ধতির ভাষা-নিরপেক্ষতা যাচাই করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: বিভিন্ন ভাষার সংবাদপত্র পিডিএফ ফাইল আউটপুট: দ্বিভাষিক সমান্তরাল বাক্য জোড়া কর্পাস সীমাবদ্ধতা: সম্পূর্ণ স্বয়ংক্রিয়, মানব মনোযোগের প্রয়োজন নেই, ভাষা-নিরপেক্ষ

মডেল আর্কিটেকচার

সম্পূর্ণ ডেটা বর্ধন পাইপলাইনে চারটি মূল উপাদান রয়েছে:

१. ক্রলার মডিউল (Crawler)

  • অনলাইন উৎস থেকে সংবাদপত্র অনুলিপি ডাউনলোড করা
  • ফাইলগুলি পৃথক পৃষ্ঠায় বিভক্ত করা
  • তারিখ, পৃষ্ঠা সংখ্যা এবং ভাষা কোড দিয়ে যথাযথভাবে ট্যাগ করা

२. নিবন্ধ নিষ্কাশক (Article Extractor)

  • কার্যকারিতা:
    • স্বতন্ত্র নিবন্ধ সীমানা চিহ্নিত করা
    • চিহ্নিত নিবন্ধের মধ্যে ছবি এবং পাঠ্য নিষ্কাশন করা (OCR ব্যবহার করে)
  • প্রযুক্তিগত বাস্তবায়ন:
    • নিবন্ধ সীমানা সনাক্তকরণের জন্য PRImA এর লেআউট বিশ্লেষণ ডেটাসেট ব্যবহার করা
    • OpenCV ব্যবহার করে আগ্রহের অঞ্চল (ROI) নিষ্কাশন করা
    • EasyOCR, PaddleOCR এবং Tesseract একত্রিত করা, বহুমত সিদ্ধান্ত গ্রহণ ব্যবহার করা
  • নিবন্ধ বিভাজন: নিবন্ধগুলি চারটি ROI তে বিভক্ত করা:
    • শিরোনাম (H): উপশিরোনাম অন্তর্ভুক্ত
    • ছবি (I)
    • ছবির ক্যাপশন (P)
    • বিষয়বস্তু (C)

३. নিবন্ধ ম্যাপার (Article Mapper)

  • ম্যাপিং কৌশল: দুটি ভাষার মধ্যে নিবন্ধ ছবির সাদৃশ্য তুলনা করা
  • অ্যালগরিদম: ছবি ম্যাচিং অ্যালগরিদম হিসাবে SIFT (স্কেল-ইনভেরিয়েন্ট ফিচার ট্রান্সফর্ম) ব্যবহার করা
  • গাণিতিক প্রতিনিধিত্ব:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

যেখানে θ হল ছবি ম্যাচিং অ্যালগরিদম ফাংশন

४. বাক্য ম্যাপার (Sentence Mapper)

  • মূল চ্যালেঞ্জ: ম্যাপ করা নিবন্ধের মধ্যে বাক্যগুলি ক্রমানুসারে সাজানো নাও থাকতে পারে
  • তিনটি সাদৃশ্য পরিমাপ:
    1. ভাষা-নিরপেক্ষ বাক্য এমবেডিং (LAS): BERT আর্কিটেকচারের উপর ভিত্তি করে, ১১৯টি ভাষায় প্রশিক্ষিত, কোসাইন সাদৃশ্য ব্যবহার করে
    2. সরল দৈর্ঘ্য হিউরিস্টিক (SLAS): বাক্যের দৈর্ঘ্য এবং নিবন্ধের মধ্যে অবস্থানের উপর ভিত্তি করে
    3. শব্দভাণ্ডার ওভারল্যাপ (LO): ইংরেজিকে হাব ভাষা হিসাবে ব্যবহার করে নির্ভুলতা, স্মরণ এবং F-স্কোর ব্যবহার করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. ছবি হাব কৌশল: সংবাদপত্র ক্রস-ভাষা সংস্করণে ছবি পুনরায় ব্যবহারের বৈশিষ্ট্য কাজে লাগিয়ে, ছবিকে নিবন্ধ ম্যাপিংয়ের নির্ভরযোগ্য অ্যাঙ্করপয়েন্ট হিসাবে ব্যবহার করা २. মাল্টিমোডাল ফিউশন: ছবি বিশ্লেষণ এবং পাঠ্য বিশ্লেষণ একত্রিত করে ম্যাপিং নির্ভুলতা উন্নত করা ३. ভাষা-নিরপেক্ষতা: প্রাক-প্রশিক্ষিত বহুভাষিক মডেল ব্যবহার করে, নির্দিষ্ট ভাষা জোড়ার জন্য কাস্টমাইজেশনের প্রয়োজন নেই ४. এন্ড-টু-এন্ড স্বয়ংক্রিয়করণ: কাঁচা পিডিএফ থেকে চূড়ান্ত সমান্তরাল কর্পাস পর্যন্ত সম্পূর্ণ স্বয়ংক্রিয় প্রক্রিয়া

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • প্রধান ভাষা জোড়া: কোঙ্কণী-মারাঠী
  • যাচাইকরণ ভাষা জোড়া: পাঞ্জাবী-হিন্দি
  • ডেটা উৎস: অনলাইন সংবাদপত্র পিডিএফ ফাইল
  • সময়ের বিস্তৃতি: একই তারিখের বিভিন্ন ভাষা সংস্করণ

মূল্যায়ন মেট্রিক্স

  • অভ্যন্তরীণ মূল্যায়ন: শব্দার্থিক পাঠ্য সাদৃশ্য (STS), ৬-স্তরের ক্রমিক স্কোরিং (০-৫)
    • ৫: সম্পূর্ণ শব্দার্থিক সমতুল্যতা
    • ০: সম্পূর্ণ শব্দার্থিক অসাদৃশ্য
  • বাহ্যিক মূল্যায়ন: মেশিন অনুবাদ কাজের BLEU স্কোর

তুলনামূলক পদ্ধতি

  • বাক্য ম্যাপিং কৌশল তুলনা: LAS বনাম SLAS বনাম LO
  • বিদ্যমান কোঙ্কণী-মারাঠী ভিত্তিরেখার সাথে তুলনা (BLEU=23.5)

বাস্তবায়ন বিবরণ

  • মানব মূল্যায়ন: দুটি পর্যায়ে ৯০০টি বাক্য জোড়া নমুনা
  • প্রথম পর্যায়: প্রতিটি বাক্য সারিবদ্ধকরণ কৌশলের জন্য ২০০ জোড়া (মোট ৬০০ জোড়া)
  • দ্বিতীয় পর্যায়: সেরা কৌশলের জন্য অতিরিক্ত ৩০০ জোড়া
  • নমুনা কৌশল: স্তরযুক্ত র্যান্ডম নমুনা, ক্রম সংরক্ষণ ছাড়াই

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অভ্যন্তরীণ মূল্যায়ন ফলাফল

বাক্যের দৈর্ঘ্যনিবন্ধের দৈর্ঘ্যLASSLASLO
১-১০ শব্দ১-৫ বাক্য৩.৮३.४२.९
११-१९ শब्द६-१५ वाक्य३.७३.४३.०
२०+ शब्द१६+ वाक्य३.८३.२२.६

ভাষা জোড়া তুলনা ফলাফল

মেট্রিককোঙ্কণী-মারাঠীপাঞ্জাবী-হিন্দি
ম্যাপ করা নিবন্ধ সংখ্যা१,३२०१५०
ম্যাপ করা বাক্য জোড়া१४,४४८२,२००
মানব মূল্যায়ন নমুনা६००१००
STS গড় স্কোর३.७०३.७३

মূল অনুসন্ধান

१. LAS সর্বোত্তম কর্মক্ষমতা: সমস্ত বাক্যের দৈর্ঘ্য এবং নিবন্ধের দৈর্ঘ্যের সংমিশ্রণে, ভাষা-নিরপেক্ষ বাক্য এমবেডিং (LAS) সর্বদা সর্বোত্তম পারফরম্যান্স প্রদর্শন করে २. উচ্চ মানের ম্যাপিং: ৯२% এর বেশি ম্যাপ করা বাক্যের STS স্কোর > ३ ३. ভাষা-নিরপেক্ষতা: পাঞ্জাবী-হিন্দি পরীক্ষার ফলাফল প্রধান পরীক্ষার সাথে তুলনীয়, পদ্ধতির সর্বজনীনতা যাচাই করে

বাহ্যিক মূল্যায়ন: মেশিন অনুবাদ কাজ

  • মডেল: mT५ (বহুভাষিক প্রাক-প্রশিক্ষিত পাঠ্য-থেকে-পাঠ্য রূপান্তরকারী) সূক্ষ্ম-সুর করা
  • প্রশিক্ষণ ডেটা: কোঙ্কণী-মারাঠী সমান্তরাল কর্পাস (শিরোনাম এবং নিবন্ধ বিষয়বস্তু)
  • পরীক্ষার ডেটা: ছবির ক্যাপশন সত্য মান হিসাবে
  • ফলাফল: BLEU স্কোর २६.४, বিদ্যমান ভিত্তিরেখা (२३.५) এর তুলনায় প্রায় ३ BLEU পয়েন্ট উন্নতি

বিলোপন পরীক্ষা

বিভিন্ন বাক্য ম্যাপিং কৌশলের তুলনার মাধ্যমে, প্রমাণিত হয়েছে যে: १. ভাষা-নিরপেক্ষ এমবেডিং দৈর্ঘ্য হিউরিস্টিক এবং শব্দভাণ্ডার ওভারল্যাপ পদ্ধতির তুলনায় উল্লেখযোগ্যভাবে উচ্চতর २. পদ্ধতি বিভিন্ন নিবন্ধ দৈর্ঘ্য এবং বাক্যের দৈর্ঘ্যে স্থিতিশীল কর্মক্ষমতা বজায় রাখে ३. এমবেডিং-ভিত্তিক নিবন্ধ প্রক্রিয়াকরণ কৌশলের কার্যকারিতা

সম্পর্কিত কাজ

ছবি বিশ্লেষণ ক্ষেত্র

  • নিবন্ধ বিভাজন: হিউরিস্টিক পদ্ধতি, গ্রাফ এমবেডিং পদ্ধতি, গভীর শেখার পদ্ধতি
  • ছবি ম্যাচিং: SIFT, SURF, BRIEF ইত্যাদি ঐতিহ্যবাহী পদ্ধতি, এবং CNN ইত্যাদি স্নায়ু নেটওয়ার্ক পদ্ধতি

পাঠ্য বিশ্লেষণ ক্ষেত্র

  • OCR প্রযুক্তি: Devanagari লিপির জন্য ব্যাপক গবেষণা
  • বাক্য সারিবদ্ধকরণ: দৈর্ঘ্য হিউরিস্টিক, শব্দভাণ্ডার সংযোগ, গভীর শেখার ভাষা-নিরপেক্ষ বাক্য এমবেডিং উপর ভিত্তি করে

কোঙ্কণী NLP গবেষণা

  • বিদ্যমান কাজ: প্রধানত POS ট্যাগিং, সেন্টিমেন্ট বিশ্লেষণ, NER ইত্যাদি মৌলিক কাজে সীমাবদ্ধ
  • ILCI প্রকল্প: २५,००० বাক্যের Hindi-Konkani কর্পাস তৈরি করেছে, २३.५ এর BLEU স্কোর অর্জন করেছে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. প্রস্তাবিত পদ্ধতি নিম্ন সম্পদ ভাষা সমান্তরাল কর্পাস নির্মাণে ভাষা-নিরপেক্ষতা এবং ভাল স্কেলেবিলিটি প্রদর্শন করে २. নিবন্ধ ম্যাপিং হাব হিসাবে ছবির কৌশল কার্যকর এবং উদ্ভাবনী প্রমাণিত হয়েছে ३. ভাষা-নিরপেক্ষ বাক্য এমবেডিং নিম্ন সম্পদ ভাষা বাক্য সারিবদ্ধকরণ কাজে চমৎকার কর্মক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

१. ছবি নির্ভরতা: পদ্ধতি ক্রস-ভাষা সংস্করণ জুড়ে ভাগ করা ছবির উপর নির্ভর করে, প্রযোজ্যতার পরিধি সীমিত করে २. গুণমান সীমাবদ্ধতা: ডেটাসেট গুণমান আরও উন্নত করতে অতিরিক্ত সীমাবদ্ধতা প্রয়োজন ३. স্কেল সীমাবদ্ধতা: বর্তমানে প্রধানত সংবাদপত্র ক্ষেত্রে যাচাই করা হয়েছে, অন্যান্য ক্ষেত্রে প্রযোজ্যতা আরও যাচাইয়ের প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. ছবি উৎস সম্প্রসারণ: একই সংবাদ ঘটনার জন্য বিভিন্ন ব্যক্তি দ্বারা তোলা ছবি বিবেচনা করা २. গুণমান উন্নতি: ডেটাসেট গুণমান উন্নত করতে অতিরিক্ত সীমাবদ্ধতা শর্ত অন্বেষণ করা ३. ক্ষেত্র সম্প্রসারণ: পদ্ধতি আরও পাঠ্য প্রকার এবং ক্ষেত্রে প্রয়োগ করা

গভীর মূল্যায়ন

শক্তি

१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো ছবিকে ক্রস-ভাষা নিবন্ধ ম্যাপিংয়ের হাব হিসাবে ব্যবহার করা, চিন্তাভাবনা উপন্যাস २. উচ্চ ব্যবহারিক মূল্য: নিম্ন সম্পদ ভাষা NLP গবেষণার জন্য একটি ব্যবহারিক ডেটা বর্ধন পদ্ধতি প্রদান করে ३. সিস্টেমেটিক সম্পূর্ণতা: ডেটা সংগ্রহ থেকে চূড়ান্ত মূল্যায়ন পর্যন্ত সম্পূর্ণ প্রক্রিয়া ডিজাইন ४. পর্যাপ্ত যাচাইকরণ: অভ্যন্তরীণ এবং বাহ্যিক মূল্যায়নের মাধ্যমে বহুমুখী পদ্ধতির কার্যকারিতা যাচাই করা ५. ভাল পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা বিস্তারিত, প্রযুক্তিগত নির্বাচন যুক্তিসঙ্গত এবং ভিত্তিযুক্ত

অপূর্ণতা

१. সীমিত প্রযোজ্যতা পরিধি: সংবাদপত্র ক্রস-ভাষা সংস্করণ ভাগ করা ছবির নির্দিষ্ট পরিস্থিতিতে গুরুতরভাবে নির্ভর করে २. মূল্যায়ন স্কেল অপেক্ষাকৃত ছোট: মানব মূল্যায়ন নমুনা তুলনামূলকভাবে ছোট (६००-९०० বাক্য জোড়া) ३. অপর্যাপ্ত ভিত্তিরেখা তুলনা: অন্যান্য স্বয়ংক্রিয় সমান্তরাল কর্পাস নির্মাণ পদ্ধতির সাথে তুলনার অভাব ४. ত্রুটি বিশ্লেষণ অনুপস্থিত: ব্যর্থতার ক্ষেত্রে এবং ত্রুটি প্যাটার্ন গভীরভাবে বিশ্লেষণ করা হয়নি

প্রভাব

१. একাডেমিক অবদান: নিম্ন সম্পদ ভাষা সমান্তরাল কর্পাস নির্মাণে নতুন চিন্তাভাবনা প্রদান করে २. ব্যবহারিক প্রয়োগ: বহুভাষিক সংবাদপত্র সহ অঞ্চলে সরাসরি প্রয়োগ করা যেতে পারে ३. প্রযুক্তি প্রচার: ছবি হাব কৌশল অন্যান্য মাল্টিমোডাল NLP কাজকে অনুপ্রাণিত করতে পারে

প্রযোজ্য পরিস্থিতি

१. আদর্শ পরিস্থিতি: বহুভাষিক সংবাদপত্র এবং ছবি ভাগাভাগি সহ অঞ্চল २. সম্প্রসারণ পরিস্থিতি: অন্যান্য ক্রস-ভাষা ছবি ভাগাভাগির বৈশিষ্ট্য সহ মিডিয়া বিষয়বস্তু ३. সীমাবদ্ধ পরিস্থিতি: বিশুদ্ধ পাঠ্য বা ছবি ভাগাভাগি ছাড়া ভাষা জোড়া

সংদর্ভ

পেপারটি ১९টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা অন্তর্ভুক্ত করে:

  • বহুভাষিক পুনরুদ্ধার এবং ব্যক্তিগতকরণ সিস্টেম
  • নথি লেআউট বিশ্লেষণ এবং ছবি প্রক্রিয়াকরণ
  • বাক্য সারিবদ্ধকরণ এবং সমান্তরাল কর্পাস নির্মাণ
  • নিম্ন সম্পদ ভাষা NLP গবেষণা
  • স্নায়ু মেশিন অনুবাদ সম্পর্কিত কাজ

সামগ্রিক মূল্যায়ন: এটি নিম্ন সম্পদ ভাষা সমান্তরাল কর্পাস নির্মাণ ক্ষেত্রে উদ্ভাবনী কাজ। যদিও পদ্ধতির প্রযোজ্য পরিস্থিতি তুলনামূলকভাবে নির্দিষ্ট, এটি সংশ্লিষ্ট পরিস্থিতিতে ভাল কর্মক্ষমতা প্রদর্শন করে। ছবি হাব কৌশলের প্রস্তাব মাল্টিমোডাল NLP গবেষণার জন্য মূল্যবান চিন্তাভাবনা প্রদান করে এবং নিম্ন সম্পদ ভাষার ডিজিটালকরণ প্রক্রিয়া এগিয়ে নিতে ইতিবাচক অর্থ রাখে।