2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

زيادة البيانات المتوازية المؤتمتة بالكامل وقابلة للتوسع للغات منخفضة الموارد باستخدام تحليلات الصور والنصوص

المعلومات الأساسية

  • معرّف الورقة: 2510.13211
  • العنوان: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • المؤلفون: Prawaal Sharma (Infosys)، Navneet Goyal (BITS Pilani)، Poonam Goyal (BITS Pilani)، Vishnupriyan K R (Infosys)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • المؤتمر: SAC '23 (الندوة الثامنة والثلاثون لـ ACM/SIGAPP حول الحوسبة التطبيقية)، 27-31 مارس 2023، تالين، إستونيا
  • رابط الورقة: https://arxiv.org/abs/2510.13211

الملخص

يؤدي التنوع اللغوي العالمي إلى عدم تكافؤ في توفر موارد اللغات الرقمية عالية الجودة، مما يحد من حصول معظم السكان على المزايا التكنولوجية. يجعل نقص أو عدم توفر موارد البيانات من الصعب تنفيذ مهام معالجة اللغات الطبيعية للغات منخفضة الموارد. تقترح هذه الورقة منهجاً جديداً وقابلاً للتوسع ومؤتمتاً بالكامل لاستخراج مدونات متوازية ثنائية اللغة من مقالات الصحف باستخدام تحليلات الصور والنصوص. يتحقق المؤلفون من الطريقة بإنشاء مدونات بيانات متوازية لمجموعتي لغات مختلفتين، ويثبتون قيمة مجموعة البيانات من خلال مهمة الترجمة الآلية اللاحقة، محققين تحسناً بحوالي 3 نقاط BLEU مقارنة بخط الأساس الحالي.

السياق البحثي والدافع

تعريف المشكلة

  1. المشكلة الأساسية: من بين 7000 لغة عالمية، تتمتع فقط 20 لغة بموارد كافية على الإنترنت، والباقي يُصنف كلغات منخفضة الموارد (LRLs)، تفتقر إلى دعم البيانات الرقمية
  2. نطاق التأثير: يستخدم أكثر من 2.5 مليار شخص 2000 لغة منخفضة الموارد، موزعة بشكل أساسي في الهند وأفريقيا
  3. العوائق التكنولوجية: تتطلب مهام معالجة اللغات الطبيعية الحديثة كميات كبيرة من بيانات التدريب، وندرة البيانات الرقمية للغات منخفضة الموارد تمثل التحدي الرئيسي لنشر تقنيات معالجة اللغات الطبيعية على نطاق واسع

الدافع البحثي

  • بناء مدونات متوازية للغات منخفضة الموارد، خاصة مجموعات اللغات منخفضة الموارد-غنية الموارد
  • اختيار Konkani-Marathi كمثال رئيسي: Konkani لغة منخفضة الموارد نموذجية بموارد رقمية نادرة وعدد أقل من الناطقين الأصليين؛ Marathi غنية بالموارد
  • ملاحظة أن الصحف المحلية للناشرين الكبار تعيد استخدام الصور عبر الإصدارات اللغوية المختلفة لتحسين الموارد

المساهمات الأساسية

  1. منهج مبتكر: استخدام صور مقالات الصحف كمحور لتعيين المقالات للمرة الأولى، وهو ما لم يتم استكشافه في الأبحاث المماثلة
  2. اختراق تقني: استخدام التضمينات اللغوية المستقلة عن اللغة لتعيين الجمل على مجموعات لغات منخفضة الموارد، مع توفير التحقق التجريبي
  3. مساهمة مجموعة البيانات: إنشاء أكبر مدونة Konkani-Marathi بدون تعليقات يدوية
  4. التحقق من العمومية: التحقق من استقلالية الطريقة عن اللغة على زوج اللغات Punjabi-Hindi

شرح الطريقة

تعريف المهمة

الإدخال: ملفات PDF للصحف بلغات مختلفة الإخراج: مدونة أزواج جمل متوازية ثنائية اللغة القيود: مؤتمتة بالكامل، بدون تعليقات يدوية، مستقلة عن اللغة

معمارية النموذج

يتضمن خط أنابيب زيادة البيانات الكامل أربعة مكونات أساسية:

1. وحدة الزحف (Crawler)

  • تحميل نسخ الصحف من المصادر عبر الإنترنت
  • تقسيم الملفات إلى صفحات منفصلة
  • وضع علامات مناسبة باستخدام التاريخ ورقم الصفحة وكود اللغة

2. مستخرج المقالات (Article Extractor)

  • الوظائف:
    • تحديد حدود المقالات الفردية
    • استخراج الصور والنصوص داخل المقالات المحددة (باستخدام OCR)
  • التنفيذ التقني:
    • استخدام مجموعة بيانات تحليل التخطيط من PRImA لكشف حدود المقالات
    • استخدام OpenCV لاستخراج مناطق الاهتمام (ROI)
    • الجمع بين EasyOCR و PaddleOCR و Tesseract مع اتخاذ قرار بالتصويت بالأغلبية
  • تقسيم المقالات: تقسيم المقالات إلى أربع مناطق اهتمام:
    • العنوان (H): يشمل العناوين الفرعية
    • الصورة (I)
    • تعليق الصورة (P)
    • المحتوى (C)

3. مُعيِّن المقالات (Article Mapper)

  • استراتيجية التعيين: مقارنة تشابه صور المقالات عبر اللغات
  • الخوارزمية: استخدام SIFT (تحويل الميزات الثابتة في الحجم) كخوارزمية مطابقة الصور
  • التمثيل الرياضي:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

حيث θ هي دالة خوارزمية مطابقة الصور

4. مُعيِّن الجمل (Sentence Mapper)

  • التحدي الأساسي: قد لا تكون الجمل داخل المقالات المعينة مرتبة بالتسلسل
  • ثلاث مقاييس تشابه:
    1. التضمين الجملي المستقل عن اللغة (LAS): بناءً على معمارية BERT، مدرب على 119 لغة، باستخدام تشابه جيب التمام
    2. الاستدلال البسيط على الطول (SLAS): بناءً على طول الجملة والموضع داخل المقالة
    3. التداخل المعجمي (LO): استخدام الدقة والاستدعاء ودرجة F باستخدام اللغة الإنجليزية كلغة محور

نقاط الابتكار التقني

  1. استراتيجية المحور الصوري: الاستفادة من خاصية إعادة استخدام الصور عبر الإصدارات اللغوية للصحف، واستخدام الصور كنقاط ارتكاز موثوقة لتعيين المقالات
  2. الدمج متعدد الأنماط: دمج تحليل الصور وتحليل النصوص لتحسين دقة التعيين
  3. الاستقلالية عن اللغة: استخدام نماذج متعددة اللغات مدربة مسبقاً، بدون الحاجة إلى تخصيص لأزواج لغات محددة
  4. الأتمتة من طرف إلى طرف: عملية مؤتمتة بالكامل من ملفات PDF الخام إلى مدونة متوازية نهائية

إعداد التجربة

مجموعة البيانات

  • زوج اللغات الرئيسي: Konkani-Marathi
  • زوج اللغات للتحقق: Punjabi-Hindi
  • مصدر البيانات: ملفات PDF الصحف عبر الإنترنت
  • الفترة الزمنية: إصدارات بلغات مختلفة من نفس التاريخ

مقاييس التقييم

  • التقييم الداخلي: تشابه النصوص الدلالي (STS)، تقييم ترتيبي من 6 مستويات (0-5)
    • 5: تكافؤ دلالي كامل
    • 0: عدم تشابه دلالي كامل
  • التقييم الخارجي: درجة BLEU لمهمة الترجمة الآلية

الطرق المقارنة

  • مقارنة استراتيجيات تعيين الجمل: LAS مقابل SLAS مقابل LO
  • المقارنة مع خط الأساس الحالي لـ Konkani-Marathi (BLEU=23.5)

تفاصيل التنفيذ

  • التقييم اليدوي: أخذ عينات من 900 زوج جملة على مرحلتين
  • المرحلة الأولى: 200 زوج لكل استراتيجية تعيين جملة (600 زوج إجمالي)
  • المرحلة الثانية: 300 زوج إضافي للاستراتيجية الأفضل
  • استراتيجية أخذ العينات: أخذ عينات عشوائية طبقية، محفوظة بدون ترتيب

نتائج التجربة

النتائج الرئيسية

نتائج التقييم الداخلي

طول الجملةطول المقالةLASSLASLO
1-10 كلمات1-5 جمل3.83.42.9
11-19 كلمة6-15 جملة3.73.43.0
20+ كلمة16+ جملة3.83.22.6

نتائج مقارنة أزواج اللغات

المقياسKonkani-MarathiPunjabi-Hindi
عدد المقالات المعينة1,320150
أزواج الجمل المعينة14,4482,200
عينات التقييم اليدوي600100
متوسط درجة STS3.703.73

الاكتشافات الرئيسية

  1. أداء LAS الأمثل: يحقق التضمين الجملي المستقل عن اللغة (LAS) أفضل أداء عبر جميع مجموعات طول الجملة وطول المقالة
  2. تعيين عالي الجودة: أكثر من 92% من أزواج الجمل المعينة حققت درجة STS > 3
  3. الاستقلالية عن اللغة: نتائج تجربة Punjabi-Hindi مماثلة للتجربة الرئيسية، مما يتحقق من عمومية الطريقة

التقييم الخارجي: مهمة الترجمة الآلية

  • النموذج: معدل مدرب على mT5 (محول نصي متعدد اللغات)
  • بيانات التدريب: مدونة Konkani-Marathi المتوازية (العناوين ومحتوى المقالات)
  • بيانات الاختبار: تعليقات الصور كمعيار ذهبي
  • النتيجة: درجة BLEU 26.4، تحسن بحوالي 3 نقاط BLEU مقارنة بخط الأساس الحالي (23.5)

تجارب الاستبدال

من خلال مقارنة استراتيجيات تعيين الجمل المختلفة، تم إثبات:

  1. تفوق التضمينات اللغوية المستقلة عن اللغة بشكل كبير على طرق الاستدلال على الطول والتداخل المعجمي
  2. استقرار أداء الطريقة عبر أطوال مقالات وجمل مختلفة
  3. فعالية استراتيجية معالجة المقالات المضمنة

الأعمال ذات الصلة

مجال تحليل الصور

  • تقسيم المقالات: طرق استدلالية، طرق تضمين الرسوم البيانية، طرق التعلم العميق
  • مطابقة الصور: طرق تقليدية مثل SIFT و SURF و BRIEF، وكذلك طرق الشبكات العصبية مثل CNN

مجال تحليل النصوص

  • تقنية OCR: أبحاث واسعة النطاق موجهة نحو نصوص Devanagari
  • محاذاة الجمل: محاذاة قائمة على الاستدلال على الطول، والمراسلات المعجمية، والتضمينات الجملية المستقلة عن اللغة القائمة على التعلم العميق

أبحاث معالجة اللغة الطبيعية لـ Konkani

  • الأعمال الموجودة: تقتصر بشكل أساسي على المهام الأساسية مثل وسم الأدوار النحوية وتحليل المشاعر والاستخراج المسمى للكيانات
  • مشروع ILCI: إنشاء مدونة Hindi-Konkani بـ 25,000 جملة، مما حقق درجة BLEU 23.5

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. الطريقة المقترحة تتمتع باستقلالية عن اللغة وقابلية جيدة للتوسع في بناء مدونات متوازية للغات منخفضة الموارد
  2. استراتيجية استخدام الصور كمحور لتعيين المقالات أثبتت فعاليتها وابتكارها
  3. التضمينات الجملية المستقلة عن اللغة تحقق أداءً متميزاً في مهام محاذاة الجمل للغات منخفضة الموارد

القيود

  1. الاعتماد على الصور: تعتمد الطريقة على مشاركة الصور عبر الإصدارات اللغوية، مما يحد من نطاق التطبيق
  2. قيود الجودة: تتطلب قيود إضافية لتحسين جودة مجموعة البيانات بشكل أكبر
  3. حدود الحجم: يتم التحقق الحالي بشكل أساسي في مجال الصحف، وتتطلب قابلية التطبيق في المجالات الأخرى مزيداً من التحقق

الاتجاهات المستقبلية

  1. توسيع مصادر الصور: النظر في الصور التي يلتقطها أشخاص مختلفون لنفس حدث إخباري
  2. تحسين الجودة: استكشاف شروط إضافية لتحسين جودة مجموعة البيانات
  3. توسيع المجال: تطبيق الطريقة على أنواع نصوص ومجالات أكثر

التقييم المتعمق

المميزات

  1. ابتكار قوي: استخدام الصور لأول مرة كمحور لتعيين المقالات عبر اللغات، فكرة مبتكرة
  2. قيمة عملية عالية: توفير طريقة عملية لزيادة البيانات للغات منخفضة الموارد
  3. اكتمال النظام: تصميم عملية كاملة من جمع البيانات إلى التقييم النهائي
  4. تحقق كافٍ: التحقق من فعالية الطريقة من زوايا متعددة من خلال التقييم الداخلي والخارجي
  5. قابلية إعادة الإنتاج جيدة: وصف تفصيلي للطريقة واختيارات تقنية معللة

أوجه القصور

  1. نطاق تطبيق محدود: اعتماد شديد على السيناريو المحدد لمشاركة الصور عبر الإصدارات اللغوية للصحف
  2. حجم التقييم صغير نسبياً: عينات التقييم اليدوي صغيرة نسبياً (600-900 زوج جملة)
  3. مقارنة خط الأساس غير كافية: نقص المقارنة مع طرق أخرى لبناء مدونات متوازية مؤتمتة
  4. تحليل الأخطاء مفقود: لم يتم تحليل عميق لحالات الفشل والأنماط الخاطئة

التأثير

  1. المساهمة الأكاديمية: توفير أفكار جديدة لبناء مدونات متوازية للغات منخفضة الموارد
  2. التطبيق العملي: يمكن تطبيقها مباشرة على المناطق التي تحتوي على صحف متعددة اللغات
  3. نشر التكنولوجيا: قد تلهم استراتيجية المحور الصوري مهام معالجة اللغات الطبيعية متعددة الأنماط الأخرى

السيناريوهات المطبقة

  1. السيناريو المثالي: مناطق بها صحف متعددة اللغات ومشاركة صور
  2. السيناريو الموسع: محتوى إعلامي آخر بخصائص مشاركة صور عبر اللغات
  3. السيناريو المقيد: أزواج لغات نصية بحتة أو بدون مشاركة صور

المراجع

تستشهد الورقة بـ 19 مرجعاً ذا صلة، تغطي:

  • الاسترجاع متعدد اللغات والأنظمة الشخصية
  • تحليل تخطيط المستندات ومعالجة الصور
  • محاذاة الجمل وبناء المدونات المتوازية
  • أبحاث معالجة اللغات الطبيعية للغات منخفضة الموارد
  • الأعمال ذات الصلة بالترجمة الآلية العصبية

التقييم الشامل: هذا عمل مبتكر في مجال بناء مدونات متوازية للغات منخفضة الموارد. على الرغم من أن نطاق تطبيق الطريقة محدد نسبياً، إلا أنها تظهر أداءً جيداً في السيناريوهات المناسبة. يوفر اقتراح استراتيجية المحور الصوري أفكاراً قيمة لأبحاث معالجة اللغات الطبيعية متعددة الأنماط، وله معنى إيجابي لتعزيز الرقمنة للغات منخفضة الموارد.