A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
زيادة البيانات المتوازية المؤتمتة بالكامل وقابلة للتوسع للغات منخفضة الموارد باستخدام تحليلات الصور والنصوص
يؤدي التنوع اللغوي العالمي إلى عدم تكافؤ في توفر موارد اللغات الرقمية عالية الجودة، مما يحد من حصول معظم السكان على المزايا التكنولوجية. يجعل نقص أو عدم توفر موارد البيانات من الصعب تنفيذ مهام معالجة اللغات الطبيعية للغات منخفضة الموارد. تقترح هذه الورقة منهجاً جديداً وقابلاً للتوسع ومؤتمتاً بالكامل لاستخراج مدونات متوازية ثنائية اللغة من مقالات الصحف باستخدام تحليلات الصور والنصوص. يتحقق المؤلفون من الطريقة بإنشاء مدونات بيانات متوازية لمجموعتي لغات مختلفتين، ويثبتون قيمة مجموعة البيانات من خلال مهمة الترجمة الآلية اللاحقة، محققين تحسناً بحوالي 3 نقاط BLEU مقارنة بخط الأساس الحالي.
المشكلة الأساسية: من بين 7000 لغة عالمية، تتمتع فقط 20 لغة بموارد كافية على الإنترنت، والباقي يُصنف كلغات منخفضة الموارد (LRLs)، تفتقر إلى دعم البيانات الرقمية
نطاق التأثير: يستخدم أكثر من 2.5 مليار شخص 2000 لغة منخفضة الموارد، موزعة بشكل أساسي في الهند وأفريقيا
العوائق التكنولوجية: تتطلب مهام معالجة اللغات الطبيعية الحديثة كميات كبيرة من بيانات التدريب، وندرة البيانات الرقمية للغات منخفضة الموارد تمثل التحدي الرئيسي لنشر تقنيات معالجة اللغات الطبيعية على نطاق واسع
التقييم الشامل: هذا عمل مبتكر في مجال بناء مدونات متوازية للغات منخفضة الموارد. على الرغم من أن نطاق تطبيق الطريقة محدد نسبياً، إلا أنها تظهر أداءً جيداً في السيناريوهات المناسبة. يوفر اقتراح استراتيجية المحور الصوري أفكاراً قيمة لأبحاث معالجة اللغات الطبيعية متعددة الأنماط، وله معنى إيجابي لتعزيز الرقمنة للغات منخفضة الموارد.