A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
Eine vollständig automatisierte und skalierbare parallele Datenerweiterung für ressourcenarm Sprachen unter Verwendung von Bild- und Textanalytik
Die globale sprachliche Vielfalt führt zu Unterschieden in der Verfügbarkeit hochwertiger digitaler Sprachressourcen und schränkt damit die technologischen Vorteile für die meisten Bevölkerungsgruppen ein. Das Fehlen oder die Knappheit von Datenressourcen macht die Durchführung von NLP-Aufgaben für ressourcenarm Sprachen schwierig. Dieses Papier präsentiert einen neuartigen, skalierbaren und vollständig automatisierten Ansatz zur Extraktion zweisprachiger paralleler Korpora aus Zeitungsartikeln unter Verwendung von Bild- und Textanalytik. Die Autoren validieren die Methode durch die Konstruktion paralleler Datenkorpora für zwei verschiedene Sprachenkombinationen und demonstrieren den Wert des Datensatzes durch eine nachgelagerte maschinelle Übersetzungsaufgabe, die eine Verbesserung von etwa 3 BLEU-Punkten gegenüber der aktuellen Baseline erreicht.
Kernproblem: Von den weltweit 7.000 Sprachen haben nur 20 ausreichende Ressourcen im Internet; die übrigen werden als ressourcenarm Sprachen (LRLs) bezeichnet und leiden unter mangelnder digitaler Datenunterstützung
Umfang der Auswirkungen: Über 2,5 Milliarden Menschen sprechen 2.000 ressourcenarm Sprachen, hauptsächlich in Indien und Afrika verbreitet
Technische Hindernisse: Moderne NLP-Aufgaben erfordern große Mengen an Trainingsdaten, und die Knappheit digitaler Daten in ressourcenarm Sprachen ist die Hauptherausforderung für die Verbreitung von NLP-Technologie unter der Bevölkerung
Konstruktion paralleler Korpora für ressourcenarm Sprachen, insbesondere für Sprachenkombinationen mit geringen und hohen Ressourcen
Auswahl von Konkani-Marathi als Hauptbeispiel: Konkani ist eine typische ressourcenarm Sprache mit knappen digitalen Ressourcen und weniger Muttersprachlern; Marathi ist ressourcenreich
Beobachtung, dass lokale Zeitungen großer Verlage Bilder über verschiedene Sprachversionen hinweg wiederverwenden, um Ressourcen zu optimieren
Innovativer Ansatz: Erstmalige Verwendung von Zeitungsartikelbildern als Drehpunkt zur Artikelzuordnung, was in ähnlichen Forschungsarbeiten bisher nicht erforscht wurde
Technischer Durchbruch: Verwendung sprachunabhängiger Einbettungen für die Satzzuordnung bei ressourcenarm Sprachenkombinationen mit empirischer Validierung
Datensatzbeitrag: Erstellung des größten Konkani-Marathi-Korpus ohne menschliche Annotation
Universalitätsvalidierung: Validierung der Sprachunabhängigkeit der Methode bei Punjabi-Hindi-Sprachenpaar
Bildpivot-Strategie: Nutzung der Eigenschaft, dass Zeitungen über Sprachversionen hinweg Bilder wiederverwenden, wobei Bilder als zuverlässige Ankerpunkte für die Artikelzuordnung dienen
Multimodale Fusion: Kombination von Bildanalyse und Textanalyse zur Verbesserung der Zuordnungsgenauigkeit
Sprachunabhängigkeit: Verwendung vortrainierter mehrsprachiger Modelle ohne sprachenpaarspezifische Anpassung
End-to-End-Automatisierung: Vollständig automatisierter Prozess von rohen PDFs zum endgültigen parallelen Korpus
Das Papier zitiert 19 verwandte Literaturquellen, die folgende Bereiche abdecken:
Mehrsprachige Informationsbeschaffung und Personalisierungssysteme
Dokumentenlayoutanalyse und Bildverarbeitung
Satzzuordnung und Konstruktion paralleler Korpora
NLP-Forschung in ressourcenarm Sprachen
Arbeiten zur neuronalen maschinellen Übersetzung
Gesamtbewertung: Dies ist eine innovative Arbeit im Bereich der Konstruktion paralleler Korpora für ressourcenarm Sprachen. Obwohl das Anwendungsszenario der Methode relativ spezifisch ist, zeigt sie in entsprechenden Szenarien gute Leistung. Die Einführung der Bildpivot-Strategie bietet wertvolle Ideen für multimodale NLP-Forschung und hat positive Bedeutung für die Förderung der Digitalisierung ressourcenarm Sprachen.