A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
Une augmentation entièrement automatisée et scalable des données parallèles pour les langues peu dotées en ressources utilisant l'analyse d'images et de textes
La diversité linguistique mondiale crée des disparités dans la disponibilité des ressources linguistiques numériques de qualité, limitant ainsi l'accès aux avantages technologiques pour la majorité des populations. L'absence ou la rareté des ressources de données rend difficile l'exécution de tâches de traitement du langage naturel (TAL) pour les langues peu dotées en ressources. Cet article propose une approche nouvelle, scalable et entièrement automatisée pour extraire des corpus parallèles bilingues à partir d'articles de journaux en utilisant l'analyse d'images et de textes. Les auteurs valident la méthode en construisant des corpus de données parallèles pour deux paires de langues différentes et démontrent la valeur de l'ensemble de données par une tâche aval de traduction automatique, améliorant le score BLEU de près de 3 points par rapport aux lignes de base actuelles.
Problème central: Sur les 7000 langues mondiales, seules 20 disposent de ressources suffisantes sur Internet, les autres étant qualifiées de langues peu dotées en ressources (LPR), manquant de soutien numérique
Portée de l'impact: Plus de 2,5 milliards de personnes utilisent 2000 langues peu dotées en ressources, principalement distribuées en Inde et en Afrique
Obstacles technologiques: Les tâches modernes de TAL nécessitent de grandes quantités de données d'entraînement, et la rareté des données numériques pour les langues peu dotées en ressources constitue le principal défi pour généraliser la technologie TAL aux masses
Construire des corpus parallèles pour les langues peu dotées en ressources, en particulier pour les paires de langues peu dotées-bien dotées en ressources
Sélection du konkani-marathi comme exemple principal: le konkani est une langue typiquement peu dotée en ressources avec des ressources numériques rares et peu de locuteurs natifs; le marathi est bien doté en ressources
Observation que les journaux locaux des grandes maisons d'édition réutilisent les images entre différentes versions linguistiques pour optimiser les ressources
Approche innovante: Première utilisation d'images d'articles de journaux comme pivot pour mapper les articles, ce qui n'a pas été exploré dans les recherches similaires
Avancée technologique: Utilisation d'embeddings indépendants de la langue pour le mappage de phrases sur des paires de langues peu dotées en ressources, avec validation empirique
Contribution de données: Création du plus grand corpus konkani-marathi sans annotation manuelle
Validation de généralité: Vérification de l'indépendance linguistique de la méthode sur la paire linguistique pendjabi-hindi
Entrée: Fichiers PDF de journaux en différentes langues
Sortie: Corpus de paires de phrases parallèles bilingues
Contraintes: Entièrement automatisé, sans annotation manuelle, indépendant de la langue
Stratégie de pivot d'image: Exploitation de la caractéristique de réutilisation d'images entre versions linguistiques de journaux, utilisant les images comme points d'ancrage fiables pour le mappage d'articles
Fusion multimodale: Combinaison de l'analyse d'images et de l'analyse de textes pour améliorer la précision du mappage
Indépendance linguistique: Utilisation de modèles pré-entraînés multilingues sans personnalisation pour des paires de langues spécifiques
Automatisation de bout en bout: Pipeline entièrement automatisé du PDF brut au corpus parallèle final
Performance optimale de LAS: Les embeddings de phrases indépendants de la langue (LAS) surpassent toutes les autres méthodes pour toutes les combinaisons de longueurs de phrases et d'articles
Mappage de haute qualité: Plus de 92% des paires de phrases mappées ont un score STS > 3
Indépendance linguistique: Les résultats de l'expérience Pendjabi-Hindi sont comparables à l'expérience principale, validant la généralité de la méthode
Technologie OCR: Recherche extensive sur les scripts Devanagari
Alignement de phrases: Heuristiques basées sur la longueur, correspondances lexicales, embeddings de phrases indépendants de la langue basés sur l'apprentissage profond
Travaux existants: Principalement limités aux tâches fondamentales comme l'étiquetage morphosyntaxique, l'analyse de sentiments, la reconnaissance d'entités nommées
Projet ILCI: Création d'un corpus Hindi-Konkani de 25 000 phrases, réalisant un score BLEU de 23,5
La méthode proposée démontre l'indépendance linguistique et une bonne scalabilité dans la construction de corpus parallèles pour les langues peu dotées en ressources
La stratégie d'utilisation des images comme pivot pour le mappage d'articles s'avère efficace et innovante
Les embeddings de phrases indépendants de la langue surpassent les autres approches dans la tâche d'alignement de phrases pour les langues peu dotées en ressources
Dépendance aux images: La méthode dépend du partage d'images entre versions linguistiques, limitant son applicabilité
Contraintes de qualité: Des contraintes supplémentaires sont nécessaires pour améliorer davantage la qualité de l'ensemble de données
Limitations d'échelle: Actuellement validée principalement dans le domaine des journaux, l'applicabilité à d'autres domaines nécessite une validation supplémentaire
Récupération multilingue et systèmes personnalisés
Analyse de mise en page de documents et traitement d'images
Alignement de phrases et construction de corpus parallèles
Recherche en TAL pour les langues peu dotées en ressources
Travaux connexes en traduction automatique neuronale
Évaluation générale: Ceci est un travail innovant dans le domaine de la construction de corpus parallèles pour les langues peu dotées en ressources. Bien que la portée d'application de la méthode soit relativement spécifique, elle démontre de bons résultats dans les scénarios correspondants. La proposition de la stratégie de pivot d'image fournit une perspective précieuse pour la recherche en TAL multimodal et a une signification positive pour promouvoir la numérisation des langues peu dotées en ressources.