2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.

Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.

academic

Une augmentation entièrement automatisée et scalable des données parallèles pour les langues peu dotées en ressources utilisant l'analyse d'images et de textes

Informations de base

ID de l'article: 2510.13211
Titre: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Auteurs: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
Classification: cs.CL (Linguistique computationnelle)
Conférence de publication: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27-31 mars 2023, Tallinn, Estonie
Lien de l'article: https://arxiv.org/abs/2510.13211

Résumé

La diversité linguistique mondiale crée des disparités dans la disponibilité des ressources linguistiques numériques de qualité, limitant ainsi l'accès aux avantages technologiques pour la majorité des populations. L'absence ou la rareté des ressources de données rend difficile l'exécution de tâches de traitement du langage naturel (TAL) pour les langues peu dotées en ressources. Cet article propose une approche nouvelle, scalable et entièrement automatisée pour extraire des corpus parallèles bilingues à partir d'articles de journaux en utilisant l'analyse d'images et de textes. Les auteurs valident la méthode en construisant des corpus de données parallèles pour deux paires de langues différentes et démontrent la valeur de l'ensemble de données par une tâche aval de traduction automatique, améliorant le score BLEU de près de 3 points par rapport aux lignes de base actuelles.

Contexte et motivation de la recherche

Définition du problème

Problème central: Sur les 7000 langues mondiales, seules 20 disposent de ressources suffisantes sur Internet, les autres étant qualifiées de langues peu dotées en ressources (LPR), manquant de soutien numérique
Portée de l'impact: Plus de 2,5 milliards de personnes utilisent 2000 langues peu dotées en ressources, principalement distribuées en Inde et en Afrique
Obstacles technologiques: Les tâches modernes de TAL nécessitent de grandes quantités de données d'entraînement, et la rareté des données numériques pour les langues peu dotées en ressources constitue le principal défi pour généraliser la technologie TAL aux masses

Motivation de la recherche

Construire des corpus parallèles pour les langues peu dotées en ressources, en particulier pour les paires de langues peu dotées-bien dotées en ressources
Sélection du konkani-marathi comme exemple principal: le konkani est une langue typiquement peu dotée en ressources avec des ressources numériques rares et peu de locuteurs natifs; le marathi est bien doté en ressources
Observation que les journaux locaux des grandes maisons d'édition réutilisent les images entre différentes versions linguistiques pour optimiser les ressources

Contributions principales

Approche innovante: Première utilisation d'images d'articles de journaux comme pivot pour mapper les articles, ce qui n'a pas été exploré dans les recherches similaires
Avancée technologique: Utilisation d'embeddings indépendants de la langue pour le mappage de phrases sur des paires de langues peu dotées en ressources, avec validation empirique
Contribution de données: Création du plus grand corpus konkani-marathi sans annotation manuelle
Validation de généralité: Vérification de l'indépendance linguistique de la méthode sur la paire linguistique pendjabi-hindi

Explication détaillée de la méthode

Définition de la tâche

Entrée: Fichiers PDF de journaux en différentes langues Sortie: Corpus de paires de phrases parallèles bilingues Contraintes: Entièrement automatisé, sans annotation manuelle, indépendant de la langue

Architecture du modèle

Le pipeline complet d'augmentation de données comprend quatre composants principaux:

1. Module d'exploration (Crawler)

Téléchargement de copies de journaux à partir de sources en ligne
Division des fichiers en pages individuelles
Étiquetage approprié avec la date, le numéro de page et le code de langue

2. Extracteur d'articles (Article Extractor)

Fonctionnalités:
- Délimitation des frontières des articles individuels
- Extraction des images et du texte (utilisant l'OCR) dans les articles délimités
Implémentation technique:
- Utilisation du dataset d'analyse de mise en page de PRImA pour la détection des frontières d'articles
- Extraction des régions d'intérêt (ROI) utilisant OpenCV
- Combinaison d'EasyOCR, PaddleOCR et Tesseract avec décision par vote majoritaire
Segmentation d'articles: Division des articles en quatre ROI:
- Titre (H): incluant les sous-titres
- Image (I)
- Légende (P)
- Contenu (C)

3. Mappeur d'articles (Article Mapper)

Stratégie de mappage: Comparaison de la similarité des images d'articles entre deux langues
Algorithme: Utilisation de SIFT (Scale-Invariant Feature Transform) comme algorithme d'appariement d'images
Représentation mathématique:

{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

où θ est la fonction d'algorithme d'appariement d'images

4. Mappeur de phrases (Sentence Mapper)

Défi principal: Le mappage des phrases au sein des articles peut ne pas être séquentiel
Trois mesures de similarité:
1. Embeddings de phrases indépendants de la langue (LAS): Basés sur l'architecture BERT, entraînés sur 119 langues, utilisant la similarité cosinus
2. Heuristique simple de longueur (SLAS): Basée sur la longueur des phrases et la position dans l'article
3. Chevauchement lexical (LO): Utilisant l'anglais comme langue pivot avec précision, rappel et F-Score

Points d'innovation technique

Stratégie de pivot d'image: Exploitation de la caractéristique de réutilisation d'images entre versions linguistiques de journaux, utilisant les images comme points d'ancrage fiables pour le mappage d'articles
Fusion multimodale: Combinaison de l'analyse d'images et de l'analyse de textes pour améliorer la précision du mappage
Indépendance linguistique: Utilisation de modèles pré-entraînés multilingues sans personnalisation pour des paires de langues spécifiques
Automatisation de bout en bout: Pipeline entièrement automatisé du PDF brut au corpus parallèle final

Configuration expérimentale

Ensemble de données

Paire de langues principale: Konkani-Marathi
Paire de langues de validation: Pendjabi-Hindi
Source de données: Fichiers PDF de journaux en ligne
Période couverte: Différentes versions linguistiques de la même date

Métriques d'évaluation

Évaluation intrinsèque: Similarité textuelle sémantique (STS), notation ordinale à 6 niveaux (0-5)
- 5: Équivalence sémantique complète
- 0: Dissimilarité sémantique complète
Évaluation extrinsèque: Score BLEU pour la tâche de traduction automatique

Méthodes de comparaison

Comparaison des stratégies de mappage de phrases: LAS vs SLAS vs LO
Comparaison avec la ligne de base existante Konkani-Marathi (BLEU=23,5)

Détails d'implémentation

Évaluation manuelle: Échantillonnage de 900 paires de phrases en deux phases
Première phase: 200 paires pour chaque stratégie d'alignement de phrases (600 au total)
Deuxième phase: 300 paires supplémentaires pour la meilleure stratégie
Stratégie d'échantillonnage: Échantillonnage aléatoire stratifié, préservation sans ordre

Résultats expérimentaux

Résultats principaux

Résultats d'évaluation intrinsèque

Longueur de phrase	Longueur d'article	LAS	SLAS	LO
1-10 mots	1-5 phrases	3,8	3,4	2,9
11-19 mots	6-15 phrases	3,7	3,4	3,0
20+ mots	16+ phrases	3,8	3,2	2,6

Résultats de comparaison entre paires de langues

Métrique	Konkani-Marathi	Pendjabi-Hindi
Articles mappés	1 320	150
Paires de phrases mappées	14 448	2 200
Échantillon d'évaluation manuelle	600	100
Score STS moyen	3,70	3,73

Conclusions clés

Performance optimale de LAS: Les embeddings de phrases indépendants de la langue (LAS) surpassent toutes les autres méthodes pour toutes les combinaisons de longueurs de phrases et d'articles
Mappage de haute qualité: Plus de 92% des paires de phrases mappées ont un score STS > 3
Indépendance linguistique: Les résultats de l'expérience Pendjabi-Hindi sont comparables à l'expérience principale, validant la généralité de la méthode

Évaluation extrinsèque: Tâche de traduction automatique

Modèle: mT5 (Multilingual Text-to-Text Transfer Transformer) affiné
Données d'entraînement: Corpus parallèle Konkani-Marathi (titres et contenu d'articles)
Données de test: Légendes comme référence de vérité
Résultats: Score BLEU de 26,4, améliorant la ligne de base existante (23,5) d'environ 3 points BLEU

Expériences d'ablation

Par la comparaison de différentes stratégies de mappage de phrases, démonstration que:

Les embeddings indépendants de la langue surpassent significativement les méthodes d'heuristique de longueur et de chevauchement lexical
La méthode maintient des performances stables sur différentes longueurs d'articles et de phrases
L'efficacité de la stratégie de traitement d'articles basée sur les embeddings

Travaux connexes

Domaine de l'analyse d'images

Segmentation d'articles: Méthodes heuristiques, méthodes basées sur les graphes, méthodes d'apprentissage profond
Appariement d'images: Méthodes traditionnelles comme SIFT, SURF, BRIEF, ainsi que méthodes de réseaux de neurones comme CNN

Domaine de l'analyse de textes

Technologie OCR: Recherche extensive sur les scripts Devanagari
Alignement de phrases: Heuristiques basées sur la longueur, correspondances lexicales, embeddings de phrases indépendants de la langue basés sur l'apprentissage profond

Recherche en TAL pour le konkani

Travaux existants: Principalement limités aux tâches fondamentales comme l'étiquetage morphosyntaxique, l'analyse de sentiments, la reconnaissance d'entités nommées
Projet ILCI: Création d'un corpus Hindi-Konkani de 25 000 phrases, réalisant un score BLEU de 23,5

Conclusions et discussion

Conclusions principales

La méthode proposée démontre l'indépendance linguistique et une bonne scalabilité dans la construction de corpus parallèles pour les langues peu dotées en ressources
La stratégie d'utilisation des images comme pivot pour le mappage d'articles s'avère efficace et innovante
Les embeddings de phrases indépendants de la langue surpassent les autres approches dans la tâche d'alignement de phrases pour les langues peu dotées en ressources

Limitations

Dépendance aux images: La méthode dépend du partage d'images entre versions linguistiques, limitant son applicabilité
Contraintes de qualité: Des contraintes supplémentaires sont nécessaires pour améliorer davantage la qualité de l'ensemble de données
Limitations d'échelle: Actuellement validée principalement dans le domaine des journaux, l'applicabilité à d'autres domaines nécessite une validation supplémentaire

Directions futures

Extension des sources d'images: Considération d'images prises par différentes personnes pour le même événement d'actualité
Amélioration de la qualité: Exploration de conditions de contrainte supplémentaires pour améliorer la qualité de l'ensemble de données
Extension de domaine: Application de la méthode à plus de types de textes et de domaines

Évaluation approfondie

Avantages

Forte innovativité: Première utilisation des images comme pivot pour le mappage d'articles multilingues, approche novatrice
Haute valeur pratique: Fournit une méthode pratique d'augmentation de données pour la recherche en TAL sur les langues peu dotées en ressources
Complétude systématique: Conception complète du processus de la collecte de données à l'évaluation finale
Validation suffisante: Vérification de l'efficacité de la méthode sous plusieurs angles par évaluation intrinsèque et extrinsèque
Bonne reproductibilité: Description détaillée de la méthode, choix techniques bien justifiés

Insuffisances

Portée d'application limitée: Dépendance sévère du scénario spécifique du partage d'images entre versions linguistiques de journaux
Échelle d'évaluation réduite: Échantillons d'évaluation manuelle relativement petits (600-900 paires de phrases)
Comparaisons de base insuffisantes: Absence de comparaison avec d'autres méthodes de construction automatique de corpus parallèles
Analyse d'erreurs manquante: Analyse insuffisante des cas d'échec et des modèles d'erreur

Impact

Contribution académique: Fournit une nouvelle perspective pour la construction de corpus parallèles pour les langues peu dotées en ressources
Application pratique: Peut être directement appliquée aux régions ayant des journaux multilingues
Promotion technologique: La stratégie de pivot d'image peut inspirer d'autres tâches de TAL multimodal

Scénarios d'application

Scénario idéal: Régions ayant des journaux multilingues avec partage d'images
Scénario d'extension: Autres contenus médiatiques ayant des caractéristiques de partage d'images multilingues
Scénario limité: Paires de langues purement textuelles ou sans partage d'images

Références

L'article cite 19 références connexes, couvrant:

Récupération multilingue et systèmes personnalisés
Analyse de mise en page de documents et traitement d'images
Alignement de phrases et construction de corpus parallèles
Recherche en TAL pour les langues peu dotées en ressources
Travaux connexes en traduction automatique neuronale

Évaluation générale: Ceci est un travail innovant dans le domaine de la construction de corpus parallèles pour les langues peu dotées en ressources. Bien que la portée d'application de la méthode soit relativement spécifique, elle démontre de bons résultats dans les scénarios correspondants. La proposition de la stratégie de pivot d'image fournit une perspective précieuse pour la recherche en TAL multimodal et a une signification positive pour promouvoir la numérisation des langues peu dotées en ressources.