2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

Une augmentation entièrement automatisée et scalable des données parallèles pour les langues peu dotées en ressources utilisant l'analyse d'images et de textes

Informations de base

  • ID de l'article: 2510.13211
  • Titre: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • Auteurs: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
  • Classification: cs.CL (Linguistique computationnelle)
  • Conférence de publication: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27-31 mars 2023, Tallinn, Estonie
  • Lien de l'article: https://arxiv.org/abs/2510.13211

Résumé

La diversité linguistique mondiale crée des disparités dans la disponibilité des ressources linguistiques numériques de qualité, limitant ainsi l'accès aux avantages technologiques pour la majorité des populations. L'absence ou la rareté des ressources de données rend difficile l'exécution de tâches de traitement du langage naturel (TAL) pour les langues peu dotées en ressources. Cet article propose une approche nouvelle, scalable et entièrement automatisée pour extraire des corpus parallèles bilingues à partir d'articles de journaux en utilisant l'analyse d'images et de textes. Les auteurs valident la méthode en construisant des corpus de données parallèles pour deux paires de langues différentes et démontrent la valeur de l'ensemble de données par une tâche aval de traduction automatique, améliorant le score BLEU de près de 3 points par rapport aux lignes de base actuelles.

Contexte et motivation de la recherche

Définition du problème

  1. Problème central: Sur les 7000 langues mondiales, seules 20 disposent de ressources suffisantes sur Internet, les autres étant qualifiées de langues peu dotées en ressources (LPR), manquant de soutien numérique
  2. Portée de l'impact: Plus de 2,5 milliards de personnes utilisent 2000 langues peu dotées en ressources, principalement distribuées en Inde et en Afrique
  3. Obstacles technologiques: Les tâches modernes de TAL nécessitent de grandes quantités de données d'entraînement, et la rareté des données numériques pour les langues peu dotées en ressources constitue le principal défi pour généraliser la technologie TAL aux masses

Motivation de la recherche

  • Construire des corpus parallèles pour les langues peu dotées en ressources, en particulier pour les paires de langues peu dotées-bien dotées en ressources
  • Sélection du konkani-marathi comme exemple principal: le konkani est une langue typiquement peu dotée en ressources avec des ressources numériques rares et peu de locuteurs natifs; le marathi est bien doté en ressources
  • Observation que les journaux locaux des grandes maisons d'édition réutilisent les images entre différentes versions linguistiques pour optimiser les ressources

Contributions principales

  1. Approche innovante: Première utilisation d'images d'articles de journaux comme pivot pour mapper les articles, ce qui n'a pas été exploré dans les recherches similaires
  2. Avancée technologique: Utilisation d'embeddings indépendants de la langue pour le mappage de phrases sur des paires de langues peu dotées en ressources, avec validation empirique
  3. Contribution de données: Création du plus grand corpus konkani-marathi sans annotation manuelle
  4. Validation de généralité: Vérification de l'indépendance linguistique de la méthode sur la paire linguistique pendjabi-hindi

Explication détaillée de la méthode

Définition de la tâche

Entrée: Fichiers PDF de journaux en différentes langues Sortie: Corpus de paires de phrases parallèles bilingues Contraintes: Entièrement automatisé, sans annotation manuelle, indépendant de la langue

Architecture du modèle

Le pipeline complet d'augmentation de données comprend quatre composants principaux:

1. Module d'exploration (Crawler)

  • Téléchargement de copies de journaux à partir de sources en ligne
  • Division des fichiers en pages individuelles
  • Étiquetage approprié avec la date, le numéro de page et le code de langue

2. Extracteur d'articles (Article Extractor)

  • Fonctionnalités:
    • Délimitation des frontières des articles individuels
    • Extraction des images et du texte (utilisant l'OCR) dans les articles délimités
  • Implémentation technique:
    • Utilisation du dataset d'analyse de mise en page de PRImA pour la détection des frontières d'articles
    • Extraction des régions d'intérêt (ROI) utilisant OpenCV
    • Combinaison d'EasyOCR, PaddleOCR et Tesseract avec décision par vote majoritaire
  • Segmentation d'articles: Division des articles en quatre ROI:
    • Titre (H): incluant les sous-titres
    • Image (I)
    • Légende (P)
    • Contenu (C)

3. Mappeur d'articles (Article Mapper)

  • Stratégie de mappage: Comparaison de la similarité des images d'articles entre deux langues
  • Algorithme: Utilisation de SIFT (Scale-Invariant Feature Transform) comme algorithme d'appariement d'images
  • Représentation mathématique:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

où θ est la fonction d'algorithme d'appariement d'images

4. Mappeur de phrases (Sentence Mapper)

  • Défi principal: Le mappage des phrases au sein des articles peut ne pas être séquentiel
  • Trois mesures de similarité:
    1. Embeddings de phrases indépendants de la langue (LAS): Basés sur l'architecture BERT, entraînés sur 119 langues, utilisant la similarité cosinus
    2. Heuristique simple de longueur (SLAS): Basée sur la longueur des phrases et la position dans l'article
    3. Chevauchement lexical (LO): Utilisant l'anglais comme langue pivot avec précision, rappel et F-Score

Points d'innovation technique

  1. Stratégie de pivot d'image: Exploitation de la caractéristique de réutilisation d'images entre versions linguistiques de journaux, utilisant les images comme points d'ancrage fiables pour le mappage d'articles
  2. Fusion multimodale: Combinaison de l'analyse d'images et de l'analyse de textes pour améliorer la précision du mappage
  3. Indépendance linguistique: Utilisation de modèles pré-entraînés multilingues sans personnalisation pour des paires de langues spécifiques
  4. Automatisation de bout en bout: Pipeline entièrement automatisé du PDF brut au corpus parallèle final

Configuration expérimentale

Ensemble de données

  • Paire de langues principale: Konkani-Marathi
  • Paire de langues de validation: Pendjabi-Hindi
  • Source de données: Fichiers PDF de journaux en ligne
  • Période couverte: Différentes versions linguistiques de la même date

Métriques d'évaluation

  • Évaluation intrinsèque: Similarité textuelle sémantique (STS), notation ordinale à 6 niveaux (0-5)
    • 5: Équivalence sémantique complète
    • 0: Dissimilarité sémantique complète
  • Évaluation extrinsèque: Score BLEU pour la tâche de traduction automatique

Méthodes de comparaison

  • Comparaison des stratégies de mappage de phrases: LAS vs SLAS vs LO
  • Comparaison avec la ligne de base existante Konkani-Marathi (BLEU=23,5)

Détails d'implémentation

  • Évaluation manuelle: Échantillonnage de 900 paires de phrases en deux phases
  • Première phase: 200 paires pour chaque stratégie d'alignement de phrases (600 au total)
  • Deuxième phase: 300 paires supplémentaires pour la meilleure stratégie
  • Stratégie d'échantillonnage: Échantillonnage aléatoire stratifié, préservation sans ordre

Résultats expérimentaux

Résultats principaux

Résultats d'évaluation intrinsèque

Longueur de phraseLongueur d'articleLASSLASLO
1-10 mots1-5 phrases3,83,42,9
11-19 mots6-15 phrases3,73,43,0
20+ mots16+ phrases3,83,22,6

Résultats de comparaison entre paires de langues

MétriqueKonkani-MarathiPendjabi-Hindi
Articles mappés1 320150
Paires de phrases mappées14 4482 200
Échantillon d'évaluation manuelle600100
Score STS moyen3,703,73

Conclusions clés

  1. Performance optimale de LAS: Les embeddings de phrases indépendants de la langue (LAS) surpassent toutes les autres méthodes pour toutes les combinaisons de longueurs de phrases et d'articles
  2. Mappage de haute qualité: Plus de 92% des paires de phrases mappées ont un score STS > 3
  3. Indépendance linguistique: Les résultats de l'expérience Pendjabi-Hindi sont comparables à l'expérience principale, validant la généralité de la méthode

Évaluation extrinsèque: Tâche de traduction automatique

  • Modèle: mT5 (Multilingual Text-to-Text Transfer Transformer) affiné
  • Données d'entraînement: Corpus parallèle Konkani-Marathi (titres et contenu d'articles)
  • Données de test: Légendes comme référence de vérité
  • Résultats: Score BLEU de 26,4, améliorant la ligne de base existante (23,5) d'environ 3 points BLEU

Expériences d'ablation

Par la comparaison de différentes stratégies de mappage de phrases, démonstration que:

  1. Les embeddings indépendants de la langue surpassent significativement les méthodes d'heuristique de longueur et de chevauchement lexical
  2. La méthode maintient des performances stables sur différentes longueurs d'articles et de phrases
  3. L'efficacité de la stratégie de traitement d'articles basée sur les embeddings

Travaux connexes

Domaine de l'analyse d'images

  • Segmentation d'articles: Méthodes heuristiques, méthodes basées sur les graphes, méthodes d'apprentissage profond
  • Appariement d'images: Méthodes traditionnelles comme SIFT, SURF, BRIEF, ainsi que méthodes de réseaux de neurones comme CNN

Domaine de l'analyse de textes

  • Technologie OCR: Recherche extensive sur les scripts Devanagari
  • Alignement de phrases: Heuristiques basées sur la longueur, correspondances lexicales, embeddings de phrases indépendants de la langue basés sur l'apprentissage profond

Recherche en TAL pour le konkani

  • Travaux existants: Principalement limités aux tâches fondamentales comme l'étiquetage morphosyntaxique, l'analyse de sentiments, la reconnaissance d'entités nommées
  • Projet ILCI: Création d'un corpus Hindi-Konkani de 25 000 phrases, réalisant un score BLEU de 23,5

Conclusions et discussion

Conclusions principales

  1. La méthode proposée démontre l'indépendance linguistique et une bonne scalabilité dans la construction de corpus parallèles pour les langues peu dotées en ressources
  2. La stratégie d'utilisation des images comme pivot pour le mappage d'articles s'avère efficace et innovante
  3. Les embeddings de phrases indépendants de la langue surpassent les autres approches dans la tâche d'alignement de phrases pour les langues peu dotées en ressources

Limitations

  1. Dépendance aux images: La méthode dépend du partage d'images entre versions linguistiques, limitant son applicabilité
  2. Contraintes de qualité: Des contraintes supplémentaires sont nécessaires pour améliorer davantage la qualité de l'ensemble de données
  3. Limitations d'échelle: Actuellement validée principalement dans le domaine des journaux, l'applicabilité à d'autres domaines nécessite une validation supplémentaire

Directions futures

  1. Extension des sources d'images: Considération d'images prises par différentes personnes pour le même événement d'actualité
  2. Amélioration de la qualité: Exploration de conditions de contrainte supplémentaires pour améliorer la qualité de l'ensemble de données
  3. Extension de domaine: Application de la méthode à plus de types de textes et de domaines

Évaluation approfondie

Avantages

  1. Forte innovativité: Première utilisation des images comme pivot pour le mappage d'articles multilingues, approche novatrice
  2. Haute valeur pratique: Fournit une méthode pratique d'augmentation de données pour la recherche en TAL sur les langues peu dotées en ressources
  3. Complétude systématique: Conception complète du processus de la collecte de données à l'évaluation finale
  4. Validation suffisante: Vérification de l'efficacité de la méthode sous plusieurs angles par évaluation intrinsèque et extrinsèque
  5. Bonne reproductibilité: Description détaillée de la méthode, choix techniques bien justifiés

Insuffisances

  1. Portée d'application limitée: Dépendance sévère du scénario spécifique du partage d'images entre versions linguistiques de journaux
  2. Échelle d'évaluation réduite: Échantillons d'évaluation manuelle relativement petits (600-900 paires de phrases)
  3. Comparaisons de base insuffisantes: Absence de comparaison avec d'autres méthodes de construction automatique de corpus parallèles
  4. Analyse d'erreurs manquante: Analyse insuffisante des cas d'échec et des modèles d'erreur

Impact

  1. Contribution académique: Fournit une nouvelle perspective pour la construction de corpus parallèles pour les langues peu dotées en ressources
  2. Application pratique: Peut être directement appliquée aux régions ayant des journaux multilingues
  3. Promotion technologique: La stratégie de pivot d'image peut inspirer d'autres tâches de TAL multimodal

Scénarios d'application

  1. Scénario idéal: Régions ayant des journaux multilingues avec partage d'images
  2. Scénario d'extension: Autres contenus médiatiques ayant des caractéristiques de partage d'images multilingues
  3. Scénario limité: Paires de langues purement textuelles ou sans partage d'images

Références

L'article cite 19 références connexes, couvrant:

  • Récupération multilingue et systèmes personnalisés
  • Analyse de mise en page de documents et traitement d'images
  • Alignement de phrases et construction de corpus parallèles
  • Recherche en TAL pour les langues peu dotées en ressources
  • Travaux connexes en traduction automatique neuronale

Évaluation générale: Ceci est un travail innovant dans le domaine de la construction de corpus parallèles pour les langues peu dotées en ressources. Bien que la portée d'application de la méthode soit relativement spécifique, elle démontre de bons résultats dans les scénarios correspondants. La proposition de la stratégie de pivot d'image fournit une perspective précieuse pour la recherche en TAL multimodal et a une signification positive pour promouvoir la numérisation des langues peu dotées en ressources.