2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

Eine vollständig automatisierte und skalierbare parallele Datenerweiterung für ressourcenarm Sprachen unter Verwendung von Bild- und Textanalytik

Grundlegende Informationen

  • Papier-ID: 2510.13211
  • Titel: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • Autoren: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungskonferenz: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27.–31. März 2023, Tallinn, Estland
  • Papierlink: https://arxiv.org/abs/2510.13211

Zusammenfassung

Die globale sprachliche Vielfalt führt zu Unterschieden in der Verfügbarkeit hochwertiger digitaler Sprachressourcen und schränkt damit die technologischen Vorteile für die meisten Bevölkerungsgruppen ein. Das Fehlen oder die Knappheit von Datenressourcen macht die Durchführung von NLP-Aufgaben für ressourcenarm Sprachen schwierig. Dieses Papier präsentiert einen neuartigen, skalierbaren und vollständig automatisierten Ansatz zur Extraktion zweisprachiger paralleler Korpora aus Zeitungsartikeln unter Verwendung von Bild- und Textanalytik. Die Autoren validieren die Methode durch die Konstruktion paralleler Datenkorpora für zwei verschiedene Sprachenkombinationen und demonstrieren den Wert des Datensatzes durch eine nachgelagerte maschinelle Übersetzungsaufgabe, die eine Verbesserung von etwa 3 BLEU-Punkten gegenüber der aktuellen Baseline erreicht.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Von den weltweit 7.000 Sprachen haben nur 20 ausreichende Ressourcen im Internet; die übrigen werden als ressourcenarm Sprachen (LRLs) bezeichnet und leiden unter mangelnder digitaler Datenunterstützung
  2. Umfang der Auswirkungen: Über 2,5 Milliarden Menschen sprechen 2.000 ressourcenarm Sprachen, hauptsächlich in Indien und Afrika verbreitet
  3. Technische Hindernisse: Moderne NLP-Aufgaben erfordern große Mengen an Trainingsdaten, und die Knappheit digitaler Daten in ressourcenarm Sprachen ist die Hauptherausforderung für die Verbreitung von NLP-Technologie unter der Bevölkerung

Forschungsmotivation

  • Konstruktion paralleler Korpora für ressourcenarm Sprachen, insbesondere für Sprachenkombinationen mit geringen und hohen Ressourcen
  • Auswahl von Konkani-Marathi als Hauptbeispiel: Konkani ist eine typische ressourcenarm Sprache mit knappen digitalen Ressourcen und weniger Muttersprachlern; Marathi ist ressourcenreich
  • Beobachtung, dass lokale Zeitungen großer Verlage Bilder über verschiedene Sprachversionen hinweg wiederverwenden, um Ressourcen zu optimieren

Kernbeiträge

  1. Innovativer Ansatz: Erstmalige Verwendung von Zeitungsartikelbildern als Drehpunkt zur Artikelzuordnung, was in ähnlichen Forschungsarbeiten bisher nicht erforscht wurde
  2. Technischer Durchbruch: Verwendung sprachunabhängiger Einbettungen für die Satzzuordnung bei ressourcenarm Sprachenkombinationen mit empirischer Validierung
  3. Datensatzbeitrag: Erstellung des größten Konkani-Marathi-Korpus ohne menschliche Annotation
  4. Universalitätsvalidierung: Validierung der Sprachunabhängigkeit der Methode bei Punjabi-Hindi-Sprachenpaar

Methodische Details

Aufgabendefinition

Eingabe: Zeitungs-PDF-Dateien in verschiedenen Sprachen Ausgabe: Zweisprachiges paralleles Satzpaar-Korpus Einschränkungen: Vollständige Automatisierung, keine menschliche Annotation erforderlich, sprachunabhängig

Modellarchitektur

Die gesamte Datenerweiterungspipeline besteht aus vier Kernkomponenten:

1. Crawler-Modul

  • Download von Zeitungskopien aus Online-Quellen
  • Aufteilung von Dateien in einzelne Seiten
  • Angemessene Kennzeichnung mit Datum, Seitenzahl und Sprachcode

2. Artikelextraktor

  • Funktionalität:
    • Kennzeichnung einzelner Artikelgrenzen
    • Extraktion von Bildern und Text innerhalb gekennzeichneter Artikel (unter Verwendung von OCR)
  • Technische Implementierung:
    • Verwendung des Layout-Analysedatensatzes von PRImA zur Erkennung von Artikelgrenzen
    • Extraktion von Interessensbereichen (ROI) mit OpenCV
    • Kombination von EasyOCR, PaddleOCR und Tesseract mit Mehrheitsentscheidung
  • Artikelaufteilung: Aufteilung von Artikeln in vier ROIs:
    • Titel (H): einschließlich Untertitel
    • Bild (I)
    • Bildunterschrift (P)
    • Inhalt (C)

3. Artikel-Mapper

  • Zuordnungsstrategie: Vergleich der Ähnlichkeit von Artikelbildern zwischen zwei Sprachen
  • Algorithmus: Verwendung von SIFT (Scale-Invariant Feature Transform) als Bildabgleichsalgorithmus
  • Mathematische Darstellung:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

wobei θ die Bildabgleichsalgorithmusfunktion ist

4. Satz-Mapper

  • Kernherausforderung: Zuordnung von Sätzen innerhalb von Artikeln kann ungeordnet sein
  • Drei Ähnlichkeitsmaße:
    1. Sprachunabhängige Satzeinbettung (LAS): Basierend auf BERT-Architektur, trainiert auf 119 Sprachen, unter Verwendung von Kosinus-Ähnlichkeit
    2. Einfache Längenheuristik (SLAS): Basierend auf Satzlänge und Position im Artikel
    3. Lexikalische Überlappung (LO): Verwendung von Englisch als Pivot-Sprache mit Präzision, Recall und F-Score

Technische Innovationen

  1. Bildpivot-Strategie: Nutzung der Eigenschaft, dass Zeitungen über Sprachversionen hinweg Bilder wiederverwenden, wobei Bilder als zuverlässige Ankerpunkte für die Artikelzuordnung dienen
  2. Multimodale Fusion: Kombination von Bildanalyse und Textanalyse zur Verbesserung der Zuordnungsgenauigkeit
  3. Sprachunabhängigkeit: Verwendung vortrainierter mehrsprachiger Modelle ohne sprachenpaarspezifische Anpassung
  4. End-to-End-Automatisierung: Vollständig automatisierter Prozess von rohen PDFs zum endgültigen parallelen Korpus

Experimentelle Einrichtung

Datensätze

  • Hauptsprachenpaar: Konkani-Marathi
  • Validierungssprachenpaar: Punjabi-Hindi
  • Datenquelle: Online-Zeitungs-PDF-Dateien
  • Zeitspanne: Verschiedene Sprachversionen am selben Datum

Bewertungsmetriken

  • Interne Bewertung: Semantische Textähnlichkeit (STS), 6-stufige Ordinalskala (0–5)
    • 5: Vollständige semantische Äquivalenz
    • 0: Vollständige semantische Unähnlichkeit
  • Externe Bewertung: BLEU-Score für maschinelle Übersetzungsaufgaben

Vergleichsmethoden

  • Vergleich von Satzzuordnungsstrategien: LAS vs. SLAS vs. LO
  • Vergleich mit bestehender Konkani-Marathi-Baseline (BLEU=23,5)

Implementierungsdetails

  • Menschliche Bewertung: Zweistufige Stichprobennahme von 900 Satzpaaren
  • Erste Phase: 200 Paare pro Satzzuordnungsstrategie (insgesamt 600 Paare)
  • Zweite Phase: 300 zusätzliche Paare für beste Strategie
  • Stichprobenstrategie: Geschichtete Zufallsstichprobennahme, Reihenfolge beibehalten

Experimentelle Ergebnisse

Hauptergebnisse

Interne Bewertungsergebnisse

SatzlängeArtikellängeLASSLASLO
1–10 Wörter1–5 Sätze3,83,42,9
11–19 Wörter6–15 Sätze3,73,43,0
20+ Wörter16+ Sätze3,83,22,6

Vergleichsergebnisse zwischen Sprachenpaaren

MetrikKonkani-MarathiPunjabi-Hindi
Zugeordnete Artikel1.320150
Zugeordnete Satzpaare14.4482.200
Menschliche Bewertungsstichprobe600100
Durchschnittlicher STS-Score3,703,73

Wichtigste Erkenntnisse

  1. LAS-Leistung optimal: Sprachunabhängige Satzeinbettung (LAS) zeigt bei allen Kombinationen von Satzlänge und Artikellänge die beste Leistung
  2. Hochwertige Zuordnung: Über 92 % der zugeordneten Sätze haben STS-Scores > 3
  3. Sprachunabhängigkeit: Punjabi-Hindi-Experimentergebnisse entsprechen dem Hauptexperiment und validieren die Universalität der Methode

Externe Bewertung: Maschinelle Übersetzungsaufgabe

  • Modell: Feinabstimmung basierend auf mT5 (Multilingual Pre-trained Text-to-Text Transformer)
  • Trainingsdaten: Konkani-Marathi-Parallelkorpus (Titel und Artikelinhalt)
  • Testdaten: Bildunterschriften als Goldstandard
  • Ergebnis: BLEU-Score 26,4, Verbesserung von etwa 3 BLEU-Punkten gegenüber bestehender Baseline (23,5)

Ablationsstudien

Durch Vergleich verschiedener Satzzuordnungsstrategien wird nachgewiesen, dass:

  1. Sprachunabhängige Einbettungen den Längenheuristiken und Lexikalische-Überlappungs-Methoden deutlich überlegen sind
  2. Die Methode bei verschiedenen Artikellängen und Satzlängen stabile Leistung beibehält
  3. Die Effektivität der einbettungsgestützten Artikelverarbeitungsstrategie

Verwandte Arbeiten

Bildanalyseverfahren

  • Artikelaufteilung: Heuristische Methoden, Grapheinbettungsmethoden, Deep-Learning-Methoden
  • Bildabgleich: Traditionelle Methoden wie SIFT, SURF, BRIEF sowie neuronale Netzwerkmethoden wie CNN

Textanalyseverfahren

  • OCR-Technologie: Umfangreiche Forschung zu Devanagari-Schrift
  • Satzzuordnung: Längenheuristiken, lexikalische Entsprechungen, sprachunabhängige Satzeinbettungen basierend auf Deep Learning

Konkani-NLP-Forschung

  • Bestehende Arbeiten: Hauptsächlich auf grundlegende Aufgaben wie POS-Tagging, Sentimentanalyse, NER beschränkt
  • ILCI-Projekt: Erstellung eines Hindi-Konkani-Korpus mit 25.000 Sätzen, Erreichung eines BLEU-Scores von 23,5

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Die vorgeschlagene Methode zeigt Sprachunabhängigkeit und gute Skalierbarkeit beim Aufbau paralleler Korpora für ressourcenarm Sprachen
  2. Die Strategie, Bilder als Artikelzuordnungspivot zu verwenden, erweist sich als wirksam und innovativ
  3. Sprachunabhängige Satzeinbettungen zeigen hervorragende Leistung bei Satzzuordnungsaufgaben in ressourcenarm Sprachen

Einschränkungen

  1. Bildabhängigkeit: Die Methode hängt von gemeinsamen Bildern über Sprachversionen hinweg ab, was den Anwendungsbereich einschränkt
  2. Qualitätsbeschränkungen: Zusätzliche Einschränkungen sind erforderlich, um die Datensatzqualität weiter zu verbessern
  3. Skalierungsbeschränkungen: Derzeit hauptsächlich im Zeitungsbereich validiert; die Anwendbarkeit in anderen Bereichen erfordert weitere Validierung

Zukünftige Richtungen

  1. Bildquellenerweiterung: Berücksichtigung von Bildern, die von verschiedenen Personen für dasselbe Nachrichtenereignis aufgenommen wurden
  2. Qualitätsverbesserung: Erkundung zusätzlicher Einschränkungsbedingungen zur Verbesserung der Datensatzqualität
  3. Bereichserweiterung: Anwendung der Methode auf mehr Texttypen und Bereiche

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Verwendung von Bildern als Drehpunkt für sprachübergreifende Artikelzuordnung mit neuartiger Idee
  2. Hoher praktischer Wert: Bietet praktische Datenerweiterungsmethoden für NLP-Forschung in ressourcenarm Sprachen
  3. Vollständige Systematik: Umfassende Prozessgestaltung von der Datenerfassung bis zur endgültigen Bewertung
  4. Ausreichende Validierung: Validierung der Methodeneffektivität aus mehreren Perspektiven durch interne und externe Bewertung
  5. Gute Reproduzierbarkeit: Detaillierte Methodenbeschreibung und fundierte technische Auswahl

Mängel

  1. Begrenzte Anwendbarkeit: Starke Abhängigkeit vom spezifischen Szenario gemeinsamer Bilder über Zeitungssprachversionen hinweg
  2. Kleine Bewertungsskala: Relativ kleine menschliche Bewertungsstichproben (600–900 Satzpaare)
  3. Unzureichender Baseline-Vergleich: Mangel an Vergleich mit anderen automatisierten Methoden zur Konstruktion paralleler Korpora
  4. Fehlende Fehleranalyse: Keine tiefgehende Analyse von Fehlerfällen und Fehlermustern

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für die Konstruktion paralleler Korpora in ressourcenarm Sprachen
  2. Praktische Anwendung: Kann direkt in Regionen mit mehrsprachigen Zeitungen angewendet werden
  3. Technologieverbreitung: Die Bildpivot-Strategie könnte andere multimodale NLP-Aufgaben inspirieren

Anwendungsszenarien

  1. Ideales Szenario: Regionen mit mehrsprachigen Zeitungen und Bildfreigabe
  2. Erweitertes Szenario: Andere Medieninhalte mit sprachübergreifenden Bildfreigabeeigenschaften
  3. Eingeschränktes Szenario: Reine Text- oder Sprachenpaare ohne Bildfreigabe

Literaturverzeichnis

Das Papier zitiert 19 verwandte Literaturquellen, die folgende Bereiche abdecken:

  • Mehrsprachige Informationsbeschaffung und Personalisierungssysteme
  • Dokumentenlayoutanalyse und Bildverarbeitung
  • Satzzuordnung und Konstruktion paralleler Korpora
  • NLP-Forschung in ressourcenarm Sprachen
  • Arbeiten zur neuronalen maschinellen Übersetzung

Gesamtbewertung: Dies ist eine innovative Arbeit im Bereich der Konstruktion paralleler Korpora für ressourcenarm Sprachen. Obwohl das Anwendungsszenario der Methode relativ spezifisch ist, zeigt sie in entsprechenden Szenarien gute Leistung. Die Einführung der Bildpivot-Strategie bietet wertvolle Ideen für multimodale NLP-Forschung und hat positive Bedeutung für die Förderung der Digitalisierung ressourcenarm Sprachen.