2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

Un Aumento Automatizzato e Scalabile dei Dati Paralleli per Lingue a Basse Risorse utilizzando Analitiche di Immagini e Testo

Informazioni Fondamentali

  • ID Articolo: 2510.13211
  • Titolo: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • Autori: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Conferenza di Pubblicazione: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27-31 marzo 2023, Tallinn, Estonia
  • Link Articolo: https://arxiv.org/abs/2510.13211

Riassunto

La diversità linguistica globale ha causato disparità nella disponibilità di risorse linguistiche digitali di qualità, limitando così l'accesso ai vantaggi tecnologici per la maggior parte della popolazione mondiale. La scarsità o l'assenza di risorse dati rende difficile l'esecuzione di compiti di elaborazione del linguaggio naturale per le lingue a basse risorse. Questo articolo propone un approccio innovativo, scalabile e completamente automatizzato per estrarre corpora paralleli bilingui da articoli di giornali utilizzando analitiche di immagini e testo. Gli autori validano il metodo costruendo corpora di dati paralleli per due diverse coppie linguistiche e dimostrano il valore del dataset attraverso un compito di traduzione automatica a valle, ottenendo un miglioramento di circa 3 punti BLEU rispetto alle attuali linee di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Solo 20 delle 7000 lingue mondiali dispongono di risorse sufficienti su Internet, mentre le rimanenti sono classificate come lingue a basse risorse (LRLs), prive di supporto dati digitalizzato
  2. Portata dell'Impatto: Più di 2,5 miliardi di persone utilizzano 2000 lingue a basse risorse, principalmente distribuite in India e Africa
  3. Ostacoli Tecnologici: I compiti moderni di elaborazione del linguaggio naturale richiedono grandi quantità di dati di addestramento, e la scarsità di dati digitali nelle lingue a basse risorse rappresenta la principale sfida nel diffondere la tecnologia NLP alla popolazione generale

Motivazione della Ricerca

  • Costruire corpora paralleli per lingue a basse risorse, in particolare per coppie linguistiche scarse-ricche di risorse
  • Selezione del Konkani-Marathi come esempio principale: il Konkani è una lingua tipicamente a basse risorse con scarse risorse digitali e un numero limitato di parlanti nativi; il Marathi è una lingua ricca di risorse
  • Osservazione che i giornali locali dei grandi editori riutilizzano immagini tra versioni in lingue diverse per ottimizzare le risorse

Contributi Principali

  1. Metodo Innovativo: Primo utilizzo di immagini di articoli di giornali come fulcro per mappare gli articoli, un approccio non ancora esplorato in ricerche simili
  2. Avanzamento Tecnologico: Utilizzo di embedding multilingui indipendenti dalla lingua per la mappatura di frasi su coppie linguistiche a basse risorse, con verifica empirica fornita
  3. Contributo Dataset: Creazione del più grande corpus Konkani-Marathi senza annotazione manuale
  4. Verifica di Generalizzabilità: Validazione dell'indipendenza dalla lingua del metodo sulla coppia linguistica Punjabi-Hindi

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: File PDF di giornali in lingue diverse Output: Corpus di coppie di frasi parallele bilingui Vincoli: Completamente automatizzato, senza annotazione manuale, indipendente dalla lingua

Architettura del Modello

L'intera pipeline di aumento dati comprende quattro componenti principali:

1. Modulo Crawler

  • Scarica copie di giornali da fonti online
  • Divide i file in pagine singole
  • Etichetta appropriatamente utilizzando data, numero di pagina e codice lingua

2. Estrattore di Articoli (Article Extractor)

  • Funzionalità:
    • Etichetta i confini dei singoli articoli
    • Estrae immagini e testo all'interno degli articoli etichettati (utilizzando OCR)
  • Implementazione Tecnica:
    • Utilizza il dataset di analisi del layout di PRImA per il rilevamento dei confini degli articoli
    • Utilizza OpenCV per estrarre le regioni di interesse (ROI)
    • Combina EasyOCR, PaddleOCR e Tesseract con decisione a maggioranza
  • Segmentazione Articoli: Divide gli articoli in quattro ROI:
    • Titolo (H): include sottotitoli
    • Immagine (I)
    • Didascalia (P)
    • Contenuto (C)

3. Mappatore di Articoli (Article Mapper)

  • Strategia di Mappatura: Confronta la somiglianza delle immagini degli articoli tra due lingue
  • Algoritmo: Utilizza SIFT (Scale-Invariant Feature Transform) come algoritmo di corrispondenza delle immagini
  • Rappresentazione Matematica:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

dove θ è la funzione dell'algoritmo di corrispondenza delle immagini

4. Mappatore di Frasi (Sentence Mapper)

  • Sfida Principale: Le frasi all'interno degli articoli mappati potrebbero non essere ordinate sequenzialmente
  • Tre Misure di Somiglianza:
    1. Embedding di Frasi Indipendente dalla Lingua (LAS): Basato sull'architettura BERT, addestrato su 119 lingue, utilizza somiglianza del coseno
    2. Euristica Semplice di Lunghezza (SLAS): Basata sulla lunghezza della frase e sulla posizione all'interno dell'articolo
    3. Sovrapposizione Lessicale (LO): Utilizza l'inglese come lingua pivot con precisione, richiamo e F-Score

Punti di Innovazione Tecnica

  1. Strategia del Fulcro Immagine: Sfrutta la caratteristica del riutilizzo di immagini tra versioni in lingue diverse dei giornali, utilizzando le immagini come punti di ancoraggio affidabili per la mappatura degli articoli
  2. Fusione Multimodale: Combina analitiche di immagini e testo per migliorare l'accuratezza della mappatura
  3. Indipendenza dalla Lingua: Utilizza modelli preaddestrati multilingui senza necessità di personalizzazione per coppie linguistiche specifiche
  4. Automazione End-to-End: Processo completamente automatizzato dal PDF grezzo al corpus parallelo finale

Configurazione Sperimentale

Dataset

  • Coppia Linguistica Principale: Konkani-Marathi
  • Coppia Linguistica di Validazione: Punjabi-Hindi
  • Fonte Dati: File PDF di giornali online
  • Intervallo Temporale: Versioni in lingue diverse della stessa data

Metriche di Valutazione

  • Valutazione Intrinseca: Somiglianza Semantica del Testo (STS), valutazione ordinale su 6 livelli (0-5)
    • 5: Equivalenza semantica completa
    • 0: Completa dissomiglianza semantica
  • Valutazione Estrinseca: Punteggio BLEU per il compito di traduzione automatica

Metodi di Confronto

  • Confronto strategie di mappatura frasi: LAS vs SLAS vs LO
  • Confronto con linea di base Konkani-Marathi esistente (BLEU=23,5)

Dettagli di Implementazione

  • Valutazione Manuale: Campionamento di 900 coppie di frasi in due fasi
  • Prima Fase: 200 coppie per ogni strategia di allineamento frasi (totale 600 coppie)
  • Seconda Fase: 300 coppie aggiuntive della strategia migliore
  • Strategia di Campionamento: Campionamento casuale stratificato, mantenimento senza ordine

Risultati Sperimentali

Risultati Principali

Risultati della Valutazione Intrinseca

Lunghezza FraseLunghezza ArticoloLASSLASLO
1-10 parole1-5 frasi3,83,42,9
11-19 parole6-15 frasi3,73,43,0
20+ parole16+ frasi3,83,22,6

Risultati del Confronto tra Coppie Linguistiche

MetricaKonkani-MarathiPunjabi-Hindi
Articoli Mappati1.320150
Coppie di Frasi Mappate14.4482.200
Campioni Valutati Manualmente600100
Punteggio STS Medio3,703,73

Risultati Chiave

  1. Prestazioni Ottimali di LAS: L'embedding di frasi indipendente dalla lingua (LAS) mostra le migliori prestazioni in tutte le combinazioni di lunghezza di frase e lunghezza di articolo
  2. Mappatura di Alta Qualità: Oltre il 92% delle frasi mappate ha un punteggio STS > 3
  3. Indipendenza dalla Lingua: I risultati dell'esperimento Punjabi-Hindi sono comparabili all'esperimento principale, validando l'universalità del metodo

Valutazione Estrinseca: Compito di Traduzione Automatica

  • Modello: Basato su mT5 (Multi-lingual Text-to-Text Transfer Transformer) con fine-tuning
  • Dati di Addestramento: Corpus parallelo Konkani-Marathi (titoli e contenuto articoli)
  • Dati di Test: Didascalie utilizzate come standard di riferimento
  • Risultati: Punteggio BLEU 26,4, miglioramento di circa 3 punti BLEU rispetto alla linea di base esistente (23,5)

Esperimenti di Ablazione

Attraverso il confronto di diverse strategie di mappatura frasi, si dimostra che:

  1. Gli embedding indipendenti dalla lingua sono significativamente superiori ai metodi basati su euristiche di lunghezza e sovrapposizione lessicale
  2. Il metodo mantiene prestazioni stabili su diverse lunghezze di articoli e frasi
  3. L'efficacia della strategia di elaborazione degli articoli basata su embedding

Lavori Correlati

Campo dell'Analisi di Immagini

  • Segmentazione Articoli: Metodi euristici, metodi basati su embedding di grafi, metodi di apprendimento profondo
  • Corrispondenza Immagini: Metodi tradizionali come SIFT, SURF, BRIEF, e metodi di reti neurali come CNN

Campo dell'Analisi di Testo

  • Tecnologia OCR: Ricerca estesa su script Devanagari
  • Allineamento Frasi: Embedding di frasi indipendenti dalla lingua basati su euristiche di lunghezza, corrispondenza lessicale e apprendimento profondo

Ricerca NLP su Konkani

  • Lavori Esistenti: Principalmente limitati a compiti fondamentali come etichettatura POS, analisi del sentimento, NER
  • Progetto ILCI: Ha creato un corpus Hindi-Konkani di 25.000 frasi, ottenendo un punteggio BLEU di 23,5

Conclusioni e Discussione

Conclusioni Principali

  1. Il metodo proposto dimostra indipendenza dalla lingua e buona scalabilità nella costruzione di corpora paralleli per lingue a basse risorse
  2. La strategia di utilizzo delle immagini come fulcro per la mappatura degli articoli si dimostra efficace e innovativa
  3. Gli embedding di frasi indipendenti dalla lingua mostrano prestazioni eccellenti nel compito di allineamento frasi per lingue a basse risorse

Limitazioni

  1. Dipendenza dalle Immagini: Il metodo dipende dalla condivisione di immagini tra versioni in lingue diverse, limitando l'ambito di applicabilità
  2. Vincoli di Qualità: Sono necessari vincoli aggiuntivi per migliorare ulteriormente la qualità del dataset
  3. Limitazioni di Scala: Attualmente validato principalmente nel dominio dei giornali; l'applicabilità ad altri domini richiede ulteriore verifica

Direzioni Future

  1. Estensione delle Fonti di Immagini: Considerare immagini scattate da persone diverse per lo stesso evento di notizie
  2. Miglioramento della Qualità: Esplorare condizioni di vincolo aggiuntive per aumentare la qualità del dataset
  3. Estensione del Dominio: Applicare il metodo a più tipi di testo e domini

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo utilizzo di immagini come fulcro per la mappatura di articoli tra lingue, approccio concettualmente nuovo
  2. Alto Valore Pratico: Fornisce un metodo pratico di aumento dati per la ricerca NLP in lingue a basse risorse
  3. Completezza Sistematica: Progettazione di processo completo dalla raccolta dati alla valutazione finale
  4. Verifica Sufficiente: Validazione della metodologia da molteplici prospettive attraverso valutazioni intrinseche ed estrinseche
  5. Buona Riproducibilità: Descrizione dettagliata del metodo, scelte tecniche ben motivate

Insufficienze

  1. Ambito di Applicabilità Limitato: Dipendenza critica dallo scenario specifico di condivisione di immagini tra versioni in lingue diverse di giornali
  2. Scala di Valutazione Relativamente Piccola: Campioni di valutazione manuale comparativamente limitati (600-900 coppie di frasi)
  3. Confronti di Base Insufficienti: Mancanza di confronti con altri metodi di costruzione automatica di corpora paralleli
  4. Analisi di Errori Mancante: Mancanza di analisi approfondita di casi di fallimento e pattern di errore

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per la costruzione di corpora paralleli per lingue a basse risorse
  2. Applicazione Pratica: Può essere direttamente applicato a regioni con giornali multilingui
  3. Promozione Tecnologica: La strategia del fulcro immagine potrebbe ispirare altri compiti NLP multimodali

Scenari di Applicabilità

  1. Scenario Ideale: Regioni con giornali multilingui e condivisione di immagini
  2. Scenario Esteso: Altri contenuti multimediali con caratteristiche di condivisione di immagini tra lingue
  3. Scenario Limitato: Coppie linguistiche puramente testuali o senza condivisione di immagini

Riferimenti Bibliografici

L'articolo cita 19 lavori correlati, coprendo:

  • Recupero multilingue e sistemi personalizzati
  • Analisi del layout di documenti ed elaborazione di immagini
  • Allineamento di frasi e costruzione di corpora paralleli
  • Ricerca NLP su lingue a basse risorse
  • Lavori correlati alla traduzione automatica neurale

Valutazione Complessiva: Questo è un lavoro innovativo nel campo della costruzione di corpora paralleli per lingue a basse risorse. Sebbene lo scenario di applicabilità del metodo sia relativamente specifico, dimostra buoni risultati nello scenario corrispondente. La proposta della strategia del fulcro immagine fornisce prospettive preziose per la ricerca NLP multimodale e ha un significato positivo nel promuovere il processo di digitalizzazione delle lingue a basse risorse.