2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.

Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.

academic

Un Aumento Automatizzato e Scalabile dei Dati Paralleli per Lingue a Basse Risorse utilizzando Analitiche di Immagini e Testo

Informazioni Fondamentali

ID Articolo: 2510.13211
Titolo: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Autori: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
Classificazione: cs.CL (Linguistica Computazionale)
Conferenza di Pubblicazione: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27-31 marzo 2023, Tallinn, Estonia
Link Articolo: https://arxiv.org/abs/2510.13211

Riassunto

La diversità linguistica globale ha causato disparità nella disponibilità di risorse linguistiche digitali di qualità, limitando così l'accesso ai vantaggi tecnologici per la maggior parte della popolazione mondiale. La scarsità o l'assenza di risorse dati rende difficile l'esecuzione di compiti di elaborazione del linguaggio naturale per le lingue a basse risorse. Questo articolo propone un approccio innovativo, scalabile e completamente automatizzato per estrarre corpora paralleli bilingui da articoli di giornali utilizzando analitiche di immagini e testo. Gli autori validano il metodo costruendo corpora di dati paralleli per due diverse coppie linguistiche e dimostrano il valore del dataset attraverso un compito di traduzione automatica a valle, ottenendo un miglioramento di circa 3 punti BLEU rispetto alle attuali linee di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Solo 20 delle 7000 lingue mondiali dispongono di risorse sufficienti su Internet, mentre le rimanenti sono classificate come lingue a basse risorse (LRLs), prive di supporto dati digitalizzato
Portata dell'Impatto: Più di 2,5 miliardi di persone utilizzano 2000 lingue a basse risorse, principalmente distribuite in India e Africa
Ostacoli Tecnologici: I compiti moderni di elaborazione del linguaggio naturale richiedono grandi quantità di dati di addestramento, e la scarsità di dati digitali nelle lingue a basse risorse rappresenta la principale sfida nel diffondere la tecnologia NLP alla popolazione generale

Motivazione della Ricerca

Costruire corpora paralleli per lingue a basse risorse, in particolare per coppie linguistiche scarse-ricche di risorse
Selezione del Konkani-Marathi come esempio principale: il Konkani è una lingua tipicamente a basse risorse con scarse risorse digitali e un numero limitato di parlanti nativi; il Marathi è una lingua ricca di risorse
Osservazione che i giornali locali dei grandi editori riutilizzano immagini tra versioni in lingue diverse per ottimizzare le risorse

Contributi Principali

Metodo Innovativo: Primo utilizzo di immagini di articoli di giornali come fulcro per mappare gli articoli, un approccio non ancora esplorato in ricerche simili
Avanzamento Tecnologico: Utilizzo di embedding multilingui indipendenti dalla lingua per la mappatura di frasi su coppie linguistiche a basse risorse, con verifica empirica fornita
Contributo Dataset: Creazione del più grande corpus Konkani-Marathi senza annotazione manuale
Verifica di Generalizzabilità: Validazione dell'indipendenza dalla lingua del metodo sulla coppia linguistica Punjabi-Hindi

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: File PDF di giornali in lingue diverse Output: Corpus di coppie di frasi parallele bilingui Vincoli: Completamente automatizzato, senza annotazione manuale, indipendente dalla lingua

Architettura del Modello

L'intera pipeline di aumento dati comprende quattro componenti principali:

1. Modulo Crawler

Scarica copie di giornali da fonti online
Divide i file in pagine singole
Etichetta appropriatamente utilizzando data, numero di pagina e codice lingua

2. Estrattore di Articoli (Article Extractor)

Funzionalità:
- Etichetta i confini dei singoli articoli
- Estrae immagini e testo all'interno degli articoli etichettati (utilizzando OCR)
Implementazione Tecnica:
- Utilizza il dataset di analisi del layout di PRImA per il rilevamento dei confini degli articoli
- Utilizza OpenCV per estrarre le regioni di interesse (ROI)
- Combina EasyOCR, PaddleOCR e Tesseract con decisione a maggioranza
Segmentazione Articoli: Divide gli articoli in quattro ROI:
- Titolo (H): include sottotitoli
- Immagine (I)
- Didascalia (P)
- Contenuto (C)

3. Mappatore di Articoli (Article Mapper)

Strategia di Mappatura: Confronta la somiglianza delle immagini degli articoli tra due lingue
Algoritmo: Utilizza SIFT (Scale-Invariant Feature Transform) come algoritmo di corrispondenza delle immagini
Rappresentazione Matematica:

{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

dove θ è la funzione dell'algoritmo di corrispondenza delle immagini

4. Mappatore di Frasi (Sentence Mapper)

Sfida Principale: Le frasi all'interno degli articoli mappati potrebbero non essere ordinate sequenzialmente
Tre Misure di Somiglianza:
1. Embedding di Frasi Indipendente dalla Lingua (LAS): Basato sull'architettura BERT, addestrato su 119 lingue, utilizza somiglianza del coseno
2. Euristica Semplice di Lunghezza (SLAS): Basata sulla lunghezza della frase e sulla posizione all'interno dell'articolo
3. Sovrapposizione Lessicale (LO): Utilizza l'inglese come lingua pivot con precisione, richiamo e F-Score

Punti di Innovazione Tecnica

Strategia del Fulcro Immagine: Sfrutta la caratteristica del riutilizzo di immagini tra versioni in lingue diverse dei giornali, utilizzando le immagini come punti di ancoraggio affidabili per la mappatura degli articoli
Fusione Multimodale: Combina analitiche di immagini e testo per migliorare l'accuratezza della mappatura
Indipendenza dalla Lingua: Utilizza modelli preaddestrati multilingui senza necessità di personalizzazione per coppie linguistiche specifiche
Automazione End-to-End: Processo completamente automatizzato dal PDF grezzo al corpus parallelo finale

Configurazione Sperimentale

Dataset

Coppia Linguistica Principale: Konkani-Marathi
Coppia Linguistica di Validazione: Punjabi-Hindi
Fonte Dati: File PDF di giornali online
Intervallo Temporale: Versioni in lingue diverse della stessa data

Metriche di Valutazione

Valutazione Intrinseca: Somiglianza Semantica del Testo (STS), valutazione ordinale su 6 livelli (0-5)
- 5: Equivalenza semantica completa
- 0: Completa dissomiglianza semantica
Valutazione Estrinseca: Punteggio BLEU per il compito di traduzione automatica

Metodi di Confronto

Confronto strategie di mappatura frasi: LAS vs SLAS vs LO
Confronto con linea di base Konkani-Marathi esistente (BLEU=23,5)

Dettagli di Implementazione

Valutazione Manuale: Campionamento di 900 coppie di frasi in due fasi
Prima Fase: 200 coppie per ogni strategia di allineamento frasi (totale 600 coppie)
Seconda Fase: 300 coppie aggiuntive della strategia migliore
Strategia di Campionamento: Campionamento casuale stratificato, mantenimento senza ordine

Risultati Sperimentali

Risultati Principali

Risultati della Valutazione Intrinseca

Lunghezza Frase	Lunghezza Articolo	LAS	SLAS	LO
1-10 parole	1-5 frasi	3,8	3,4	2,9
11-19 parole	6-15 frasi	3,7	3,4	3,0
20+ parole	16+ frasi	3,8	3,2	2,6

Risultati del Confronto tra Coppie Linguistiche

Metrica	Konkani-Marathi	Punjabi-Hindi
Articoli Mappati	1.320	150
Coppie di Frasi Mappate	14.448	2.200
Campioni Valutati Manualmente	600	100
Punteggio STS Medio	3,70	3,73

Risultati Chiave

Prestazioni Ottimali di LAS: L'embedding di frasi indipendente dalla lingua (LAS) mostra le migliori prestazioni in tutte le combinazioni di lunghezza di frase e lunghezza di articolo
Mappatura di Alta Qualità: Oltre il 92% delle frasi mappate ha un punteggio STS > 3
Indipendenza dalla Lingua: I risultati dell'esperimento Punjabi-Hindi sono comparabili all'esperimento principale, validando l'universalità del metodo

Valutazione Estrinseca: Compito di Traduzione Automatica

Modello: Basato su mT5 (Multi-lingual Text-to-Text Transfer Transformer) con fine-tuning
Dati di Addestramento: Corpus parallelo Konkani-Marathi (titoli e contenuto articoli)
Dati di Test: Didascalie utilizzate come standard di riferimento
Risultati: Punteggio BLEU 26,4, miglioramento di circa 3 punti BLEU rispetto alla linea di base esistente (23,5)

Esperimenti di Ablazione

Attraverso il confronto di diverse strategie di mappatura frasi, si dimostra che:

Gli embedding indipendenti dalla lingua sono significativamente superiori ai metodi basati su euristiche di lunghezza e sovrapposizione lessicale
Il metodo mantiene prestazioni stabili su diverse lunghezze di articoli e frasi
L'efficacia della strategia di elaborazione degli articoli basata su embedding

Lavori Correlati

Campo dell'Analisi di Immagini

Segmentazione Articoli: Metodi euristici, metodi basati su embedding di grafi, metodi di apprendimento profondo
Corrispondenza Immagini: Metodi tradizionali come SIFT, SURF, BRIEF, e metodi di reti neurali come CNN

Campo dell'Analisi di Testo

Tecnologia OCR: Ricerca estesa su script Devanagari
Allineamento Frasi: Embedding di frasi indipendenti dalla lingua basati su euristiche di lunghezza, corrispondenza lessicale e apprendimento profondo

Ricerca NLP su Konkani

Lavori Esistenti: Principalmente limitati a compiti fondamentali come etichettatura POS, analisi del sentimento, NER
Progetto ILCI: Ha creato un corpus Hindi-Konkani di 25.000 frasi, ottenendo un punteggio BLEU di 23,5

Conclusioni e Discussione

Conclusioni Principali

Il metodo proposto dimostra indipendenza dalla lingua e buona scalabilità nella costruzione di corpora paralleli per lingue a basse risorse
La strategia di utilizzo delle immagini come fulcro per la mappatura degli articoli si dimostra efficace e innovativa
Gli embedding di frasi indipendenti dalla lingua mostrano prestazioni eccellenti nel compito di allineamento frasi per lingue a basse risorse

Limitazioni

Dipendenza dalle Immagini: Il metodo dipende dalla condivisione di immagini tra versioni in lingue diverse, limitando l'ambito di applicabilità
Vincoli di Qualità: Sono necessari vincoli aggiuntivi per migliorare ulteriormente la qualità del dataset
Limitazioni di Scala: Attualmente validato principalmente nel dominio dei giornali; l'applicabilità ad altri domini richiede ulteriore verifica

Direzioni Future

Estensione delle Fonti di Immagini: Considerare immagini scattate da persone diverse per lo stesso evento di notizie
Miglioramento della Qualità: Esplorare condizioni di vincolo aggiuntive per aumentare la qualità del dataset
Estensione del Dominio: Applicare il metodo a più tipi di testo e domini

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo utilizzo di immagini come fulcro per la mappatura di articoli tra lingue, approccio concettualmente nuovo
Alto Valore Pratico: Fornisce un metodo pratico di aumento dati per la ricerca NLP in lingue a basse risorse
Completezza Sistematica: Progettazione di processo completo dalla raccolta dati alla valutazione finale
Verifica Sufficiente: Validazione della metodologia da molteplici prospettive attraverso valutazioni intrinseche ed estrinseche
Buona Riproducibilità: Descrizione dettagliata del metodo, scelte tecniche ben motivate

Insufficienze

Ambito di Applicabilità Limitato: Dipendenza critica dallo scenario specifico di condivisione di immagini tra versioni in lingue diverse di giornali
Scala di Valutazione Relativamente Piccola: Campioni di valutazione manuale comparativamente limitati (600-900 coppie di frasi)
Confronti di Base Insufficienti: Mancanza di confronti con altri metodi di costruzione automatica di corpora paralleli
Analisi di Errori Mancante: Mancanza di analisi approfondita di casi di fallimento e pattern di errore

Impatto

Contributo Accademico: Fornisce nuove prospettive per la costruzione di corpora paralleli per lingue a basse risorse
Applicazione Pratica: Può essere direttamente applicato a regioni con giornali multilingui
Promozione Tecnologica: La strategia del fulcro immagine potrebbe ispirare altri compiti NLP multimodali

Scenari di Applicabilità

Scenario Ideale: Regioni con giornali multilingui e condivisione di immagini
Scenario Esteso: Altri contenuti multimediali con caratteristiche di condivisione di immagini tra lingue
Scenario Limitato: Coppie linguistiche puramente testuali o senza condivisione di immagini

Riferimenti Bibliografici

L'articolo cita 19 lavori correlati, coprendo:

Recupero multilingue e sistemi personalizzati
Analisi del layout di documenti ed elaborazione di immagini
Allineamento di frasi e costruzione di corpora paralleli
Ricerca NLP su lingue a basse risorse
Lavori correlati alla traduzione automatica neurale

Valutazione Complessiva: Questo è un lavoro innovativo nel campo della costruzione di corpora paralleli per lingue a basse risorse. Sebbene lo scenario di applicabilità del metodo sia relativamente specifico, dimostra buoni risultati nello scenario corrispondente. La proposta della strategia del fulcro immagine fornisce prospettive preziose per la ricerca NLP multimodale e ha un significato positivo nel promuovere il processo di digitalizzazione delle lingue a basse risorse.