A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
Un Aumento Automatizzato e Scalabile dei Dati Paralleli per Lingue a Basse Risorse utilizzando Analitiche di Immagini e Testo
La diversità linguistica globale ha causato disparità nella disponibilità di risorse linguistiche digitali di qualità, limitando così l'accesso ai vantaggi tecnologici per la maggior parte della popolazione mondiale. La scarsità o l'assenza di risorse dati rende difficile l'esecuzione di compiti di elaborazione del linguaggio naturale per le lingue a basse risorse. Questo articolo propone un approccio innovativo, scalabile e completamente automatizzato per estrarre corpora paralleli bilingui da articoli di giornali utilizzando analitiche di immagini e testo. Gli autori validano il metodo costruendo corpora di dati paralleli per due diverse coppie linguistiche e dimostrano il valore del dataset attraverso un compito di traduzione automatica a valle, ottenendo un miglioramento di circa 3 punti BLEU rispetto alle attuali linee di base.
Problema Centrale: Solo 20 delle 7000 lingue mondiali dispongono di risorse sufficienti su Internet, mentre le rimanenti sono classificate come lingue a basse risorse (LRLs), prive di supporto dati digitalizzato
Portata dell'Impatto: Più di 2,5 miliardi di persone utilizzano 2000 lingue a basse risorse, principalmente distribuite in India e Africa
Ostacoli Tecnologici: I compiti moderni di elaborazione del linguaggio naturale richiedono grandi quantità di dati di addestramento, e la scarsità di dati digitali nelle lingue a basse risorse rappresenta la principale sfida nel diffondere la tecnologia NLP alla popolazione generale
Costruire corpora paralleli per lingue a basse risorse, in particolare per coppie linguistiche scarse-ricche di risorse
Selezione del Konkani-Marathi come esempio principale: il Konkani è una lingua tipicamente a basse risorse con scarse risorse digitali e un numero limitato di parlanti nativi; il Marathi è una lingua ricca di risorse
Osservazione che i giornali locali dei grandi editori riutilizzano immagini tra versioni in lingue diverse per ottimizzare le risorse
Metodo Innovativo: Primo utilizzo di immagini di articoli di giornali come fulcro per mappare gli articoli, un approccio non ancora esplorato in ricerche simili
Avanzamento Tecnologico: Utilizzo di embedding multilingui indipendenti dalla lingua per la mappatura di frasi su coppie linguistiche a basse risorse, con verifica empirica fornita
Contributo Dataset: Creazione del più grande corpus Konkani-Marathi senza annotazione manuale
Verifica di Generalizzabilità: Validazione dell'indipendenza dalla lingua del metodo sulla coppia linguistica Punjabi-Hindi
Input: File PDF di giornali in lingue diverse
Output: Corpus di coppie di frasi parallele bilingui
Vincoli: Completamente automatizzato, senza annotazione manuale, indipendente dalla lingua
Strategia del Fulcro Immagine: Sfrutta la caratteristica del riutilizzo di immagini tra versioni in lingue diverse dei giornali, utilizzando le immagini come punti di ancoraggio affidabili per la mappatura degli articoli
Fusione Multimodale: Combina analitiche di immagini e testo per migliorare l'accuratezza della mappatura
Indipendenza dalla Lingua: Utilizza modelli preaddestrati multilingui senza necessità di personalizzazione per coppie linguistiche specifiche
Automazione End-to-End: Processo completamente automatizzato dal PDF grezzo al corpus parallelo finale
Prestazioni Ottimali di LAS: L'embedding di frasi indipendente dalla lingua (LAS) mostra le migliori prestazioni in tutte le combinazioni di lunghezza di frase e lunghezza di articolo
Mappatura di Alta Qualità: Oltre il 92% delle frasi mappate ha un punteggio STS > 3
Indipendenza dalla Lingua: I risultati dell'esperimento Punjabi-Hindi sono comparabili all'esperimento principale, validando l'universalità del metodo
Analisi del layout di documenti ed elaborazione di immagini
Allineamento di frasi e costruzione di corpora paralleli
Ricerca NLP su lingue a basse risorse
Lavori correlati alla traduzione automatica neurale
Valutazione Complessiva: Questo è un lavoro innovativo nel campo della costruzione di corpora paralleli per lingue a basse risorse. Sebbene lo scenario di applicabilità del metodo sia relativamente specifico, dimostra buoni risultati nello scenario corrispondente. La proposta della strategia del fulcro immagine fornisce prospettive preziose per la ricerca NLP multimodale e ha un significato positivo nel promuovere il processo di digitalizzazione delle lingue a basse risorse.