A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
Aumento Completamente Automatizado y Escalable de Datos Paralelos para Lenguas de Bajos Recursos utilizando Análisis de Imágenes y Texto
La diversidad lingüística global ha generado disparidades en la disponibilidad de recursos digitales de calidad, limitando así el acceso tecnológico para la mayoría de las poblaciones. La carencia o ausencia de recursos de datos dificulta la ejecución de tareas de PLN para lenguas de bajos recursos. Este artículo propone un enfoque novedoso, escalable y completamente automatizado para extraer corpus paralelos bilingües de artículos de periódicos utilizando análisis de imágenes y texto. Los autores validan el método construyendo corpus de datos paralelos para dos combinaciones de lenguas distintas, y demuestran el valor del conjunto de datos mediante la tarea descendente de traducción automática, logrando una mejora de aproximadamente 3 puntos BLEU en comparación con la línea base actual.
Problema Central: De las 7000 lenguas mundiales, solo 20 poseen recursos suficientes en Internet, siendo el resto clasificadas como lenguas de bajos recursos (LBR), careciendo de apoyo de datos digitalizados
Alcance del Impacto: Más de 2500 millones de personas utilizan 2000 lenguas de bajos recursos, distribuidas principalmente en India y África
Obstáculos Tecnológicos: Las tareas modernas de PLN requieren grandes volúmenes de datos de entrenamiento, siendo la escasez de datos digitales en lenguas de bajos recursos el principal desafío para la popularización de la tecnología de PLN
Construir corpus paralelos para lenguas de bajos recursos, particularmente para combinaciones de lenguas con pocos recursos-muchos recursos
Seleccionar Konkani-Marathi como ejemplo principal: Konkani es una lengua típicamente de bajos recursos con escasos recursos digitales y pocos hablantes nativos; Marathi es una lengua con muchos recursos
Observación de que los periódicos locales de grandes editoriales reutilizan imágenes entre versiones en diferentes idiomas para optimizar recursos
Método Innovador: Primer uso de imágenes de artículos de periódicos como pivote para mapear artículos, lo cual no ha sido explorado en investigaciones similares
Avance Técnico: Uso de incrustaciones agnósticas del idioma para mapeo de oraciones en combinaciones de lenguas de bajos recursos, con verificación empírica proporcionada
Contribución de Conjunto de Datos: Creación del corpus Konkani-Marathi más grande sin anotación manual
Verificación de Generalidad: Validación de la independencia lingüística del método en el par de lenguas Punjabi-Hindi
Entrada: Archivos PDF de periódicos en diferentes idiomas
Salida: Corpus de pares de oraciones paralelas bilingües
Restricciones: Completamente automatizado, sin anotación manual, agnóstico del idioma
Estrategia de Pivote de Imagen: Aprovechar la característica de reutilización de imágenes entre versiones en diferentes idiomas de periódicos, utilizando imágenes como puntos de anclaje confiables para mapeo de artículos
Fusión Multimodal: Combinar análisis de imágenes y análisis de texto para mejorar la precisión del mapeo
Independencia Lingüística: Utilizar modelos multilingües preentrenados sin necesidad de personalización para pares de idiomas específicos
Automatización de Extremo a Extremo: Proceso completamente automatizado desde PDF sin procesar hasta corpus paralelo final
Rendimiento Óptimo de LAS: La incrustación de oraciones agnóstica del idioma (LAS) demuestra el mejor rendimiento en todas las combinaciones de longitud de oración y longitud de artículo
Mapeo de Alta Calidad: Más del 92% de las oraciones mapeadas tienen puntuación STS > 3
Independencia Lingüística: Los resultados del experimento Punjabi-Hindi son comparables al experimento principal, validando la generalidad del método
Tecnología OCR: Investigación extensa dirigida a texto Devanagari
Alineación de Oraciones: Incrustaciones de oraciones agnósticas del idioma basadas en heurística de longitud, correspondencia léxica y aprendizaje profundo
El método propuesto demuestra independencia lingüística y buena escalabilidad en la construcción de corpus paralelos para lenguas de bajos recursos
La estrategia de utilizar imágenes como pivote para mapeo de artículos demuestra ser efectiva e innovadora
Las incrustaciones de oraciones agnósticas del idioma muestran un rendimiento excepcional en tareas de alineación de pares de oraciones en lenguas de bajos recursos
Dependencia de Imágenes: El método depende de imágenes compartidas entre versiones en diferentes idiomas, limitando su rango de aplicabilidad
Restricciones de Calidad: Se requieren restricciones adicionales para mejorar aún más la calidad del conjunto de datos
Limitaciones de Escala: Actualmente validado principalmente en el dominio de periódicos, requiriéndose verificación adicional de aplicabilidad en otros dominios
Rango de Aplicabilidad Limitado: Dependencia severa del escenario específico de periódicos que comparten imágenes entre versiones en diferentes idiomas
Escala de Evaluación Relativamente Pequeña: Muestra de evaluación manual relativamente pequeña (600-900 pares de oraciones)
Comparación de Línea Base Insuficiente: Falta de comparación con otros métodos de construcción automática de corpus paralelos
Análisis de Errores Ausente: Falta de análisis profundo de casos fallidos y patrones de error
El artículo cita 19 referencias relacionadas, abarcando:
Recuperación multilingüe y sistemas personalizados
Análisis de diseño de documentos y procesamiento de imágenes
Alineación de oraciones y construcción de corpus paralelos
Investigación de PLN en lenguas de bajos recursos
Trabajo relacionado con traducción automática neuronal
Evaluación General: Este es un trabajo innovador en el campo de la construcción de corpus paralelos para lenguas de bajos recursos. Aunque el escenario de aplicabilidad del método es relativamente específico, demuestra buen rendimiento en el escenario correspondiente. La propuesta de la estrategia de pivote de imagen proporciona perspectivas valiosas para la investigación de PLN multimodal, teniendo un significado positivo para promover la digitalización de lenguas de bajos recursos.