2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.

Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.

academic

Aumento Completamente Automatizado y Escalable de Datos Paralelos para Lenguas de Bajos Recursos utilizando Análisis de Imágenes y Texto

Información Básica

ID del Artículo: 2510.13211
Título: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Autores: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
Clasificación: cs.CL (Lingüística Computacional)
Conferencia de Publicación: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27-31 de marzo de 2023, Tallin, Estonia
Enlace del Artículo: https://arxiv.org/abs/2510.13211

Resumen

La diversidad lingüística global ha generado disparidades en la disponibilidad de recursos digitales de calidad, limitando así el acceso tecnológico para la mayoría de las poblaciones. La carencia o ausencia de recursos de datos dificulta la ejecución de tareas de PLN para lenguas de bajos recursos. Este artículo propone un enfoque novedoso, escalable y completamente automatizado para extraer corpus paralelos bilingües de artículos de periódicos utilizando análisis de imágenes y texto. Los autores validan el método construyendo corpus de datos paralelos para dos combinaciones de lenguas distintas, y demuestran el valor del conjunto de datos mediante la tarea descendente de traducción automática, logrando una mejora de aproximadamente 3 puntos BLEU en comparación con la línea base actual.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: De las 7000 lenguas mundiales, solo 20 poseen recursos suficientes en Internet, siendo el resto clasificadas como lenguas de bajos recursos (LBR), careciendo de apoyo de datos digitalizados
Alcance del Impacto: Más de 2500 millones de personas utilizan 2000 lenguas de bajos recursos, distribuidas principalmente en India y África
Obstáculos Tecnológicos: Las tareas modernas de PLN requieren grandes volúmenes de datos de entrenamiento, siendo la escasez de datos digitales en lenguas de bajos recursos el principal desafío para la popularización de la tecnología de PLN

Motivación de la Investigación

Construir corpus paralelos para lenguas de bajos recursos, particularmente para combinaciones de lenguas con pocos recursos-muchos recursos
Seleccionar Konkani-Marathi como ejemplo principal: Konkani es una lengua típicamente de bajos recursos con escasos recursos digitales y pocos hablantes nativos; Marathi es una lengua con muchos recursos
Observación de que los periódicos locales de grandes editoriales reutilizan imágenes entre versiones en diferentes idiomas para optimizar recursos

Contribuciones Principales

Método Innovador: Primer uso de imágenes de artículos de periódicos como pivote para mapear artículos, lo cual no ha sido explorado en investigaciones similares
Avance Técnico: Uso de incrustaciones agnósticas del idioma para mapeo de oraciones en combinaciones de lenguas de bajos recursos, con verificación empírica proporcionada
Contribución de Conjunto de Datos: Creación del corpus Konkani-Marathi más grande sin anotación manual
Verificación de Generalidad: Validación de la independencia lingüística del método en el par de lenguas Punjabi-Hindi

Explicación Detallada del Método

Definición de la Tarea

Entrada: Archivos PDF de periódicos en diferentes idiomas Salida: Corpus de pares de oraciones paralelas bilingües Restricciones: Completamente automatizado, sin anotación manual, agnóstico del idioma

Arquitectura del Modelo

El pipeline completo de aumento de datos contiene cuatro componentes principales:

1. Módulo Rastreador (Crawler)

Descargar copias de periódicos de fuentes en línea
Dividir archivos en páginas individuales
Etiquetar apropiadamente utilizando fecha, número de página y código de idioma

2. Extractor de Artículos (Article Extractor)

Funcionalidades:
- Marcar límites de artículos individuales
- Extraer imágenes y texto dentro de artículos marcados (utilizando OCR)
Implementación Técnica:
- Utilizar el conjunto de datos de análisis de diseño de PRImA para detección de límites de artículos
- Usar OpenCV para extraer regiones de interés (ROI)
- Combinar EasyOCR, PaddleOCR y Tesseract, empleando votación por mayoría para decisiones
Segmentación de Artículos: Dividir artículos en cuatro ROI:
- Título (H): incluyendo subtítulos
- Imagen (I)
- Pie de foto (P)
- Contenido (C)

3. Mapeador de Artículos (Article Mapper)

Estrategia de Mapeo: Comparar similitud de imágenes de artículos entre dos idiomas
Algoritmo: Utilizar SIFT (Transformada de Características Invariantes a Escala) como algoritmo de coincidencia de imágenes
Representación Matemática:

{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

donde θ es la función del algoritmo de coincidencia de imágenes

4. Mapeador de Oraciones (Sentence Mapper)

Desafío Principal: Las oraciones dentro de artículos mapeados pueden no estar en orden secuencial
Tres Medidas de Similitud:
1. Incrustación de Oraciones Agnóstica del Idioma (LAS): Basada en arquitectura BERT, entrenada en 119 idiomas, utilizando similitud de coseno
2. Heurística Simple de Longitud (SLAS): Basada en longitud de oración y posición dentro del artículo
3. Superposición Léxica (LO): Utilizando inglés como idioma pivote, precisión, recuperación y puntuación F

Puntos de Innovación Técnica

Estrategia de Pivote de Imagen: Aprovechar la característica de reutilización de imágenes entre versiones en diferentes idiomas de periódicos, utilizando imágenes como puntos de anclaje confiables para mapeo de artículos
Fusión Multimodal: Combinar análisis de imágenes y análisis de texto para mejorar la precisión del mapeo
Independencia Lingüística: Utilizar modelos multilingües preentrenados sin necesidad de personalización para pares de idiomas específicos
Automatización de Extremo a Extremo: Proceso completamente automatizado desde PDF sin procesar hasta corpus paralelo final

Configuración Experimental

Conjunto de Datos

Par de Lenguas Principal: Konkani-Marathi
Par de Lenguas de Validación: Punjabi-Hindi
Fuente de Datos: Archivos PDF de periódicos en línea
Período de Tiempo: Versiones en diferentes idiomas de la misma fecha

Métricas de Evaluación

Evaluación Intrínseca: Similitud Textual Semántica (STS), puntuación ordinal de 6 niveles (0-5)
- 5: Equivalencia semántica completa
- 0: Disimilitud semántica completa
Evaluación Extrínseca: Puntuación BLEU para la tarea de traducción automática

Métodos de Comparación

Comparación de estrategias de mapeo de oraciones: LAS vs SLAS vs LO
Comparación con línea base existente de Konkani-Marathi (BLEU=23.5)

Detalles de Implementación

Evaluación Manual: Muestreo de 900 pares de oraciones en dos fases
Primera Fase: 200 pares para cada estrategia de alineación de oraciones (600 pares en total)
Segunda Fase: 300 pares adicionales para la mejor estrategia
Estrategia de Muestreo: Muestreo aleatorio estratificado, preservación sin orden

Resultados Experimentales

Resultados Principales

Resultados de Evaluación Intrínseca

Longitud de Oración	Longitud de Artículo	LAS	SLAS	LO
1-10 palabras	1-5 oraciones	3.8	3.4	2.9
11-19 palabras	6-15 oraciones	3.7	3.4	3.0
20+ palabras	16+ oraciones	3.8	3.2	2.6

Resultados de Comparación entre Pares de Lenguas

Métrica	Konkani-Marathi	Punjabi-Hindi
Artículos Mapeados	1,320	150
Pares de Oraciones Mapeadas	14,448	2,200
Muestra de Evaluación Manual	600	100
Puntuación STS Promedio	3.70	3.73

Hallazgos Clave

Rendimiento Óptimo de LAS: La incrustación de oraciones agnóstica del idioma (LAS) demuestra el mejor rendimiento en todas las combinaciones de longitud de oración y longitud de artículo
Mapeo de Alta Calidad: Más del 92% de las oraciones mapeadas tienen puntuación STS > 3
Independencia Lingüística: Los resultados del experimento Punjabi-Hindi son comparables al experimento principal, validando la generalidad del método

Evaluación Extrínseca: Tarea de Traducción Automática

Modelo: Basado en mT5 (Transformador Multilingüe Preentrenado de Texto a Texto) ajustado
Datos de Entrenamiento: Corpus paralelo Konkani-Marathi (títulos y contenido de artículos)
Datos de Prueba: Pies de foto como estándar de referencia
Resultado: Puntuación BLEU de 26.4, mejora de aproximadamente 3 puntos BLEU en comparación con la línea base existente (23.5)

Experimentos de Ablación

Mediante comparación de diferentes estrategias de mapeo de oraciones, se demuestra que:

Las incrustaciones agnósticas del idioma son significativamente superiores a los métodos de heurística de longitud y superposición léxica
El método mantiene rendimiento estable en diferentes longitudes de artículos y oraciones
Efectividad de la estrategia de procesamiento de artículos basada en incrustaciones

Trabajo Relacionado

Dominio de Análisis de Imágenes

Segmentación de Artículos: Métodos heurísticos, métodos de incrustación de gráficos, métodos de aprendizaje profundo
Coincidencia de Imágenes: Métodos tradicionales como SIFT, SURF, BRIEF, así como métodos de redes neuronales como CNN

Dominio de Análisis de Texto

Tecnología OCR: Investigación extensa dirigida a texto Devanagari
Alineación de Oraciones: Incrustaciones de oraciones agnósticas del idioma basadas en heurística de longitud, correspondencia léxica y aprendizaje profundo

Investigación de PLN en Konkani

Trabajo Existente: Principalmente limitado a tareas fundamentales como etiquetado POS, análisis de sentimientos, NER
Proyecto ILCI: Creó un corpus Hindi-Konkani de 25,000 oraciones, logrando una puntuación BLEU de 23.5

Conclusiones y Discusión

Conclusiones Principales

El método propuesto demuestra independencia lingüística y buena escalabilidad en la construcción de corpus paralelos para lenguas de bajos recursos
La estrategia de utilizar imágenes como pivote para mapeo de artículos demuestra ser efectiva e innovadora
Las incrustaciones de oraciones agnósticas del idioma muestran un rendimiento excepcional en tareas de alineación de pares de oraciones en lenguas de bajos recursos

Limitaciones

Dependencia de Imágenes: El método depende de imágenes compartidas entre versiones en diferentes idiomas, limitando su rango de aplicabilidad
Restricciones de Calidad: Se requieren restricciones adicionales para mejorar aún más la calidad del conjunto de datos
Limitaciones de Escala: Actualmente validado principalmente en el dominio de periódicos, requiriéndose verificación adicional de aplicabilidad en otros dominios

Direcciones Futuras

Expansión de Fuentes de Imágenes: Considerar imágenes capturadas por diferentes personas del mismo evento noticioso
Mejora de Calidad: Explorar condiciones de restricción adicionales para mejorar la calidad del conjunto de datos
Expansión de Dominio: Aplicar el método a más tipos de texto y dominios

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primer uso de imágenes como pivote para mapeo de artículos entre idiomas, concepto novedoso
Alto Valor Práctico: Proporciona un método práctico de aumento de datos para investigación en PLN de lenguas de bajos recursos
Completitud Sistemática: Diseño de proceso completo desde recopilación de datos hasta evaluación final
Verificación Suficiente: Validación del método de efectividad desde múltiples perspectivas mediante evaluación intrínseca y extrínseca
Buena Reproducibilidad: Descripción detallada del método, opciones técnicas bien fundamentadas

Deficiencias

Rango de Aplicabilidad Limitado: Dependencia severa del escenario específico de periódicos que comparten imágenes entre versiones en diferentes idiomas
Escala de Evaluación Relativamente Pequeña: Muestra de evaluación manual relativamente pequeña (600-900 pares de oraciones)
Comparación de Línea Base Insuficiente: Falta de comparación con otros métodos de construcción automática de corpus paralelos
Análisis de Errores Ausente: Falta de análisis profundo de casos fallidos y patrones de error

Impacto

Contribución Académica: Proporciona nuevas perspectivas para la construcción de corpus paralelos para lenguas de bajos recursos
Aplicación Práctica: Puede aplicarse directamente en regiones con periódicos multilingües
Promoción Tecnológica: La estrategia de pivote de imagen puede inspirar otras tareas de PLN multimodal

Escenarios de Aplicabilidad

Escenario Ideal: Regiones con periódicos multilingües e imágenes compartidas
Escenario Extendido: Otros contenidos de medios con características de compartición de imágenes entre idiomas
Escenario Limitado: Pares de idiomas puramente textuales o sin compartición de imágenes

Referencias

El artículo cita 19 referencias relacionadas, abarcando:

Recuperación multilingüe y sistemas personalizados
Análisis de diseño de documentos y procesamiento de imágenes
Alineación de oraciones y construcción de corpus paralelos
Investigación de PLN en lenguas de bajos recursos
Trabajo relacionado con traducción automática neuronal

Evaluación General: Este es un trabajo innovador en el campo de la construcción de corpus paralelos para lenguas de bajos recursos. Aunque el escenario de aplicabilidad del método es relativamente específico, demuestra buen rendimiento en el escenario correspondiente. La propuesta de la estrategia de pivote de imagen proporciona perspectivas valiosas para la investigación de PLN multimodal, teniendo un significado positivo para promover la digitalización de lenguas de bajos recursos.