2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

Aumento Completamente Automatizado y Escalable de Datos Paralelos para Lenguas de Bajos Recursos utilizando Análisis de Imágenes y Texto

Información Básica

  • ID del Artículo: 2510.13211
  • Título: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • Autores: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Conferencia de Publicación: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), 27-31 de marzo de 2023, Tallin, Estonia
  • Enlace del Artículo: https://arxiv.org/abs/2510.13211

Resumen

La diversidad lingüística global ha generado disparidades en la disponibilidad de recursos digitales de calidad, limitando así el acceso tecnológico para la mayoría de las poblaciones. La carencia o ausencia de recursos de datos dificulta la ejecución de tareas de PLN para lenguas de bajos recursos. Este artículo propone un enfoque novedoso, escalable y completamente automatizado para extraer corpus paralelos bilingües de artículos de periódicos utilizando análisis de imágenes y texto. Los autores validan el método construyendo corpus de datos paralelos para dos combinaciones de lenguas distintas, y demuestran el valor del conjunto de datos mediante la tarea descendente de traducción automática, logrando una mejora de aproximadamente 3 puntos BLEU en comparación con la línea base actual.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: De las 7000 lenguas mundiales, solo 20 poseen recursos suficientes en Internet, siendo el resto clasificadas como lenguas de bajos recursos (LBR), careciendo de apoyo de datos digitalizados
  2. Alcance del Impacto: Más de 2500 millones de personas utilizan 2000 lenguas de bajos recursos, distribuidas principalmente en India y África
  3. Obstáculos Tecnológicos: Las tareas modernas de PLN requieren grandes volúmenes de datos de entrenamiento, siendo la escasez de datos digitales en lenguas de bajos recursos el principal desafío para la popularización de la tecnología de PLN

Motivación de la Investigación

  • Construir corpus paralelos para lenguas de bajos recursos, particularmente para combinaciones de lenguas con pocos recursos-muchos recursos
  • Seleccionar Konkani-Marathi como ejemplo principal: Konkani es una lengua típicamente de bajos recursos con escasos recursos digitales y pocos hablantes nativos; Marathi es una lengua con muchos recursos
  • Observación de que los periódicos locales de grandes editoriales reutilizan imágenes entre versiones en diferentes idiomas para optimizar recursos

Contribuciones Principales

  1. Método Innovador: Primer uso de imágenes de artículos de periódicos como pivote para mapear artículos, lo cual no ha sido explorado en investigaciones similares
  2. Avance Técnico: Uso de incrustaciones agnósticas del idioma para mapeo de oraciones en combinaciones de lenguas de bajos recursos, con verificación empírica proporcionada
  3. Contribución de Conjunto de Datos: Creación del corpus Konkani-Marathi más grande sin anotación manual
  4. Verificación de Generalidad: Validación de la independencia lingüística del método en el par de lenguas Punjabi-Hindi

Explicación Detallada del Método

Definición de la Tarea

Entrada: Archivos PDF de periódicos en diferentes idiomas Salida: Corpus de pares de oraciones paralelas bilingües Restricciones: Completamente automatizado, sin anotación manual, agnóstico del idioma

Arquitectura del Modelo

El pipeline completo de aumento de datos contiene cuatro componentes principales:

1. Módulo Rastreador (Crawler)

  • Descargar copias de periódicos de fuentes en línea
  • Dividir archivos en páginas individuales
  • Etiquetar apropiadamente utilizando fecha, número de página y código de idioma

2. Extractor de Artículos (Article Extractor)

  • Funcionalidades:
    • Marcar límites de artículos individuales
    • Extraer imágenes y texto dentro de artículos marcados (utilizando OCR)
  • Implementación Técnica:
    • Utilizar el conjunto de datos de análisis de diseño de PRImA para detección de límites de artículos
    • Usar OpenCV para extraer regiones de interés (ROI)
    • Combinar EasyOCR, PaddleOCR y Tesseract, empleando votación por mayoría para decisiones
  • Segmentación de Artículos: Dividir artículos en cuatro ROI:
    • Título (H): incluyendo subtítulos
    • Imagen (I)
    • Pie de foto (P)
    • Contenido (C)

3. Mapeador de Artículos (Article Mapper)

  • Estrategia de Mapeo: Comparar similitud de imágenes de artículos entre dos idiomas
  • Algoritmo: Utilizar SIFT (Transformada de Características Invariantes a Escala) como algoritmo de coincidencia de imágenes
  • Representación Matemática:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

donde θ es la función del algoritmo de coincidencia de imágenes

4. Mapeador de Oraciones (Sentence Mapper)

  • Desafío Principal: Las oraciones dentro de artículos mapeados pueden no estar en orden secuencial
  • Tres Medidas de Similitud:
    1. Incrustación de Oraciones Agnóstica del Idioma (LAS): Basada en arquitectura BERT, entrenada en 119 idiomas, utilizando similitud de coseno
    2. Heurística Simple de Longitud (SLAS): Basada en longitud de oración y posición dentro del artículo
    3. Superposición Léxica (LO): Utilizando inglés como idioma pivote, precisión, recuperación y puntuación F

Puntos de Innovación Técnica

  1. Estrategia de Pivote de Imagen: Aprovechar la característica de reutilización de imágenes entre versiones en diferentes idiomas de periódicos, utilizando imágenes como puntos de anclaje confiables para mapeo de artículos
  2. Fusión Multimodal: Combinar análisis de imágenes y análisis de texto para mejorar la precisión del mapeo
  3. Independencia Lingüística: Utilizar modelos multilingües preentrenados sin necesidad de personalización para pares de idiomas específicos
  4. Automatización de Extremo a Extremo: Proceso completamente automatizado desde PDF sin procesar hasta corpus paralelo final

Configuración Experimental

Conjunto de Datos

  • Par de Lenguas Principal: Konkani-Marathi
  • Par de Lenguas de Validación: Punjabi-Hindi
  • Fuente de Datos: Archivos PDF de periódicos en línea
  • Período de Tiempo: Versiones en diferentes idiomas de la misma fecha

Métricas de Evaluación

  • Evaluación Intrínseca: Similitud Textual Semántica (STS), puntuación ordinal de 6 niveles (0-5)
    • 5: Equivalencia semántica completa
    • 0: Disimilitud semántica completa
  • Evaluación Extrínseca: Puntuación BLEU para la tarea de traducción automática

Métodos de Comparación

  • Comparación de estrategias de mapeo de oraciones: LAS vs SLAS vs LO
  • Comparación con línea base existente de Konkani-Marathi (BLEU=23.5)

Detalles de Implementación

  • Evaluación Manual: Muestreo de 900 pares de oraciones en dos fases
  • Primera Fase: 200 pares para cada estrategia de alineación de oraciones (600 pares en total)
  • Segunda Fase: 300 pares adicionales para la mejor estrategia
  • Estrategia de Muestreo: Muestreo aleatorio estratificado, preservación sin orden

Resultados Experimentales

Resultados Principales

Resultados de Evaluación Intrínseca

Longitud de OraciónLongitud de ArtículoLASSLASLO
1-10 palabras1-5 oraciones3.83.42.9
11-19 palabras6-15 oraciones3.73.43.0
20+ palabras16+ oraciones3.83.22.6

Resultados de Comparación entre Pares de Lenguas

MétricaKonkani-MarathiPunjabi-Hindi
Artículos Mapeados1,320150
Pares de Oraciones Mapeadas14,4482,200
Muestra de Evaluación Manual600100
Puntuación STS Promedio3.703.73

Hallazgos Clave

  1. Rendimiento Óptimo de LAS: La incrustación de oraciones agnóstica del idioma (LAS) demuestra el mejor rendimiento en todas las combinaciones de longitud de oración y longitud de artículo
  2. Mapeo de Alta Calidad: Más del 92% de las oraciones mapeadas tienen puntuación STS > 3
  3. Independencia Lingüística: Los resultados del experimento Punjabi-Hindi son comparables al experimento principal, validando la generalidad del método

Evaluación Extrínseca: Tarea de Traducción Automática

  • Modelo: Basado en mT5 (Transformador Multilingüe Preentrenado de Texto a Texto) ajustado
  • Datos de Entrenamiento: Corpus paralelo Konkani-Marathi (títulos y contenido de artículos)
  • Datos de Prueba: Pies de foto como estándar de referencia
  • Resultado: Puntuación BLEU de 26.4, mejora de aproximadamente 3 puntos BLEU en comparación con la línea base existente (23.5)

Experimentos de Ablación

Mediante comparación de diferentes estrategias de mapeo de oraciones, se demuestra que:

  1. Las incrustaciones agnósticas del idioma son significativamente superiores a los métodos de heurística de longitud y superposición léxica
  2. El método mantiene rendimiento estable en diferentes longitudes de artículos y oraciones
  3. Efectividad de la estrategia de procesamiento de artículos basada en incrustaciones

Trabajo Relacionado

Dominio de Análisis de Imágenes

  • Segmentación de Artículos: Métodos heurísticos, métodos de incrustación de gráficos, métodos de aprendizaje profundo
  • Coincidencia de Imágenes: Métodos tradicionales como SIFT, SURF, BRIEF, así como métodos de redes neuronales como CNN

Dominio de Análisis de Texto

  • Tecnología OCR: Investigación extensa dirigida a texto Devanagari
  • Alineación de Oraciones: Incrustaciones de oraciones agnósticas del idioma basadas en heurística de longitud, correspondencia léxica y aprendizaje profundo

Investigación de PLN en Konkani

  • Trabajo Existente: Principalmente limitado a tareas fundamentales como etiquetado POS, análisis de sentimientos, NER
  • Proyecto ILCI: Creó un corpus Hindi-Konkani de 25,000 oraciones, logrando una puntuación BLEU de 23.5

Conclusiones y Discusión

Conclusiones Principales

  1. El método propuesto demuestra independencia lingüística y buena escalabilidad en la construcción de corpus paralelos para lenguas de bajos recursos
  2. La estrategia de utilizar imágenes como pivote para mapeo de artículos demuestra ser efectiva e innovadora
  3. Las incrustaciones de oraciones agnósticas del idioma muestran un rendimiento excepcional en tareas de alineación de pares de oraciones en lenguas de bajos recursos

Limitaciones

  1. Dependencia de Imágenes: El método depende de imágenes compartidas entre versiones en diferentes idiomas, limitando su rango de aplicabilidad
  2. Restricciones de Calidad: Se requieren restricciones adicionales para mejorar aún más la calidad del conjunto de datos
  3. Limitaciones de Escala: Actualmente validado principalmente en el dominio de periódicos, requiriéndose verificación adicional de aplicabilidad en otros dominios

Direcciones Futuras

  1. Expansión de Fuentes de Imágenes: Considerar imágenes capturadas por diferentes personas del mismo evento noticioso
  2. Mejora de Calidad: Explorar condiciones de restricción adicionales para mejorar la calidad del conjunto de datos
  3. Expansión de Dominio: Aplicar el método a más tipos de texto y dominios

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primer uso de imágenes como pivote para mapeo de artículos entre idiomas, concepto novedoso
  2. Alto Valor Práctico: Proporciona un método práctico de aumento de datos para investigación en PLN de lenguas de bajos recursos
  3. Completitud Sistemática: Diseño de proceso completo desde recopilación de datos hasta evaluación final
  4. Verificación Suficiente: Validación del método de efectividad desde múltiples perspectivas mediante evaluación intrínseca y extrínseca
  5. Buena Reproducibilidad: Descripción detallada del método, opciones técnicas bien fundamentadas

Deficiencias

  1. Rango de Aplicabilidad Limitado: Dependencia severa del escenario específico de periódicos que comparten imágenes entre versiones en diferentes idiomas
  2. Escala de Evaluación Relativamente Pequeña: Muestra de evaluación manual relativamente pequeña (600-900 pares de oraciones)
  3. Comparación de Línea Base Insuficiente: Falta de comparación con otros métodos de construcción automática de corpus paralelos
  4. Análisis de Errores Ausente: Falta de análisis profundo de casos fallidos y patrones de error

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para la construcción de corpus paralelos para lenguas de bajos recursos
  2. Aplicación Práctica: Puede aplicarse directamente en regiones con periódicos multilingües
  3. Promoción Tecnológica: La estrategia de pivote de imagen puede inspirar otras tareas de PLN multimodal

Escenarios de Aplicabilidad

  1. Escenario Ideal: Regiones con periódicos multilingües e imágenes compartidas
  2. Escenario Extendido: Otros contenidos de medios con características de compartición de imágenes entre idiomas
  3. Escenario Limitado: Pares de idiomas puramente textuales o sin compartición de imágenes

Referencias

El artículo cita 19 referencias relacionadas, abarcando:

  • Recuperación multilingüe y sistemas personalizados
  • Análisis de diseño de documentos y procesamiento de imágenes
  • Alineación de oraciones y construcción de corpus paralelos
  • Investigación de PLN en lenguas de bajos recursos
  • Trabajo relacionado con traducción automática neuronal

Evaluación General: Este es un trabajo innovador en el campo de la construcción de corpus paralelos para lenguas de bajos recursos. Aunque el escenario de aplicabilidad del método es relativamente específico, demuestra buen rendimiento en el escenario correspondiente. La propuesta de la estrategia de pivote de imagen proporciona perspectivas valiosas para la investigación de PLN multimodal, teniendo un significado positivo para promover la digitalización de lenguas de bajos recursos.