2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.

Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.

academic

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

基本信息

论文ID: 2510.13211
标题: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
作者: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
分类: cs.CL (Computational Linguistics)
发表会议: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), March 27-31, 2023, Tallinn, Estonia
论文链接: https://arxiv.org/abs/2510.13211

摘要

全球语言多样性造成了优质数字语言资源可用性的差异，从而限制了大多数人群获得技术优势。缺乏或没有数据资源使得为低资源语言执行NLP任务变得困难。本文提出了一种新颖的、可扩展的、完全自动化的方法，使用图像和文本分析从报纸文章中提取双语平行语料库。作者通过构建两种不同语言组合的平行数据语料库来验证方法，并通过机器翻译下游任务证明该数据集的价值，相比当前基线提高了近3个BLEU点。

研究背景与动机

问题定义

核心问题: 全球7000种语言中只有20种在互联网上有充足资源，其余被称为低资源语言(LRLs)，缺乏数字化数据支持
影响范围: 超过25亿人使用2000种低资源语言，主要分布在印度和非洲
技术障碍: 现代NLP任务需要大量训练数据，而低资源语言的数字数据稀缺性是将NLP技术普及到大众的主要挑战

研究动机

为低资源语言构建平行语料库，特别是资源稀缺-资源丰富的语言组合
选择Konkani-Marathi作为主要示例：Konkani是典型的低资源语言，数字资源稀缺且母语使用者较少；Marathi资源丰富
观察到大型出版社的地方报纸在不同语言版本间重复使用图片以优化资源

核心贡献

创新性方法: 首次使用报纸文章图像作为枢纽来映射文章，这在类似研究中尚未被探索
技术突破: 在低资源语言组合上使用语言无关嵌入进行句子映射，并提供了实证验证
数据集贡献: 创建了最大的无需人工标注的Konkani-Marathi语料库
通用性验证: 在Punjabi-Hindi语言对上验证了方法的语言无关性

方法详解

任务定义

输入: 不同语言的报纸PDF文件输出: 双语平行句子对语料库约束: 完全自动化，无需人工标注，语言无关

模型架构

整个数据增强管道包含四个核心组件：

1. 爬虫模块 (Crawler)

从在线源下载报纸副本
将文件分割为单独页面
使用日期、页码和语言代码进行适当标记

2. 文章提取器 (Article Extractor)

功能:
- 标记单个文章边界
- 提取标记文章内的图像和文本(使用OCR)
技术实现:
- 使用PRImA的布局分析数据集进行文章边界检测
- 使用OpenCV提取感兴趣区域(ROI)
- 结合EasyOCR、PaddleOCR和Tesseract，采用多数投票决策
文章分割: 将文章划分为四个ROI：
- 标题(H)：包括副标题
- 图像(I)
- 图片说明(P)
- 内容(C)

3. 文章映射器 (Article Mapper)

映射策略: 比较两种语言间的文章图像相似性
算法: 使用SIFT(尺度不变特征变换)作为图像匹配算法
数学表示:

{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

其中θ是图像匹配算法函数

4. 句子映射器 (Sentence Mapper)

核心挑战: 映射文章内的句子可能不按顺序排列
三种相似性度量:
1. 语言无关句子嵌入(LAS): 基于BERT架构，训练于119种语言，使用余弦相似度
2. 简单长度启发式(SLAS): 基于句子长度和文章内位置
3. 词汇重叠(LO): 使用英语作为枢纽语言的精确度、召回率和F-Score