Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics 论文ID : 2510.13211标题 : A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics作者 : Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)分类 : cs.CL (Computational Linguistics)发表会议 : SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), March 27-31, 2023, Tallinn, Estonia论文链接 : https://arxiv.org/abs/2510.13211 全球语言多样性造成了优质数字语言资源可用性的差异,从而限制了大多数人群获得技术优势。缺乏或没有数据资源使得为低资源语言执行NLP任务变得困难。本文提出了一种新颖的、可扩展的、完全自动化的方法,使用图像和文本分析从报纸文章中提取双语平行语料库。作者通过构建两种不同语言组合的平行数据语料库来验证方法,并通过机器翻译下游任务证明该数据集的价值,相比当前基线提高了近3个BLEU点。
核心问题 : 全球7000种语言中只有20种在互联网上有充足资源,其余被称为低资源语言(LRLs),缺乏数字化数据支持影响范围 : 超过25亿人使用2000种低资源语言,主要分布在印度和非洲技术障碍 : 现代NLP任务需要大量训练数据,而低资源语言的数字数据稀缺性是将NLP技术普及到大众的主要挑战为低资源语言构建平行语料库,特别是资源稀缺-资源丰富的语言组合 选择Konkani-Marathi作为主要示例:Konkani是典型的低资源语言,数字资源稀缺且母语使用者较少;Marathi资源丰富 观察到大型出版社的地方报纸在不同语言版本间重复使用图片以优化资源 创新性方法 : 首次使用报纸文章图像作为枢纽来映射文章,这在类似研究中尚未被探索技术突破 : 在低资源语言组合上使用语言无关嵌入进行句子映射,并提供了实证验证数据集贡献 : 创建了最大的无需人工标注的Konkani-Marathi语料库通用性验证 : 在Punjabi-Hindi语言对上验证了方法的语言无关性输入 : 不同语言的报纸PDF文件
输出 : 双语平行句子对语料库
约束 : 完全自动化,无需人工标注,语言无关
整个数据增强管道包含四个核心组件:
从在线源下载报纸副本 将文件分割为单独页面 使用日期、页码和语言代码进行适当标记 功能 :
标记单个文章边界 提取标记文章内的图像和文本(使用OCR) 技术实现 :
使用PRImA的布局分析数据集进行文章边界检测 使用OpenCV提取感兴趣区域(ROI) 结合EasyOCR、PaddleOCR和Tesseract,采用多数投票决策 文章分割 : 将文章划分为四个ROI:
标题(H):包括副标题 图像(I) 图片说明(P) 内容(C) 映射策略 : 比较两种语言间的文章图像相似性算法 : 使用SIFT(尺度不变特征变换)作为图像匹配算法数学表示 :{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)
其中θ是图像匹配算法函数
核心挑战 : 映射文章内的句子可能不按顺序排列三种相似性度量 :
语言无关句子嵌入(LAS) : 基于BERT架构,训练于119种语言,使用余弦相似度简单长度启发式(SLAS) : 基于句子长度和文章内位置词汇重叠(LO) : 使用英语作为枢纽语言的精确度、召回率和F-Score图像枢纽策略 : 利用报纸跨语言版本重用图片的特性,将图像作为文章映射的可靠锚点多模态融合 : 结合图像分析和文本分析,提高映射准确性语言无关性 : 使用预训练的多语言模型,无需针对特定语言对进行定制端到端自动化 : 从原始PDF到最终平行语料库的完全自动化流程主要语言对 : Konkani-Marathi验证语言对 : Punjabi-Hindi数据源 : 在线报纸PDF文件时间跨度 : 相同日期的不同语言版本内在评估 : 语义文本相似性(STS),6级序数评分(0-5)
外在评估 : 机器翻译任务的BLEU分数句子映射策略对比:LAS vs SLAS vs LO 与现有Konkani-Marathi基线(BLEU=23.5)对比 人工评估 : 分两阶段采样900个句子对第一阶段 : 每种句子对齐策略200对(共600对)第二阶段 : 最佳策略额外300对采样策略 : 分层随机采样,无顺序保留句子长度 文章长度 LAS SLAS LO 1-10词 1-5句 3.8 3.4 2.9 11-19词 6-15句 3.7 3.4 3.0 20+词 16+句 3.8 3.2 2.6
指标 Konkani-Marathi Punjabi-Hindi 映射文章数 1,320 150 映射句子对 14,448 2,200 人工评估样本 600 100 STS平均分 3.70 3.73
LAS性能最优 : 在所有句子长度和文章长度组合下,语言无关句子嵌入(LAS)均表现最佳高质量映射 : 92%以上的映射句子STS评分>3语言无关性 : Punjabi-Hindi实验结果与主实验相当,验证了方法的通用性模型 : 基于mT5(多语言预训练文本到文本转换器)微调训练数据 : Konkani-Marathi平行语料库(标题和文章内容)测试数据 : 图片说明作为真实标准结果 : BLEU分数26.4,比现有基线(23.5)提升约3个BLEU点通过不同句子映射策略的对比,证明了:
语言无关嵌入相比长度启发式和词汇重叠方法显著优越 方法在不同文章长度和句子长度下保持稳定性能 嵌入式文章处理策略的有效性 文章分割 : 启发式方法、图嵌入方法、深度学习方法图像匹配 : SIFT、SURF、BRIEF等传统方法,以及CNN等神经网络方法OCR技术 : 针对Devanagari文字的广泛研究句子对齐 : 基于长度启发式、词汇对应、深度学习的语言无关句子嵌入现有工作 : 主要限于POS标注、情感分析、NER等基础任务ILCI项目 : 创建了25,000句的Hindi-Konkani语料库,实现23.5的BLEU分数提出的方法在构建低资源语言平行语料库方面具有语言无关性和良好的可扩展性 图像作为文章映射枢纽的策略证明有效且创新 语言无关句子嵌入在低资源语言句子对齐任务中表现优异 图像依赖性 : 方法依赖于跨语言版本共享图像,限制了适用范围质量约束 : 需要额外约束来进一步提升数据集质量规模限制 : 当前主要在报纸领域验证,其他领域的适用性需要进一步验证扩展图像源 : 考虑不同人员为同一新闻事件拍摄的图像质量提升 : 探索额外约束条件以提高数据集质量领域扩展 : 将方法应用到更多文本类型和领域创新性强 : 首次将图像作为跨语言文章映射的枢纽,思路新颖实用价值高 : 为低资源语言NLP研究提供了实用的数据增强方法系统性完整 : 从数据收集到最终评估的完整流程设计验证充分 : 通过内在和外在评估多角度验证方法有效性可复现性好 : 方法描述详细,技术选择有理有据适用范围有限 : 严重依赖于报纸跨语言版本共享图像的特定场景评估规模偏小 : 人工评估样本相对较少(600-900句对)基线对比不足 : 缺乏与其他自动化平行语料库构建方法的对比错误分析缺失 : 未深入分析失败案例和错误模式学术贡献 : 为低资源语言平行语料库构建提供了新思路实际应用 : 可直接应用于具有多语言报纸的地区技术推广 : 图像枢纽策略可能启发其他多模态NLP任务理想场景 : 有多语言报纸且图像共享的地区扩展场景 : 其他具有跨语言图像共享特性的媒体内容限制场景 : 纯文本或无图像共享的语言对论文引用了19篇相关文献,涵盖:
多语言检索和个性化系统 文档布局分析和图像处理 句子对齐和平行语料库构建 低资源语言NLP研究 神经机器翻译相关工作 总体评价 : 这是一篇在低资源语言平行语料库构建领域具有创新性的工作。虽然方法的适用场景相对特定,但在相应场景下展现了良好的效果。图像枢纽策略的提出为多模态NLP研究提供了有价值的思路,对推动低资源语言的数字化进程具有积极意义。