2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

基本信息

  • 论文ID: 2510.13211
  • 标题: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
  • 作者: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
  • 分类: cs.CL (Computational Linguistics)
  • 发表会议: SAC '23 (The 38th ACM/SIGAPP Symposium on Applied Computing), March 27-31, 2023, Tallinn, Estonia
  • 论文链接: https://arxiv.org/abs/2510.13211

摘要

全球语言多样性造成了优质数字语言资源可用性的差异,从而限制了大多数人群获得技术优势。缺乏或没有数据资源使得为低资源语言执行NLP任务变得困难。本文提出了一种新颖的、可扩展的、完全自动化的方法,使用图像和文本分析从报纸文章中提取双语平行语料库。作者通过构建两种不同语言组合的平行数据语料库来验证方法,并通过机器翻译下游任务证明该数据集的价值,相比当前基线提高了近3个BLEU点。

研究背景与动机

问题定义

  1. 核心问题: 全球7000种语言中只有20种在互联网上有充足资源,其余被称为低资源语言(LRLs),缺乏数字化数据支持
  2. 影响范围: 超过25亿人使用2000种低资源语言,主要分布在印度和非洲
  3. 技术障碍: 现代NLP任务需要大量训练数据,而低资源语言的数字数据稀缺性是将NLP技术普及到大众的主要挑战

研究动机

  • 为低资源语言构建平行语料库,特别是资源稀缺-资源丰富的语言组合
  • 选择Konkani-Marathi作为主要示例:Konkani是典型的低资源语言,数字资源稀缺且母语使用者较少;Marathi资源丰富
  • 观察到大型出版社的地方报纸在不同语言版本间重复使用图片以优化资源

核心贡献

  1. 创新性方法: 首次使用报纸文章图像作为枢纽来映射文章,这在类似研究中尚未被探索
  2. 技术突破: 在低资源语言组合上使用语言无关嵌入进行句子映射,并提供了实证验证
  3. 数据集贡献: 创建了最大的无需人工标注的Konkani-Marathi语料库
  4. 通用性验证: 在Punjabi-Hindi语言对上验证了方法的语言无关性

方法详解

任务定义

输入: 不同语言的报纸PDF文件 输出: 双语平行句子对语料库 约束: 完全自动化,无需人工标注,语言无关

模型架构

整个数据增强管道包含四个核心组件:

1. 爬虫模块 (Crawler)

  • 从在线源下载报纸副本
  • 将文件分割为单独页面
  • 使用日期、页码和语言代码进行适当标记

2. 文章提取器 (Article Extractor)

  • 功能:
    • 标记单个文章边界
    • 提取标记文章内的图像和文本(使用OCR)
  • 技术实现:
    • 使用PRImA的布局分析数据集进行文章边界检测
    • 使用OpenCV提取感兴趣区域(ROI)
    • 结合EasyOCR、PaddleOCR和Tesseract,采用多数投票决策
  • 文章分割: 将文章划分为四个ROI:
    • 标题(H):包括副标题
    • 图像(I)
    • 图片说明(P)
    • 内容(C)

3. 文章映射器 (Article Mapper)

  • 映射策略: 比较两种语言间的文章图像相似性
  • 算法: 使用SIFT(尺度不变特征变换)作为图像匹配算法
  • 数学表示:
{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

其中θ是图像匹配算法函数

4. 句子映射器 (Sentence Mapper)

  • 核心挑战: 映射文章内的句子可能不按顺序排列
  • 三种相似性度量:
    1. 语言无关句子嵌入(LAS): 基于BERT架构,训练于119种语言,使用余弦相似度
    2. 简单长度启发式(SLAS): 基于句子长度和文章内位置
    3. 词汇重叠(LO): 使用英语作为枢纽语言的精确度、召回率和F-Score

技术创新点

  1. 图像枢纽策略: 利用报纸跨语言版本重用图片的特性,将图像作为文章映射的可靠锚点
  2. 多模态融合: 结合图像分析和文本分析,提高映射准确性
  3. 语言无关性: 使用预训练的多语言模型,无需针对特定语言对进行定制
  4. 端到端自动化: 从原始PDF到最终平行语料库的完全自动化流程

实验设置

数据集

  • 主要语言对: Konkani-Marathi
  • 验证语言对: Punjabi-Hindi
  • 数据源: 在线报纸PDF文件
  • 时间跨度: 相同日期的不同语言版本

评价指标

  • 内在评估: 语义文本相似性(STS),6级序数评分(0-5)
    • 5: 完全语义等价
    • 0: 完全语义不相似
  • 外在评估: 机器翻译任务的BLEU分数

对比方法

  • 句子映射策略对比:LAS vs SLAS vs LO
  • 与现有Konkani-Marathi基线(BLEU=23.5)对比

实现细节

  • 人工评估: 分两阶段采样900个句子对
  • 第一阶段: 每种句子对齐策略200对(共600对)
  • 第二阶段: 最佳策略额外300对
  • 采样策略: 分层随机采样,无顺序保留

实验结果

主要结果

内在评估结果

句子长度文章长度LASSLASLO
1-10词1-5句3.83.42.9
11-19词6-15句3.73.43.0
20+词16+句3.83.22.6

语言对比较结果

指标Konkani-MarathiPunjabi-Hindi
映射文章数1,320150
映射句子对14,4482,200
人工评估样本600100
STS平均分3.703.73

关键发现

  1. LAS性能最优: 在所有句子长度和文章长度组合下,语言无关句子嵌入(LAS)均表现最佳
  2. 高质量映射: 92%以上的映射句子STS评分>3
  3. 语言无关性: Punjabi-Hindi实验结果与主实验相当,验证了方法的通用性

外在评估:机器翻译任务

  • 模型: 基于mT5(多语言预训练文本到文本转换器)微调
  • 训练数据: Konkani-Marathi平行语料库(标题和文章内容)
  • 测试数据: 图片说明作为真实标准
  • 结果: BLEU分数26.4,比现有基线(23.5)提升约3个BLEU点

消融实验

通过不同句子映射策略的对比,证明了:

  1. 语言无关嵌入相比长度启发式和词汇重叠方法显著优越
  2. 方法在不同文章长度和句子长度下保持稳定性能
  3. 嵌入式文章处理策略的有效性

相关工作

图像分析领域

  • 文章分割: 启发式方法、图嵌入方法、深度学习方法
  • 图像匹配: SIFT、SURF、BRIEF等传统方法,以及CNN等神经网络方法

文本分析领域

  • OCR技术: 针对Devanagari文字的广泛研究
  • 句子对齐: 基于长度启发式、词汇对应、深度学习的语言无关句子嵌入

Konkani NLP研究

  • 现有工作: 主要限于POS标注、情感分析、NER等基础任务
  • ILCI项目: 创建了25,000句的Hindi-Konkani语料库,实现23.5的BLEU分数

结论与讨论

主要结论

  1. 提出的方法在构建低资源语言平行语料库方面具有语言无关性和良好的可扩展性
  2. 图像作为文章映射枢纽的策略证明有效且创新
  3. 语言无关句子嵌入在低资源语言句子对齐任务中表现优异

局限性

  1. 图像依赖性: 方法依赖于跨语言版本共享图像,限制了适用范围
  2. 质量约束: 需要额外约束来进一步提升数据集质量
  3. 规模限制: 当前主要在报纸领域验证,其他领域的适用性需要进一步验证

未来方向

  1. 扩展图像源: 考虑不同人员为同一新闻事件拍摄的图像
  2. 质量提升: 探索额外约束条件以提高数据集质量
  3. 领域扩展: 将方法应用到更多文本类型和领域

深度评价

优点

  1. 创新性强: 首次将图像作为跨语言文章映射的枢纽,思路新颖
  2. 实用价值高: 为低资源语言NLP研究提供了实用的数据增强方法
  3. 系统性完整: 从数据收集到最终评估的完整流程设计
  4. 验证充分: 通过内在和外在评估多角度验证方法有效性
  5. 可复现性好: 方法描述详细,技术选择有理有据

不足

  1. 适用范围有限: 严重依赖于报纸跨语言版本共享图像的特定场景
  2. 评估规模偏小: 人工评估样本相对较少(600-900句对)
  3. 基线对比不足: 缺乏与其他自动化平行语料库构建方法的对比
  4. 错误分析缺失: 未深入分析失败案例和错误模式

影响力

  1. 学术贡献: 为低资源语言平行语料库构建提供了新思路
  2. 实际应用: 可直接应用于具有多语言报纸的地区
  3. 技术推广: 图像枢纽策略可能启发其他多模态NLP任务

适用场景

  1. 理想场景: 有多语言报纸且图像共享的地区
  2. 扩展场景: 其他具有跨语言图像共享特性的媒体内容
  3. 限制场景: 纯文本或无图像共享的语言对

参考文献

论文引用了19篇相关文献,涵盖:

  • 多语言检索和个性化系统
  • 文档布局分析和图像处理
  • 句子对齐和平行语料库构建
  • 低资源语言NLP研究
  • 神经机器翻译相关工作

总体评价: 这是一篇在低资源语言平行语料库构建领域具有创新性的工作。虽然方法的适用场景相对特定,但在相应场景下展现了良好的效果。图像枢纽策略的提出为多模态NLP研究提供了有价值的思路,对推动低资源语言的数字化进程具有积极意义。