A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
이미지 및 텍스트 분석을 이용한 저자원 언어의 완전 자동화 및 확장 가능한 병렬 데이터 증강
전 세계 언어의 다양성으로 인해 고품질 디지털 언어 자원의 가용성에 격차가 발생하고 있으며, 이는 대다수 인구가 기술적 이점을 얻는 것을 제한하고 있습니다. 저자원 언어에 대한 NLP 작업 수행을 어렵게 만드는 데이터 자원의 부족 또는 부재가 존재합니다. 본 논문은 신문 기사에서 이미지 및 텍스트 분석을 이용하여 이중언어 병렬 말뭉치를 추출하는 새로운 확장 가능하고 완전 자동화된 방법을 제안합니다. 저자들은 두 가지 서로 다른 언어 조합의 병렬 데이터 말뭉치를 구축하여 방법을 검증하고, 기계 번역 다운스트림 작업을 통해 현재 기준선 대비 약 3개의 BLEU 포인트 향상을 달성하여 데이터셋의 가치를 입증합니다.
전체 평가: 이는 저자원 언어 병렬 말뭉치 구축 분야에서 혁신적인 작업입니다. 방법의 적용 시나리오가 상대적으로 특정적이지만, 해당 시나리오에서 우수한 성능을 보여줍니다. 이미지 허브 전략의 제안은 다중 모달 NLP 연구에 가치 있는 사고방식을 제공하며, 저자원 언어의 디지털화 진전을 촉진하는 데 긍정적인 의미를 갖습니다.