2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.

Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.

academic

이미지 및 텍스트 분석을 이용한 저자원 언어의 완전 자동화 및 확장 가능한 병렬 데이터 증강

기본 정보

논문 ID: 2510.13211
제목: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
저자: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
분류: cs.CL (전산 언어학)
발표 학회: SAC '23 (제38회 ACM/SIGAPP 응용 컴퓨팅 심포지엄), 2023년 3월 27-31일, 에스토니아 탈린
논문 링크: https://arxiv.org/abs/2510.13211

초록

전 세계 언어의 다양성으로 인해 고품질 디지털 언어 자원의 가용성에 격차가 발생하고 있으며, 이는 대다수 인구가 기술적 이점을 얻는 것을 제한하고 있습니다. 저자원 언어에 대한 NLP 작업 수행을 어렵게 만드는 데이터 자원의 부족 또는 부재가 존재합니다. 본 논문은 신문 기사에서 이미지 및 텍스트 분석을 이용하여 이중언어 병렬 말뭉치를 추출하는 새로운 확장 가능하고 완전 자동화된 방법을 제안합니다. 저자들은 두 가지 서로 다른 언어 조합의 병렬 데이터 말뭉치를 구축하여 방법을 검증하고, 기계 번역 다운스트림 작업을 통해 현재 기준선 대비 약 3개의 BLEU 포인트 향상을 달성하여 데이터셋의 가치를 입증합니다.

연구 배경 및 동기

문제 정의

핵심 문제: 전 세계 7,000개 언어 중 20개 언어만이 인터넷에서 충분한 자원을 보유하고 있으며, 나머지는 저자원 언어(LRLs)로 불리며 디지털 데이터 지원이 부족합니다
영향 범위: 25억 명 이상이 2,000개의 저자원 언어를 사용하고 있으며, 주로 인도와 아프리카에 분포합니다
기술적 장애: 현대 NLP 작업은 대량의 훈련 데이터를 필요로 하며, 저자원 언어의 디지털 데이터 부족은 NLP 기술을 대중에게 보급하는 주요 과제입니다

연구 동기

저자원 언어, 특히 자원 부족-자원 풍부 언어 조합에 대한 병렬 말뭉치 구축
Konkani-Marathi를 주요 사례로 선택: Konkani는 전형적인 저자원 언어로 디지털 자원이 부족하고 모국어 사용자가 적으며, Marathi는 자원이 풍부합니다
대형 출판사의 지역 신문이 자원 최적화를 위해 서로 다른 언어 버전 간에 이미지를 반복 사용한다는 관찰

핵심 기여

혁신적 방법: 신문 기사 이미지를 기사 매핑의 허브로 사용하는 것은 처음이며, 유사 연구에서 아직 탐색되지 않았습니다
기술적 돌파: 저자원 언어 조합에서 언어 무관 임베딩을 사용한 문장 매핑을 수행하고 실증적 검증을 제공합니다
데이터셋 기여: 인간 주석 없이 생성된 최대 규모의 Konkani-Marathi 말뭉치를 구축했습니다
범용성 검증: Punjabi-Hindi 언어 쌍에서 방법의 언어 무관성을 검증했습니다

방법론 상세 설명

작업 정의

입력: 서로 다른 언어의 신문 PDF 파일 출력: 이중언어 병렬 문장 쌍 말뭉치 제약 조건: 완전 자동화, 인간 주석 불필요, 언어 무관성

모델 아키텍처

전체 데이터 증강 파이프라인은 네 가지 핵심 구성 요소로 이루어집니다:

1. 크롤러 모듈 (Crawler)

온라인 소스에서 신문 사본 다운로드
파일을 개별 페이지로 분할
날짜, 페이지 번호 및 언어 코드로 적절히 레이블 지정

2. 기사 추출기 (Article Extractor)

기능:
- 개별 기사 경계 표시
- 표시된 기사 내의 이미지 및 텍스트 추출(OCR 사용)
기술 구현:
- PRImA의 레이아웃 분석 데이터셋을 사용한 기사 경계 감지
- OpenCV를 사용한 관심 영역(ROI) 추출
- EasyOCR, PaddleOCR 및 Tesseract의 다수결 투표 결정 결합
기사 분할: 기사를 네 가지 ROI로 분할:
- 제목(H): 부제목 포함
- 이미지(I)
- 이미지 캡션(P)
- 본문(C)

3. 기사 매퍼 (Article Mapper)

매핑 전략: 두 언어 간 기사 이미지 유사성 비교
알고리즘: 이미지 매칭 알고리즘으로 SIFT(스케일 불변 특징 변환) 사용
수학적 표현:

{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

여기서 θ는 이미지 매칭 알고리즘 함수입니다

4. 문장 매퍼 (Sentence Mapper)

핵심 과제: 매핑된 기사 내의 문장이 순서대로 정렬되지 않을 수 있습니다
세 가지 유사성 측정:
1. 언어 무관 문장 임베딩(LAS): BERT 아키텍처 기반, 119개 언어로 훈련, 코사인 유사도 사용
2. 단순 길이 휴리스틱(SLAS): 문장 길이 및 기사 내 위치 기반
3. 어휘 중복(LO): 영어를 허브 언어로 사용한 정확도, 재현율 및 F-점수

기술적 혁신점

이미지 허브 전략: 신문이 언어 버전 간에 이미지를 재사용하는 특성을 활용하여 이미지를 기사 매핑의 신뢰할 수 있는 앵커 포인트로 사용
다중 모달 융합: 이미지 분석과 텍스트 분석을 결합하여 매핑 정확성 향상
언어 무관성: 특정 언어 쌍에 대한 커스터마이징 없이 사전 훈련된 다중언어 모델 사용
엔드-투-엔드 자동화: 원본 PDF에서 최종 병렬 말뭉치까지의 완전 자동화 프로세스

실험 설정

데이터셋

주요 언어 쌍: Konkani-Marathi
검증 언어 쌍: Punjabi-Hindi
데이터 소스: 온라인 신문 PDF 파일
시간 범위: 동일 날짜의 서로 다른 언어 버전

평가 지표

내재적 평가: 의미 텍스트 유사성(STS), 6단계 서수 평가(0-5)
- 5: 완전한 의미 동등성
- 0: 완전한 의미 비유사성
외재적 평가: 기계 번역 작업의 BLEU 점수

비교 방법

문장 매핑 전략 비교: LAS vs SLAS vs LO
기존 Konkani-Marathi 기준선(BLEU=23.5)과의 비교

구현 세부 사항

인간 평가: 900개 문장 쌍을 2단계로 샘플링
1단계: 각 문장 정렬 전략별 200쌍(총 600쌍)
2단계: 최적 전략에 대해 추가 300쌍
샘플링 전략: 계층화 무작위 샘플링, 순서 보존 없음

실험 결과

주요 결과

내재적 평가 결과

문장 길이	기사 길이	LAS	SLAS	LO
1-10 단어	1-5 문장	3.8	3.4	2.9
11-19 단어	6-15 문장	3.7	3.4	3.0
20+ 단어	16+ 문장	3.8	3.2	2.6

언어 쌍 비교 결과

지표	Konkani-Marathi	Punjabi-Hindi
매핑된 기사 수	1,320	150
매핑된 문장 쌍	14,448	2,200
인간 평가 샘플	600	100
STS 평균 점수	3.70	3.73

주요 발견

LAS 성능 최적: 모든 문장 길이 및 기사 길이 조합에서 언어 무관 문장 임베딩(LAS)이 최고 성능을 보입니다
고품질 매핑: 92% 이상의 매핑된 문장이 STS 점수 > 3을 달성합니다
언어 무관성: Punjabi-Hindi 실험 결과가 주요 실험과 동등하여 방법의 범용성을 검증합니다

외재적 평가: 기계 번역 작업

모델: mT5(다중언어 사전 훈련 텍스트-텍스트 변환기) 미세 조정 기반
훈련 데이터: Konkani-Marathi 병렬 말뭉치(제목 및 기사 본문)
테스트 데이터: 이미지 캡션을 골드 표준으로 사용
결과: BLEU 점수 26.4, 기존 기준선(23.5) 대비 약 3개 BLEU 포인트 향상

절제 실험

서로 다른 문장 매핑 전략의 비교를 통해 다음을 입증합니다:

언어 무관 임베딩이 길이 휴리스틱 및 어휘 중복 방법보다 현저히 우수합니다
방법이 서로 다른 기사 길이 및 문장 길이에서 안정적인 성능을 유지합니다
임베딩 기반 기사 처리 전략의 효과성

결론 및 논의

주요 결론

제안된 방법은 저자원 언어 병렬 말뭉치 구축에 있어 언어 무관성과 우수한 확장성을 보입니다
이미지를 기사 매핑 허브로 사용하는 전략이 효과적이고 혁신적임을 입증합니다
언어 무관 문장 임베딩이 저자원 언어 문장 쌍 정렬 작업에서 우수한 성능을 보입니다

한계점

이미지 의존성: 방법이 언어 버전 간 공유 이미지에 의존하여 적용 범위가 제한됩니다
품질 제약: 데이터셋 품질을 추가로 향상시키기 위해 추가 제약이 필요합니다
규모 제한: 현재 주로 신문 분야에서 검증되었으며, 다른 분야의 적용 가능성은 추가 검증이 필요합니다

향후 방향

이미지 소스 확장: 동일 뉴스 사건에 대해 서로 다른 인물이 촬영한 이미지 고려
품질 향상: 데이터셋 품질을 높이기 위한 추가 제약 조건 탐색
분야 확장: 방법을 더 많은 텍스트 유형 및 분야에 적용

심층 평가

장점

높은 혁신성: 이미지를 언어 간 기사 매핑의 허브로 사용하는 것이 처음이며, 접근 방식이 참신합니다
높은 실용 가치: 저자원 언어 NLP 연구에 실용적인 데이터 증강 방법을 제공합니다
완전한 체계성: 데이터 수집에서 최종 평가까지의 완전한 프로세스 설계
충분한 검증: 내재적 및 외재적 평가를 통한 다각적 방법 유효성 검증
우수한 재현성: 방법 설명이 상세하고 기술 선택이 근거 있습니다

부족한 점

제한된 적용 범위: 신문 언어 버전 간 이미지 공유라는 특정 시나리오에 심각하게 의존합니다
작은 평가 규모: 인간 평가 샘플이 상대적으로 적습니다(600-900 문장 쌍)
불충분한 기준선 비교: 다른 자동화 병렬 말뭉치 구축 방법과의 비교가 부족합니다
오류 분석 부재: 실패 사례 및 오류 패턴에 대한 심층 분석이 없습니다

영향력

학술적 기여: 저자원 언어 병렬 말뭉치 구축에 새로운 사고방식을 제공합니다
실제 응용: 다중언어 신문이 있는 지역에 직접 적용할 수 있습니다
기술 확산: 이미지 허브 전략이 다른 다중 모달 NLP 작업에 영감을 줄 수 있습니다

적용 시나리오

이상적 시나리오: 다중언어 신문이 있고 이미지가 공유되는 지역
확장 시나리오: 언어 간 이미지 공유 특성을 가진 다른 미디어 콘텐츠
제한 시나리오: 순수 텍스트 또는 이미지 공유가 없는 언어 쌍

참고 문헌

논문은 다음을 포함하는 19개의 관련 문헌을 인용합니다:

다중언어 검색 및 개인화 시스템
문서 레이아웃 분석 및 이미지 처리
문장 정렬 및 병렬 말뭉치 구축
저자원 언어 NLP 연구
신경 기계 번역 관련 연구

전체 평가: 이는 저자원 언어 병렬 말뭉치 구축 분야에서 혁신적인 작업입니다. 방법의 적용 시나리오가 상대적으로 특정적이지만, 해당 시나리오에서 우수한 성능을 보여줍니다. 이미지 허브 전략의 제안은 다중 모달 NLP 연구에 가치 있는 사고방식을 제공하며, 저자원 언어의 디지털화 진전을 촉진하는 데 긍정적인 의미를 갖습니다.