2025-11-13T02:34:15.167959

A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics

Sharma, Goyal, Goyal et al.

Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.

academic

Полностью автоматизированное и масштабируемое увеличение параллельных данных для языков с ограниченными ресурсами с использованием анализа изображений и текста

Основная информация

ID статьи: 2510.13211
Название: A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Авторы: Prawaal Sharma (Infosys), Navneet Goyal (BITS Pilani), Poonam Goyal (BITS Pilani), Vishnupriyan K R (Infosys)
Категория: cs.CL (Вычислительная лингвистика)
Конференция: SAC '23 (38-й симпозиум ACM/SIGAPP по прикладным вычислениям), 27-31 марта 2023 г., Таллин, Эстония
Ссылка на статью: https://arxiv.org/abs/2510.13211

Аннотация

Глобальное языковое разнообразие создаёт неравномерность в доступности качественных цифровых языковых ресурсов, что ограничивает технологические преимущества для большинства населения. Отсутствие или недостаток данных затрудняет выполнение задач обработки естественного языка (NLP) для языков с ограниченными ресурсами. В данной статье предлагается новый, масштабируемый и полностью автоматизированный подход к извлечению двуязычного параллельного корпуса из газетных статей с использованием анализа изображений и текста. Авторы проверяют методологию путём построения параллельного корпуса данных для двух различных языковых пар и демонстрируют ценность набора данных на задаче машинного перевода, достигая улучшения почти на 3 балла BLEU по сравнению с текущим базовым уровнем.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Из 7000 языков мира только 20 имеют достаточные ресурсы в интернете, остальные классифицируются как языки с ограниченными ресурсами (LRLs), испытывающие дефицит цифровых данных
Масштаб воздействия: Более 2,5 миллиарда человек используют 2000 языков с ограниченными ресурсами, в основном распределённых в Индии и Африке
Технологические препятствия: Современные задачи NLP требуют больших объёмов обучающих данных, а дефицит цифровых данных для языков с ограниченными ресурсами является основным препятствием для распространения технологий NLP среди широкого населения

Исследовательская мотивация

Построение параллельных корпусов для языков с ограниченными ресурсами, особенно для пар язык-с-ограниченными-ресурсами–язык-с-богатыми-ресурсами
Выбор пары Конкани-Маратхи в качестве основного примера: Конкани является типичным языком с ограниченными ресурсами, испытывающим дефицит цифровых ресурсов и имеющим меньше носителей; Маратхи является языком с богатыми ресурсами
Наблюдение того, что местные газеты крупных издательств повторно используют изображения в разных языковых версиях для оптимизации ресурсов

Основные вклады

Инновационный подход: Первое использование изображений из газетных статей в качестве связующего звена для сопоставления статей, что ранее не исследовалось в аналогичных работах
Технологический прорыв: Применение языконезависимых встраиваний для сопоставления предложений в парах языков с ограниченными ресурсами с эмпирической верификацией
Вклад в датасеты: Создание крупнейшего корпуса Конкани-Маратхи без необходимости ручной аннотации
Верификация универсальности: Проверка языконезависимости метода на языковой паре Панджаби-Хинди

Подробное описание методологии

Определение задачи

Входные данные: PDF-файлы газет на разных языках Выходные данные: Корпус двуязычных параллельных пар предложений Ограничения: Полная автоматизация, без ручной аннотации, языконезависимость

Архитектура модели

Полный конвейер увеличения данных состоит из четырёх основных компонентов:

1. Модуль краулера (Crawler)

Загрузка копий газет из онлайн-источников
Разделение файлов на отдельные страницы
Надлежащая разметка с использованием даты, номера страницы и кода языка

2. Извлекатель статей (Article Extractor)

Функциональность:
- Разметка границ отдельных статей
- Извлечение изображений и текста внутри размеченных статей (с использованием OCR)
Техническая реализация:
- Использование набора данных анализа макета PRImA для обнаружения границ статей
- Извлечение областей интереса (ROI) с использованием OpenCV
- Комбинирование EasyOCR, PaddleOCR и Tesseract с решением большинством голосов
Разделение статей: Разделение статей на четыре ROI:
- Заголовок (H): включая подзаголовки
- Изображение (I)
- Подпись к изображению (P)
- Содержание (C)

3. Сопоставитель статей (Article Mapper)

Стратегия сопоставления: Сравнение сходства изображений статей между двумя языками
Алгоритм: Использование SIFT (масштабно-инвариантного преобразования признаков) в качестве алгоритма сопоставления изображений
Математическое представление:

{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)

где θ — функция алгоритма сопоставления изображений

4. Сопоставитель предложений (Sentence Mapper)

Основная проблема: Предложения в сопоставленных статьях могут быть расположены не по порядку
Три меры сходства:
1. Языконезависимое встраивание предложений (LAS): На основе архитектуры BERT, обученное на 119 языках, использующее косинусное сходство
2. Простая эвристика длины (SLAS): На основе длины предложения и позиции в статье
3. Лексическое перекрытие (LO): Использование английского языка в качестве языка-посредника с метриками точности, полноты и F-меры

Технологические инновации

Стратегия изображения-посредника: Использование характеристики повторного использования изображений в кроссязычных версиях газет, превращение изображений в надёжные якоря для сопоставления статей
Мультимодальное слияние: Комбинирование анализа изображений и анализа текста для повышения точности сопоставления
Языконезависимость: Использование предварительно обученных многоязычных моделей без необходимости настройки для конкретных языковых пар
Полная автоматизация: Полностью автоматизированный процесс от исходных PDF до финального параллельного корпуса

Экспериментальная установка

Датасеты

Основная языковая пара: Конкани-Маратхи
Проверочная языковая пара: Панджаби-Хинди
Источник данных: Онлайн PDF-файлы газет
Временной диапазон: Различные языковые версии одной и той же даты

Метрики оценки

Внутренняя оценка: Семантическое сходство текста (STS), порядковая оценка по 6-балльной шкале (0-5)
- 5: Полная семантическая эквивалентность
- 0: Полное семантическое несходство
Внешняя оценка: Оценка BLEU для задачи машинного перевода

Методы сравнения

Сравнение стратегий сопоставления предложений: LAS vs SLAS vs LO
Сравнение с существующим базовым уровнем Конкани-Маратхи (BLEU=23.5)

Детали реализации

Ручная оценка: Выборка 900 пар предложений в два этапа
Первый этап: 200 пар для каждой стратегии выравнивания предложений (всего 600 пар)
Второй этап: Дополнительно 300 пар для лучшей стратегии
Стратегия выборки: Стратифицированная случайная выборка с сохранением порядка

Результаты экспериментов

Основные результаты

Результаты внутренней оценки

Длина предложения	Длина статьи	LAS	SLAS	LO
1-10 слов	1-5 предложений	3.8	3.4	2.9
11-19 слов	6-15 предложений	3.7	3.4	3.0
20+ слов	16+ предложений	3.8	3.2	2.6

Результаты сравнения языковых пар

Метрика	Конкани-Маратхи	Панджаби-Хинди
Количество сопоставленных статей	1,320	150
Количество сопоставленных пар предложений	14,448	2,200
Образцы ручной оценки	600	100
Средний балл STS	3.70	3.73

Ключевые выводы

Оптимальная производительность LAS: Языконезависимое встраивание предложений (LAS) показало лучшие результаты во всех комбинациях длины предложения и длины статьи
Высокое качество сопоставления: Более 92% сопоставленных предложений имели оценку STS > 3
Языконезависимость: Результаты эксперимента Панджаби-Хинди сравнимы с основным экспериментом, подтверждая универсальность метода

Внешняя оценка: Задача машинного перевода

Модель: Тонкая настройка на основе mT5 (многоязычного предварительно обученного преобразователя текста в текст)
Обучающие данные: Параллельный корпус Конкани-Маратхи (заголовки и содержание статей)
Тестовые данные: Подписи к изображениям в качестве эталонного стандарта
Результаты: Оценка BLEU 26.4, улучшение примерно на 3 балла BLEU по сравнению с существующим базовым уровнем (23.5)

Абляционные эксперименты

Путём сравнения различных стратегий сопоставления предложений было доказано:

Значительное превосходство языконезависимых встраиваний над методами эвристики длины и лексического перекрытия
Стабильность производительности метода при различных длинах статей и предложений
Эффективность стратегии обработки статей на основе встраиваний

Связанные работы

Область анализа изображений

Разделение статей: Эвристические методы, методы встраивания графов, методы глубокого обучения
Сопоставление изображений: Традиционные методы (SIFT, SURF, BRIEF) и нейросетевые методы (CNN)

Область анализа текста

Технология OCR: Обширные исследования для письменности Деванагари
Выравнивание предложений: Методы на основе эвристики длины, лексического соответствия и языконезависимых встраиваний глубокого обучения

Исследования NLP для Конкани

Существующие работы: В основном ограничены базовыми задачами, такими как разметка частей речи, анализ тональности, распознавание именованных сущностей
Проект ILCI: Создание корпуса из 25,000 предложений Хинди-Конкани с достижением оценки BLEU 23.5

Заключение и обсуждение

Основные выводы

Предложенный метод демонстрирует языконезависимость и хорошую масштабируемость при построении параллельных корпусов для языков с ограниченными ресурсами
Стратегия использования изображений в качестве посредника для сопоставления статей доказала свою эффективность и инновационность
Языконезависимые встраивания предложений показали отличные результаты в задаче выравнивания пар предложений для языков с ограниченными ресурсами

Ограничения

Зависимость от изображений: Метод зависит от совместного использования изображений в кроссязычных версиях, что ограничивает область применения
Ограничения качества: Требуются дополнительные ограничения для дальнейшего повышения качества датасета
Ограничения масштаба: В настоящее время метод в основном проверен в газетной сфере, применимость в других областях требует дальнейшей проверки

Направления будущих исследований

Расширение источников изображений: Рассмотрение изображений, снятых разными людьми для одного и того же события в новостях
Повышение качества: Исследование дополнительных ограничений для повышения качества датасета
Расширение области применения: Применение метода к большему количеству типов текстов и областей

Глубокая оценка

Преимущества

Высокая инновационность: Первое использование изображений в качестве посредника для кроссязычного сопоставления статей, новаторский подход
Высокая практическая ценность: Предоставление практического метода увеличения данных для исследований NLP языков с ограниченными ресурсами
Полнота системы: Полный процесс проектирования от сбора данных до финальной оценки
Достаточная верификация: Многоаспектная верификация эффективности метода через внутреннюю и внешнюю оценку
Хорошая воспроизводимость: Подробное описание метода и обоснованный выбор технологий

Недостатки

Ограниченная область применения: Серьёзная зависимость от специфического сценария совместного использования изображений в кроссязычных версиях газет
Небольшой масштаб оценки: Относительно небольшое количество образцов ручной оценки (600-900 пар предложений)
Недостаточное сравнение с базовыми методами: Отсутствие сравнения с другими методами автоматического построения параллельных корпусов
Отсутствие анализа ошибок: Недостаточный анализ случаев отказа и паттернов ошибок

Влияние

Академический вклад: Предоставление новых идей для построения параллельных корпусов для языков с ограниченными ресурсами
Практическое применение: Прямое применение в регионах с многоязычными газетами
Распространение технологии: Стратегия использования изображений-посредников может вдохновить другие задачи мультимодального NLP

Сценарии применения

Идеальный сценарий: Регионы с многоязычными газетами и совместным использованием изображений
Расширенные сценарии: Другой медиаконтент с характеристиками совместного использования кроссязычных изображений
Ограниченные сценарии: Чисто текстовые или без совместного использования изображений языковые пары

Библиография

Статья цитирует 19 связанных источников, охватывающих:

Многоязычный поиск информации и персонализированные системы
Анализ макета документов и обработка изображений
Выравнивание предложений и построение параллельных корпусов
Исследования NLP для языков с ограниченными ресурсами
Работы, связанные с нейронным машинным переводом

Общая оценка: Это инновационная работа в области построения параллельных корпусов для языков с ограниченными ресурсами. Хотя область применения метода относительно специфична, он демонстрирует хорошие результаты в соответствующих сценариях. Предложение стратегии использования изображений-посредников предоставляет ценные идеи для исследований мультимодального NLP и имеет позитивное значение для продвижения цифровизации языков с ограниченными ресурсами.