A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics
Sharma, Goyal, Goyal et al.
Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
academic
Полностью автоматизированное и масштабируемое увеличение параллельных данных для языков с ограниченными ресурсами с использованием анализа изображений и текста
Глобальное языковое разнообразие создаёт неравномерность в доступности качественных цифровых языковых ресурсов, что ограничивает технологические преимущества для большинства населения. Отсутствие или недостаток данных затрудняет выполнение задач обработки естественного языка (NLP) для языков с ограниченными ресурсами. В данной статье предлагается новый, масштабируемый и полностью автоматизированный подход к извлечению двуязычного параллельного корпуса из газетных статей с использованием анализа изображений и текста. Авторы проверяют методологию путём построения параллельного корпуса данных для двух различных языковых пар и демонстрируют ценность набора данных на задаче машинного перевода, достигая улучшения почти на 3 балла BLEU по сравнению с текущим базовым уровнем.
Основная проблема: Из 7000 языков мира только 20 имеют достаточные ресурсы в интернете, остальные классифицируются как языки с ограниченными ресурсами (LRLs), испытывающие дефицит цифровых данных
Масштаб воздействия: Более 2,5 миллиарда человек используют 2000 языков с ограниченными ресурсами, в основном распределённых в Индии и Африке
Технологические препятствия: Современные задачи NLP требуют больших объёмов обучающих данных, а дефицит цифровых данных для языков с ограниченными ресурсами является основным препятствием для распространения технологий NLP среди широкого населения
Построение параллельных корпусов для языков с ограниченными ресурсами, особенно для пар язык-с-ограниченными-ресурсами–язык-с-богатыми-ресурсами
Выбор пары Конкани-Маратхи в качестве основного примера: Конкани является типичным языком с ограниченными ресурсами, испытывающим дефицит цифровых ресурсов и имеющим меньше носителей; Маратхи является языком с богатыми ресурсами
Наблюдение того, что местные газеты крупных издательств повторно используют изображения в разных языковых версиях для оптимизации ресурсов
Инновационный подход: Первое использование изображений из газетных статей в качестве связующего звена для сопоставления статей, что ранее не исследовалось в аналогичных работах
Технологический прорыв: Применение языконезависимых встраиваний для сопоставления предложений в парах языков с ограниченными ресурсами с эмпирической верификацией
Вклад в датасеты: Создание крупнейшего корпуса Конкани-Маратхи без необходимости ручной аннотации
Верификация универсальности: Проверка языконезависимости метода на языковой паре Панджаби-Хинди
Входные данные: PDF-файлы газет на разных языках
Выходные данные: Корпус двуязычных параллельных пар предложений
Ограничения: Полная автоматизация, без ручной аннотации, языконезависимость
Стратегия изображения-посредника: Использование характеристики повторного использования изображений в кроссязычных версиях газет, превращение изображений в надёжные якоря для сопоставления статей
Мультимодальное слияние: Комбинирование анализа изображений и анализа текста для повышения точности сопоставления
Языконезависимость: Использование предварительно обученных многоязычных моделей без необходимости настройки для конкретных языковых пар
Полная автоматизация: Полностью автоматизированный процесс от исходных PDF до финального параллельного корпуса
Оптимальная производительность LAS: Языконезависимое встраивание предложений (LAS) показало лучшие результаты во всех комбинациях длины предложения и длины статьи
Высокое качество сопоставления: Более 92% сопоставленных предложений имели оценку STS > 3
Языконезависимость: Результаты эксперимента Панджаби-Хинди сравнимы с основным экспериментом, подтверждая универсальность метода
Предложенный метод демонстрирует языконезависимость и хорошую масштабируемость при построении параллельных корпусов для языков с ограниченными ресурсами
Стратегия использования изображений в качестве посредника для сопоставления статей доказала свою эффективность и инновационность
Языконезависимые встраивания предложений показали отличные результаты в задаче выравнивания пар предложений для языков с ограниченными ресурсами
Статья цитирует 19 связанных источников, охватывающих:
Многоязычный поиск информации и персонализированные системы
Анализ макета документов и обработка изображений
Выравнивание предложений и построение параллельных корпусов
Исследования NLP для языков с ограниченными ресурсами
Работы, связанные с нейронным машинным переводом
Общая оценка: Это инновационная работа в области построения параллельных корпусов для языков с ограниченными ресурсами. Хотя область применения метода относительно специфична, он демонстрирует хорошие результаты в соответствующих сценариях. Предложение стратегии использования изображений-посредников предоставляет ценные идеи для исследований мультимодального NLP и имеет позитивное значение для продвижения цифровизации языков с ограниченными ресурсами.