2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
academic

Восстановление диакритических знаков иврита с использованием визуального представления

Основная информация

  • ID статьи: 2510.26521
  • Название: Hebrew Diacritics Restoration using Visual Representation
  • Авторы: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
  • Классификация: cs.CL (Вычислительная лингвистика)
  • Дата публикации: 3 ноября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2510.26521v2

Аннотация

Восстановление диакритических знаков иврита является фундаментальной задачей для обеспечения точного произношения и устранения неоднозначности текста. Несмотря на высокую неоднозначность неогласованного иврита, недавние методы машинного обучения значительно повысили производительность этой задачи. В данной статье предлагается DIVRIT — новая система, которая переформулирует задачу огласовки иврита как задачу классификации с нулевым числом примеров. Метод работает на уровне слова, выбирая наиболее подходящий паттерн диакритических знаков для каждого неогласованного слова из динамически генерируемого набора кандидатов, обусловленного окружающим текстовым контекстом. Ключевым инновационным решением DIVRIT является использование визуально-языковой модели иврита, которая обрабатывает неогласованный текст как изображение, позволяя информации о диакритических знаках быть непосредственно встроенной в векторное представление входных данных.

Исследовательский контекст и мотивация

Определение проблемы

Иврит как представитель семитской языковой семьи в основном представляет согласные, и отсутствие диакритических знаков (niqqud) приводит к серьезной лексической неоднозначности. Например, согласная последовательность "mlk" может интерпретироваться как "король" (melekh), "царствовал" (malakh) и другие значения в зависимости от контекста.

Значимость проблемы

  1. Практическая ценность: Автоматическая огласовка имеет важное значение для доступности цифровых текстов и взаимодействия человека и машины
  2. Лингвистическая сложность: Точное восстановление диакритических знаков требует синтаксического и семантического понимания
  3. Технические вызовы: Иврит как морфологически богатый язык имеет сложные правила применения диакритических знаков, требующие извлечения информации о роде, времени, части речи и т.д.

Ограничения существующих методов

  1. Dicta's Nakdan: Сочетает глубокое обучение и лингвистические правила, высокая точность, но ограниченная способность к обобщению
  2. Nakdimon: Чисто управляемый данными подход на уровне символов с использованием двунаправленной LSTM
  3. MenakBERT: Метод на основе Transformer с предварительной подготовкой на уровне символов

Существующие системы работают в основном на уровне символов, тогда как морфология иврита в основном контролируется шаблонами на уровне слов, что указывает на большую пригодность анализа на уровне слов для этой задачи.

Основные вклады

  1. Новаторский подход: Предложена первая система на уровне слов, переформулирующая огласовку иврита как задачу классификации с нулевым числом примеров
  2. Визуально-языковая модель: Разработана визуально-языковая модель иврита на основе Vision Transformer, которая непосредственно изучает паттерны диакритических знаков из изображений
  3. Механизм генерации кандидатов: Разработан алгоритм генерации кандидатов на основе KNN, который динамически генерирует набор кандидатов диакритических знаков для каждого слова
  4. Прорыв в производительности: Достигнута точность на уровне слов 92,68% в режиме Oracle и 87,87% в режиме KNN

Подробное описание метода

Определение задачи

Входные данные: Неогласованный текст на иврите Выходные данные: Выбор наиболее подходящего паттерна диакритических знаков для каждого слова Ограничения: Выбор из динамически генерируемого набора кандидатов, обусловленный контекстом

Архитектура модели

DIVRIT использует архитектуру с двумя кодировщиками:

1. Кодировщик кандидатов (Candidate Encoder)

  • Визуальный кодировщик на основе модели PIXEL-base
  • Обработка кандидатов диакритических знаков, отрендеренных как изображения
  • Генерация специфичных для кандидатов встраиваний

2. Кодировщик контекста (Context Encoder)

  • Использование языковой модели иврита ALEPHBERTGIMMEL-SMALL
  • Извлечение встраиваний контекста неогласованного слова
  • Предоставление семантической и синтаксической информации контекста

3. Механизм оценки

Оценка сходства между встраиванием кандидата и встраиванием контекста через скалярное произведение:

score(candidate, context) = embedding_candidate · embedding_context

Технические инновации

1. Обучение визуальному представлению

  • Обработка диакритических знаков как визуальных элементов, избегая явного словарного назначения
  • Использование целевой функции маскированного моделирования изображений для предварительной подготовки модели PIXEL иврита
  • Дополнительная предварительная подготовка на огласованном тексте с уменьшением коэффициента маскирования с 0,25 до 0,1

2. Алгоритм генерации кандидатов

Механизм генерации кандидатов на основе KNN:

  • Параметр k: количество рассматриваемых похожих слов
  • Параметр c: максимальный размер возвращаемого набора кандидатов
  • Расчет сходства на основе посимвольного совпадения и выравнивания позиций
  • Использование морфологических особенностей корень-шаблон семитских языков

3. Структура обучения с нулевым числом примеров

  • Каждый кандидат рассматривается как отдельный класс
  • Выбор наиболее подходящего класса через обучение дискриминативным представлениям
  • Обобщение на невидимые классы без задачно-специфичного обучения

Экспериментальная установка

Наборы данных

  1. Данные для предварительной подготовки:
    • Википедия на иврите: примерно 1,9 ГБ
    • Часть OSCAR на иврите: примерно 9,8 ГБ
    • Фильтрация образцов менее 30 символов
  2. Данные для огласовки:
    • Набор данных Gershuni and Pinter (2022)
    • Примерно 3,4 млн токенов исходного огласованного текста на иврите
    • Включает современный иврит, древний иврит и автоматически огласованный текст
  3. Тестовый набор:
    • 20K токенов из различных источников современного иврита

Метрики оценки

  • WOR: Точность на уровне слов
  • CHA: Точность на уровне символов
  • DEC: Точность решения на уровне диакритических знаков
  • VOC: Сохранение произношения на уровне слов

Методы сравнения

  • Базовые методы: Базовый метод большинства класса, базовый метод KNN
  • Системы, управляемые данными: Nakdimon, MenakBERT
  • Гибридные системы: Dicta's Nakdan

Детали реализации

  • Предварительная подготовка: 2M шагов, размер пакета 128, 4 GPU Nvidia RTX6000 с 48GB памятью
  • Тонкая настройка: 240K шагов, размер пакета 32, 2 GPU
  • Использование рендерера PangoCairo и шрифта Noto Sans Hebrew
  • Все текстовые изображения горизонтально зеркалированы на уровне экземпляра из-за письма иврита справа налево

Результаты экспериментов

Основные результаты

СистемаDECCHAWORVOC
MAJORITY BASELINE93.7990.0184.8786.19
KNN BASELINE96.2094.0987.0987.39
NAKDIMON97.9196.3789.7591.64
MENAKBERT98.8297.9594.1295.22
DIVRIT (Oracle)98.3697.4292.6894.69
DIVRIT (KNN-based)96.8595.0387.8790.38
DICTA98.9498.2395.8395.93

Абляционные исследования

1. Влияние количества кандидатов

  • Выбор двух кандидатов: 91,45% точности WOR
  • Выбор трех кандидатов: 74,16% точности WOR
  • Увеличение количества кандидатов приводит к снижению производительности, указывая на недостатки механизма оценки

2. Продолжительность тонкой настройки

  • 140K шагов: 90,54% точности WOR
  • 240K шагов: 91,45% точности WOR
  • Продление тонкой настройки значительно повышает производительность

3. Вспомогательные задачи

Вспомогательная задача предсказания мешка диакритических знаков:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
  • Два кандидата: улучшение с 90,54% до 91,41%
  • Три кандидата: снижение с 73,55% до 71,49%

4. Обработка изображений RTL

  • Два кандидата: 88,60% точности WOR
  • Три кандидата: 84,93% точности WOR
  • Зеркальная обработка значительно повышает способность к обобщению в сценариях с несколькими кандидатами

Экспериментальные находки

  1. Эффективность визуального представления: DIVRIT доказывает потенциал визуального представления в огласовке иврита
  2. Важность генерации кандидатов: Разница в производительности между режимами Oracle и KNN подчеркивает важность улучшения генерации кандидатов
  3. Вызовы обобщения: Способность к обобщению модели снижается с увеличением количества кандидатов
  4. Выбор кодировщика контекста: Кодировщик контекста на основе текста превосходит чисто визуальный подход

Связанные работы

Развитие огласовки иврита

  1. Гибридные методы: Dicta's Nakdan сочетает глубокое обучение с ручными правилами
  2. Чисто управляемые данными: Nakdimon использует двунаправленную LSTM, MenakBERT использует Transformer
  3. Уровень символа vs уровень слова: Существующие методы в основном используют предсказание на уровне символов, данная работа впервые предлагает выбор кандидатов на уровне слова

Обучение с нулевым числом примеров

  • Успех больших языковых моделей, таких как GPT-3, в многозадачном обучении с нулевым числом примеров
  • Применение CLIP и ALIGN в визуально-языковой классификации с нулевым числом примеров
  • Данная работа впервые применяет обучение с нулевым числом примеров к задаче огласовки

Визуально-языковые модели

  • Успех Vision Transformer в задачах компьютерного зрения
  • Робастность модели PIXEL в многоязычной обработке текста
  • Данная работа впервые применяет ViT к задаче ранжирования кандидатов

Заключение и обсуждение

Основные выводы

  1. DIVRIT успешно переформулирует огласовку иврита как задачу классификации с нулевым числом примеров
  2. Визуальное представление может эффективно захватывать паттерны диакритических знаков без сложного лингвистического анализа
  3. В режиме Oracle достигается конкурентоспособная производительность с существующими методами
  4. Подход на уровне слова более пригоден для огласовки иврита по сравнению с подходом на уровне символов

Ограничения

  1. Зависимость от генерации кандидатов: Система все еще зависит от управляемого данными метода генерации кандидатов
  2. Кодировщик контекста: Оптимальная конфигурация все еще использует кодировщик контекста на основе текста
  3. Обобщение при множественных кандидатах: Производительность значительно снижается с увеличением количества кандидатов
  4. Языковая специфичность: Разработано на иврите, применение к другим языкам может столкнуться с трудностями

Направления будущих исследований

  1. Улучшение генерации кандидатов: Разработка более точных алгоритмов генерации кандидатов
  2. Многоязычное расширение: Применение метода к арабскому, вьетнамскому и другим языкам с богатыми диакритическими знаками
  3. Оптимизация архитектуры: Исследование более крупных архитектур моделей и более длительных процессов предварительной подготовки
  4. Мультимодальная интеграция: Дальнейшая оптимизация интеграции визуальной и контекстной информации

Глубокая оценка

Преимущества

  1. Инновационность метода: Впервые переформулирует задачу огласовки как задачу классификации с нулевым числом примеров, что является новаторским
  2. Технологическая продвинутость: Умело сочетает визуально-языковые модели с традиционными методами NLP
  3. Полнота экспериментов: Проводятся комплексные абляционные исследования и сравнение архитектур
  4. Теоретический вклад: Доказывает эффективность визуального представления в морфологических задачах

Недостатки

  1. Разрыв в производительности: В практических сценариях приложения все еще не превосходит существующие лучшие методы
  2. Вычислительная сложность: Архитектура с двумя кодировщиками может привести к дополнительным вычислительным затратам
  3. Простота генерации кандидатов: Метод на основе KNN относительно прост и может ограничивать потенциал системы
  4. Способность к обобщению: Снижение производительности в сценариях с несколькими кандидатами указывает на ограниченную способность модели к обобщению

Влияние

  1. Вклад в область: Предоставляет новую исследовательскую парадигму для задач огласовки
  2. Технологическое вдохновение: Доказывает потенциал применения визуальных методов в задачах NLP
  3. Практическая ценность: Предоставляет новый выбор инструментов для обработки текста на иврите
  4. Воспроизводимость: Обещание опубликовать код и данные способствует дальнейшим исследованиям

Применимые сценарии

  1. Обработка текста на иврите: Цифровые библиотеки, образовательное программное обеспечение и т.д.
  2. Многоязычные системы: Расширяемо на другие семитские языки
  3. Обработка визуального текста: Постобработка OCR, оцифровка исторических документов и т.д.
  4. Исследовательские инструменты: Предоставление автоматизированных инструментов для лингвистических исследований

Библиография

Статья цитирует богатый набор связанных работ, включая:

  • Gershuni and Pinter (2022): Система Nakdimon
  • Cohen et al. (2024): Система MenakBERT
  • Shmidman et al. (2020): Система Dicta's Nakdan
  • Rust et al. (2023): Модель PIXEL
  • He et al. (2022): Архитектура Vision Transformer

Общая оценка: Это инновационная исследовательская статья, которая впервые применяет визуально-языковые модели к задаче огласовки иврита и предлагает новую структуру классификации с нулевым числом примеров. Хотя производительность в некоторых установках еще не превосходит существующие методы, его новаторский подход и полная экспериментальная проверка предоставляют ценный вклад и новые направления исследований для этой области.