2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter

Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.

academic

Восстановление диакритических знаков иврита с использованием визуального представления

Основная информация

ID статьи: 2510.26521
Название: Hebrew Diacritics Restoration using Visual Representation
Авторы: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
Классификация: cs.CL (Вычислительная лингвистика)
Дата публикации: 3 ноября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2510.26521v2

Аннотация

Восстановление диакритических знаков иврита является фундаментальной задачей для обеспечения точного произношения и устранения неоднозначности текста. Несмотря на высокую неоднозначность неогласованного иврита, недавние методы машинного обучения значительно повысили производительность этой задачи. В данной статье предлагается DIVRIT — новая система, которая переформулирует задачу огласовки иврита как задачу классификации с нулевым числом примеров. Метод работает на уровне слова, выбирая наиболее подходящий паттерн диакритических знаков для каждого неогласованного слова из динамически генерируемого набора кандидатов, обусловленного окружающим текстовым контекстом. Ключевым инновационным решением DIVRIT является использование визуально-языковой модели иврита, которая обрабатывает неогласованный текст как изображение, позволяя информации о диакритических знаках быть непосредственно встроенной в векторное представление входных данных.

Исследовательский контекст и мотивация

Определение проблемы

Иврит как представитель семитской языковой семьи в основном представляет согласные, и отсутствие диакритических знаков (niqqud) приводит к серьезной лексической неоднозначности. Например, согласная последовательность "mlk" может интерпретироваться как "король" (melekh), "царствовал" (malakh) и другие значения в зависимости от контекста.

Значимость проблемы

Практическая ценность: Автоматическая огласовка имеет важное значение для доступности цифровых текстов и взаимодействия человека и машины
Лингвистическая сложность: Точное восстановление диакритических знаков требует синтаксического и семантического понимания
Технические вызовы: Иврит как морфологически богатый язык имеет сложные правила применения диакритических знаков, требующие извлечения информации о роде, времени, части речи и т.д.

Ограничения существующих методов

Dicta's Nakdan: Сочетает глубокое обучение и лингвистические правила, высокая точность, но ограниченная способность к обобщению
Nakdimon: Чисто управляемый данными подход на уровне символов с использованием двунаправленной LSTM
MenakBERT: Метод на основе Transformer с предварительной подготовкой на уровне символов

Существующие системы работают в основном на уровне символов, тогда как морфология иврита в основном контролируется шаблонами на уровне слов, что указывает на большую пригодность анализа на уровне слов для этой задачи.

Основные вклады

Новаторский подход: Предложена первая система на уровне слов, переформулирующая огласовку иврита как задачу классификации с нулевым числом примеров
Визуально-языковая модель: Разработана визуально-языковая модель иврита на основе Vision Transformer, которая непосредственно изучает паттерны диакритических знаков из изображений
Механизм генерации кандидатов: Разработан алгоритм генерации кандидатов на основе KNN, который динамически генерирует набор кандидатов диакритических знаков для каждого слова
Прорыв в производительности: Достигнута точность на уровне слов 92,68% в режиме Oracle и 87,87% в режиме KNN

Подробное описание метода

Определение задачи

Входные данные: Неогласованный текст на иврите Выходные данные: Выбор наиболее подходящего паттерна диакритических знаков для каждого слова Ограничения: Выбор из динамически генерируемого набора кандидатов, обусловленный контекстом

Архитектура модели

DIVRIT использует архитектуру с двумя кодировщиками:

1. Кодировщик кандидатов (Candidate Encoder)

Визуальный кодировщик на основе модели PIXEL-base
Обработка кандидатов диакритических знаков, отрендеренных как изображения
Генерация специфичных для кандидатов встраиваний

2. Кодировщик контекста (Context Encoder)

Использование языковой модели иврита ALEPHBERTGIMMEL-SMALL
Извлечение встраиваний контекста неогласованного слова
Предоставление семантической и синтаксической информации контекста

3. Механизм оценки

Оценка сходства между встраиванием кандидата и встраиванием контекста через скалярное произведение:

score(candidate, context) = embedding_candidate · embedding_context

Технические инновации

1. Обучение визуальному представлению

Обработка диакритических знаков как визуальных элементов, избегая явного словарного назначения
Использование целевой функции маскированного моделирования изображений для предварительной подготовки модели PIXEL иврита
Дополнительная предварительная подготовка на огласованном тексте с уменьшением коэффициента маскирования с 0,25 до 0,1

2. Алгоритм генерации кандидатов

Механизм генерации кандидатов на основе KNN:

Параметр k: количество рассматриваемых похожих слов
Параметр c: максимальный размер возвращаемого набора кандидатов
Расчет сходства на основе посимвольного совпадения и выравнивания позиций
Использование морфологических особенностей корень-шаблон семитских языков

3. Структура обучения с нулевым числом примеров

Каждый кандидат рассматривается как отдельный класс
Выбор наиболее подходящего класса через обучение дискриминативным представлениям
Обобщение на невидимые классы без задачно-специфичного обучения

Экспериментальная установка

Наборы данных

Данные для предварительной подготовки:
- Википедия на иврите: примерно 1,9 ГБ
- Часть OSCAR на иврите: примерно 9,8 ГБ
- Фильтрация образцов менее 30 символов
Данные для огласовки:
- Набор данных Gershuni and Pinter (2022)
- Примерно 3,4 млн токенов исходного огласованного текста на иврите
- Включает современный иврит, древний иврит и автоматически огласованный текст
Тестовый набор:
- 20K токенов из различных источников современного иврита

Метрики оценки

WOR: Точность на уровне слов
CHA: Точность на уровне символов
DEC: Точность решения на уровне диакритических знаков
VOC: Сохранение произношения на уровне слов

Методы сравнения

Базовые методы: Базовый метод большинства класса, базовый метод KNN
Системы, управляемые данными: Nakdimon, MenakBERT
Гибридные системы: Dicta's Nakdan

Детали реализации

Предварительная подготовка: 2M шагов, размер пакета 128, 4 GPU Nvidia RTX6000 с 48GB памятью
Тонкая настройка: 240K шагов, размер пакета 32, 2 GPU
Использование рендерера PangoCairo и шрифта Noto Sans Hebrew
Все текстовые изображения горизонтально зеркалированы на уровне экземпляра из-за письма иврита справа налево

Результаты экспериментов

Основные результаты

Система	DEC	CHA	WOR	VOC
MAJORITY BASELINE	93.79	90.01	84.87	86.19
KNN BASELINE	96.20	94.09	87.09	87.39
NAKDIMON	97.91	96.37	89.75	91.64
MENAKBERT	98.82	97.95	94.12	95.22
DIVRIT (Oracle)	98.36	97.42	92.68	94.69
DIVRIT (KNN-based)	96.85	95.03	87.87	90.38
DICTA	98.94	98.23	95.83	95.93

Абляционные исследования

1. Влияние количества кандидатов

Выбор двух кандидатов: 91,45% точности WOR
Выбор трех кандидатов: 74,16% точности WOR
Увеличение количества кандидатов приводит к снижению производительности, указывая на недостатки механизма оценки

2. Продолжительность тонкой настройки

140K шагов: 90,54% точности WOR
240K шагов: 91,45% точности WOR
Продление тонкой настройки значительно повышает производительность

3. Вспомогательные задачи

Вспомогательная задача предсказания мешка диакритических знаков:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))

Два кандидата: улучшение с 90,54% до 91,41%
Три кандидата: снижение с 73,55% до 71,49%

4. Обработка изображений RTL

Два кандидата: 88,60% точности WOR
Три кандидата: 84,93% точности WOR
Зеркальная обработка значительно повышает способность к обобщению в сценариях с несколькими кандидатами

Экспериментальные находки

Эффективность визуального представления: DIVRIT доказывает потенциал визуального представления в огласовке иврита
Важность генерации кандидатов: Разница в производительности между режимами Oracle и KNN подчеркивает важность улучшения генерации кандидатов
Вызовы обобщения: Способность к обобщению модели снижается с увеличением количества кандидатов
Выбор кодировщика контекста: Кодировщик контекста на основе текста превосходит чисто визуальный подход

Связанные работы

Развитие огласовки иврита

Гибридные методы: Dicta's Nakdan сочетает глубокое обучение с ручными правилами
Чисто управляемые данными: Nakdimon использует двунаправленную LSTM, MenakBERT использует Transformer
Уровень символа vs уровень слова: Существующие методы в основном используют предсказание на уровне символов, данная работа впервые предлагает выбор кандидатов на уровне слова

Обучение с нулевым числом примеров

Успех больших языковых моделей, таких как GPT-3, в многозадачном обучении с нулевым числом примеров
Применение CLIP и ALIGN в визуально-языковой классификации с нулевым числом примеров
Данная работа впервые применяет обучение с нулевым числом примеров к задаче огласовки

Визуально-языковые модели

Успех Vision Transformer в задачах компьютерного зрения
Робастность модели PIXEL в многоязычной обработке текста
Данная работа впервые применяет ViT к задаче ранжирования кандидатов

Заключение и обсуждение

Основные выводы

DIVRIT успешно переформулирует огласовку иврита как задачу классификации с нулевым числом примеров
Визуальное представление может эффективно захватывать паттерны диакритических знаков без сложного лингвистического анализа
В режиме Oracle достигается конкурентоспособная производительность с существующими методами
Подход на уровне слова более пригоден для огласовки иврита по сравнению с подходом на уровне символов

Ограничения

Зависимость от генерации кандидатов: Система все еще зависит от управляемого данными метода генерации кандидатов
Кодировщик контекста: Оптимальная конфигурация все еще использует кодировщик контекста на основе текста
Обобщение при множественных кандидатах: Производительность значительно снижается с увеличением количества кандидатов
Языковая специфичность: Разработано на иврите, применение к другим языкам может столкнуться с трудностями

Направления будущих исследований

Улучшение генерации кандидатов: Разработка более точных алгоритмов генерации кандидатов
Многоязычное расширение: Применение метода к арабскому, вьетнамскому и другим языкам с богатыми диакритическими знаками
Оптимизация архитектуры: Исследование более крупных архитектур моделей и более длительных процессов предварительной подготовки
Мультимодальная интеграция: Дальнейшая оптимизация интеграции визуальной и контекстной информации

Глубокая оценка

Преимущества

Инновационность метода: Впервые переформулирует задачу огласовки как задачу классификации с нулевым числом примеров, что является новаторским
Технологическая продвинутость: Умело сочетает визуально-языковые модели с традиционными методами NLP
Полнота экспериментов: Проводятся комплексные абляционные исследования и сравнение архитектур
Теоретический вклад: Доказывает эффективность визуального представления в морфологических задачах

Недостатки

Разрыв в производительности: В практических сценариях приложения все еще не превосходит существующие лучшие методы
Вычислительная сложность: Архитектура с двумя кодировщиками может привести к дополнительным вычислительным затратам
Простота генерации кандидатов: Метод на основе KNN относительно прост и может ограничивать потенциал системы
Способность к обобщению: Снижение производительности в сценариях с несколькими кандидатами указывает на ограниченную способность модели к обобщению

Влияние

Вклад в область: Предоставляет новую исследовательскую парадигму для задач огласовки
Технологическое вдохновение: Доказывает потенциал применения визуальных методов в задачах NLP
Практическая ценность: Предоставляет новый выбор инструментов для обработки текста на иврите
Воспроизводимость: Обещание опубликовать код и данные способствует дальнейшим исследованиям

Применимые сценарии

Обработка текста на иврите: Цифровые библиотеки, образовательное программное обеспечение и т.д.
Многоязычные системы: Расширяемо на другие семитские языки
Обработка визуального текста: Постобработка OCR, оцифровка исторических документов и т.д.
Исследовательские инструменты: Предоставление автоматизированных инструментов для лингвистических исследований

Библиография

Статья цитирует богатый набор связанных работ, включая:

Gershuni and Pinter (2022): Система Nakdimon
Cohen et al. (2024): Система MenakBERT
Shmidman et al. (2020): Система Dicta's Nakdan
Rust et al. (2023): Модель PIXEL
He et al. (2022): Архитектура Vision Transformer

Общая оценка: Это инновационная исследовательская статья, которая впервые применяет визуально-языковые модели к задаче огласовки иврита и предлагает новую структуру классификации с нулевым числом примеров. Хотя производительность в некоторых установках еще не превосходит существующие методы, его новаторский подход и полная экспериментальная проверка предоставляют ценный вклад и новые направления исследований для этой области.