Hebrew Diacritics Restoration using Visual Representation
Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task.
In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation.
Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
히브리어 음표 복원은 정확한 발음 보장 및 텍스트 모호성 제거를 위한 기본 작업입니다. 음표가 없는 히브리어가 높은 수준의 모호성을 가지고 있음에도 불구하고, 최근의 기계학습 방법들은 이 작업의 성능을 크게 향상시켰습니다. 본 논문은 히브리어 음표화 작업을 영샷 분류 문제로 재구성하는 새로운 시스템인 DIVRIT을 제안합니다. 이 방법은 단어 수준에서 작동하며, 동적으로 생성된 후보 집합에서 각 음표 없는 단어에 대해 가장 적절한 음표 패턴을 선택하고, 주변 텍스트 문맥을 기반으로 조건화됩니다. DIVRIT의 핵심 혁신은 히브리어 시각적 언어 모델을 사용하여 음표 없는 텍스트를 이미지로 처리함으로써 음표 정보가 입력의 벡터 표현에 직접 포함될 수 있도록 하는 것입니다.
셈족 언어족의 대표인 히브리어는 주로 자음을 표시하며, 음표 기호(niqqud)의 부재는 심각한 어휘 모호성을 야기합니다. 예를 들어, 자음 문자열 "mlk"는 문맥에 따라 "king"(melekh), "reigned"(malakh) 등 다양한 의미로 해석될 수 있습니다.
종합 평가: 이는 시각적 언어 모델을 히브리어 음표화 작업에 처음 적용하고 영샷 분류의 새로운 프레임워크를 제안하는 창의적인 연구 논문입니다. 특정 설정에서 성능이 기존 방법을 초과하지는 못하지만, 개척적인 방법과 충분한 실험 검증은 이 분야에 가치 있는 기여와 새로운 연구 방향을 제공합니다.