2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter

Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.

academic

Restauration des Diacritiques de l'Hébreu à l'aide de la Représentation Visuelle

Informations Fondamentales

ID de l'article: 2510.26521
Titre: Restauration des Diacritiques de l'Hébreu à l'aide de la Représentation Visuelle
Auteurs: Yair Elboher, Yuval Pinter (Université Ben-Gurion du Néguev)
Classification: cs.CL (Linguistique Computationnelle)
Date de publication: 3 novembre 2025 (arXiv v2)
Lien de l'article: https://arxiv.org/abs/2510.26521v2

Résumé

La restauration des diacritiques de l'hébreu est une tâche fondamentale pour assurer une prononciation précise et lever les ambiguïtés textuelles. Bien que l'hébreu non vocalisé présente un haut degré d'ambiguïté, les méthodes d'apprentissage automatique récentes ont considérablement amélioré les performances de cette tâche. Cet article propose DIVRIT, un nouveau système qui reformule la tâche de vocalisation de l'hébreu comme un problème de classification sans exemples. La méthode opère au niveau des mots, sélectionnant le motif de diacritiques le plus approprié pour chaque mot non vocalisé à partir d'un ensemble de candidats générés dynamiquement, en se basant sur le contexte textuel environnant. L'innovation clé de DIVRIT est l'utilisation d'un modèle de vision-langage hébreu, traitant le texte non vocalisé comme une image, permettant aux informations de diacritiques d'être directement intégrées dans la représentation vectorielle de l'entrée.

Contexte de Recherche et Motivation

Définition du Problème

L'hébreu, en tant que représentant de la famille des langues sémitiques, représente principalement les consonnes. L'absence de symboles de diacritiques (niqqud) entraîne une ambiguïté lexicale grave. Par exemple, la chaîne consonantique « mlk » peut être interprétée comme « roi » (melekh), « régna » (malakh) ou plusieurs autres significations, selon le contexte.

Importance du Problème

Valeur pratique: L'automatisation de la vocalisation est importante pour l'accessibilité des textes numériques et l'interaction homme-machine
Complexité linguistique: La restauration précise des diacritiques nécessite une compréhension syntaxique et sémantique
Défis techniques: L'hébreu, en tant que langue morphologiquement riche, présente des règles de vocalisation complexes, nécessitant l'extraction d'informations telles que le genre, le temps et la partie du discours

Limitations des Méthodes Existantes

Nakdan de Dicta: Combine l'apprentissage profond et les règles linguistiques, avec une précision élevée mais une capacité de généralisation limitée
Nakdimon: Approche purement basée sur les données utilisant un Bi-LSTM au niveau des caractères
MenakBERT: Méthode basée sur Transformer avec préentraînement au niveau des caractères

Les systèmes existants fonctionnent principalement au niveau des caractères, alors que la morphologie hébraïque est principalement contrôlée par des modèles au niveau des mots, suggérant qu'une analyse au niveau des mots est plus appropriée pour cette tâche.

Contributions Principales

Approche novatrice: Premier système au niveau des mots reformulant la vocalisation de l'hébreu comme un problème de classification sans exemples
Modèle de vision-langage: Développement d'un modèle de vision-langage hébreu basé sur Vision Transformer, apprenant directement les motifs de diacritiques à partir d'images
Mécanisme de génération de candidats: Conception d'un algorithme de génération de candidats basé sur KNN, générant dynamiquement un ensemble de candidats vocalisés pour chaque mot
Percée en performance: Atteinte de 92,68% de précision au niveau des mots en configuration Oracle et 87,87% en configuration KNN

Détails de la Méthode

Définition de la Tâche

Entrée: Texte hébreu non vocalisé Sortie: Sélection du motif de diacritiques le plus approprié pour chaque mot Contrainte: Sélection à partir d'un ensemble de candidats générés dynamiquement, conditionnée par le contexte

Architecture du Modèle

DIVRIT adopte une architecture à double encodeur:

1. Encodeur de Candidats (Candidate Encoder)

Encodeur visuel basé sur le modèle PIXEL-base
Traitement des candidats vocalisés rendus sous forme d'images
Génération de représentations d'intégration spécifiques aux candidats

2. Encodeur de Contexte (Context Encoder)

Utilisation du modèle de langage hébreu ALEPHBERTGIMMEL-SMALL
Extraction d'intégrations contextuelles du mot non vocalisé
Fourniture d'informations contextuelles sémantiques et syntaxiques

3. Mécanisme de Notation

Calcul de la similarité entre l'intégration du candidat et l'intégration du contexte par produit scalaire:

score(candidat, contexte) = embedding_candidat · embedding_contexte

Points d'Innovation Technique

1. Apprentissage de Représentation Visuelle

Traitement des diacritiques comme des éléments visuels, évitant l'attribution explicite de vocabulaire
Utilisation d'objectifs de modélisation d'images masquées pour préentraîner le modèle PIXEL hébreu
Préentraînement supplémentaire sur du texte vocalisé, réduisant le ratio de masquage de 0,25 à 0,1

2. Algorithme de Génération de Candidats

Mécanisme de génération de candidats basé sur KNN:

Paramètre k: nombre de mots similaires à considérer
Paramètre c: taille maximale de l'ensemble de candidats retourné
Calcul de similarité basé sur l'appariement au niveau des caractères et l'alignement positionnel
Exploitation des caractéristiques morphologiques racine-modèle des langues sémitiques

3. Cadre d'Apprentissage sans Exemples

Chaque candidat comme catégorie indépendante
Sélection de la catégorie la plus appropriée par apprentissage de représentations discriminantes
Généralisation à des catégories non vues sans entraînement spécifique à la tâche

Configuration Expérimentale

Ensembles de Données

Données de préentraînement:
- Wikipédia hébreu: environ 1,9 GB
- Partie hébraïque d'OSCAR: environ 9,8 GB
- Filtrage des échantillons contenant moins de 30 caractères
Données de vocalisation:
- Ensemble de données de Gershuni et Pinter (2022)
- Environ 3,4 millions de tokens de texte hébreu vocalisé original
- Incluant l'hébreu moderne, l'hébreu prémoderne et le texte vocalisé automatiquement
Ensemble de test:
- 20K tokens provenant de diverses sources d'hébreu moderne

Métriques d'Évaluation

WOR: Précision au niveau des mots
CHA: Précision au niveau des caractères
DEC: Précision des décisions au niveau des diacritiques
VOC: Taux de préservation de la prononciation au niveau des mots

Méthodes de Comparaison

Méthodes de base: Prédiction de classe majoritaire, base KNN
Systèmes basés sur les données: Nakdimon, MenakBERT
Systèmes hybrides: Nakdan de Dicta

Détails d'Implémentation

Préentraînement: 2M étapes, taille de lot 128, 4 GPU Nvidia RTX6000 48GB
Ajustement fin: 240K étapes, taille de lot 32, 2 GPU
Utilisation du moteur de rendu PangoCairo et de la police Noto Sans Hebrew
Tous les textes d'image sont horizontalement mirrorés au niveau de l'instance en raison de l'écriture de droite à gauche de l'hébreu

Résultats Expérimentaux

Résultats Principaux

Système	DEC	CHA	WOR	VOC
BASELINE MAJORITAIRE	93,79	90,01	84,87	86,19
BASELINE KNN	96,20	94,09	87,09	87,39
NAKDIMON	97,91	96,37	89,75	91,64
MENAKBERT	98,82	97,95	94,12	95,22
DIVRIT (Oracle)	98,36	97,42	92,68	94,69
DIVRIT (Basé sur KNN)	96,85	95,03	87,87	90,38
DICTA	98,94	98,23	95,83	95,93

Études d'Ablation

1. Impact du Nombre de Candidats

Sélection de deux candidats: 91,45% de précision WOR
Sélection de trois candidats: 74,16% de précision WOR
L'augmentation du nombre de candidats entraîne une dégradation des performances, indiquant des insuffisances du mécanisme de notation

2. Durée d'Ajustement Fin

140K étapes: 90,54% de précision WOR
240K étapes: 91,45% de précision WOR
L'allongement de l'ajustement fin améliore considérablement les performances

3. Tâches Auxiliaires

Tâche auxiliaire de prédiction de sac de diacritiques:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))

Deux candidats: amélioration de 90,54% à 91,41%
Trois candidats: dégradation de 73,55% à 71,49%

4. Traitement d'Images RTL

Deux candidats: 88,60% de précision WOR
Trois candidats: 84,93% de précision WOR
Le traitement en miroir améliore considérablement la capacité de généralisation dans les scénarios multi-candidats

Découvertes Expérimentales

Efficacité de la représentation visuelle: DIVRIT démontre le potentiel des représentations visuelles dans la vocalisation de l'hébreu
Importance de la génération de candidats: L'écart de performance entre les configurations Oracle et KNN souligne l'importance des améliorations de la génération de candidats
Défis de généralisation: La capacité de généralisation du modèle diminue avec l'augmentation du nombre de candidats
Choix de l'encodeur de contexte: L'encodeur de contexte basé sur le texte surpasse les approches purement visuelles

Travaux Connexes

Évolution de la Vocalisation de l'Hébreu

Méthodes hybrides: Nakdan de Dicta combinant apprentissage profond et règles manuelles
Approches purement basées sur les données: Nakdimon utilisant Bi-LSTM, MenakBERT utilisant Transformer
Niveau des caractères vs niveau des mots: Les méthodes existantes adoptent principalement la prédiction au niveau des caractères; cet article propose pour la première fois la sélection de candidats au niveau des mots

Apprentissage sans Exemples

Succès des grands modèles de langage comme GPT-3 dans l'apprentissage sans exemples multitâches
Application de CLIP et ALIGN dans la classification sans exemples vision-langage
Première application de l'apprentissage sans exemples à la tâche de vocalisation

Modèles de Vision-Langage

Succès de Vision Transformer dans les tâches de vision par ordinateur
Robustesse du modèle PIXEL dans le traitement de texte multilingue
Première application de ViT à la tâche de classement de candidats

Conclusion et Discussion

Conclusions Principales

DIVRIT reformule avec succès la vocalisation de l'hébreu comme un problème de classification sans exemples
La représentation visuelle peut capturer efficacement les motifs de diacritiques sans analyse linguistique complexe
Atteinte de performances compétitives avec les méthodes existantes en configuration Oracle
L'approche au niveau des mots est plus appropriée que l'approche au niveau des caractères pour la vocalisation de l'hébreu

Limitations

Dépendance à la génération de candidats: Le système dépend toujours de méthodes de génération de candidats basées sur les données
Encodeur de contexte: La configuration optimale utilise toujours un encodeur de contexte basé sur le texte
Généralisation multi-candidats: Les performances diminuent considérablement avec l'augmentation du nombre de candidats
Spécificité linguistique: Développé sur l'hébreu, l'application à d'autres langues peut présenter des défis

Directions Futures

Amélioration de la génération de candidats: Développement d'algorithmes de génération de candidats plus précis
Extension multilingue: Application de la méthode à d'autres langues riches en diacritiques comme l'arabe et le vietnamien
Optimisation architecturale: Exploration d'architectures de modèles plus grandes et de processus de préentraînement plus longs
Intégration multimodale: Optimisation supplémentaire de l'intégration des informations visuelles et contextuelles

Évaluation Approfondie

Avantages

Innovativité méthodologique: Première reformulation de la tâche de vocalisation comme problème de classification sans exemples, hautement novatrice
Avancée technique: Combinaison ingénieuse de modèles de vision-langage avec des méthodes NLP traditionnelles
Suffisance expérimentale: Études d'ablation complètes et comparaisons architecturales
Contribution théorique: Démonstration de l'efficacité des représentations visuelles dans les tâches morphologiques

Insuffisances

Écart de performance: N'a pas encore surpassé les méthodes existantes optimales dans les scénarios d'application réelle
Complexité computationnelle: L'architecture à double encodeur peut entraîner des surcharges computationnelles supplémentaires
Génération de candidats simple: La méthode basée sur KNN est relativement simple, pouvant limiter le potentiel du système
Capacité de généralisation: La dégradation des performances dans les scénarios multi-candidats indique une capacité de généralisation limitée

Impact

Contribution au domaine: Fourniture d'un nouveau paradigme de recherche pour la tâche de vocalisation
Inspiration technique: Démonstration du potentiel des approches visuelles dans les tâches NLP
Valeur pratique: Fourniture de nouvelles options d'outils pour le traitement de texte hébreu
Reproductibilité: Engagement de publier le code et les données, favorisant les recherches ultérieures

Scénarios d'Application

Traitement de texte hébreu: Bibliothèques numériques, logiciels éducatifs, etc.
Systèmes multilingues: Extensible aux autres langues sémitiques
Traitement de texte visuel: Post-traitement OCR, numérisation de documents historiques, etc.
Outils de recherche: Fourniture d'outils automatisés pour la recherche linguistique

Références

L'article cite des travaux connexes abondants, notamment:

Gershuni et Pinter (2022): Système Nakdimon
Cohen et al. (2024): Système MenakBERT
Shmidman et al. (2020): Système Nakdan de Dicta
Rust et al. (2023): Modèle PIXEL
He et al. (2022): Architecture Vision Transformer

Évaluation Globale: Cet article de recherche est hautement innovant, appliquant pour la première fois les modèles de vision-langage à la tâche de vocalisation de l'hébreu et proposant un nouveau cadre de classification sans exemples. Bien que les performances dans certains contextes n'aient pas encore surpassé les méthodes existantes, sa méthodologie novatrice et sa validation expérimentale complète apportent des contributions précieuses et ouvrent de nouvelles directions de recherche dans ce domaine.