2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
academic

Restauration des Diacritiques de l'Hébreu à l'aide de la Représentation Visuelle

Informations Fondamentales

  • ID de l'article: 2510.26521
  • Titre: Restauration des Diacritiques de l'Hébreu à l'aide de la Représentation Visuelle
  • Auteurs: Yair Elboher, Yuval Pinter (Université Ben-Gurion du Néguev)
  • Classification: cs.CL (Linguistique Computationnelle)
  • Date de publication: 3 novembre 2025 (arXiv v2)
  • Lien de l'article: https://arxiv.org/abs/2510.26521v2

Résumé

La restauration des diacritiques de l'hébreu est une tâche fondamentale pour assurer une prononciation précise et lever les ambiguïtés textuelles. Bien que l'hébreu non vocalisé présente un haut degré d'ambiguïté, les méthodes d'apprentissage automatique récentes ont considérablement amélioré les performances de cette tâche. Cet article propose DIVRIT, un nouveau système qui reformule la tâche de vocalisation de l'hébreu comme un problème de classification sans exemples. La méthode opère au niveau des mots, sélectionnant le motif de diacritiques le plus approprié pour chaque mot non vocalisé à partir d'un ensemble de candidats générés dynamiquement, en se basant sur le contexte textuel environnant. L'innovation clé de DIVRIT est l'utilisation d'un modèle de vision-langage hébreu, traitant le texte non vocalisé comme une image, permettant aux informations de diacritiques d'être directement intégrées dans la représentation vectorielle de l'entrée.

Contexte de Recherche et Motivation

Définition du Problème

L'hébreu, en tant que représentant de la famille des langues sémitiques, représente principalement les consonnes. L'absence de symboles de diacritiques (niqqud) entraîne une ambiguïté lexicale grave. Par exemple, la chaîne consonantique « mlk » peut être interprétée comme « roi » (melekh), « régna » (malakh) ou plusieurs autres significations, selon le contexte.

Importance du Problème

  1. Valeur pratique: L'automatisation de la vocalisation est importante pour l'accessibilité des textes numériques et l'interaction homme-machine
  2. Complexité linguistique: La restauration précise des diacritiques nécessite une compréhension syntaxique et sémantique
  3. Défis techniques: L'hébreu, en tant que langue morphologiquement riche, présente des règles de vocalisation complexes, nécessitant l'extraction d'informations telles que le genre, le temps et la partie du discours

Limitations des Méthodes Existantes

  1. Nakdan de Dicta: Combine l'apprentissage profond et les règles linguistiques, avec une précision élevée mais une capacité de généralisation limitée
  2. Nakdimon: Approche purement basée sur les données utilisant un Bi-LSTM au niveau des caractères
  3. MenakBERT: Méthode basée sur Transformer avec préentraînement au niveau des caractères

Les systèmes existants fonctionnent principalement au niveau des caractères, alors que la morphologie hébraïque est principalement contrôlée par des modèles au niveau des mots, suggérant qu'une analyse au niveau des mots est plus appropriée pour cette tâche.

Contributions Principales

  1. Approche novatrice: Premier système au niveau des mots reformulant la vocalisation de l'hébreu comme un problème de classification sans exemples
  2. Modèle de vision-langage: Développement d'un modèle de vision-langage hébreu basé sur Vision Transformer, apprenant directement les motifs de diacritiques à partir d'images
  3. Mécanisme de génération de candidats: Conception d'un algorithme de génération de candidats basé sur KNN, générant dynamiquement un ensemble de candidats vocalisés pour chaque mot
  4. Percée en performance: Atteinte de 92,68% de précision au niveau des mots en configuration Oracle et 87,87% en configuration KNN

Détails de la Méthode

Définition de la Tâche

Entrée: Texte hébreu non vocalisé Sortie: Sélection du motif de diacritiques le plus approprié pour chaque mot Contrainte: Sélection à partir d'un ensemble de candidats générés dynamiquement, conditionnée par le contexte

Architecture du Modèle

DIVRIT adopte une architecture à double encodeur:

1. Encodeur de Candidats (Candidate Encoder)

  • Encodeur visuel basé sur le modèle PIXEL-base
  • Traitement des candidats vocalisés rendus sous forme d'images
  • Génération de représentations d'intégration spécifiques aux candidats

2. Encodeur de Contexte (Context Encoder)

  • Utilisation du modèle de langage hébreu ALEPHBERTGIMMEL-SMALL
  • Extraction d'intégrations contextuelles du mot non vocalisé
  • Fourniture d'informations contextuelles sémantiques et syntaxiques

3. Mécanisme de Notation

Calcul de la similarité entre l'intégration du candidat et l'intégration du contexte par produit scalaire:

score(candidat, contexte) = embedding_candidat · embedding_contexte

Points d'Innovation Technique

1. Apprentissage de Représentation Visuelle

  • Traitement des diacritiques comme des éléments visuels, évitant l'attribution explicite de vocabulaire
  • Utilisation d'objectifs de modélisation d'images masquées pour préentraîner le modèle PIXEL hébreu
  • Préentraînement supplémentaire sur du texte vocalisé, réduisant le ratio de masquage de 0,25 à 0,1

2. Algorithme de Génération de Candidats

Mécanisme de génération de candidats basé sur KNN:

  • Paramètre k: nombre de mots similaires à considérer
  • Paramètre c: taille maximale de l'ensemble de candidats retourné
  • Calcul de similarité basé sur l'appariement au niveau des caractères et l'alignement positionnel
  • Exploitation des caractéristiques morphologiques racine-modèle des langues sémitiques

3. Cadre d'Apprentissage sans Exemples

  • Chaque candidat comme catégorie indépendante
  • Sélection de la catégorie la plus appropriée par apprentissage de représentations discriminantes
  • Généralisation à des catégories non vues sans entraînement spécifique à la tâche

Configuration Expérimentale

Ensembles de Données

  1. Données de préentraînement:
    • Wikipédia hébreu: environ 1,9 GB
    • Partie hébraïque d'OSCAR: environ 9,8 GB
    • Filtrage des échantillons contenant moins de 30 caractères
  2. Données de vocalisation:
    • Ensemble de données de Gershuni et Pinter (2022)
    • Environ 3,4 millions de tokens de texte hébreu vocalisé original
    • Incluant l'hébreu moderne, l'hébreu prémoderne et le texte vocalisé automatiquement
  3. Ensemble de test:
    • 20K tokens provenant de diverses sources d'hébreu moderne

Métriques d'Évaluation

  • WOR: Précision au niveau des mots
  • CHA: Précision au niveau des caractères
  • DEC: Précision des décisions au niveau des diacritiques
  • VOC: Taux de préservation de la prononciation au niveau des mots

Méthodes de Comparaison

  • Méthodes de base: Prédiction de classe majoritaire, base KNN
  • Systèmes basés sur les données: Nakdimon, MenakBERT
  • Systèmes hybrides: Nakdan de Dicta

Détails d'Implémentation

  • Préentraînement: 2M étapes, taille de lot 128, 4 GPU Nvidia RTX6000 48GB
  • Ajustement fin: 240K étapes, taille de lot 32, 2 GPU
  • Utilisation du moteur de rendu PangoCairo et de la police Noto Sans Hebrew
  • Tous les textes d'image sont horizontalement mirrorés au niveau de l'instance en raison de l'écriture de droite à gauche de l'hébreu

Résultats Expérimentaux

Résultats Principaux

SystèmeDECCHAWORVOC
BASELINE MAJORITAIRE93,7990,0184,8786,19
BASELINE KNN96,2094,0987,0987,39
NAKDIMON97,9196,3789,7591,64
MENAKBERT98,8297,9594,1295,22
DIVRIT (Oracle)98,3697,4292,6894,69
DIVRIT (Basé sur KNN)96,8595,0387,8790,38
DICTA98,9498,2395,8395,93

Études d'Ablation

1. Impact du Nombre de Candidats

  • Sélection de deux candidats: 91,45% de précision WOR
  • Sélection de trois candidats: 74,16% de précision WOR
  • L'augmentation du nombre de candidats entraîne une dégradation des performances, indiquant des insuffisances du mécanisme de notation

2. Durée d'Ajustement Fin

  • 140K étapes: 90,54% de précision WOR
  • 240K étapes: 91,45% de précision WOR
  • L'allongement de l'ajustement fin améliore considérablement les performances

3. Tâches Auxiliaires

Tâche auxiliaire de prédiction de sac de diacritiques:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
  • Deux candidats: amélioration de 90,54% à 91,41%
  • Trois candidats: dégradation de 73,55% à 71,49%

4. Traitement d'Images RTL

  • Deux candidats: 88,60% de précision WOR
  • Trois candidats: 84,93% de précision WOR
  • Le traitement en miroir améliore considérablement la capacité de généralisation dans les scénarios multi-candidats

Découvertes Expérimentales

  1. Efficacité de la représentation visuelle: DIVRIT démontre le potentiel des représentations visuelles dans la vocalisation de l'hébreu
  2. Importance de la génération de candidats: L'écart de performance entre les configurations Oracle et KNN souligne l'importance des améliorations de la génération de candidats
  3. Défis de généralisation: La capacité de généralisation du modèle diminue avec l'augmentation du nombre de candidats
  4. Choix de l'encodeur de contexte: L'encodeur de contexte basé sur le texte surpasse les approches purement visuelles

Travaux Connexes

Évolution de la Vocalisation de l'Hébreu

  1. Méthodes hybrides: Nakdan de Dicta combinant apprentissage profond et règles manuelles
  2. Approches purement basées sur les données: Nakdimon utilisant Bi-LSTM, MenakBERT utilisant Transformer
  3. Niveau des caractères vs niveau des mots: Les méthodes existantes adoptent principalement la prédiction au niveau des caractères; cet article propose pour la première fois la sélection de candidats au niveau des mots

Apprentissage sans Exemples

  • Succès des grands modèles de langage comme GPT-3 dans l'apprentissage sans exemples multitâches
  • Application de CLIP et ALIGN dans la classification sans exemples vision-langage
  • Première application de l'apprentissage sans exemples à la tâche de vocalisation

Modèles de Vision-Langage

  • Succès de Vision Transformer dans les tâches de vision par ordinateur
  • Robustesse du modèle PIXEL dans le traitement de texte multilingue
  • Première application de ViT à la tâche de classement de candidats

Conclusion et Discussion

Conclusions Principales

  1. DIVRIT reformule avec succès la vocalisation de l'hébreu comme un problème de classification sans exemples
  2. La représentation visuelle peut capturer efficacement les motifs de diacritiques sans analyse linguistique complexe
  3. Atteinte de performances compétitives avec les méthodes existantes en configuration Oracle
  4. L'approche au niveau des mots est plus appropriée que l'approche au niveau des caractères pour la vocalisation de l'hébreu

Limitations

  1. Dépendance à la génération de candidats: Le système dépend toujours de méthodes de génération de candidats basées sur les données
  2. Encodeur de contexte: La configuration optimale utilise toujours un encodeur de contexte basé sur le texte
  3. Généralisation multi-candidats: Les performances diminuent considérablement avec l'augmentation du nombre de candidats
  4. Spécificité linguistique: Développé sur l'hébreu, l'application à d'autres langues peut présenter des défis

Directions Futures

  1. Amélioration de la génération de candidats: Développement d'algorithmes de génération de candidats plus précis
  2. Extension multilingue: Application de la méthode à d'autres langues riches en diacritiques comme l'arabe et le vietnamien
  3. Optimisation architecturale: Exploration d'architectures de modèles plus grandes et de processus de préentraînement plus longs
  4. Intégration multimodale: Optimisation supplémentaire de l'intégration des informations visuelles et contextuelles

Évaluation Approfondie

Avantages

  1. Innovativité méthodologique: Première reformulation de la tâche de vocalisation comme problème de classification sans exemples, hautement novatrice
  2. Avancée technique: Combinaison ingénieuse de modèles de vision-langage avec des méthodes NLP traditionnelles
  3. Suffisance expérimentale: Études d'ablation complètes et comparaisons architecturales
  4. Contribution théorique: Démonstration de l'efficacité des représentations visuelles dans les tâches morphologiques

Insuffisances

  1. Écart de performance: N'a pas encore surpassé les méthodes existantes optimales dans les scénarios d'application réelle
  2. Complexité computationnelle: L'architecture à double encodeur peut entraîner des surcharges computationnelles supplémentaires
  3. Génération de candidats simple: La méthode basée sur KNN est relativement simple, pouvant limiter le potentiel du système
  4. Capacité de généralisation: La dégradation des performances dans les scénarios multi-candidats indique une capacité de généralisation limitée

Impact

  1. Contribution au domaine: Fourniture d'un nouveau paradigme de recherche pour la tâche de vocalisation
  2. Inspiration technique: Démonstration du potentiel des approches visuelles dans les tâches NLP
  3. Valeur pratique: Fourniture de nouvelles options d'outils pour le traitement de texte hébreu
  4. Reproductibilité: Engagement de publier le code et les données, favorisant les recherches ultérieures

Scénarios d'Application

  1. Traitement de texte hébreu: Bibliothèques numériques, logiciels éducatifs, etc.
  2. Systèmes multilingues: Extensible aux autres langues sémitiques
  3. Traitement de texte visuel: Post-traitement OCR, numérisation de documents historiques, etc.
  4. Outils de recherche: Fourniture d'outils automatisés pour la recherche linguistique

Références

L'article cite des travaux connexes abondants, notamment:

  • Gershuni et Pinter (2022): Système Nakdimon
  • Cohen et al. (2024): Système MenakBERT
  • Shmidman et al. (2020): Système Nakdan de Dicta
  • Rust et al. (2023): Modèle PIXEL
  • He et al. (2022): Architecture Vision Transformer

Évaluation Globale: Cet article de recherche est hautement innovant, appliquant pour la première fois les modèles de vision-langage à la tâche de vocalisation de l'hébreu et proposant un nouveau cadre de classification sans exemples. Bien que les performances dans certains contextes n'aient pas encore surpassé les méthodes existantes, sa méthodologie novatrice et sa validation expérimentale complète apportent des contributions précieuses et ouvrent de nouvelles directions de recherche dans ce domaine.