2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
academic

Ripristino dei Diacritici Ebraici Utilizzando la Rappresentazione Visiva

Informazioni Fondamentali

  • ID Articolo: 2510.26521
  • Titolo: Hebrew Diacritics Restoration using Visual Representation
  • Autori: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 3 novembre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2510.26521v2

Riassunto

Il ripristino dei diacritici ebraici è un compito fondamentale per garantire una pronuncia accurata e eliminare l'ambiguità testuale. Sebbene l'ebraico non vocalizzato presenti un elevato grado di ambiguità, i recenti metodi di apprendimento automatico hanno significativamente migliorato le prestazioni di questo compito. L'articolo propone DIVRIT, un nuovo sistema che inquadra il compito della vocalizzazione ebraica come un problema di classificazione zero-shot. Il metodo opera a livello di parola, selezionando il modello di diacritici più appropriato per ogni parola non vocalizzata da un insieme di candidati generato dinamicamente, condizionato dal contesto testuale circostante. L'innovazione chiave di DIVRIT è l'utilizzo di un modello visivo-linguistico ebraico, che elabora il testo non vocalizzato come immagine, consentendo alle informazioni sui diacritici di essere direttamente incorporate nella rappresentazione vettoriale dell'input.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'ebraico, come rappresentante della famiglia linguistica semitica, rappresenta principalmente le consonanti, e l'assenza di simboli diacritici (niqqud) causa gravi ambiguità lessicali. Ad esempio, la sequenza consonantica "mlk" può essere interpretata come "re" (melekh), "regnò" (malakh) e altri significati, a seconda dal contesto.

Importanza del Problema

  1. Valore Pratico: La vocalizzazione automatica è significativa per l'accessibilità del testo digitale e l'interazione uomo-macchina
  2. Complessità Linguistica: Il ripristino accurato dei diacritici richiede la comprensione sintattica e semantica
  3. Sfida Tecnica: L'ebraico, come lingua morfologicamente ricca, presenta regole di vocalizzazione complesse che richiedono l'estrazione di informazioni su genere, tempo, parte del discorso, ecc.

Limitazioni dei Metodi Esistenti

  1. Dicta's Nakdan: Combina apprendimento profondo e regole linguistiche, con elevata precisione ma capacità di generalizzazione limitata
  2. Nakdimon: Approccio puramente data-driven basato su Bi-LSTM a livello di carattere
  3. MenakBERT: Metodo basato su Transformer pre-addestrato a livello di carattere

I sistemi esistenti operano principalmente a livello di carattere, mentre la morfologia ebraica è principalmente controllata da template a livello di parola, suggerendo che l'analisi a livello di parola sia più appropriata per questo compito.

Contributi Principali

  1. Approccio Innovativo: Propone il primo sistema a livello di parola che inquadra la vocalizzazione ebraica come problema di classificazione zero-shot
  2. Modello Visivo-Linguistico: Sviluppa un modello visivo-linguistico ebraico basato su Vision Transformer che apprende i modelli di diacritici direttamente dalle immagini
  3. Meccanismo di Generazione dei Candidati: Progetta un algoritmo di generazione dei candidati basato su KNN che genera dinamicamente insiemi di candidati vocalizzati per ogni parola
  4. Avanzamento delle Prestazioni: Raggiunge il 92,68% di precisione a livello di parola in configurazione Oracle e l'87,87% in configurazione KNN

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Testo ebraico non vocalizzato Output: Selezione del modello di diacritici più appropriato per ogni parola Vincoli: Selezione da un insieme di candidati generato dinamicamente, condizionato dal contesto

Architettura del Modello

DIVRIT adotta un'architettura a doppio codificatore:

1. Codificatore dei Candidati (Candidate Encoder)

  • Codificatore visivo basato sul modello PIXEL-base
  • Elabora i candidati vocalizzati renderizzati come immagini
  • Genera rappresentazioni di embedding specifiche per i candidati

2. Codificatore del Contesto (Context Encoder)

  • Utilizza il modello linguistico ebraico ALEPHBERTGIMMEL-SMALL
  • Estrae embedding del contesto per le parole non vocalizzate
  • Fornisce informazioni di contesto semantico e sintattico

3. Meccanismo di Scoring

Calcola la similarità tra embedding dei candidati e embedding del contesto tramite prodotto interno:

score(candidato, contesto) = embedding_candidato · embedding_contesto

Punti di Innovazione Tecnica

1. Apprendimento della Rappresentazione Visiva

  • Elabora i diacritici come elementi visivi, evitando l'assegnazione lessicale esplicita
  • Utilizza il pre-addestramento con obiettivo di modellazione di immagini mascherate per il modello PIXEL ebraico
  • Pre-addestramento aggiuntivo su testo vocalizzato, con rapporto di mascheramento ridotto da 0,25 a 0,1

2. Algoritmo di Generazione dei Candidati

Meccanismo di generazione dei candidati basato su KNN:

  • Parametro k: numero di parole simili considerate
  • Parametro c: dimensione massima dell'insieme di candidati restituito
  • Calcola la similarità basata su corrispondenza a livello di carattere e allineamento posizionale
  • Sfrutta le caratteristiche morfologiche radice-template delle lingue semitiche

3. Framework di Apprendimento Zero-Shot

  • Ogni candidato come categoria indipendente
  • Selezione della categoria più appropriata attraverso l'apprendimento di rappresentazioni discriminative
  • Generalizzazione a categorie non viste senza addestramento specifico del compito

Configurazione Sperimentale

Dataset

  1. Dati di Pre-addestramento:
    • Wikipedia ebraica: circa 1,9 GB
    • Porzione ebraica di OSCAR: circa 9,8 GB
    • Filtrazione di campioni con meno di 30 caratteri
  2. Dati di Vocalizzazione:
    • Dataset di Gershuni e Pinter (2022)
    • Circa 3,4 milioni di token di testo ebraico vocalizzato originale
    • Include ebraico moderno, ebraico pre-moderno e testo vocalizzato automaticamente
  3. Set di Test:
    • 20K token da diverse fonti di ebraico moderno

Metriche di Valutazione

  • WOR: Precisione a livello di parola
  • CHA: Precisione a livello di carattere
  • DEC: Precisione decisionale a livello di diacritici
  • VOC: Tasso di conservazione della pronuncia a livello di parola

Metodi di Confronto

  • Metodi di Base: Baseline di predizione della classe maggioritaria, baseline KNN
  • Sistemi Data-Driven: Nakdimon, MenakBERT
  • Sistemi Ibridi: Dicta's Nakdan

Dettagli di Implementazione

  • Pre-addestramento: 2M step, dimensione batch 128, 4 GPU Nvidia RTX6000 da 48GB
  • Fine-tuning: 240K step, dimensione batch 32, 2 GPU
  • Utilizzo del renderer PangoCairo e font Noto Sans Hebrew
  • Poiché l'ebraico è scritto da destra a sinistra, tutte le immagini di testo sono specchiate orizzontalmente a livello di istanza

Risultati Sperimentali

Risultati Principali

SistemaDECCHAWORVOC
MAJORITY BASELINE93,7990,0184,8786,19
KNN BASELINE96,2094,0987,0987,39
NAKDIMON97,9196,3789,7591,64
MENAKBERT98,8297,9594,1295,22
DIVRIT (Oracle)98,3697,4292,6894,69
DIVRIT (Basato su KNN)96,8595,0387,8790,38
DICTA98,9498,2395,8395,93

Esperimenti di Ablazione

1. Impatto del Numero di Candidati

  • Selezione di due candidati: 91,45% di precisione WOR
  • Selezione di tre candidati: 74,16% di precisione WOR
  • L'aumento del numero di candidati causa un calo delle prestazioni, indicando insufficienze nel meccanismo di scoring

2. Durata del Fine-tuning

  • 140K step: 90,54% di precisione WOR
  • 240K step: 91,45% di precisione WOR
  • L'estensione del fine-tuning migliora significativamente le prestazioni

3. Compiti Ausiliari

Compito ausiliario di predizione del sacchetto di diacritici:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0,5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
  • Due candidati: miglioramento da 90,54% a 91,41%
  • Tre candidati: calo da 73,55% a 71,49%

4. Elaborazione di Immagini RTL

  • Due candidati: 88,60% di precisione WOR
  • Tre candidati: 84,93% di precisione WOR
  • L'elaborazione speculare migliora significativamente la generalizzazione in scenari multi-candidato

Risultati Sperimentali

  1. Efficacia della Rappresentazione Visiva: DIVRIT dimostra il potenziale della rappresentazione visiva nella vocalizzazione ebraica
  2. Importanza della Generazione dei Candidati: Il divario di prestazioni tra le configurazioni Oracle e KNN evidenzia l'importanza del miglioramento della generazione dei candidati
  3. Sfida di Generalizzazione: Con l'aumento del numero di candidati, la capacità di generalizzazione del modello diminuisce
  4. Scelta del Codificatore del Contesto: Il codificatore del contesto basato su testo supera l'approccio puramente visivo

Lavori Correlati

Sviluppo della Vocalizzazione Ebraica

  1. Metodi Ibridi: Dicta's Nakdan combina apprendimento profondo con regole artificiali
  2. Puramente Data-Driven: Nakdimon utilizza Bi-LSTM, MenakBERT utilizza Transformer
  3. Livello di Carattere vs Livello di Parola: I metodi esistenti adottano principalmente la predizione a livello di carattere, questo articolo propone per la prima volta la selezione di candidati a livello di parola

Apprendimento Zero-Shot

  • Successo di modelli linguistici su larga scala come GPT-3 nell'apprendimento zero-shot multi-compito
  • Applicazione di CLIP e ALIGN nella classificazione zero-shot visivo-linguistica
  • Questo articolo applica per la prima volta l'apprendimento zero-shot al compito di vocalizzazione

Modelli Visivo-Linguistici

  • Successo di Vision Transformer nei compiti di visione artificiale
  • Robustezza del modello PIXEL nell'elaborazione di testo multilingue
  • Questo articolo applica per la prima volta ViT al compito di ranking dei candidati

Conclusioni e Discussione

Conclusioni Principali

  1. DIVRIT inquadra con successo la vocalizzazione ebraica come problema di classificazione zero-shot
  2. La rappresentazione visiva può catturare efficacemente i modelli di diacritici senza richiedere analisi linguistica complessa
  3. Raggiunge prestazioni competitive con i metodi esistenti in configurazione Oracle
  4. L'approccio a livello di parola è più appropriato rispetto al metodo a livello di carattere per la vocalizzazione ebraica

Limitazioni

  1. Dipendenza dalla Generazione dei Candidati: Il sistema dipende ancora da metodi di generazione dei candidati data-driven
  2. Codificatore del Contesto: La configurazione ottimale utilizza ancora un codificatore del contesto basato su testo
  3. Generalizzazione Multi-Candidato: Le prestazioni diminuiscono significativamente con l'aumento del numero di candidati
  4. Specificità Linguistica: Sviluppato sull'ebraico, l'applicazione ad altre lingue potrebbe affrontare sfide

Direzioni Future

  1. Miglioramento della Generazione dei Candidati: Sviluppare algoritmi di generazione dei candidati più precisi
  2. Estensione Multilingue: Applicare il metodo all'arabo, vietnamita e altre lingue ricche di diacritici
  3. Ottimizzazione dell'Architettura: Esplorare architetture di modelli più grandi e processi di pre-addestramento più lunghi
  4. Integrazione Multimodale: Ottimizzare ulteriormente l'integrazione di informazioni visive e contestuali

Valutazione Approfondita

Punti di Forza

  1. Innovazione Metodologica: Primo inquadramento del compito di vocalizzazione come problema di classificazione zero-shot, altamente innovativo
  2. Avanzamento Tecnico: Combinazione intelligente di modelli visivo-linguistici con metodi NLP tradizionali
  3. Completezza Sperimentale: Esperimenti di ablazione completi e confronti architetturali
  4. Contributo Teorico: Dimostra l'efficacia della rappresentazione visiva nei compiti morfologici

Limitazioni

  1. Divario di Prestazioni: In scenari di applicazione pratica non supera ancora i metodi migliori esistenti
  2. Complessità Computazionale: L'architettura a doppio codificatore potrebbe comportare costi computazionali aggiuntivi
  3. Semplicità della Generazione dei Candidati: Il metodo basato su KNN è relativamente semplice e potrebbe limitare il potenziale del sistema
  4. Capacità di Generalizzazione: La diminuzione delle prestazioni in scenari multi-candidato indica una capacità di generalizzazione limitata

Impatto

  1. Contributo al Settore: Fornisce un nuovo paradigma di ricerca per il compito di vocalizzazione
  2. Ispirazione Tecnica: Dimostra il potenziale di applicazione dei metodi visivi nei compiti NLP
  3. Valore Pratico: Fornisce nuove opzioni di strumenti per l'elaborazione del testo ebraico
  4. Riproducibilità: Impegno a pubblicare codice e dati, favorendo la ricerca successiva

Scenari di Applicazione

  1. Elaborazione del Testo Ebraico: Biblioteche digitali, software educativi, ecc.
  2. Sistemi Multilingui: Estensibile ad altre lingue semitiche
  3. Elaborazione di Testo Visivo: Post-elaborazione OCR, digitalizzazione di documenti storici, ecc.
  4. Strumenti di Ricerca: Fornisce strumenti automatizzati per la ricerca linguistica

Bibliografia

L'articolo cita lavori correlati ricchi, tra cui:

  • Gershuni e Pinter (2022): Sistema Nakdimon
  • Cohen et al. (2024): Sistema MenakBERT
  • Shmidman et al. (2020): Sistema Dicta's Nakdan
  • Rust et al. (2023): Modello PIXEL
  • He et al. (2022): Architettura Vision Transformer

Valutazione Complessiva: Questo è un articolo di ricerca innovativo che applica per la prima volta modelli visivo-linguistici al compito di vocalizzazione ebraica, proponendo un nuovo framework di classificazione zero-shot. Sebbene le prestazioni in alcune configurazioni non superino ancora i metodi esistenti, il suo approccio innovativo e la verifica sperimentale completa forniscono contributi preziosi e nuove direzioni di ricerca al settore.