2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter

Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.

academic

Wiederherstellung hebräischer Diakritika mittels visueller Darstellung

Grundlegende Informationen

Paper-ID: 2510.26521
Titel: Hebrew Diacritics Restoration using Visual Representation
Autoren: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 3. November 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2510.26521v2

Zusammenfassung

Die Wiederherstellung hebräischer Diakritika (Niqqud) ist eine grundlegende Aufgabe zur Gewährleistung korrekter Aussprache und Beseitigung von Textambiguität. Obwohl unvokalisiertes Hebräisch hochgradig mehrdeutig ist, haben jüngste maschinelle Lernmethoden die Leistung dieser Aufgabe erheblich verbessert. Dieser Artikel präsentiert DIVRIT, ein neues System, das die hebräische Diakritika-Aufgabe als Nullshot-Klassifizierungsproblem reformuliert. Die Methode arbeitet auf Wortebene und wählt für jedes unvokalisierte Wort das am besten geeignete Diakritika-Muster aus einem dynamisch generierten Kandidatensatz aus, konditioniert auf den umgebenden Textkontext. Die Schlüsselinnovation von DIVRIT ist die Verwendung eines hebräischen visuellen Sprachmodells, das unvokalisierte Texte als Bilder verarbeitet, wodurch Diakritika-Informationen direkt in die Vektordarstellung der Eingabe eingebettet werden können.

Forschungshintergrund und Motivation

Problembeschreibung

Hebräisch als Vertreter der semitischen Sprachfamilie stellt hauptsächlich Konsonanten dar. Das Fehlen von Diakritika-Symbolen (Niqqud) führt zu schwerwiegender lexikalischer Mehrdeutigkeit. Beispielsweise kann die Konsonantenfolge „mlk" je nach Kontext als „König" (melekh), „herrschte" (malakh) und viele andere Bedeutungen interpretiert werden.

Bedeutung des Problems

Praktischer Wert: Automatische Vokalisierung ist für die Zugänglichkeit digitaler Texte und Mensch-Computer-Interaktion von großer Bedeutung
Linguistische Komplexität: Genaue Diakritika-Wiederherstellung erfordert syntaktisches und semantisches Verständnis
Technische Herausforderung: Hebräisch als morphologisch reichhaltige Sprache erfordert komplexe Anwendung von Vokalisierungsregeln und Extraktion von Geschlecht, Tempus, Wortart und anderen Informationen

Einschränkungen bestehender Methoden

Dicta's Nakdan: Kombiniert Deep Learning und linguistische Regeln mit hoher Genauigkeit, aber begrenzter Generalisierungsfähigkeit
Nakdimon: Rein datengesteuerte Bi-LSTM-Methode auf Zeichenebene
MenakBERT: Transformer-basierte Methode mit Vortraining auf Zeichenebene

Bestehende Systeme arbeiten hauptsächlich auf Zeichenebene, während hebräische Morphologie primär durch Wortebenen-Templates gesteuert wird, was darauf hindeutet, dass Wortebenen-Analyse für diese Aufgabe besser geeignet ist.

Kernbeiträge

Neuartige Methode: Erstes System, das hebräische Diakritika-Wiederherstellung als Nullshot-Klassifizierungsproblem auf Wortebene reformuliert
Visuelles Sprachmodell: Entwicklung eines hebräischen visuellen Sprachmodells basierend auf Vision Transformer, das Diakritika-Muster direkt aus Bildern erlernt
Kandidatengenerierungsmechanismus: Entwurf eines KNN-basierten Kandidatengenerierungsalgorithmus, der für jedes Wort dynamisch einen Satz von Diakritika-Kandidaten generiert
Leistungsdurchbruch: Erreicht 92,68% Wortgenauigkeit in der Oracle-Einstellung und 87,87% in der KNN-Einstellung

Methodische Details

Aufgabendefinition

Eingabe: Unvokalisierter hebräischer Text Ausgabe: Auswahl des am besten geeigneten Diakritika-Musters für jedes Wort Einschränkung: Auswahl aus einem dynamisch generierten Kandidatensatz, konditioniert auf Kontext

Modellarchitektur

DIVRIT verwendet eine Dual-Encoder-Architektur:

1. Kandidaten-Encoder (Candidate Encoder)

Visueller Encoder basierend auf dem PIXEL-base-Modell
Verarbeitet als Bilder dargestellte Diakritika-Kandidaten
Generiert kandidatenspezifische Einbettungsdarstellungen

2. Kontext-Encoder (Context Encoder)

Verwendet das hebräische Sprachmodell ALEPHBERTGIMMEL-SMALL
Extrahiert Kontext-Einbettungen des unvokalisierten Wortes
Liefert semantische und syntaktische Kontextinformationen

3. Bewertungsmechanismus

Berechnung der Ähnlichkeit zwischen Kandidaten-Einbettung und Kontext-Einbettung durch inneres Produkt:

score(candidate, context) = embedding_candidate · embedding_context

Technische Innovationen

1. Visuelles Repräsentationslernens

Behandlung von Diakritika als visuelle Elemente, Vermeidung expliziter Vokabularverteilung
Verwendung von maskierter Bildmodellierung zum Vortraining des hebräischen PIXEL-Modells
Zusätzliches Vortraining auf vokalisiertem Text mit Maskierungsquote von 0,25 bis 0,1

2. Kandidatengenerierungsalgorithmus

KNN-basierter Kandidatengenerierungsmechanismus:

Parameter k: Anzahl der zu berücksichtigenden ähnlichen Wörter
Parameter c: Maximale Größe des zurückgegebenen Kandidatensatzes
Ähnlichkeitsberechnung basierend auf Zeichenabgleich und Positionsausrichtung
Nutzung der Wurzel-Template-Morphologie semitischer Sprachen

3. Nullshot-Lernrahmen

Jeder Kandidat als unabhängige Klasse
Auswahl der am besten geeigneten Klasse durch Erlernen diskriminativer Darstellungen
Generalisierung auf ungesehene Klassen ohne aufgabenspezifisches Training

Experimentelle Einrichtung

Datensätze

Vortrainingsdaten:
- Hebräische Wikipedia: ca. 1,9 GB
- OSCAR hebräischer Teil: ca. 9,8 GB
- Filterung von Proben mit weniger als 30 Zeichen
Vokalisierungsdaten:
- Datensatz von Gershuni and Pinter (2022)
- Ca. 3,4 Millionen Token ursprünglich vokalisierter hebräischer Text
- Umfasst modernes Hebräisch, vormodernes Hebräisch und automatisch vokalisierter Text
Testset:
- 20K Token aus verschiedenen modernen hebräischen Quellen

Bewertungsmetriken

WOR: Wortgenauigkeit
CHA: Zeichengenauigkeit
DEC: Diakritika-Entscheidungsgenauigkeit
VOC: Wortaussprache-Erhaltungsrate

Vergleichsmethoden

Baseline-Methoden: Mehrheitsklassen-Vorhersage-Baseline, KNN-Baseline
Datengesteuerte Systeme: Nakdimon, MenakBERT
Hybrid-Systeme: Dicta's Nakdan

Implementierungsdetails

Vortraining: 2M Schritte, Batch-Größe 128, 4x 48GB Nvidia RTX6000 GPU
Feinabstimmung: 240K Schritte, Batch-Größe 32, 2x GPU
Verwendung von PangoCairo-Renderer und Noto Sans Hebrew-Schriftart
Da Hebräisch von rechts nach links geschrieben wird, werden alle Textbilder auf Instanzebene horizontal gespiegelt

Experimentelle Ergebnisse

Hauptergebnisse

System	DEC	CHA	WOR	VOC
MAJORITY BASELINE	93,79	90,01	84,87	86,19
KNN BASELINE	96,20	94,09	87,09	87,39
NAKDIMON	97,91	96,37	89,75	91,64
MENAKBERT	98,82	97,95	94,12	95,22
DIVRIT (Oracle)	98,36	97,42	92,68	94,69
DIVRIT (KNN-basiert)	96,85	95,03	87,87	90,38
DICTA	98,94	98,23	95,83	95,93

Ablationsstudien

1. Einfluss der Kandidatenzahl

Zwei Kandidaten: 91,45% WOR-Genauigkeit
Drei Kandidaten: 74,16% WOR-Genauigkeit
Erhöhte Kandidatenzahl führt zu Leistungsabfall, was auf Mängel des Bewertungsmechanismus hindeutet

2. Dauer der Feinabstimmung

140K Schritte: 90,54% WOR-Genauigkeit
240K Schritte: 91,45% WOR-Genauigkeit
Verlängerte Feinabstimmung verbessert die Leistung erheblich

3. Hilfsaufgaben

Hilfsaufgabe zur Diakritika-Sack-Vorhersage:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0,5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))

Zwei Kandidaten: Verbesserung von 90,54% auf 91,41%
Drei Kandidaten: Rückgang von 73,55% auf 71,49%

4. RTL-Bildverarbeitung

Zwei Kandidaten: 88,60% WOR-Genauigkeit
Drei Kandidaten: 84,93% WOR-Genauigkeit
Spiegelungsverarbeitung verbessert die Generalisierungsfähigkeit erheblich in Multi-Kandidaten-Szenarien

Experimentelle Erkenntnisse

Effektivität visueller Darstellung: DIVRIT demonstriert das Potenzial visueller Darstellungen in der hebräischen Diakritika-Wiederherstellung
Bedeutung der Kandidatengenerierung: Der Leistungsunterschied zwischen Oracle- und KNN-Einstellungen unterstreicht die Bedeutung von Verbesserungen bei der Kandidatengenerierung
Generalisierungsherausforderung: Mit zunehmender Kandidatenzahl nimmt die Generalisierungsfähigkeit des Modells ab
Wahl des Kontext-Encoders: Textbasierte Kontext-Encoder übertreffen rein visuelle Ansätze

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

DIVRIT reformuliert erfolgreich die hebräische Diakritika-Wiederherstellung als Nullshot-Klassifizierungsproblem
Visuelle Darstellungen können Diakritika-Muster effektiv erfassen, ohne komplexe linguistische Analyse zu erfordern
In der Oracle-Einstellung wird eine mit bestehenden Methoden konkurrierende Leistung erreicht
Wortebenen-Methoden sind für die hebräische Diakritika-Wiederherstellung besser geeignet als Zeichenebenen-Methoden

Einschränkungen

Abhängigkeit von Kandidatengenerierung: Das System ist weiterhin auf datengesteuerte Kandidatengenerierungsmethoden angewiesen
Kontext-Encoder: Die optimale Konfiguration verwendet weiterhin einen textbasierten Kontext-Encoder
Multi-Kandidaten-Generalisierung: Die Leistung nimmt mit zunehmender Kandidatenzahl erheblich ab
Sprachspezifität: Auf Hebräisch entwickelt; die Anwendung auf andere Sprachen könnte auf Herausforderungen stoßen

Zukünftige Richtungen

Verbesserte Kandidatengenerierung: Entwicklung präziserer Kandidatengenerierungsalgorithmen
Mehrsprachige Erweiterung: Anwendung der Methode auf Arabisch, Vietnamesisch und andere diakritika-reiche Sprachen
Architektur-Optimierung: Erkundung größerer Modellarchitekturen und längerer Vortrainingsprozesse
Multimodale Integration: Weitere Optimierung der Integration visueller und Kontextinformationen

Tiefgreifende Bewertung

Stärken

Methodische Innovativität: Erstmalige Reformulierung der Diakritika-Aufgabe als Nullshot-Klassifizierungsproblem mit Pioniercharakter
Technische Fortgeschrittenheit: Geschickte Kombination visueller Sprachmodelle mit traditionellen NLP-Methoden
Experimentelle Gründlichkeit: Umfassende Ablationsstudien und Architekturvergleiche
Theoretischer Beitrag: Nachweis der Effektivität visueller Darstellungen bei morphologischen Aufgaben

Schwächen

Leistungslücke: Übertrifft in praktischen Anwendungsszenarien bestehende beste Methoden nicht
Rechenkomplexität: Die Dual-Encoder-Architektur könnte zusätzliche Rechenkosten verursachen
Einfache Kandidatengenerierung: KNN-basierte Methode ist relativ einfach und könnte das Potenzial des Systems begrenzen
Generalisierungsfähigkeit: Leistungsabfall in Multi-Kandidaten-Szenarien deutet auf begrenzte Generalisierungsfähigkeit hin

Auswirkungen

Fachbeitrag: Bietet ein neues Forschungsparadigma für Diakritika-Aufgaben
Technische Inspiration: Demonstriert das Anwendungspotenzial visueller Methoden in NLP-Aufgaben
Praktischer Wert: Bietet neue Werkzeugoptionen für hebräische Textverarbeitung
Reproduzierbarkeit: Zusage zur Veröffentlichung von Code und Daten fördert Folgeforschen

Anwendungsszenarien

Hebräische Textverarbeitung: Digitale Bibliotheken, Bildungssoftware usw.
Mehrsprachige Systeme: Erweiterbar auf andere semitische Sprachen
Visuelle Textverarbeitung: OCR-Nachbearbeitung, Digitalisierung historischer Dokumente usw.
Forschungswerkzeuge: Automatisierte Werkzeuge für linguistische Forschung

Literaturverzeichnis

Der Artikel zitiert umfangreiche verwandte Arbeiten, darunter:

Gershuni and Pinter (2022): Nakdimon-System
Cohen et al. (2024): MenakBERT-System
Shmidman et al. (2020): Dicta's Nakdan-System
Rust et al. (2023): PIXEL-Modell
He et al. (2022): Vision Transformer-Architektur

Gesamtbewertung: Dies ist ein innovatives Forschungspapier, das erstmals visuelle Sprachmodelle auf die hebräische Diakritika-Wiederherstellung anwendet und einen neuen Rahmen für Nullshot-Klassifizierung vorschlägt. Obwohl die Leistung in bestimmten Einstellungen bestehende Methoden noch nicht übertrifft, bietet sein innovativer Ansatz und umfassende experimentelle Validierung wertvolle Beiträge und neue Forschungsrichtungen für dieses Gebiet.