2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
academic

Wiederherstellung hebräischer Diakritika mittels visueller Darstellung

Grundlegende Informationen

  • Paper-ID: 2510.26521
  • Titel: Hebrew Diacritics Restoration using Visual Representation
  • Autoren: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 3. November 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2510.26521v2

Zusammenfassung

Die Wiederherstellung hebräischer Diakritika (Niqqud) ist eine grundlegende Aufgabe zur Gewährleistung korrekter Aussprache und Beseitigung von Textambiguität. Obwohl unvokalisiertes Hebräisch hochgradig mehrdeutig ist, haben jüngste maschinelle Lernmethoden die Leistung dieser Aufgabe erheblich verbessert. Dieser Artikel präsentiert DIVRIT, ein neues System, das die hebräische Diakritika-Aufgabe als Nullshot-Klassifizierungsproblem reformuliert. Die Methode arbeitet auf Wortebene und wählt für jedes unvokalisierte Wort das am besten geeignete Diakritika-Muster aus einem dynamisch generierten Kandidatensatz aus, konditioniert auf den umgebenden Textkontext. Die Schlüsselinnovation von DIVRIT ist die Verwendung eines hebräischen visuellen Sprachmodells, das unvokalisierte Texte als Bilder verarbeitet, wodurch Diakritika-Informationen direkt in die Vektordarstellung der Eingabe eingebettet werden können.

Forschungshintergrund und Motivation

Problembeschreibung

Hebräisch als Vertreter der semitischen Sprachfamilie stellt hauptsächlich Konsonanten dar. Das Fehlen von Diakritika-Symbolen (Niqqud) führt zu schwerwiegender lexikalischer Mehrdeutigkeit. Beispielsweise kann die Konsonantenfolge „mlk" je nach Kontext als „König" (melekh), „herrschte" (malakh) und viele andere Bedeutungen interpretiert werden.

Bedeutung des Problems

  1. Praktischer Wert: Automatische Vokalisierung ist für die Zugänglichkeit digitaler Texte und Mensch-Computer-Interaktion von großer Bedeutung
  2. Linguistische Komplexität: Genaue Diakritika-Wiederherstellung erfordert syntaktisches und semantisches Verständnis
  3. Technische Herausforderung: Hebräisch als morphologisch reichhaltige Sprache erfordert komplexe Anwendung von Vokalisierungsregeln und Extraktion von Geschlecht, Tempus, Wortart und anderen Informationen

Einschränkungen bestehender Methoden

  1. Dicta's Nakdan: Kombiniert Deep Learning und linguistische Regeln mit hoher Genauigkeit, aber begrenzter Generalisierungsfähigkeit
  2. Nakdimon: Rein datengesteuerte Bi-LSTM-Methode auf Zeichenebene
  3. MenakBERT: Transformer-basierte Methode mit Vortraining auf Zeichenebene

Bestehende Systeme arbeiten hauptsächlich auf Zeichenebene, während hebräische Morphologie primär durch Wortebenen-Templates gesteuert wird, was darauf hindeutet, dass Wortebenen-Analyse für diese Aufgabe besser geeignet ist.

Kernbeiträge

  1. Neuartige Methode: Erstes System, das hebräische Diakritika-Wiederherstellung als Nullshot-Klassifizierungsproblem auf Wortebene reformuliert
  2. Visuelles Sprachmodell: Entwicklung eines hebräischen visuellen Sprachmodells basierend auf Vision Transformer, das Diakritika-Muster direkt aus Bildern erlernt
  3. Kandidatengenerierungsmechanismus: Entwurf eines KNN-basierten Kandidatengenerierungsalgorithmus, der für jedes Wort dynamisch einen Satz von Diakritika-Kandidaten generiert
  4. Leistungsdurchbruch: Erreicht 92,68% Wortgenauigkeit in der Oracle-Einstellung und 87,87% in der KNN-Einstellung

Methodische Details

Aufgabendefinition

Eingabe: Unvokalisierter hebräischer Text Ausgabe: Auswahl des am besten geeigneten Diakritika-Musters für jedes Wort Einschränkung: Auswahl aus einem dynamisch generierten Kandidatensatz, konditioniert auf Kontext

Modellarchitektur

DIVRIT verwendet eine Dual-Encoder-Architektur:

1. Kandidaten-Encoder (Candidate Encoder)

  • Visueller Encoder basierend auf dem PIXEL-base-Modell
  • Verarbeitet als Bilder dargestellte Diakritika-Kandidaten
  • Generiert kandidatenspezifische Einbettungsdarstellungen

2. Kontext-Encoder (Context Encoder)

  • Verwendet das hebräische Sprachmodell ALEPHBERTGIMMEL-SMALL
  • Extrahiert Kontext-Einbettungen des unvokalisierten Wortes
  • Liefert semantische und syntaktische Kontextinformationen

3. Bewertungsmechanismus

Berechnung der Ähnlichkeit zwischen Kandidaten-Einbettung und Kontext-Einbettung durch inneres Produkt:

score(candidate, context) = embedding_candidate · embedding_context

Technische Innovationen

1. Visuelles Repräsentationslernens

  • Behandlung von Diakritika als visuelle Elemente, Vermeidung expliziter Vokabularverteilung
  • Verwendung von maskierter Bildmodellierung zum Vortraining des hebräischen PIXEL-Modells
  • Zusätzliches Vortraining auf vokalisiertem Text mit Maskierungsquote von 0,25 bis 0,1

2. Kandidatengenerierungsalgorithmus

KNN-basierter Kandidatengenerierungsmechanismus:

  • Parameter k: Anzahl der zu berücksichtigenden ähnlichen Wörter
  • Parameter c: Maximale Größe des zurückgegebenen Kandidatensatzes
  • Ähnlichkeitsberechnung basierend auf Zeichenabgleich und Positionsausrichtung
  • Nutzung der Wurzel-Template-Morphologie semitischer Sprachen

3. Nullshot-Lernrahmen

  • Jeder Kandidat als unabhängige Klasse
  • Auswahl der am besten geeigneten Klasse durch Erlernen diskriminativer Darstellungen
  • Generalisierung auf ungesehene Klassen ohne aufgabenspezifisches Training

Experimentelle Einrichtung

Datensätze

  1. Vortrainingsdaten:
    • Hebräische Wikipedia: ca. 1,9 GB
    • OSCAR hebräischer Teil: ca. 9,8 GB
    • Filterung von Proben mit weniger als 30 Zeichen
  2. Vokalisierungsdaten:
    • Datensatz von Gershuni and Pinter (2022)
    • Ca. 3,4 Millionen Token ursprünglich vokalisierter hebräischer Text
    • Umfasst modernes Hebräisch, vormodernes Hebräisch und automatisch vokalisierter Text
  3. Testset:
    • 20K Token aus verschiedenen modernen hebräischen Quellen

Bewertungsmetriken

  • WOR: Wortgenauigkeit
  • CHA: Zeichengenauigkeit
  • DEC: Diakritika-Entscheidungsgenauigkeit
  • VOC: Wortaussprache-Erhaltungsrate

Vergleichsmethoden

  • Baseline-Methoden: Mehrheitsklassen-Vorhersage-Baseline, KNN-Baseline
  • Datengesteuerte Systeme: Nakdimon, MenakBERT
  • Hybrid-Systeme: Dicta's Nakdan

Implementierungsdetails

  • Vortraining: 2M Schritte, Batch-Größe 128, 4x 48GB Nvidia RTX6000 GPU
  • Feinabstimmung: 240K Schritte, Batch-Größe 32, 2x GPU
  • Verwendung von PangoCairo-Renderer und Noto Sans Hebrew-Schriftart
  • Da Hebräisch von rechts nach links geschrieben wird, werden alle Textbilder auf Instanzebene horizontal gespiegelt

Experimentelle Ergebnisse

Hauptergebnisse

SystemDECCHAWORVOC
MAJORITY BASELINE93,7990,0184,8786,19
KNN BASELINE96,2094,0987,0987,39
NAKDIMON97,9196,3789,7591,64
MENAKBERT98,8297,9594,1295,22
DIVRIT (Oracle)98,3697,4292,6894,69
DIVRIT (KNN-basiert)96,8595,0387,8790,38
DICTA98,9498,2395,8395,93

Ablationsstudien

1. Einfluss der Kandidatenzahl

  • Zwei Kandidaten: 91,45% WOR-Genauigkeit
  • Drei Kandidaten: 74,16% WOR-Genauigkeit
  • Erhöhte Kandidatenzahl führt zu Leistungsabfall, was auf Mängel des Bewertungsmechanismus hindeutet

2. Dauer der Feinabstimmung

  • 140K Schritte: 90,54% WOR-Genauigkeit
  • 240K Schritte: 91,45% WOR-Genauigkeit
  • Verlängerte Feinabstimmung verbessert die Leistung erheblich

3. Hilfsaufgaben

Hilfsaufgabe zur Diakritika-Sack-Vorhersage:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0,5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
  • Zwei Kandidaten: Verbesserung von 90,54% auf 91,41%
  • Drei Kandidaten: Rückgang von 73,55% auf 71,49%

4. RTL-Bildverarbeitung

  • Zwei Kandidaten: 88,60% WOR-Genauigkeit
  • Drei Kandidaten: 84,93% WOR-Genauigkeit
  • Spiegelungsverarbeitung verbessert die Generalisierungsfähigkeit erheblich in Multi-Kandidaten-Szenarien

Experimentelle Erkenntnisse

  1. Effektivität visueller Darstellung: DIVRIT demonstriert das Potenzial visueller Darstellungen in der hebräischen Diakritika-Wiederherstellung
  2. Bedeutung der Kandidatengenerierung: Der Leistungsunterschied zwischen Oracle- und KNN-Einstellungen unterstreicht die Bedeutung von Verbesserungen bei der Kandidatengenerierung
  3. Generalisierungsherausforderung: Mit zunehmender Kandidatenzahl nimmt die Generalisierungsfähigkeit des Modells ab
  4. Wahl des Kontext-Encoders: Textbasierte Kontext-Encoder übertreffen rein visuelle Ansätze

Verwandte Arbeiten

Entwicklung der hebräischen Diakritika-Wiederherstellung

  1. Hybrid-Methoden: Dicta's Nakdan kombiniert Deep Learning mit manuellen Regeln
  2. Rein datengesteuert: Nakdimon verwendet Bi-LSTM, MenakBERT verwendet Transformer
  3. Zeichenebene vs. Wortebene: Bestehende Methoden verwenden überwiegend Zeichenebenen-Vorhersage; dieser Artikel präsentiert erstmals Wortebenen-Kandidatenauswahl

Nullshot-Lernen

  • Erfolg großer Sprachmodelle wie GPT-3 beim Multi-Task-Nullshot-Lernen
  • Anwendung von CLIP und ALIGN bei visuell-sprachlicher Nullshot-Klassifizierung
  • Erstmalige Anwendung von Nullshot-Lernen auf Diakritika-Aufgaben

Visuelle Sprachmodelle

  • Erfolg von Vision Transformer bei Computer-Vision-Aufgaben
  • Robustheit des PIXEL-Modells bei mehrsprachiger Textverarbeitung
  • Erstmalige Anwendung von ViT auf Kandidaten-Ranking-Aufgaben

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. DIVRIT reformuliert erfolgreich die hebräische Diakritika-Wiederherstellung als Nullshot-Klassifizierungsproblem
  2. Visuelle Darstellungen können Diakritika-Muster effektiv erfassen, ohne komplexe linguistische Analyse zu erfordern
  3. In der Oracle-Einstellung wird eine mit bestehenden Methoden konkurrierende Leistung erreicht
  4. Wortebenen-Methoden sind für die hebräische Diakritika-Wiederherstellung besser geeignet als Zeichenebenen-Methoden

Einschränkungen

  1. Abhängigkeit von Kandidatengenerierung: Das System ist weiterhin auf datengesteuerte Kandidatengenerierungsmethoden angewiesen
  2. Kontext-Encoder: Die optimale Konfiguration verwendet weiterhin einen textbasierten Kontext-Encoder
  3. Multi-Kandidaten-Generalisierung: Die Leistung nimmt mit zunehmender Kandidatenzahl erheblich ab
  4. Sprachspezifität: Auf Hebräisch entwickelt; die Anwendung auf andere Sprachen könnte auf Herausforderungen stoßen

Zukünftige Richtungen

  1. Verbesserte Kandidatengenerierung: Entwicklung präziserer Kandidatengenerierungsalgorithmen
  2. Mehrsprachige Erweiterung: Anwendung der Methode auf Arabisch, Vietnamesisch und andere diakritika-reiche Sprachen
  3. Architektur-Optimierung: Erkundung größerer Modellarchitekturen und längerer Vortrainingsprozesse
  4. Multimodale Integration: Weitere Optimierung der Integration visueller und Kontextinformationen

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovativität: Erstmalige Reformulierung der Diakritika-Aufgabe als Nullshot-Klassifizierungsproblem mit Pioniercharakter
  2. Technische Fortgeschrittenheit: Geschickte Kombination visueller Sprachmodelle mit traditionellen NLP-Methoden
  3. Experimentelle Gründlichkeit: Umfassende Ablationsstudien und Architekturvergleiche
  4. Theoretischer Beitrag: Nachweis der Effektivität visueller Darstellungen bei morphologischen Aufgaben

Schwächen

  1. Leistungslücke: Übertrifft in praktischen Anwendungsszenarien bestehende beste Methoden nicht
  2. Rechenkomplexität: Die Dual-Encoder-Architektur könnte zusätzliche Rechenkosten verursachen
  3. Einfache Kandidatengenerierung: KNN-basierte Methode ist relativ einfach und könnte das Potenzial des Systems begrenzen
  4. Generalisierungsfähigkeit: Leistungsabfall in Multi-Kandidaten-Szenarien deutet auf begrenzte Generalisierungsfähigkeit hin

Auswirkungen

  1. Fachbeitrag: Bietet ein neues Forschungsparadigma für Diakritika-Aufgaben
  2. Technische Inspiration: Demonstriert das Anwendungspotenzial visueller Methoden in NLP-Aufgaben
  3. Praktischer Wert: Bietet neue Werkzeugoptionen für hebräische Textverarbeitung
  4. Reproduzierbarkeit: Zusage zur Veröffentlichung von Code und Daten fördert Folgeforschen

Anwendungsszenarien

  1. Hebräische Textverarbeitung: Digitale Bibliotheken, Bildungssoftware usw.
  2. Mehrsprachige Systeme: Erweiterbar auf andere semitische Sprachen
  3. Visuelle Textverarbeitung: OCR-Nachbearbeitung, Digitalisierung historischer Dokumente usw.
  4. Forschungswerkzeuge: Automatisierte Werkzeuge für linguistische Forschung

Literaturverzeichnis

Der Artikel zitiert umfangreiche verwandte Arbeiten, darunter:

  • Gershuni and Pinter (2022): Nakdimon-System
  • Cohen et al. (2024): MenakBERT-System
  • Shmidman et al. (2020): Dicta's Nakdan-System
  • Rust et al. (2023): PIXEL-Modell
  • He et al. (2022): Vision Transformer-Architektur

Gesamtbewertung: Dies ist ein innovatives Forschungspapier, das erstmals visuelle Sprachmodelle auf die hebräische Diakritika-Wiederherstellung anwendet und einen neuen Rahmen für Nullshot-Klassifizierung vorschlägt. Obwohl die Leistung in bestimmten Einstellungen bestehende Methoden noch nicht übertrifft, bietet sein innovativer Ansatz und umfassende experimentelle Validierung wertvolle Beiträge und neue Forschungsrichtungen für dieses Gebiet.