2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter

Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.

academic

Restauración de Diacríticos del Hebreo mediante Representación Visual

Información Básica

ID del Artículo: 2510.26521
Título: Restauración de Diacríticos del Hebreo mediante Representación Visual
Autores: Yair Elboher, Yuval Pinter (Universidad Ben-Gurion del Negev)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 3 de noviembre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2510.26521v2

Resumen

La restauración de diacríticos del hebreo es una tarea fundamental para garantizar la pronunciación precisa y eliminar la ambigüedad textual. Aunque el hebreo sin diacríticos presenta un alto grado de ambigüedad, los métodos recientes de aprendizaje automático han mejorado significativamente el rendimiento en esta tarea. Este artículo propone DIVRIT, un nuevo sistema que redefine la tarea de diacritización del hebreo como un problema de clasificación de cero ejemplos. El método opera a nivel de palabra, seleccionando el patrón diacrítico más apropiado para cada palabra sin diacríticos de un conjunto de candidatos generado dinámicamente, condicionado por el contexto textual circundante. La innovación clave de DIVRIT es el uso de un modelo de lenguaje visual hebreo, procesando texto sin diacríticos como imágenes, permitiendo que la información diacrítica se incruste directamente en la representación vectorial de la entrada.

Antecedentes y Motivación de la Investigación

Definición del Problema

El hebreo, como representante de la familia de lenguas semíticas, representa principalmente consonantes, y la ausencia de símbolos diacríticos (niqqud) causa una ambigüedad léxica grave. Por ejemplo, la cadena consonántica "mlk" puede interpretarse como "king" (melekh), "reigned" (malakh) u otros significados múltiples, dependiendo del contexto.

Importancia del Problema

Valor Práctico: La diacritización automática es significativa para la accesibilidad del texto digital e interacción humano-máquina
Complejidad Lingüística: La restauración precisa de diacríticos requiere comprensión sintáctica y semántica
Desafío Técnico: Como lengua morfológicamente rica, la aplicación de reglas de diacritización del hebreo es compleja, requiriendo extracción de información de género, tiempo verbal, categoría gramatical, etc.

Limitaciones de Métodos Existentes

Nakdan de Dicta: Combina aprendizaje profundo y reglas lingüísticas, con alta precisión pero capacidad de generalización limitada
Nakdimon: Enfoque puramente impulsado por datos usando Bi-LSTM a nivel de carácter
MenakBERT: Método preentrenado basado en Transformer a nivel de carácter

Los sistemas existentes operan principalmente a nivel de carácter, mientras que la morfología del hebreo está controlada principalmente por plantillas a nivel de palabra, sugiriendo que el análisis a nivel de palabra es más apropiado para esta tarea.

Contribuciones Principales

Enfoque Pionero: Propone el primer sistema a nivel de palabra que redefine la diacritización del hebreo como un problema de clasificación de cero ejemplos
Modelo de Lenguaje Visual: Desarrolla un modelo de lenguaje visual hebreo basado en Vision Transformer, aprendiendo patrones diacríticos directamente de imágenes
Mecanismo de Generación de Candidatos: Diseña un algoritmo de generación de candidatos basado en KNN que genera dinámicamente conjuntos de candidatos diacríticos para cada palabra
Avance en Rendimiento: Logra 92.68% de precisión a nivel de palabra en configuración Oracle y 87.87% en configuración KNN

Explicación Detallada del Método

Definición de la Tarea

Entrada: Texto hebreo sin diacríticos Salida: Seleccionar el patrón diacrítico más apropiado para cada palabra Restricción: Seleccionar de un conjunto de candidatos generado dinámicamente, condicionado por el contexto

Arquitectura del Modelo

DIVRIT adopta una arquitectura de doble codificador:

1. Codificador de Candidatos (Candidate Encoder)

Codificador visual basado en el modelo PIXEL-base
Procesa candidatos diacríticos renderizados como imágenes
Genera representaciones de incrustación específicas del candidato

2. Codificador de Contexto (Context Encoder)

Utiliza el modelo de lenguaje hebreo ALEPHBERTGIMMEL-SMALL
Extrae incrustaciones de contexto de palabras sin diacríticos
Proporciona información de contexto semántico y sintáctico

3. Mecanismo de Puntuación

Calcula la similitud entre incrustaciones de candidatos e incrustaciones de contexto mediante producto interno:

score(candidate, context) = embedding_candidate · embedding_context

Puntos de Innovación Técnica

1. Aprendizaje de Representación Visual

Procesa diacríticos como elementos visuales, evitando asignación de vocabulario explícita
Utiliza modelado de imágenes enmascaradas para preentrenar el modelo PIXEL hebreo
Preentrenamiento adicional en texto diacritizado, reduciendo la proporción de enmascaramiento de 0.25 a 0.1

2. Algoritmo de Generación de Candidatos

Mecanismo de generación de candidatos basado en KNN:

Parámetro k: número de palabras similares a considerar
Parámetro c: tamaño máximo del conjunto de candidatos devuelto
Calcula similitud basada en coincidencia de caracteres y alineación de posición
Aprovecha características morfológicas de raíz-plantilla de lenguas semíticas

3. Marco de Aprendizaje de Cero Ejemplos

Cada candidato como categoría independiente
Selecciona la categoría más apropiada mediante aprendizaje de representaciones discriminativas
Generaliza a categorías no vistas sin entrenamiento específico de tarea

Configuración Experimental

Conjunto de Datos

Datos de Preentrenamiento:
- Wikipedia en hebreo: aproximadamente 1.9GB
- Porción hebraica de OSCAR: aproximadamente 9.8GB
- Filtración de muestras con menos de 30 caracteres
Datos de Diacritización:
- Conjunto de datos de Gershuni and Pinter (2022)
- Aproximadamente 3.4 millones de tokens de texto hebreo diacritizado original
- Incluye hebreo moderno, hebreo premoderno y texto diacritizado automáticamente
Conjunto de Prueba:
- 20K tokens, de múltiples fuentes de hebreo moderno

Métricas de Evaluación

WOR: Precisión a nivel de palabra
CHA: Precisión a nivel de carácter
DEC: Precisión de decisión a nivel de diacrítico
VOC: Tasa de preservación de pronunciación a nivel de palabra

Métodos de Comparación

Métodos Base: Línea base de predicción de clase mayoritaria, línea base KNN
Sistemas Impulsados por Datos: Nakdimon, MenakBERT
Sistemas Híbridos: Nakdan de Dicta

Detalles de Implementación

Preentrenamiento: 2M pasos, tamaño de lote 128, 4 GPU Nvidia RTX6000 de 48GB
Ajuste fino: 240K pasos, tamaño de lote 32, 2 GPU
Uso de renderizador PangoCairo y fuente Noto Sans Hebrew
Debido a la escritura de derecha a izquierda del hebreo, todas las imágenes de texto se espejaban horizontalmente a nivel de instancia

Resultados Experimentales

Resultados Principales

Sistema	DEC	CHA	WOR	VOC
LÍNEA BASE MAYORITARIA	93.79	90.01	84.87	86.19
LÍNEA BASE KNN	96.20	94.09	87.09	87.39
NAKDIMON	97.91	96.37	89.75	91.64
MENAKBERT	98.82	97.95	94.12	95.22
DIVRIT (Oracle)	98.36	97.42	92.68	94.69
DIVRIT (Basado en KNN)	96.85	95.03	87.87	90.38
DICTA	98.94	98.23	95.83	95.93

Experimentos de Ablación

1. Impacto de la Cantidad de Candidatos

Selección de dos candidatos: 91.45% de precisión WOR
Selección de tres candidatos: 74.16% de precisión WOR
El aumento en la cantidad de candidatos conduce a degradación del rendimiento, indicando insuficiencias en el mecanismo de puntuación

2. Duración del Ajuste Fino

140K pasos: 90.54% de precisión WOR
240K pasos: 91.45% de precisión WOR
El ajuste fino prolongado mejora significativamente el rendimiento

3. Tareas Auxiliares

Tarea Auxiliar de Predicción de Bolsa de Diacríticos:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))

Dos candidatos: mejora de 90.54% a 91.41%
Tres candidatos: degradación de 73.55% a 71.49%

4. Procesamiento de Imagen RTL

Dos candidatos: 88.60% de precisión WOR
Tres candidatos: 84.93% de precisión WOR
El procesamiento de espejo mejora significativamente la capacidad de generalización en escenarios multicandidata

Hallazgos Experimentales

Efectividad de Representación Visual: DIVRIT demuestra el potencial de la representación visual en la diacritización del hebreo
Importancia de Generación de Candidatos: La brecha de rendimiento entre configuraciones Oracle y KNN destaca la importancia de mejorar la generación de candidatos
Desafío de Generalización: La capacidad de generalización del modelo disminuye con el aumento de candidatos
Selección del Codificador de Contexto: El codificador de contexto basado en texto supera a las soluciones puramente visuales

Trabajo Relacionado

Desarrollo de Diacritización del Hebreo

Métodos Híbridos: Nakdan de Dicta combina aprendizaje profundo con reglas manuales
Puramente Impulsado por Datos: Nakdimon utiliza Bi-LSTM, MenakBERT utiliza Transformer
Carácter vs Palabra: Los métodos existentes adoptan principalmente predicción a nivel de carácter; este artículo propone por primera vez selección de candidatos a nivel de palabra

Aprendizaje de Cero Ejemplos

Éxito de modelos de lenguaje a gran escala como GPT-3 en aprendizaje de cero ejemplos multitarea
Aplicación de CLIP y ALIGN en clasificación de cero ejemplos visión-lenguaje
Este artículo aplica por primera vez aprendizaje de cero ejemplos a la tarea de diacritización

Modelos de Lenguaje Visual

Éxito de Vision Transformer en tareas de visión por computadora
Robustez del modelo PIXEL en procesamiento de texto multilingüe
Este artículo aplica por primera vez ViT a la tarea de clasificación de candidatos

Conclusiones y Discusión

Conclusiones Principales

DIVRIT redefine exitosamente la diacritización del hebreo como un problema de clasificación de cero ejemplos
La representación visual puede capturar efectivamente patrones diacríticos sin análisis lingüístico complejo
Logra rendimiento competitivo con métodos existentes en configuración Oracle
El enfoque a nivel de palabra es más apropiado que el enfoque a nivel de carácter para la diacritización del hebreo

Limitaciones

Dependencia de Generación de Candidatos: El sistema aún depende de métodos de generación de candidatos impulsados por datos
Codificador de Contexto: La configuración óptima aún utiliza un codificador de contexto basado en texto
Generalización Multicandidata: El rendimiento disminuye significativamente con el aumento de candidatos
Especificidad Lingüística: Desarrollado en hebreo, la aplicación a otros idiomas puede enfrentar desafíos

Direcciones Futuras

Mejora de Generación de Candidatos: Desarrollar algoritmos de generación de candidatos más precisos
Extensión Multilingüe: Aplicar el método a árabe, vietnamita y otros idiomas ricos en diacríticos
Optimización de Arquitectura: Explorar arquitecturas de modelo a mayor escala y procesos de preentrenamiento más prolongados
Integración Multimodal: Optimizar aún más la integración de información visual y de contexto

Evaluación Profunda

Fortalezas

Innovación Metodológica: Redefine por primera vez la tarea de diacritización como un problema de clasificación de cero ejemplos, siendo pionero
Avance Técnico: Combina ingeniosamente modelos de lenguaje visual con métodos tradicionales de PNL
Suficiencia Experimental: Realiza experimentos de ablación exhaustivos y comparaciones de arquitectura
Contribución Teórica: Demuestra la efectividad de la representación visual en tareas morfológicas

Deficiencias

Brecha de Rendimiento: En escenarios de aplicación práctica, aún no supera los métodos existentes de mejor rendimiento
Complejidad Computacional: La arquitectura de doble codificador puede introducir sobrecarga computacional adicional
Generación de Candidatos Simple: El método basado en KNN es relativamente simple, potencialmente limitando el potencial del sistema
Capacidad de Generalización: La degradación de rendimiento en escenarios multicandidata indica capacidad de generalización limitada

Impacto

Contribución al Campo: Proporciona un nuevo paradigma de investigación para la tarea de diacritización
Inspiración Técnica: Demuestra el potencial de aplicación de métodos visuales en tareas de PNL
Valor Práctico: Proporciona nuevas opciones de herramientas para el procesamiento de texto hebreo
Reproducibilidad: Promete publicar código y datos, facilitando investigación posterior

Escenarios de Aplicación

Procesamiento de Texto Hebreo: Bibliotecas digitales, software educativo, etc.
Sistemas Multilingües: Extensible a otros idiomas semíticos
Procesamiento de Texto Visual: Postprocesamiento de OCR, digitalización de documentos históricos, etc.
Herramientas de Investigación: Proporciona herramientas automatizadas para investigación lingüística

Referencias

El artículo cita trabajos relacionados abundantes, incluyendo:

Gershuni and Pinter (2022): Sistema Nakdimon
Cohen et al. (2024): Sistema MenakBERT
Shmidman et al. (2020): Sistema Nakdan de Dicta
Rust et al. (2023): Modelo PIXEL
He et al. (2022): Arquitectura Vision Transformer

Evaluación General: Este es un artículo de investigación innovador que aplica por primera vez modelos de lenguaje visual a la tarea de diacritización del hebreo, proponiendo un nuevo marco de clasificación de cero ejemplos. Aunque el rendimiento en ciertos escenarios aún no supera los métodos existentes, su enfoque pionero y verificación experimental exhaustiva proporcionan contribuciones valiosas y nuevas direcciones de investigación para el campo.