2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
academic

Restauración de Diacríticos del Hebreo mediante Representación Visual

Información Básica

  • ID del Artículo: 2510.26521
  • Título: Restauración de Diacríticos del Hebreo mediante Representación Visual
  • Autores: Yair Elboher, Yuval Pinter (Universidad Ben-Gurion del Negev)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 3 de noviembre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2510.26521v2

Resumen

La restauración de diacríticos del hebreo es una tarea fundamental para garantizar la pronunciación precisa y eliminar la ambigüedad textual. Aunque el hebreo sin diacríticos presenta un alto grado de ambigüedad, los métodos recientes de aprendizaje automático han mejorado significativamente el rendimiento en esta tarea. Este artículo propone DIVRIT, un nuevo sistema que redefine la tarea de diacritización del hebreo como un problema de clasificación de cero ejemplos. El método opera a nivel de palabra, seleccionando el patrón diacrítico más apropiado para cada palabra sin diacríticos de un conjunto de candidatos generado dinámicamente, condicionado por el contexto textual circundante. La innovación clave de DIVRIT es el uso de un modelo de lenguaje visual hebreo, procesando texto sin diacríticos como imágenes, permitiendo que la información diacrítica se incruste directamente en la representación vectorial de la entrada.

Antecedentes y Motivación de la Investigación

Definición del Problema

El hebreo, como representante de la familia de lenguas semíticas, representa principalmente consonantes, y la ausencia de símbolos diacríticos (niqqud) causa una ambigüedad léxica grave. Por ejemplo, la cadena consonántica "mlk" puede interpretarse como "king" (melekh), "reigned" (malakh) u otros significados múltiples, dependiendo del contexto.

Importancia del Problema

  1. Valor Práctico: La diacritización automática es significativa para la accesibilidad del texto digital e interacción humano-máquina
  2. Complejidad Lingüística: La restauración precisa de diacríticos requiere comprensión sintáctica y semántica
  3. Desafío Técnico: Como lengua morfológicamente rica, la aplicación de reglas de diacritización del hebreo es compleja, requiriendo extracción de información de género, tiempo verbal, categoría gramatical, etc.

Limitaciones de Métodos Existentes

  1. Nakdan de Dicta: Combina aprendizaje profundo y reglas lingüísticas, con alta precisión pero capacidad de generalización limitada
  2. Nakdimon: Enfoque puramente impulsado por datos usando Bi-LSTM a nivel de carácter
  3. MenakBERT: Método preentrenado basado en Transformer a nivel de carácter

Los sistemas existentes operan principalmente a nivel de carácter, mientras que la morfología del hebreo está controlada principalmente por plantillas a nivel de palabra, sugiriendo que el análisis a nivel de palabra es más apropiado para esta tarea.

Contribuciones Principales

  1. Enfoque Pionero: Propone el primer sistema a nivel de palabra que redefine la diacritización del hebreo como un problema de clasificación de cero ejemplos
  2. Modelo de Lenguaje Visual: Desarrolla un modelo de lenguaje visual hebreo basado en Vision Transformer, aprendiendo patrones diacríticos directamente de imágenes
  3. Mecanismo de Generación de Candidatos: Diseña un algoritmo de generación de candidatos basado en KNN que genera dinámicamente conjuntos de candidatos diacríticos para cada palabra
  4. Avance en Rendimiento: Logra 92.68% de precisión a nivel de palabra en configuración Oracle y 87.87% en configuración KNN

Explicación Detallada del Método

Definición de la Tarea

Entrada: Texto hebreo sin diacríticos Salida: Seleccionar el patrón diacrítico más apropiado para cada palabra Restricción: Seleccionar de un conjunto de candidatos generado dinámicamente, condicionado por el contexto

Arquitectura del Modelo

DIVRIT adopta una arquitectura de doble codificador:

1. Codificador de Candidatos (Candidate Encoder)

  • Codificador visual basado en el modelo PIXEL-base
  • Procesa candidatos diacríticos renderizados como imágenes
  • Genera representaciones de incrustación específicas del candidato

2. Codificador de Contexto (Context Encoder)

  • Utiliza el modelo de lenguaje hebreo ALEPHBERTGIMMEL-SMALL
  • Extrae incrustaciones de contexto de palabras sin diacríticos
  • Proporciona información de contexto semántico y sintáctico

3. Mecanismo de Puntuación

Calcula la similitud entre incrustaciones de candidatos e incrustaciones de contexto mediante producto interno:

score(candidate, context) = embedding_candidate · embedding_context

Puntos de Innovación Técnica

1. Aprendizaje de Representación Visual

  • Procesa diacríticos como elementos visuales, evitando asignación de vocabulario explícita
  • Utiliza modelado de imágenes enmascaradas para preentrenar el modelo PIXEL hebreo
  • Preentrenamiento adicional en texto diacritizado, reduciendo la proporción de enmascaramiento de 0.25 a 0.1

2. Algoritmo de Generación de Candidatos

Mecanismo de generación de candidatos basado en KNN:

  • Parámetro k: número de palabras similares a considerar
  • Parámetro c: tamaño máximo del conjunto de candidatos devuelto
  • Calcula similitud basada en coincidencia de caracteres y alineación de posición
  • Aprovecha características morfológicas de raíz-plantilla de lenguas semíticas

3. Marco de Aprendizaje de Cero Ejemplos

  • Cada candidato como categoría independiente
  • Selecciona la categoría más apropiada mediante aprendizaje de representaciones discriminativas
  • Generaliza a categorías no vistas sin entrenamiento específico de tarea

Configuración Experimental

Conjunto de Datos

  1. Datos de Preentrenamiento:
    • Wikipedia en hebreo: aproximadamente 1.9GB
    • Porción hebraica de OSCAR: aproximadamente 9.8GB
    • Filtración de muestras con menos de 30 caracteres
  2. Datos de Diacritización:
    • Conjunto de datos de Gershuni and Pinter (2022)
    • Aproximadamente 3.4 millones de tokens de texto hebreo diacritizado original
    • Incluye hebreo moderno, hebreo premoderno y texto diacritizado automáticamente
  3. Conjunto de Prueba:
    • 20K tokens, de múltiples fuentes de hebreo moderno

Métricas de Evaluación

  • WOR: Precisión a nivel de palabra
  • CHA: Precisión a nivel de carácter
  • DEC: Precisión de decisión a nivel de diacrítico
  • VOC: Tasa de preservación de pronunciación a nivel de palabra

Métodos de Comparación

  • Métodos Base: Línea base de predicción de clase mayoritaria, línea base KNN
  • Sistemas Impulsados por Datos: Nakdimon, MenakBERT
  • Sistemas Híbridos: Nakdan de Dicta

Detalles de Implementación

  • Preentrenamiento: 2M pasos, tamaño de lote 128, 4 GPU Nvidia RTX6000 de 48GB
  • Ajuste fino: 240K pasos, tamaño de lote 32, 2 GPU
  • Uso de renderizador PangoCairo y fuente Noto Sans Hebrew
  • Debido a la escritura de derecha a izquierda del hebreo, todas las imágenes de texto se espejaban horizontalmente a nivel de instancia

Resultados Experimentales

Resultados Principales

SistemaDECCHAWORVOC
LÍNEA BASE MAYORITARIA93.7990.0184.8786.19
LÍNEA BASE KNN96.2094.0987.0987.39
NAKDIMON97.9196.3789.7591.64
MENAKBERT98.8297.9594.1295.22
DIVRIT (Oracle)98.3697.4292.6894.69
DIVRIT (Basado en KNN)96.8595.0387.8790.38
DICTA98.9498.2395.8395.93

Experimentos de Ablación

1. Impacto de la Cantidad de Candidatos

  • Selección de dos candidatos: 91.45% de precisión WOR
  • Selección de tres candidatos: 74.16% de precisión WOR
  • El aumento en la cantidad de candidatos conduce a degradación del rendimiento, indicando insuficiencias en el mecanismo de puntuación

2. Duración del Ajuste Fino

  • 140K pasos: 90.54% de precisión WOR
  • 240K pasos: 91.45% de precisión WOR
  • El ajuste fino prolongado mejora significativamente el rendimiento

3. Tareas Auxiliares

Tarea Auxiliar de Predicción de Bolsa de Diacríticos:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
  • Dos candidatos: mejora de 90.54% a 91.41%
  • Tres candidatos: degradación de 73.55% a 71.49%

4. Procesamiento de Imagen RTL

  • Dos candidatos: 88.60% de precisión WOR
  • Tres candidatos: 84.93% de precisión WOR
  • El procesamiento de espejo mejora significativamente la capacidad de generalización en escenarios multicandidata

Hallazgos Experimentales

  1. Efectividad de Representación Visual: DIVRIT demuestra el potencial de la representación visual en la diacritización del hebreo
  2. Importancia de Generación de Candidatos: La brecha de rendimiento entre configuraciones Oracle y KNN destaca la importancia de mejorar la generación de candidatos
  3. Desafío de Generalización: La capacidad de generalización del modelo disminuye con el aumento de candidatos
  4. Selección del Codificador de Contexto: El codificador de contexto basado en texto supera a las soluciones puramente visuales

Trabajo Relacionado

Desarrollo de Diacritización del Hebreo

  1. Métodos Híbridos: Nakdan de Dicta combina aprendizaje profundo con reglas manuales
  2. Puramente Impulsado por Datos: Nakdimon utiliza Bi-LSTM, MenakBERT utiliza Transformer
  3. Carácter vs Palabra: Los métodos existentes adoptan principalmente predicción a nivel de carácter; este artículo propone por primera vez selección de candidatos a nivel de palabra

Aprendizaje de Cero Ejemplos

  • Éxito de modelos de lenguaje a gran escala como GPT-3 en aprendizaje de cero ejemplos multitarea
  • Aplicación de CLIP y ALIGN en clasificación de cero ejemplos visión-lenguaje
  • Este artículo aplica por primera vez aprendizaje de cero ejemplos a la tarea de diacritización

Modelos de Lenguaje Visual

  • Éxito de Vision Transformer en tareas de visión por computadora
  • Robustez del modelo PIXEL en procesamiento de texto multilingüe
  • Este artículo aplica por primera vez ViT a la tarea de clasificación de candidatos

Conclusiones y Discusión

Conclusiones Principales

  1. DIVRIT redefine exitosamente la diacritización del hebreo como un problema de clasificación de cero ejemplos
  2. La representación visual puede capturar efectivamente patrones diacríticos sin análisis lingüístico complejo
  3. Logra rendimiento competitivo con métodos existentes en configuración Oracle
  4. El enfoque a nivel de palabra es más apropiado que el enfoque a nivel de carácter para la diacritización del hebreo

Limitaciones

  1. Dependencia de Generación de Candidatos: El sistema aún depende de métodos de generación de candidatos impulsados por datos
  2. Codificador de Contexto: La configuración óptima aún utiliza un codificador de contexto basado en texto
  3. Generalización Multicandidata: El rendimiento disminuye significativamente con el aumento de candidatos
  4. Especificidad Lingüística: Desarrollado en hebreo, la aplicación a otros idiomas puede enfrentar desafíos

Direcciones Futuras

  1. Mejora de Generación de Candidatos: Desarrollar algoritmos de generación de candidatos más precisos
  2. Extensión Multilingüe: Aplicar el método a árabe, vietnamita y otros idiomas ricos en diacríticos
  3. Optimización de Arquitectura: Explorar arquitecturas de modelo a mayor escala y procesos de preentrenamiento más prolongados
  4. Integración Multimodal: Optimizar aún más la integración de información visual y de contexto

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Redefine por primera vez la tarea de diacritización como un problema de clasificación de cero ejemplos, siendo pionero
  2. Avance Técnico: Combina ingeniosamente modelos de lenguaje visual con métodos tradicionales de PNL
  3. Suficiencia Experimental: Realiza experimentos de ablación exhaustivos y comparaciones de arquitectura
  4. Contribución Teórica: Demuestra la efectividad de la representación visual en tareas morfológicas

Deficiencias

  1. Brecha de Rendimiento: En escenarios de aplicación práctica, aún no supera los métodos existentes de mejor rendimiento
  2. Complejidad Computacional: La arquitectura de doble codificador puede introducir sobrecarga computacional adicional
  3. Generación de Candidatos Simple: El método basado en KNN es relativamente simple, potencialmente limitando el potencial del sistema
  4. Capacidad de Generalización: La degradación de rendimiento en escenarios multicandidata indica capacidad de generalización limitada

Impacto

  1. Contribución al Campo: Proporciona un nuevo paradigma de investigación para la tarea de diacritización
  2. Inspiración Técnica: Demuestra el potencial de aplicación de métodos visuales en tareas de PNL
  3. Valor Práctico: Proporciona nuevas opciones de herramientas para el procesamiento de texto hebreo
  4. Reproducibilidad: Promete publicar código y datos, facilitando investigación posterior

Escenarios de Aplicación

  1. Procesamiento de Texto Hebreo: Bibliotecas digitales, software educativo, etc.
  2. Sistemas Multilingües: Extensible a otros idiomas semíticos
  3. Procesamiento de Texto Visual: Postprocesamiento de OCR, digitalización de documentos históricos, etc.
  4. Herramientas de Investigación: Proporciona herramientas automatizadas para investigación lingüística

Referencias

El artículo cita trabajos relacionados abundantes, incluyendo:

  • Gershuni and Pinter (2022): Sistema Nakdimon
  • Cohen et al. (2024): Sistema MenakBERT
  • Shmidman et al. (2020): Sistema Nakdan de Dicta
  • Rust et al. (2023): Modelo PIXEL
  • He et al. (2022): Arquitectura Vision Transformer

Evaluación General: Este es un artículo de investigación innovador que aplica por primera vez modelos de lenguaje visual a la tarea de diacritización del hebreo, proponiendo un nuevo marco de clasificación de cero ejemplos. Aunque el rendimiento en ciertos escenarios aún no supera los métodos existentes, su enfoque pionero y verificación experimental exhaustiva proporcionan contribuciones valiosas y nuevas direcciones de investigación para el campo.