2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter
Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
academic

Hebrew Diacritics Restoration using Visual Representation

基本信息

  • 论文ID: 2510.26521
  • 标题: Hebrew Diacritics Restoration using Visual Representation
  • 作者: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年11月3日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2510.26521v2

摘要

希伯来语音标恢复是确保准确发音和消除文本歧义的基本任务。尽管未标音的希伯来语具有高度歧义性,但近期机器学习方法已显著提升了该任务的性能。本文提出DIVRIT,一个将希伯来语音标化任务框架为零样本分类问题的新系统。该方法在词级别操作,从动态生成的候选集中为每个未标音词选择最合适的音标模式,并基于周围文本上下文进行条件化。DIVRIT的关键创新是使用希伯来语视觉语言模型,将未标音文本作为图像处理,使音标信息能够直接嵌入到输入的向量表示中。

研究背景与动机

问题定义

希伯来语作为闪米特语族的代表,主要表示辅音,缺乏音标符号(niqqud)会导致严重的词汇歧义。例如,辅音串"mlk"可以被解释为"king"(melekh)、"reigned"(malakh)等多种含义,具体取决于上下文。

问题重要性

  1. 实用价值: 自动音标化对数字文本的可访问性和人机交互具有重要意义
  2. 语言学复杂性: 准确的音标恢复需要句法和语义理解
  3. 技术挑战: 希伯来语作为形态丰富的语言,其音标化规则应用复杂,需要提取性别、时态、词性等信息

现有方法局限性

  1. Dicta's Nakdan: 结合深度学习和语言规则,准确率高但泛化能力有限
  2. Nakdimon: 纯数据驱动的字符级Bi-LSTM方法
  3. MenakBERT: 基于Transformer的字符级预训练方法

现有系统主要在字符级别工作,而希伯来语形态学主要由词级别模板控制,这表明词级别分析更适合该任务。

核心贡献

  1. 首创性方法: 提出首个将希伯来语音标化重新框架为零样本分类问题的词级别系统
  2. 视觉语言模型: 开发基于Vision Transformer的希伯来语视觉语言模型,直接从图像中学习音标模式
  3. 候选生成机制: 设计基于KNN的候选生成算法,为每个词动态生成音标候选集
  4. 性能突破: 在Oracle设置下达到92.68%的词级准确率,在KNN设置下达到87.87%

方法详解

任务定义

输入: 未标音的希伯来语文本 输出: 为每个词选择最合适的音标模式 约束: 从动态生成的候选集中选择,基于上下文进行条件化

模型架构

DIVRIT采用双编码器架构:

1. 候选编码器 (Candidate Encoder)

  • 基于PIXEL-base模型的视觉编码器
  • 处理渲染为图像的音标候选
  • 生成候选特定的嵌入表示

2. 上下文编码器 (Context Encoder)

  • 使用ALEPHBERTGIMMEL-SMALL希伯来语言模型
  • 提取未标音词的上下文嵌入
  • 提供语义和句法上下文信息

3. 评分机制

通过内积计算候选嵌入与上下文嵌入的相似度:

score(candidate, context) = embedding_candidate · embedding_context

技术创新点

1. 视觉表示学习

  • 将音标作为视觉元素处理,避免显式的词汇分配
  • 使用掩码图像建模目标预训练希伯来语PIXEL模型
  • 在音标化文本上进行额外预训练,掩码比例从0.25降至0.1

2. 候选生成算法

基于KNN的候选生成机制:

  • 参数k:考虑的相似词数量
  • 参数c:返回的候选集最大大小
  • 基于字符级匹配和位置对齐计算相似度
  • 利用闪米特语言的词根-模板形态特征

3. 零样本学习框架

  • 每个候选作为独立类别
  • 通过学习判别表示选择最合适的类别
  • 无需任务特定训练即可泛化到未见类别

实验设置

数据集

  1. 预训练数据:
    • 希伯来语维基百科:约1.9GB
    • OSCAR希伯来语部分:约9.8GB
    • 过滤少于30字符的样本
  2. 音标化数据:
    • Gershuni and Pinter (2022)数据集
    • 约340万token的原始音标化希伯来语文本
    • 包含现代希伯来语、前现代希伯来语和自动音标化文本
  3. 测试集:
    • 20K token,来自多种现代希伯来语源

评价指标

  • WOR: 词级准确率
  • CHA: 字符级准确率
  • DEC: 音标级决策准确率
  • VOC: 词级发音保持率

对比方法

  • 基线方法: 多数类预测基线、KNN基线
  • 数据驱动系统: Nakdimon、MenakBERT
  • 混合系统: Dicta's Nakdan

实现细节

  • 预训练:2M步,批大小128,4个48GB Nvidia RTX6000 GPU
  • 微调:240K步,批大小32,2个GPU
  • 使用PangoCairo渲染器和Noto Sans Hebrew字体
  • 由于希伯来语从右到左书写,所有文本图像在实例级别水平镜像

实验结果

主要结果

系统DECCHAWORVOC
MAJORITY BASELINE93.7990.0184.8786.19
KNN BASELINE96.2094.0987.0987.39
NAKDIMON97.9196.3789.7591.64
MENAKBERT98.8297.9594.1295.22
DIVRIT (Oracle)98.3697.4292.6894.69
DIVRIT (KNN-based)96.8595.0387.8790.38
DICTA98.9498.2395.8395.93

消融实验

1. 候选数量影响

  • 两候选选择:91.45% WOR准确率
  • 三候选选择:74.16% WOR准确率
  • 候选数量增加导致性能下降,表明评分机制存在不足

2. 微调持续时间

  • 140K步:90.54% WOR准确率
  • 240K步:91.45% WOR准确率
  • 延长微调显著提升性能

3. 辅助任务

音标袋预测辅助任务

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))
  • 两候选:从90.54%提升至91.41%
  • 三候选:从73.55%下降至71.49%

4. RTL图像处理

  • 两候选:88.60% WOR准确率
  • 三候选:84.93% WOR准确率
  • 镜像处理在多候选场景下显著提升泛化能力

实验发现

  1. 视觉表示有效性: DIVRIT证明了视觉表示在希伯来语音标化中的潜力
  2. 候选生成重要性: Oracle与KNN设置间的性能差距突出了候选生成改进的重要性
  3. 泛化挑战: 随着候选数量增加,模型泛化能力下降
  4. 上下文编码器选择: 基于文本的上下文编码器优于纯视觉方案

相关工作

希伯来语音标化发展

  1. 混合方法: Dicta's Nakdan结合深度学习与人工规则
  2. 纯数据驱动: Nakdimon使用Bi-LSTM,MenakBERT使用Transformer
  3. 字符级vs词级: 现有方法多采用字符级预测,本文首次提出词级候选选择

零样本学习

  • GPT-3等大规模语言模型在多任务零样本学习中的成功
  • CLIP和ALIGN在视觉-语言零样本分类中的应用
  • 本文首次将零样本学习应用于音标化任务

视觉语言模型

  • Vision Transformer在计算机视觉任务中的成功
  • PIXEL模型在多语言文本处理中的鲁棒性
  • 本文首次将ViT应用于候选排序任务

结论与讨论

主要结论

  1. DIVRIT成功将希伯来语音标化重新框架为零样本分类问题
  2. 视觉表示能够有效捕获音标模式,无需复杂的语言学分析
  3. 在Oracle设置下达到与现有方法竞争的性能水平
  4. 词级别方法相比字符级方法在希伯来语音标化中更合适

局限性

  1. 候选生成依赖: 系统仍依赖数据驱动的候选生成方法
  2. 上下文编码器: 最佳配置仍使用基于文本的上下文编码器
  3. 多候选泛化: 随着候选数量增加,性能显著下降
  4. 语言特异性: 在希伯来语上开发,应用于其他语言可能面临挑战

未来方向

  1. 改进候选生成: 开发更精确的候选生成算法
  2. 多语言扩展: 将方法应用于阿拉伯语、越南语等其他音标丰富语言
  3. 架构优化: 探索更大规模的模型架构和更长的预训练过程
  4. 多模态集成: 进一步优化视觉和上下文信息的整合

深度评价

优点

  1. 方法创新性: 首次将音标化任务框架为零样本分类问题,具有开创性
  2. 技术先进性: 巧妙结合视觉语言模型与传统NLP方法
  3. 实验充分性: 进行了全面的消融实验和架构比较
  4. 理论贡献: 证明了视觉表示在形态学任务中的有效性

不足

  1. 性能差距: 在实际应用场景下仍未超越现有最佳方法
  2. 计算复杂度: 双编码器架构可能带来额外的计算开销
  3. 候选生成简单: KNN-based方法相对简单,可能限制系统潜力
  4. 泛化能力: 多候选场景下的性能下降表明模型泛化能力有限

影响力

  1. 领域贡献: 为音标化任务提供了新的研究范式
  2. 技术启发: 证明了视觉方法在NLP任务中的应用潜力
  3. 实用价值: 为希伯来语文本处理提供了新的工具选择
  4. 可复现性: 承诺发布代码和数据,有利于后续研究

适用场景

  1. 希伯来语文本处理: 数字图书馆、教育软件等
  2. 多语言系统: 可扩展至其他闪米特语言
  3. 视觉文本处理: OCR后处理、历史文档数字化等
  4. 研究工具: 为语言学研究提供自动化工具

参考文献

论文引用了丰富的相关工作,包括:

  • Gershuni and Pinter (2022): Nakdimon系统
  • Cohen et al. (2024): MenakBERT系统
  • Shmidman et al. (2020): Dicta's Nakdan系统
  • Rust et al. (2023): PIXEL模型
  • He et al. (2022): Vision Transformer架构

总体评价: 这是一篇具有创新性的研究论文,首次将视觉语言模型应用于希伯来语音标化任务,并提出了零样本分类的新框架。虽然在某些设置下性能尚未超越现有方法,但其开创性的方法和充分的实验验证为该领域提供了有价值的贡献和新的研究方向。