2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter

Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.

academic

시각적 표현을 이용한 히브리어 음표 복원

기본 정보

논문 ID: 2510.26521
제목: Hebrew Diacritics Restoration using Visual Representation
저자: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 11월 3일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2510.26521v2

초록

히브리어 음표 복원은 정확한 발음 보장 및 텍스트 모호성 제거를 위한 기본 작업입니다. 음표가 없는 히브리어가 높은 수준의 모호성을 가지고 있음에도 불구하고, 최근의 기계학습 방법들은 이 작업의 성능을 크게 향상시켰습니다. 본 논문은 히브리어 음표화 작업을 영샷 분류 문제로 재구성하는 새로운 시스템인 DIVRIT을 제안합니다. 이 방법은 단어 수준에서 작동하며, 동적으로 생성된 후보 집합에서 각 음표 없는 단어에 대해 가장 적절한 음표 패턴을 선택하고, 주변 텍스트 문맥을 기반으로 조건화됩니다. DIVRIT의 핵심 혁신은 히브리어 시각적 언어 모델을 사용하여 음표 없는 텍스트를 이미지로 처리함으로써 음표 정보가 입력의 벡터 표현에 직접 포함될 수 있도록 하는 것입니다.

연구 배경 및 동기

문제 정의

셈족 언어족의 대표인 히브리어는 주로 자음을 표시하며, 음표 기호(niqqud)의 부재는 심각한 어휘 모호성을 야기합니다. 예를 들어, 자음 문자열 "mlk"는 문맥에 따라 "king"(melekh), "reigned"(malakh) 등 다양한 의미로 해석될 수 있습니다.

문제의 중요성

실용적 가치: 자동 음표화는 디지털 텍스트의 접근성 및 인간-컴퓨터 상호작용에 중요한 의미를 가집니다
언어학적 복잡성: 정확한 음표 복원은 통사론 및 의미론 이해를 필요로 합니다
기술적 도전: 형태론이 풍부한 언어인 히브리어의 음표화 규칙 적용은 복잡하며, 성, 시제, 품사 등의 정보 추출이 필요합니다

기존 방법의 한계

Dicta's Nakdan: 심층학습과 언어 규칙을 결합하여 높은 정확도를 보이지만 일반화 능력이 제한적입니다
Nakdimon: 순수 데이터 기반의 문자 수준 Bi-LSTM 방법
MenakBERT: Transformer 기반의 문자 수준 사전학습 방법

기존 시스템들은 주로 문자 수준에서 작동하는 반면, 히브리어 형태론은 주로 단어 수준 템플릿에 의해 제어되므로, 단어 수준 분석이 이 작업에 더 적합함을 시사합니다.

핵심 기여

선도적 방법: 히브리어 음표화를 영샷 분류 문제로 재구성하는 첫 번째 단어 수준 시스템 제안
시각적 언어 모델: Vision Transformer 기반의 히브리어 시각적 언어 모델 개발으로 이미지에서 직접 음표 패턴 학습
후보 생성 메커니즘: KNN 기반 후보 생성 알고리즘 설계로 각 단어에 대해 동적으로 음표 후보 집합 생성
성능 돌파: Oracle 설정에서 92.68%의 단어 수준 정확도, KNN 설정에서 87.87% 달성

방법 상세 설명

작업 정의

입력: 음표 없는 히브리어 텍스트 출력: 각 단어에 대해 가장 적절한 음표 패턴 선택 제약: 동적으로 생성된 후보 집합에서 선택, 문맥을 기반으로 조건화

모델 아키텍처

DIVRIT은 이중 인코더 아키텍처를 채택합니다:

1. 후보 인코더 (Candidate Encoder)

PIXEL-base 모델 기반의 시각적 인코더
이미지로 렌더링된 음표 후보 처리
후보 특정 임베딩 표현 생성

2. 문맥 인코더 (Context Encoder)

ALEPHBERTGIMMEL-SMALL 히브리어 언어 모델 사용
음표 없는 단어의 문맥 임베딩 추출
의미론 및 통사론 문맥 정보 제공

3. 평가 메커니즘

내적을 통해 후보 임베딩과 문맥 임베딩의 유사도 계산:

score(candidate, context) = embedding_candidate · embedding_context

기술적 혁신점

1. 시각적 표현 학습

음표를 시각적 요소로 처리하여 명시적 어휘 할당 회피
마스크 이미지 모델링 목표를 사용하여 히브리어 PIXEL 모델 사전학습
음표화 텍스트에서 추가 사전학습, 마스킹 비율을 0.25에서 0.1로 감소

2. 후보 생성 알고리즘

KNN 기반 후보 생성 메커니즘:

매개변수 k: 고려할 유사 단어의 수
매개변수 c: 반환할 후보 집합의 최대 크기
문자 수준 매칭 및 위치 정렬을 기반으로 유사도 계산
셈족 언어의 어근-템플릿 형태론 특징 활용

3. 영샷 학습 프레임워크

각 후보를 독립적 클래스로 처리
판별 표현 학습을 통해 가장 적절한 클래스 선택
작업 특정 학습 없이 미지의 클래스로 일반화

실험 설정

데이터셋

사전학습 데이터:
- 히브리어 위키백과: 약 1.9GB
- OSCAR 히브리어 부분: 약 9.8GB
- 30자 미만의 샘플 필터링
음표화 데이터:
- Gershuni and Pinter (2022) 데이터셋
- 약 340만 토큰의 원본 음표화 히브리어 텍스트
- 현대 히브리어, 전현대 히브리어 및 자동 음표화 텍스트 포함
테스트 셋:
- 20K 토큰, 다양한 현대 히브리어 출처에서 수집

평가 지표

WOR: 단어 수준 정확도
CHA: 문자 수준 정확도
DEC: 음표 수준 결정 정확도
VOC: 단어 수준 발음 보존율

비교 방법

기준선 방법: 다수 클래스 예측 기준선, KNN 기준선
데이터 기반 시스템: Nakdimon, MenakBERT
혼합 시스템: Dicta's Nakdan

구현 세부사항

사전학습: 2M 스텝, 배치 크기 128, 4개의 48GB Nvidia RTX6000 GPU
미세조정: 240K 스텝, 배치 크기 32, 2개 GPU
PangoCairo 렌더러 및 Noto Sans Hebrew 폰트 사용
히브리어의 우측에서 좌측 쓰기 방향으로 인해 모든 텍스트 이미지를 인스턴스 수준에서 수평 미러링

실험 결과

주요 결과

시스템	DEC	CHA	WOR	VOC
MAJORITY BASELINE	93.79	90.01	84.87	86.19
KNN BASELINE	96.20	94.09	87.09	87.39
NAKDIMON	97.91	96.37	89.75	91.64
MENAKBERT	98.82	97.95	94.12	95.22
DIVRIT (Oracle)	98.36	97.42	92.68	94.69
DIVRIT (KNN-based)	96.85	95.03	87.87	90.38
DICTA	98.94	98.23	95.83	95.93

제거 실험

1. 후보 수량의 영향

2개 후보 선택: 91.45% WOR 정확도
3개 후보 선택: 74.16% WOR 정확도
후보 수량 증가로 인한 성능 저하는 평가 메커니즘의 부족함을 나타냅니다

2. 미세조정 지속 시간

140K 스텝: 90.54% WOR 정확도
240K 스텝: 91.45% WOR 정확도
미세조정 연장으로 성능 크게 향상

3. 보조 작업

음표 백 예측 보조 작업:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))

2개 후보: 90.54%에서 91.41%로 향상
3개 후보: 73.55%에서 71.49%로 하락

4. RTL 이미지 처리

2개 후보: 88.60% WOR 정확도
3개 후보: 84.93% WOR 정확도
미러링 처리는 다중 후보 시나리오에서 일반화 능력을 크게 향상

실험 발견

시각적 표현의 효과성: DIVRIT은 히브리어 음표화에서 시각적 표현의 잠재력을 입증합니다
후보 생성의 중요성: Oracle과 KNN 설정 간의 성능 격차는 후보 생성 개선의 중요성을 강조합니다
일반화 도전: 후보 수량 증가에 따른 모델 일반화 능력 저하
문맥 인코더 선택: 텍스트 기반 문맥 인코더가 순수 시각적 방안보다 우수합니다

결론 및 논의

주요 결론

DIVRIT은 히브리어 음표화를 영샷 분류 문제로 성공적으로 재구성합니다
시각적 표현은 복잡한 언어학적 분석 없이 음표 패턴을 효과적으로 포착할 수 있습니다
Oracle 설정에서 기존 방법과 경쟁 수준의 성능 달성
단어 수준 방법이 히브리어 음표화에서 문자 수준 방법보다 더 적합합니다

한계

후보 생성 의존성: 시스템은 여전히 데이터 기반 후보 생성 방법에 의존합니다
문맥 인코더: 최적 구성은 여전히 텍스트 기반 문맥 인코더를 사용합니다
다중 후보 일반화: 후보 수량 증가에 따른 성능 현저한 저하
언어 특이성: 히브리어에서 개발되었으며, 다른 언어 적용 시 도전 과제 직면 가능

향후 방향

후보 생성 개선: 더 정확한 후보 생성 알고리즘 개발
다국어 확장: 아랍어, 베트남어 등 다른 음표 풍부 언어로 방법 적용
아키텍처 최적화: 더 큰 규모 모델 아키텍처 및 더 긴 사전학습 과정 탐색
다중모달 통합: 시각적 및 문맥 정보의 통합 추가 최적화

심층 평가

장점

방법의 창의성: 음표화 작업을 영샷 분류 문제로 재구성한 첫 시도로 개척적입니다
기술의 선진성: 시각적 언어 모델과 전통 NLP 방법을 교묘하게 결합합니다
실험의 충분성: 포괄적인 제거 실험 및 아키텍처 비교 수행
이론적 기여: 형태론 작업에서 시각적 표현의 효과성을 입증합니다

부족한 점

성능 격차: 실제 응용 시나리오에서 여전히 기존 최고 방법을 초과하지 못합니다
계산 복잡도: 이중 인코더 아키텍처는 추가 계산 오버헤드를 야기할 수 있습니다
후보 생성의 단순성: KNN 기반 방법은 상대적으로 단순하여 시스템 잠재력을 제한할 수 있습니다
일반화 능력: 다중 후보 시나리오에서의 성능 저하는 모델 일반화 능력의 한계를 나타냅니다

영향력

분야 기여: 음표화 작업을 위한 새로운 연구 패러다임 제공
기술적 영감: NLP 작업에서 시각적 방법의 응용 잠재력 입증
실용적 가치: 히브리어 텍스트 처리를 위한 새로운 도구 선택지 제공
재현성: 코드 및 데이터 공개 약속으로 후속 연구 촉진

적용 시나리오

히브리어 텍스트 처리: 디지털 도서관, 교육 소프트웨어 등
다국어 시스템: 다른 셈족 언어로 확장 가능
시각적 텍스트 처리: OCR 후처리, 역사 문서 디지털화 등
연구 도구: 언어학 연구를 위한 자동화 도구 제공

참고문헌

논문은 풍부한 관련 연구를 인용하고 있습니다:

Gershuni and Pinter (2022): Nakdimon 시스템
Cohen et al. (2024): MenakBERT 시스템
Shmidman et al. (2020): Dicta's Nakdan 시스템
Rust et al. (2023): PIXEL 모델
He et al. (2022): Vision Transformer 아키텍처

종합 평가: 이는 시각적 언어 모델을 히브리어 음표화 작업에 처음 적용하고 영샷 분류의 새로운 프레임워크를 제안하는 창의적인 연구 논문입니다. 특정 설정에서 성능이 기존 방법을 초과하지는 못하지만, 개척적인 방법과 충분한 실험 검증은 이 분야에 가치 있는 기여와 새로운 연구 방향을 제공합니다.