Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
- 논문 ID: 2510.10827
- 제목: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
- 저자: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
- 분류: cs.CL cs.AI
- 발표 시간: 2025년 10월 12일 (arXiv 사전 인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.10827
음차 표기법(Transliteration)은 다국어 자연언어처리에서 서로 다른 언어 간의 격차를 해소하는 유망한 방법이 되었으며, 특히 비라틴 문자를 사용하는 언어에서 우수한 성능을 보입니다. 본 연구는 공유 문자 체계, 겹치는 어휘, 공유 음운론이 다국어 모델 성능에 미치는 기여도를 조사합니다. 세 가지 음차 표기법(로마자 표기, 음소 전사, 치환 암호) 및 정자법을 사용한 대조 실험을 통해 명명된 개체 인식(NER)과 자연언어 추론(NLI) 두 가지 하위 작업에서 모델을 평가합니다. 결과는 로마자 표기가 8개의 평가 설정 중 7개에서 다른 입력 유형보다 현저히 우수함을 보여주며, 이는 저자의 가설과 기본적으로 일치합니다. 추가 분석에 따르면 사전 학습 언어와 더 긴 (부분 단어) 토큰을 공유하면 모델 용량을 더 잘 활용할 수 있습니다.
본 연구가 해결하려는 핵심 문제는 문자 체계 장벽(Script Barrier) 현상입니다: 다국어 모델이 서로 다른 문자 체계의 언어를 처리할 때 입력 표현의 불일치로 인해 언어 간 지식 공유가 어렵습니다.
- 다국어 공정성: 대부분의 사전 학습 언어 모델은 주로 라틴 문자로 학습되어 비라틴 문자 언어에 대한 지원이 부족합니다.
- 지식 이전의 장벽: 대규모 다국어 모델에서도 서로 다른 문자 체계 간의 지식 공유는 여전히 어렵습니다.
- 자원 불균형: 비라틴 문자 언어는 종종 자원이 부족하여 더 나은 교차 언어 이전 방법이 필요합니다.
- 체계적 분석 부족: 음차 표기법(예: 로마자 표기, 음소 변환)이 실제로 효과적이지만, 그 효과의 원인에 대한 심층적 이해가 부족합니다.
- 요소 혼동: 기존 연구는 음차 표기에서 다양한 요소의 기여도를 명확히 분리하지 못했습니다.
- 평가 범위 제한: 대부분의 연구는 유사한 언어(예: 인도 언족)에 집중하여 언어 유형학적 다양성이 부족합니다.
저자는 핵심 질문을 제시합니다: 문자 체계 자체의 공유인가, 아니면 문자 체계에 인코딩된 언어 정보가 모델이 다른 언어에 적응하도록 돕는가?
- 이론적 틀: 음차 표기 효과의 세 가지 핵심 요소 정의 — 공유 문자 집합, 공유 토큰 집합, 공유 음운론
- 체계적 실험: 네 개의 언어 집합과 네 가지 입력 유형에 대한 대조 사전 학습 실험
- 심층 분석: 어휘 겹침 분석을 통해 서로 다른 음차 표기법이 다양한 겹침 패턴을 생성하는 메커니즘 규명
- 중요한 발견: 더 긴 토큰 공유가 교차 언어 적응의 핵심 역할을 함을 증명하고, 어휘 커버리지 개념 제시
연구 목표는 음차 표기에서 다양한 요소가 미학습 언어에서 다국어 모델의 성능에 어떻게 영향을 미치는지 이해하는 것입니다. 입력은 서로 다른 음차 표기법으로 처리된 텍스트이고, 출력은 하위 작업 성능입니다.
- 정의: 음차 표기는 통일된 문자 집합을 통해 토크나이저가 캡처해야 할 고유 문자와 패턴의 수를 줄입니다.
- 역할: 미지의 토큰(UNK) 비율을 현저히 감소시킵니다.
- 정의: 음차 표기는 언어 간에 공유되는 부분 단어 토큰(길이 > 1)을 생성합니다.
- 중요성: 문자 시퀀스는 단일 문자보다 의미 정보를 포함할 가능성이 더 높습니다.
- 정의: 음차 표기 방법이 인코딩하는 음운 정보의 정도
- 역할: 발음이 유사한 단어들이 유사한 표현을 갖도록 하여 동족어와 차용어를 식별합니다.
| 입력 유형 | 공유 문자 집합 | 공유 토큰 집합 | 공유 음운론 |
|---|
| Ortho (정자법) | - | - | - |
| IPA (국제음성기호) | ± | ± | + |
| Rom (로마자 표기) | + | + | ± |
| Cipher (치환 암호) | + | - | - |
- Epitran 도구를 사용한 규칙 기반 G2P 변환
- 100개 이상의 언어 지원으로 일관성과 실용성 보장
- 라틴 문자 기반이지만, 언어별 음소 목록의 차이로 인해 문자 집합과 토큰 집합이 부분적으로 공유됨
- Uroman 도구를 사용하여 다양한 문자를 라틴 문자로 변환
- 라틴 문자 언어의 원본 형식 유지
- 음성 정보를 인코딩하지만 IPA만큼 정확하지는 않음
- 로마자 표기 텍스트에 시저 암호 적용
- 각 언어마다 다른 이동 규칙 사용
- 음운 정보는 제거하지만 문자 집합 공유 유지
lang2vec을 기반으로 언어 유사성을 계산하여 네 개의 언어 집합 구성:
- sim-same: 유사 언어 + 동일 문자
- sim-div: 유사 언어 + 다른 문자
- dissim-same: 다른 언어 + 동일 문자
- dissim-div: 다른 언어 + 다른 문자
유사성은 구문, 지리, 유전 및 어휘 특성을 종합적으로 고려합니다.
- 사전 학습: 위키피디아 말뭉치, 각 언어당 약 1천만 단어로 제한
- 하위 작업:
- NER: WikiAnn 데이터셋
- NLI: XNLI 데이터셋
- 아키텍처: XLM-R 기반 Transformer 인코더
- 매개변수 수: 약 1.09억 개
- 어휘 크기: 30K (SentencePiece BPE)
- 학습: 16개 모델 처음부터 사전 학습 (4가지 입력 유형 × 4개 언어 집합)
겹침 비율 계산 공식:
OverlapRatio(lt,Ls)=maxl∈Ls∣Slt∣∣Sl∩Slt∣
길이별 분해된 겹침 비율:
∣Slt∣∣{x∈Sls∩Slt∣len(x)=m}∣
- 미학습 언어: Rom이 모든 언어 집합에서 다른 방법보다 현저히 우수
- 학습된 언어: Rom과 Ortho 성능이 비슷함
- 통계적 유의성: Rom이 다른 입력 유형 대비 p<0.05
- 미학습 언어: 모든 음차 표기법이 Ortho보다 우수하며, Rom이 최고 성능
- 학습된 언어: 입력 유형 간 유의미한 차이 없음
- UNK 토큰 상관관계: 미학습 언어의 UNK 비율과 성능 간 강한 음의 상관관계
- 음차 표기 이득: 주로 미학습 문자를 사용하는 언어에서 나타남
- 일관성: Rom이 8개 평가 설정 중 7개에서 최고 성능
- 음차 표기는 통일된 문자 공간을 통해 UNK 비율을 대폭 감소
- Cipher는 의미 정보가 없음에도 불구하고 문자 공유만으로 현저한 이득 획득
- UNK 비율과 F1 점수 간 음의 상관관계
핵심 발견:
- 짧은 토큰(단일 문자 포함)의 겹침은 성능과 음의 상관관계
- 긴 토큰의 겹침은 성능과 양의 상관관계
- Rom이 가장 많은 긴 토큰을 생성하여 우수한 성능 설명
어휘 커버리지 분석:
- Rom은 길이 2-4의 토큰에서 최고 커버리지
- 더 나은 어휘 공간 활용으로 모델 용량 향상
- 어휘 커버리지가 토큰 다산성보다 성능 차이를 더 잘 설명
- Cipher는 음운 정보 부족으로 긴 토큰 생성 어려움
- IPA는 더 많은 UNK 토큰에도 불구하고 미학습 언어에서 더 긴 공유 토큰 생성
- 공유 음운론은 일관된 형식-의미 매핑을 통해 긴 토큰 형성 촉진
- 대규모 다국어 모델이 미학습/대표성 부족 문자 처리 시 어려움 직면
- 음차 표기가 교차 언어 이전 개선의 효과적 수단으로 주목
- 로마자 표기: 사전 학습 모델의 라틴 문자 우위 활용
- G2P 변환: 텍스트를 IPA 음소 표현으로 변환
- 기존 한계: 유사 언어에 집중하여 언어 유형학적 다양성 분석 부족
- 어휘/부분 단어 단위 공유로 모델이 학습된 표현 재사용 가능
- 높은 UNK 토큰 비율이 이전을 방해하고 하위 작업 성능 저하
- 본 연구는 길이 분해를 통해 더 세밀한 분석 제공
- 로마자 표기 최적: 대부분의 설정에서 다른 음차 표기법보다 현저히 우수
- 긴 토큰 핵심: 공유 긴 토큰이 문자 수준 겹침보다 중요
- 메커니즘 설명: 음차 표기는 토큰 분포를 재구성하여 다국어 모델의 적응성 향상
- 모델 범위: 하나의 Transformer 모델과 부분 단어 토큰화 방식만 테스트
- 도구 의존성: 결과는 특정 로마자 표기기 및 G2P 도구 성능의 영향을 받을 수 있음
- 평가 범위: 문자 수준 또는 바이트 수준 모델에서 검증 필요
- 다양한 모델 아키텍처 및 토큰화 방식으로 확장
- 다른 음차 표기 도구의 영향 탐색
- 토큰 길이 분포가 다양한 작업에 미치는 영향 연구
- 이론적 기여: 음차 표기 효과의 핵심 요소를 처음으로 체계적으로 분해
- 실험 설계: 대조 실험 설계가 엄밀하고 변수 제어가 명확
- 분석 깊이: 어휘 겹침의 길이 분해 분석이 새로운 통찰력 제공
- 실용적 가치: 다국어 NLP에서 음차 표기 방법 선택에 지침 제공
- 범위 제한: 두 가지 작업에서만 평가하여 일반화 가능성 검증 필요
- 언어 커버리지: 언어 유형학적 다양성은 있지만 언어 수가 상대적으로 제한적
- 이론적 설명: 긴 토큰이 더 효과적인 이유에 대한 이론적 설명 부족
- 학술적 기여: 음차 표기 연구에 새로운 분석 틀 제공
- 실용적 가치: 저자원 언어의 다국어 모델 응용 지도
- 재현성: 방법 및 실험 설정 설명이 상세하여 재현 용이
- 다국어 NLP: 특히 비라틴 문자 관련 응용에 적합
- 저자원 언어: 자원 부족 언어에 효과적인 전이 학습 전략 제공
- 교차 언어 정보 검색: 통일된 표현이 교차 언어 매칭 지원
논문은 다음을 포함한 여러 중요 연구를 인용합니다:
- XLM-R (Conneau et al., 2020): 다국어 사전 학습 모델
- Epitran (Mortensen et al., 2018): G2P 변환 도구
- Uroman (Hermjakob et al., 2018): 범용 로마자 표기 도구
- WikiAnn (Pan et al., 2017): 다국어 NER 데이터셋
이 연구는 체계적인 대조 실험과 심층 분석을 통해 음차 표기가 다국어 NLP에서 작용하는 메커니즘을 이해하는 데 중요한 통찰력을 제공하며, 특히 공유 긴 토큰이 교차 언어 적응의 핵심 역할을 한다는 발견은 이 분야의 이론 발전과 실제 응용 모두에 가치 있는 기여를 합니다.