2025-11-25T03:46:17.872017

Happiness is Sharing a Vocabulary: A Study of Transliteration Methods

Jung, Kim, Kim et al.

Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.

academic

खुशी एक साझा शब्दावली साझा करना है: लिप्यंतरण विधियों का अध्ययन

मूल जानकारी

पेपर ID: 2510.10827
शीर्षक: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
लेखक: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
वर्गीकरण: cs.CL cs.AI
प्रकाशन समय: 25 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10827

सारांश

लिप्यंतरण (Transliteration) बहुभाषिक NLP में विभिन्न भाषाओं के बीच की खाई को पाटने के लिए एक आशाजनक विधि बन गई है, विशेष रूप से गैर-लैटिन लिपि का उपयोग करने वाली भाषाओं के लिए उत्कृष्ट प्रदर्शन दिखाती है। यह अध्ययन साझा लिपि, अतिव्यापी शब्दावली और साझा ध्वन्यात्मकता के बहुभाषिक मॉडल के प्रदर्शन में योगदान की जांच करता है। तीन लिप्यंतरण विधियों (रोमनीकरण, फोनेमिक ट्रांसक्रिप्शन और प्रतिस्थापन साइफर) और ऑर्थोग्राफी का उपयोग करके नियंत्रण प्रयोग के माध्यम से, मॉडल को नामित इकाई पहचान (NER) और प्राकृतिक भाषा अनुमान (NLI) दोनों डाउनस्ट्रीम कार्यों पर मूल्यांकन किया गया। परिणाम दिखाते हैं कि रोमनीकरण 8 मूल्यांकन सेटिंग्स में से 7 में अन्य इनपुट प्रकारों से काफी बेहतर है, जो लेखकों की परिकल्पना के अनुरूप है। आगे के विश्लेषण से पता चलता है कि पूर्व-प्रशिक्षण भाषा के साथ लंबे (सबवर्ड) टोकन साझा करना मॉडल क्षमता का बेहतर उपयोग करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान लिपि बाधा (Script Barrier) घटना को संबोधित करता है: बहुभाषिक मॉडल विभिन्न लिपि प्रणालियों की भाषाओं को संभालते समय, इनपुट प्रतिनिधित्व की असंगति के कारण भाषाओं के बीच ज्ञान साझा करने में कठिनाई का सामना करते हैं।

समस्या की महत्ता

बहुभाषिक न्यायसंगतता: अधिकांश पूर्व-प्रशिक्षित भाषा मॉडल मुख्य रूप से लैटिन लिपि पर आधारित हैं, गैर-लैटिन लिपि भाषाओं के लिए अपर्याप्त समर्थन
ज्ञान स्थानांतरण बाधा: यहां तक कि बड़े पैमाने पर बहुभाषिक मॉडल में भी, विभिन्न लिपि प्रणालियों के बीच ज्ञान साझा करना कठिन है
संसाधन असंतुलन: गैर-लैटिन लिपि भाषाओं में आमतौर पर कम संसाधन होते हैं, बेहतर क्रॉस-भाषा स्थानांतरण विधियों की आवश्यकता होती है

मौजूदा विधियों की सीमाएं

व्यवस्थित विश्लेषण की कमी: हालांकि लिप्यंतरण विधियां (जैसे रोमनीकरण, फोनेमिक रूपांतरण) व्यावहारिक रूप से प्रभावी हैं, उनकी प्रभावशीलता के कारणों की गहन समझ की कमी है
कारक भ्रम: मौजूदा अनुसंधान लिप्यंतरण में विभिन्न कारकों के योगदान को स्पष्ट रूप से अलग करने में विफल रहे हैं
सीमित मूल्यांकन सीमा: अधिकांश अनुसंधान समान भाषाओं (जैसे भारत-यूरोपीय परिवार) पर केंद्रित है, भाषाई विविधता की कमी है

अनुसंधान प्रेरणा

लेखक मूल प्रश्न प्रस्तुत करते हैं: क्या साझा लिपि स्वयं है या लिपि में एन्कोड की गई भाषाई जानकारी मॉडल को अन्य भाषाओं के अनुकूल होने में मदद करती है?

मूल योगदान

सैद्धांतिक ढांचा: लिप्यंतरण प्रभाव के तीन प्रमुख कारकों को परिभाषित करता है—साझा वर्ण सेट, साझा टोकन सेट और साझा ध्वन्यात्मकता
व्यवस्थित प्रयोग: चार भाषा सेट और चार इनपुट प्रकारों पर नियंत्रण पूर्व-प्रशिक्षण प्रयोग
गहन विश्लेषण: शब्दावली अतिव्यापन विश्लेषण के माध्यम से विभिन्न लिप्यंतरण विधियों द्वारा विभिन्न अतिव्यापन पैटर्न उत्पन्न करने की व्यवस्था को प्रकट करता है
महत्वपूर्ण निष्कर्ष: क्रॉस-भाषा अनुकूलन के लिए लंबे टोकन साझा करने की महत्वपूर्ण भूमिका को साबित करता है, शब्दावली कवरेज की अवधारणा प्रस्तुत करता है

विधि विवरण

कार्य परिभाषा

अनुसंधान का लक्ष्य यह समझना है कि लिप्यंतरण में विभिन्न कारक अदृश्य भाषाओं पर बहुभाषिक मॉडल के प्रदर्शन को कैसे प्रभावित करते हैं। इनपुट विभिन्न लिप्यंतरण विधियों द्वारा संसाधित पाठ है, आउटपुट डाउनस्ट्रीम कार्य प्रदर्शन है।

तीन प्रमुख कारक

1. साझा वर्ण सेट (Shared Character Set)

परिभाषा: लिप्यंतरण एक एकीकृत वर्ण सेट के माध्यम से टोकनाइजर को कैप्चर करने के लिए आवश्यक अद्वितीय वर्णों और पैटर्न को कम करता है
कार्य: अज्ञात टोकन (UNK) अनुपात को काफी कम करता है

2. साझा टोकन सेट (Shared Token Set)

परिभाषा: लिप्यंतरण क्रॉस-भाषा साझा सबवर्ड टोकन (लंबाई > 1) उत्पन्न करता है
महत्व: वर्ण अनुक्रम एकल वर्णों की तुलना में अधिक संभावित रूप से शब्दार्थ जानकारी शामिल करते हैं

3. साझा ध्वन्यात्मकता (Shared Phonology)

परिभाषा: लिप्यंतरण विधि द्वारा एन्कोड की गई ध्वन्यात्मक जानकारी की डिग्री
कार्य: उच्चारण में समान शब्दों को समान प्रतिनिधित्व देता है, समरूप शब्दों और उधार शब्दों को पहचानता है

चार इनपुट प्रकार

इनपुट प्रकार	साझा वर्ण सेट	साझा टोकन सेट	साझा ध्वन्यात्मकता
Ortho (ऑर्थोग्राफी)	-	-	-
IPA (अंतर्राष्ट्रीय ध्वन्यात्मक वर्णमाला)	±	±	+
Rom (रोमनीकरण)	+	+	±
Cipher (प्रतिस्थापन साइफर)	+	-	-

IPA रूपांतरण

Epitran उपकरण का उपयोग करके नियम-आधारित G2P रूपांतरण
100 से अधिक भाषाओं का समर्थन, सुसंगतता और व्यावहारिकता सुनिश्चित करता है
हालांकि लैटिन लिपि पर आधारित है, विभिन्न भाषाओं के फोनेम इन्वेंटरी में अंतर वर्ण सेट और टोकन सेट के आंशिक साझा करण का कारण बनता है

रोमनीकरण (Rom)

विभिन्न लिपियों को लैटिन वर्णों में परिवर्तित करने के लिए Uroman उपकरण का उपयोग करता है
लैटिन लिपि भाषाओं के लिए मूल रूप को संरक्षित करता है
ध्वनि जानकारी को एन्कोड करता है लेकिन IPA जितना सटीक नहीं है

प्रतिस्थापन साइफर (Cipher)

रोमनीकृत पाठ पर सीजर साइफर लागू करता है
प्रत्येक भाषा के लिए विभिन्न शिफ्ट नियम का उपयोग करता है
ध्वन्यात्मक जानकारी को हटाता है लेकिन वर्ण सेट साझा करण को बनाए रखता है

भाषा चयन रणनीति

lang2vec के आधार पर भाषा समानता की गणना करके, चार भाषा सेट का निर्माण:

sim-same: समान भाषाएं + समान लिपि
sim-div: समान भाषाएं + विभिन्न लिपि
dissim-same: विभिन्न भाषाएं + समान लिपि
dissim-div: विभिन्न भाषाएं + विभिन्न लिपि

समानता वाक्य रचना, भूगोल, आनुवंशिकता और शब्दावली विशेषताओं पर विचार करती है।

प्रयोगात्मक सेटअप

डेटासेट

पूर्व-प्रशिक्षण: विकिपीडिया कॉर्पस, प्रत्येक भाषा के लिए लगभग 10 मिलियन शब्दों तक सीमित
डाउनस्ट्रीम कार्य:
- NER: WikiAnn डेटासेट
- NLI: XNLI डेटासेट

मॉडल कॉन्फ़िगरेशन

आर्किटेक्चर: XLM-R पर आधारित Transformer एन्कोडर
पैरामीटर संख्या: लगभग 109 मिलियन पैरामीटर
शब्दावली आकार: 30K (SentencePiece BPE)
प्रशिक्षण: 16 मॉडल से शुरुआत से प्रशिक्षण (4 इनपुट प्रकार × 4 भाषा सेट)

शब्दावली अतिव्यापन विश्लेषण

अतिव्यापन अनुपात गणना सूत्र: $\text{OverlapRatio}(l_t, L_s) = \max_{l \in L_s} \frac{|S_l \cap S_{l_t}|}{|S_{l_t}|}$

लंबाई द्वारा विघटित अतिव्यापन अनुपात: $\frac{|\{x \in S_{l_s} \cap S_{l_t} | \text{len}(x) = m\}|}{|S_{l_t}|}$

प्रयोगात्मक परिणाम

मुख्य परिणाम

NER कार्य प्रदर्शन

अदृश्य भाषाएं: Rom सभी भाषा सेटों पर अन्य विधियों से काफी बेहतर है
दृश्य भाषाएं: Rom और Ortho प्रदर्शन समान है
सांख्यिकीय महत्व: Rom अन्य इनपुट प्रकारों की तुलना में p<0.05

NLI कार्य प्रदर्शन

अदृश्य भाषाएं: सभी लिप्यंतरण विधियां Ortho से बेहतर हैं, Rom सर्वश्रेष्ठ प्रदर्शन करता है
दृश्य भाषाएं: इनपुट प्रकारों के बीच कोई महत्वपूर्ण अंतर नहीं है

मुख्य निष्कर्ष

UNK टोकन सहसंबंध: अदृश्य भाषाओं में UNK अनुपात प्रदर्शन के साथ मजबूत नकारात्मक सहसंबंध
लिप्यंतरण लाभ: मुख्य रूप से अदृश्य लिपि का उपयोग करने वाली भाषाओं पर प्रदर्शित होता है
सुसंगतता: Rom 7/8 मूल्यांकन सेटिंग्स में सर्वश्रेष्ठ प्रदर्शन करता है

गहन विश्लेषण

1. साझा वर्ण सेट की भूमिका

लिप्यंतरण एकीकृत वर्ण स्थान के माध्यम से UNK अनुपात में काफी कमी लाता है
Cipher भले ही कोई शब्दार्थ जानकारी न हो, केवल वर्ण साझा करण से महत्वपूर्ण लाभ प्राप्त करता है
UNK अनुपात F1 स्कोर के साथ नकारात्मक सहसंबंध

2. टोकन लंबाई की महत्ता

मूल निष्कर्ष:

छोटे टोकन (एकल वर्ण सहित) अतिव्यापन प्रदर्शन के साथ नकारात्मक सहसंबंध
लंबे टोकन अतिव्यापन प्रदर्शन के साथ सकारात्मक सहसंबंध
Rom सबसे अधिक लंबे टोकन उत्पन्न करता है, इसके उत्कृष्ट प्रदर्शन को समझाता है

शब्दावली कवरेज विश्लेषण:

Rom लंबाई 2-4 के टोकन पर सर्वोच्च कवरेज है
बेहतर शब्दावली स्थान उपयोग मॉडल क्षमता को बढ़ाता है
शब्दावली कवरेज टोकनाइजर उर्वरता की तुलना में प्रदर्शन अंतर को बेहतर समझाता है

3. साझा ध्वन्यात्मकता का मार्ग प्रभाव

Cipher ध्वन्यात्मक जानकारी की कमी से लंबे टोकन उत्पन्न करने में कठिनाई होती है
IPA अधिक UNK टोकन होने के बावजूद, अदृश्य भाषाओं पर लंबे साझा टोकन उत्पन्न करता है
साझा ध्वन्यात्मकता सुसंगत रूप-अर्थ मानचित्रण के माध्यम से लंबे टोकन गठन को बढ़ावा देता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

रोमनीकरण सर्वश्रेष्ठ: अधिकांश सेटिंग्स में अन्य लिप्यंतरण विधियों से काफी बेहतर
लंबे टोकन महत्वपूर्ण: साझा लंबे टोकन वर्ण-स्तरीय अतिव्यापन से अधिक महत्वपूर्ण
तंत्र व्याख्या: लिप्यंतरण टोकन वितरण को पुनर्गठित करके बहुभाषिक मॉडल को अधिक अनुकूलनीय बनाता है

सीमाएं

मॉडल सीमा: केवल एक Transformer मॉडल और सबवर्ड टोकनीकरण योजना का परीक्षण किया गया है
उपकरण निर्भरता: परिणाम विशिष्ट रोमनीकरण और G2P उपकरण के प्रदर्शन से प्रभावित हो सकते हैं
मूल्यांकन सीमा: वर्ण-स्तरीय या बाइट-स्तरीय मॉडल पर सत्यापन की आवश्यकता हो सकती है

भविष्य की दिशाएं

विभिन्न मॉडल आर्किटेक्चर और टोकनीकरण योजनाओं तक विस्तार
अन्य लिप्यंतरण उपकरणों के प्रभाव की खोज
विभिन्न कार्यों पर टोकन लंबाई वितरण के प्रभाव का अध्ययन

गहन मूल्यांकन

शक्तियां

सैद्धांतिक योगदान: लिप्यंतरण प्रभाव के प्रमुख कारकों का पहला व्यवस्थित विघटन
प्रयोगात्मक डिजाइन: नियंत्रण प्रयोग डिजाइन कठोर है, चर स्पष्ट रूप से नियंत्रित हैं
विश्लेषण गहराई: शब्दावली अतिव्यापन की लंबाई विघटन विश्लेषण नई अंतर्दृष्टि प्रदान करता है
व्यावहारिक मूल्य: बहुभाषिक NLP में लिप्यंतरण विधि चयन के लिए मार्गदर्शन प्रदान करता है

कमियां

सीमा सीमा: केवल दो कार्यों पर मूल्यांकन, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
भाषा कवरेज: हालांकि भाषाई विविधता है, भाषा संख्या अपेक्षाकृत सीमित है
सैद्धांतिक व्याख्या: लंबे टोकन अधिक प्रभावी क्यों हैं इसकी सैद्धांतिक व्याख्या अपर्याप्त है

प्रभाव

शैक्षणिक योगदान: लिप्यंतरण अनुसंधान के लिए नई विश्लेषण ढांचा प्रदान करता है
व्यावहारिक मूल्य: कम संसाधन भाषाओं के बहुभाषिक मॉडल अनुप्रयोग को निर्देशित करता है
पुनरुत्पादनीयता: विधि और प्रयोगात्मक सेटअप विवरण विस्तृत हैं, पुनरुत्पादन में सहायता करते हैं

लागू परिदृश्य

बहुभाषिक NLP: विशेष रूप से गैर-लैटिन लिपि वाले अनुप्रयोगों के लिए उपयुक्त
कम संसाधन भाषाएं: संसाधन-दुर्लभ भाषाओं के लिए प्रभावी स्थानांतरण शिक्षा रणनीति प्रदान करता है
क्रॉस-भाषा सूचना पुनर्प्राप्ति: एकीकृत प्रतिनिधित्व क्रॉस-भाषा मिलान में सहायता करता है

संदर्भ

पेपर कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

XLM-R (Conneau et al., 2020): बहुभाषिक पूर्व-प्रशिक्षण मॉडल
Epitran (Mortensen et al., 2018): G2P रूपांतरण उपकरण
Uroman (Hermjakob et al., 2018): सार्वभौमिक रोमनीकरण उपकरण
WikiAnn (Pan et al., 2017): बहुभाषिक NER डेटासेट

यह अनुसंधान व्यवस्थित नियंत्रण प्रयोगों और गहन विश्लेषण के माध्यम से, बहुभाषिक NLP में लिप्यंतरण की भूमिका तंत्र को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है, विशेष रूप से क्रॉस-भाषा अनुकूलन के लिए साझा लंबे टोकन की महत्वपूर्ण भूमिका की खोज करता है, जो इस क्षेत्र के सैद्धांतिक विकास और व्यावहारिक अनुप्रयोग दोनों में मूल्यवान योगदान देता है।