Transliteration has emerged as a promising means to bridge the gap between various languages in multilingual NLP, showing promising results especially for languages using non-Latin scripts. We investigate the degree to which shared script, overlapping token vocabularies, and shared phonology contribute to performance of multilingual models. To this end, we conduct controlled experiments using three kinds of transliteration (romanization, phonemic transcription, and substitution ciphers) as well as orthography. We evaluate each model on two downstream tasks -- named entity recognition (NER) and natural language inference (NLI) -- and find that romanization significantly outperforms other input types in 7 out of 8 evaluation settings, largely consistent with our hypothesis that it is the most effective approach. We further analyze how each factor contributed to the success, and suggest that having longer (subword) tokens shared with pre-trained languages leads to better utilization of the model.
- पेपर ID: 2510.10827
- शीर्षक: Happiness is Sharing a Vocabulary: A Study of Transliteration Methods
- लेखक: Haeji Jung, Jinju Kim, Kyungjin Kim, Youjeong Roh, David R. Mortensen
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन समय: 25 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.10827
लिप्यंतरण (Transliteration) बहुभाषिक NLP में विभिन्न भाषाओं के बीच की खाई को पाटने के लिए एक आशाजनक विधि बन गई है, विशेष रूप से गैर-लैटिन लिपि का उपयोग करने वाली भाषाओं के लिए उत्कृष्ट प्रदर्शन दिखाती है। यह अध्ययन साझा लिपि, अतिव्यापी शब्दावली और साझा ध्वन्यात्मकता के बहुभाषिक मॉडल के प्रदर्शन में योगदान की जांच करता है। तीन लिप्यंतरण विधियों (रोमनीकरण, फोनेमिक ट्रांसक्रिप्शन और प्रतिस्थापन साइफर) और ऑर्थोग्राफी का उपयोग करके नियंत्रण प्रयोग के माध्यम से, मॉडल को नामित इकाई पहचान (NER) और प्राकृतिक भाषा अनुमान (NLI) दोनों डाउनस्ट्रीम कार्यों पर मूल्यांकन किया गया। परिणाम दिखाते हैं कि रोमनीकरण 8 मूल्यांकन सेटिंग्स में से 7 में अन्य इनपुट प्रकारों से काफी बेहतर है, जो लेखकों की परिकल्पना के अनुरूप है। आगे के विश्लेषण से पता चलता है कि पूर्व-प्रशिक्षण भाषा के साथ लंबे (सबवर्ड) टोकन साझा करना मॉडल क्षमता का बेहतर उपयोग करता है।
यह अनुसंधान लिपि बाधा (Script Barrier) घटना को संबोधित करता है: बहुभाषिक मॉडल विभिन्न लिपि प्रणालियों की भाषाओं को संभालते समय, इनपुट प्रतिनिधित्व की असंगति के कारण भाषाओं के बीच ज्ञान साझा करने में कठिनाई का सामना करते हैं।
- बहुभाषिक न्यायसंगतता: अधिकांश पूर्व-प्रशिक्षित भाषा मॉडल मुख्य रूप से लैटिन लिपि पर आधारित हैं, गैर-लैटिन लिपि भाषाओं के लिए अपर्याप्त समर्थन
- ज्ञान स्थानांतरण बाधा: यहां तक कि बड़े पैमाने पर बहुभाषिक मॉडल में भी, विभिन्न लिपि प्रणालियों के बीच ज्ञान साझा करना कठिन है
- संसाधन असंतुलन: गैर-लैटिन लिपि भाषाओं में आमतौर पर कम संसाधन होते हैं, बेहतर क्रॉस-भाषा स्थानांतरण विधियों की आवश्यकता होती है
- व्यवस्थित विश्लेषण की कमी: हालांकि लिप्यंतरण विधियां (जैसे रोमनीकरण, फोनेमिक रूपांतरण) व्यावहारिक रूप से प्रभावी हैं, उनकी प्रभावशीलता के कारणों की गहन समझ की कमी है
- कारक भ्रम: मौजूदा अनुसंधान लिप्यंतरण में विभिन्न कारकों के योगदान को स्पष्ट रूप से अलग करने में विफल रहे हैं
- सीमित मूल्यांकन सीमा: अधिकांश अनुसंधान समान भाषाओं (जैसे भारत-यूरोपीय परिवार) पर केंद्रित है, भाषाई विविधता की कमी है
लेखक मूल प्रश्न प्रस्तुत करते हैं: क्या साझा लिपि स्वयं है या लिपि में एन्कोड की गई भाषाई जानकारी मॉडल को अन्य भाषाओं के अनुकूल होने में मदद करती है?
- सैद्धांतिक ढांचा: लिप्यंतरण प्रभाव के तीन प्रमुख कारकों को परिभाषित करता है—साझा वर्ण सेट, साझा टोकन सेट और साझा ध्वन्यात्मकता
- व्यवस्थित प्रयोग: चार भाषा सेट और चार इनपुट प्रकारों पर नियंत्रण पूर्व-प्रशिक्षण प्रयोग
- गहन विश्लेषण: शब्दावली अतिव्यापन विश्लेषण के माध्यम से विभिन्न लिप्यंतरण विधियों द्वारा विभिन्न अतिव्यापन पैटर्न उत्पन्न करने की व्यवस्था को प्रकट करता है
- महत्वपूर्ण निष्कर्ष: क्रॉस-भाषा अनुकूलन के लिए लंबे टोकन साझा करने की महत्वपूर्ण भूमिका को साबित करता है, शब्दावली कवरेज की अवधारणा प्रस्तुत करता है
अनुसंधान का लक्ष्य यह समझना है कि लिप्यंतरण में विभिन्न कारक अदृश्य भाषाओं पर बहुभाषिक मॉडल के प्रदर्शन को कैसे प्रभावित करते हैं। इनपुट विभिन्न लिप्यंतरण विधियों द्वारा संसाधित पाठ है, आउटपुट डाउनस्ट्रीम कार्य प्रदर्शन है।
- परिभाषा: लिप्यंतरण एक एकीकृत वर्ण सेट के माध्यम से टोकनाइजर को कैप्चर करने के लिए आवश्यक अद्वितीय वर्णों और पैटर्न को कम करता है
- कार्य: अज्ञात टोकन (UNK) अनुपात को काफी कम करता है
- परिभाषा: लिप्यंतरण क्रॉस-भाषा साझा सबवर्ड टोकन (लंबाई > 1) उत्पन्न करता है
- महत्व: वर्ण अनुक्रम एकल वर्णों की तुलना में अधिक संभावित रूप से शब्दार्थ जानकारी शामिल करते हैं
- परिभाषा: लिप्यंतरण विधि द्वारा एन्कोड की गई ध्वन्यात्मक जानकारी की डिग्री
- कार्य: उच्चारण में समान शब्दों को समान प्रतिनिधित्व देता है, समरूप शब्दों और उधार शब्दों को पहचानता है
| इनपुट प्रकार | साझा वर्ण सेट | साझा टोकन सेट | साझा ध्वन्यात्मकता |
|---|
| Ortho (ऑर्थोग्राफी) | - | - | - |
| IPA (अंतर्राष्ट्रीय ध्वन्यात्मक वर्णमाला) | ± | ± | + |
| Rom (रोमनीकरण) | + | + | ± |
| Cipher (प्रतिस्थापन साइफर) | + | - | - |
- Epitran उपकरण का उपयोग करके नियम-आधारित G2P रूपांतरण
- 100 से अधिक भाषाओं का समर्थन, सुसंगतता और व्यावहारिकता सुनिश्चित करता है
- हालांकि लैटिन लिपि पर आधारित है, विभिन्न भाषाओं के फोनेम इन्वेंटरी में अंतर वर्ण सेट और टोकन सेट के आंशिक साझा करण का कारण बनता है
- विभिन्न लिपियों को लैटिन वर्णों में परिवर्तित करने के लिए Uroman उपकरण का उपयोग करता है
- लैटिन लिपि भाषाओं के लिए मूल रूप को संरक्षित करता है
- ध्वनि जानकारी को एन्कोड करता है लेकिन IPA जितना सटीक नहीं है
- रोमनीकृत पाठ पर सीजर साइफर लागू करता है
- प्रत्येक भाषा के लिए विभिन्न शिफ्ट नियम का उपयोग करता है
- ध्वन्यात्मक जानकारी को हटाता है लेकिन वर्ण सेट साझा करण को बनाए रखता है
lang2vec के आधार पर भाषा समानता की गणना करके, चार भाषा सेट का निर्माण:
- sim-same: समान भाषाएं + समान लिपि
- sim-div: समान भाषाएं + विभिन्न लिपि
- dissim-same: विभिन्न भाषाएं + समान लिपि
- dissim-div: विभिन्न भाषाएं + विभिन्न लिपि
समानता वाक्य रचना, भूगोल, आनुवंशिकता और शब्दावली विशेषताओं पर विचार करती है।
- पूर्व-प्रशिक्षण: विकिपीडिया कॉर्पस, प्रत्येक भाषा के लिए लगभग 10 मिलियन शब्दों तक सीमित
- डाउनस्ट्रीम कार्य:
- NER: WikiAnn डेटासेट
- NLI: XNLI डेटासेट
- आर्किटेक्चर: XLM-R पर आधारित Transformer एन्कोडर
- पैरामीटर संख्या: लगभग 109 मिलियन पैरामीटर
- शब्दावली आकार: 30K (SentencePiece BPE)
- प्रशिक्षण: 16 मॉडल से शुरुआत से प्रशिक्षण (4 इनपुट प्रकार × 4 भाषा सेट)
अतिव्यापन अनुपात गणना सूत्र:
OverlapRatio(lt,Ls)=maxl∈Ls∣Slt∣∣Sl∩Slt∣
लंबाई द्वारा विघटित अतिव्यापन अनुपात:
∣Slt∣∣{x∈Sls∩Slt∣len(x)=m}∣
- अदृश्य भाषाएं: Rom सभी भाषा सेटों पर अन्य विधियों से काफी बेहतर है
- दृश्य भाषाएं: Rom और Ortho प्रदर्शन समान है
- सांख्यिकीय महत्व: Rom अन्य इनपुट प्रकारों की तुलना में p<0.05
- अदृश्य भाषाएं: सभी लिप्यंतरण विधियां Ortho से बेहतर हैं, Rom सर्वश्रेष्ठ प्रदर्शन करता है
- दृश्य भाषाएं: इनपुट प्रकारों के बीच कोई महत्वपूर्ण अंतर नहीं है
- UNK टोकन सहसंबंध: अदृश्य भाषाओं में UNK अनुपात प्रदर्शन के साथ मजबूत नकारात्मक सहसंबंध
- लिप्यंतरण लाभ: मुख्य रूप से अदृश्य लिपि का उपयोग करने वाली भाषाओं पर प्रदर्शित होता है
- सुसंगतता: Rom 7/8 मूल्यांकन सेटिंग्स में सर्वश्रेष्ठ प्रदर्शन करता है
- लिप्यंतरण एकीकृत वर्ण स्थान के माध्यम से UNK अनुपात में काफी कमी लाता है
- Cipher भले ही कोई शब्दार्थ जानकारी न हो, केवल वर्ण साझा करण से महत्वपूर्ण लाभ प्राप्त करता है
- UNK अनुपात F1 स्कोर के साथ नकारात्मक सहसंबंध
मूल निष्कर्ष:
- छोटे टोकन (एकल वर्ण सहित) अतिव्यापन प्रदर्शन के साथ नकारात्मक सहसंबंध
- लंबे टोकन अतिव्यापन प्रदर्शन के साथ सकारात्मक सहसंबंध
- Rom सबसे अधिक लंबे टोकन उत्पन्न करता है, इसके उत्कृष्ट प्रदर्शन को समझाता है
शब्दावली कवरेज विश्लेषण:
- Rom लंबाई 2-4 के टोकन पर सर्वोच्च कवरेज है
- बेहतर शब्दावली स्थान उपयोग मॉडल क्षमता को बढ़ाता है
- शब्दावली कवरेज टोकनाइजर उर्वरता की तुलना में प्रदर्शन अंतर को बेहतर समझाता है
- Cipher ध्वन्यात्मक जानकारी की कमी से लंबे टोकन उत्पन्न करने में कठिनाई होती है
- IPA अधिक UNK टोकन होने के बावजूद, अदृश्य भाषाओं पर लंबे साझा टोकन उत्पन्न करता है
- साझा ध्वन्यात्मकता सुसंगत रूप-अर्थ मानचित्रण के माध्यम से लंबे टोकन गठन को बढ़ावा देता है
- बड़े पैमाने पर बहुभाषिक मॉडल अदृश्य/अपर्याप्त प्रतिनिधित्व वाली लिपियों को संभालते समय चुनौतियों का सामना करते हैं
- लिप्यंतरण क्रॉस-भाषा स्थानांतरण में सुधार के लिए एक प्रभावी साधन के रूप में ध्यान आकर्षित करता है
- रोमनीकरण: पूर्व-प्रशिक्षित मॉडल में लैटिन लिपि की प्रभुता का लाभ उठाता है
- G2P रूपांतरण: पाठ को IPA फोनेमिक प्रतिनिधित्व में परिवर्तित करता है
- मौजूदा सीमाएं: समान भाषाओं पर केंद्रित, भाषाई विविधता विश्लेषण की कमी है
- शब्दावली/सबवर्ड इकाई साझा करण मॉडल को सीखे गए प्रतिनिधित्व को पुनः उपयोग करने की अनुमति देता है
- उच्च UNK टोकन अनुपात स्थानांतरण को बाधित करता है और डाउनस्ट्रीम प्रदर्शन को कम करता है
- यह अनुसंधान लंबाई विघटन के माध्यम से अधिक सूक्ष्म विश्लेषण प्रदान करता है
- रोमनीकरण सर्वश्रेष्ठ: अधिकांश सेटिंग्स में अन्य लिप्यंतरण विधियों से काफी बेहतर
- लंबे टोकन महत्वपूर्ण: साझा लंबे टोकन वर्ण-स्तरीय अतिव्यापन से अधिक महत्वपूर्ण
- तंत्र व्याख्या: लिप्यंतरण टोकन वितरण को पुनर्गठित करके बहुभाषिक मॉडल को अधिक अनुकूलनीय बनाता है
- मॉडल सीमा: केवल एक Transformer मॉडल और सबवर्ड टोकनीकरण योजना का परीक्षण किया गया है
- उपकरण निर्भरता: परिणाम विशिष्ट रोमनीकरण और G2P उपकरण के प्रदर्शन से प्रभावित हो सकते हैं
- मूल्यांकन सीमा: वर्ण-स्तरीय या बाइट-स्तरीय मॉडल पर सत्यापन की आवश्यकता हो सकती है
- विभिन्न मॉडल आर्किटेक्चर और टोकनीकरण योजनाओं तक विस्तार
- अन्य लिप्यंतरण उपकरणों के प्रभाव की खोज
- विभिन्न कार्यों पर टोकन लंबाई वितरण के प्रभाव का अध्ययन
- सैद्धांतिक योगदान: लिप्यंतरण प्रभाव के प्रमुख कारकों का पहला व्यवस्थित विघटन
- प्रयोगात्मक डिजाइन: नियंत्रण प्रयोग डिजाइन कठोर है, चर स्पष्ट रूप से नियंत्रित हैं
- विश्लेषण गहराई: शब्दावली अतिव्यापन की लंबाई विघटन विश्लेषण नई अंतर्दृष्टि प्रदान करता है
- व्यावहारिक मूल्य: बहुभाषिक NLP में लिप्यंतरण विधि चयन के लिए मार्गदर्शन प्रदान करता है
- सीमा सीमा: केवल दो कार्यों पर मूल्यांकन, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
- भाषा कवरेज: हालांकि भाषाई विविधता है, भाषा संख्या अपेक्षाकृत सीमित है
- सैद्धांतिक व्याख्या: लंबे टोकन अधिक प्रभावी क्यों हैं इसकी सैद्धांतिक व्याख्या अपर्याप्त है
- शैक्षणिक योगदान: लिप्यंतरण अनुसंधान के लिए नई विश्लेषण ढांचा प्रदान करता है
- व्यावहारिक मूल्य: कम संसाधन भाषाओं के बहुभाषिक मॉडल अनुप्रयोग को निर्देशित करता है
- पुनरुत्पादनीयता: विधि और प्रयोगात्मक सेटअप विवरण विस्तृत हैं, पुनरुत्पादन में सहायता करते हैं
- बहुभाषिक NLP: विशेष रूप से गैर-लैटिन लिपि वाले अनुप्रयोगों के लिए उपयुक्त
- कम संसाधन भाषाएं: संसाधन-दुर्लभ भाषाओं के लिए प्रभावी स्थानांतरण शिक्षा रणनीति प्रदान करता है
- क्रॉस-भाषा सूचना पुनर्प्राप्ति: एकीकृत प्रतिनिधित्व क्रॉस-भाषा मिलान में सहायता करता है
पेपर कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- XLM-R (Conneau et al., 2020): बहुभाषिक पूर्व-प्रशिक्षण मॉडल
- Epitran (Mortensen et al., 2018): G2P रूपांतरण उपकरण
- Uroman (Hermjakob et al., 2018): सार्वभौमिक रोमनीकरण उपकरण
- WikiAnn (Pan et al., 2017): बहुभाषिक NER डेटासेट
यह अनुसंधान व्यवस्थित नियंत्रण प्रयोगों और गहन विश्लेषण के माध्यम से, बहुभाषिक NLP में लिप्यंतरण की भूमिका तंत्र को समझने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करता है, विशेष रूप से क्रॉस-भाषा अनुकूलन के लिए साझा लंबे टोकन की महत्वपूर्ण भूमिका की खोज करता है, जो इस क्षेत्र के सैद्धांतिक विकास और व्यावहारिक अनुप्रयोग दोनों में मूल्यवान योगदान देता है।