2025-11-11T14:37:08.910755

The Tonogenesis Continuum in Tibetan: A Computational Investigation

Liang, Zerong
Tonogenesis-the historical process by which segmental contrasts evolve into lexical tone-has traditionally been studied through comparative reconstruction and acoustic phonetics. We introduce a computational approach that quantifies the functional role of pitch at different stages of this sound change by measuring how pitch manipulation affects automatic speech recognition (ASR) performance. Through analysis on the sensitivity to pitch-flattening from a set of closely related Tibetan languages, we find evidence of a tonogenesis continuum: atonal Amdo dialects tolerate pitch removal the most, while fully tonal U-Tsang varieties show severe degradation, and intermediate Kham dialects fall measurably between these extremes. These gradient effects demonstrate how ASR models implicitly learn the shifting functional load of pitch as languages transition from consonant-based to tone-based lexical contrasts. Our findings show that computational methods can capture fine-grained stages of sound change and suggest that traditional functional load metrics, based solely on minimal pairs, may overestimate pitch dependence in transitional systems where segmental and suprasegmental cues remain phonetically intertwined.
academic

तिब्बती में टोनोजेनेसिस कॉन्टिनम: एक कम्प्यूटेशनल जांच

मूल जानकारी

  • पेपर ID: 2510.22485
  • शीर्षक: The Tonogenesis Continuum in Tibetan: A Computational Investigation
  • लेखक: Siyu Liang, Zhaxi Zerong (University of Washington)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: 26 अक्टूबर 2025 (ArXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.22485

सारांश

टोनोजेनेसिस (Tonogenesis) भाषाविज्ञान में एक ऐतिहासिक प्रक्रिया है जिसमें खंडात्मक विपरीतता शब्दकोशीय टोन में विकसित होती है, जिसका अध्ययन परंपरागत रूप से तुलनात्मक पुनर्निर्माण और ध्वनिक फोनेटिक्स के माध्यम से किया जाता है। यह पेपर एक कम्प्यूटेशनल पद्धति प्रस्तुत करता है जो स्वचालित भाषण पहचान (ASR) प्रदर्शन पर टोन हेरफेर के प्रभाव को मापकर विभिन्न ध्वनि परिवर्तन चरणों में टोन की कार्यात्मक भूमिका को परिमाणित करता है। निकटता से संबंधित तिब्बती बोलियों के एक समूह का विश्लेषण करके, शोध ने टोनोजेनेसिस कॉन्टिनम के प्रमाण की खोज की: टोन-रहित अंडो बोली टोन हटाने के प्रति सर्वाधिक सहनशील है, पूर्णतः टोनलाइज्ड उत्सांग बोली गंभीर गिरावट प्रदर्शित करती है, जबकि मध्यवर्ती खम्पा बोली दोनों चरम सीमाओं के बीच स्थित है। ये ग्रेडिएंट प्रभाव दर्शाते हैं कि कैसे ASR मॉडल निहित रूप से टोन कार्यात्मक भार के परिवर्तन को सीखते हैं, अर्थात् भाषा व्यंजन-आधारित विपरीतता से टोन-आधारित शब्दकोशीय विपरीतता की ओर स्थानांतरित होती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान इस मूल समस्या को हल करने का प्रयास करता है कि टोनोजेनेसिस प्रक्रिया के विभिन्न चरणों में भाषा टोन पर कितनी निर्भर है, इसे कैसे परिमाणित किया जाए। परंपरागत टोनोजेनेसिस अनुसंधान मुख्य रूप से तुलनात्मक पुनर्निर्माण और ध्वनिक फोनेटिक्स पद्धति पर निर्भर करता है, जिसमें टोन के शब्दकोशीय विभेद में कार्यात्मक भार को सटीक रूप से मापने के लिए परिमाणात्मक कम्प्यूटेशनल साधनों की कमी है।

समस्या की महत्ता

  1. सैद्धांतिक महत्व: टोनोजेनेसिस ऐतिहासिक भाषाविज्ञान का एक महत्वपूर्ण अनुसंधान क्षेत्र है, इस प्रक्रिया को समझना भाषा विकास के सार्वभौमिक नियमों को उजागर करने में सहायता करता है
  2. व्यावहारिक मूल्य: तिब्बती जैसी बहु-बोली भाषाओं के ASR सिस्टम विकास के लिए महत्वपूर्ण मार्गदर्शन प्रदान करता है
  3. पद्धतिगत योगदान: भाषा प्रकारविज्ञान समस्याओं का अध्ययन करने के लिए एक नई कम्प्यूटेशनल पद्धति प्रदान करता है

मौजूदा पद्धति की सीमाएं

  1. परंपरागत कार्यात्मक भार माप: केवल न्यूनतम जोड़ी गणना पर आधारित पद्धति संक्रमणकालीन टोन प्रणालियों में खंडात्मक और अतिखंडात्मक संकेतों के जटिल अंतःक्रिया को पूरी तरह प्रतिबिंबित नहीं कर सकती
  2. स्थिर विश्लेषण: मौजूदा पद्धति टोनोजेनेसिस प्रक्रिया में सूक्ष्म-दानेदार चरण परिवर्तन को पकड़ना मुश्किल है
  3. व्यक्तिपरकता: विशेषज्ञ निर्णय पर निर्भरता, वस्तुनिष्ठ परिमाणात्मक मानदंड की कमी

अनुसंधान प्रेरणा

तिब्बती भाषा परिवार टोनोजेनेसिस कॉन्टिनम का अध्ययन करने के लिए एक आदर्श प्रयोगशाला प्रदान करता है: अंडो बोली टोन-रहित विशेषता बनाए रखती है, उत्सांग बोली पूरी तरह टोनलाइज्ड हो गई है, और खम्पा बोली मध्यवर्ती संक्रमणकालीन चरण में है। कम्प्यूटेशनल पद्धति के माध्यम से इस निरंतर परिवर्तन को वस्तुनिष्ठ रूप से परिमाणित किया जा सकता है।

मूल योगदान

  1. टोन समतलन पर आधारित कम्प्यूटेशनल पद्धति प्रस्तुत की: f0 समोच्च को व्यवस्थित रूप से हटाकर भाषा के टोन पर निर्भरता को परिमाणित करता है
  2. तिब्बती टोनोजेनेसिस कॉन्टिनम को सत्यापित किया: अंडो-खम्पा-उत्सांग के टोनलाइजेशन स्तर के ग्रेडिएंट का समर्थन करने वाले परिमाणात्मक प्रमाण प्रदान करता है
  3. ASR मॉडल की निहित सीखने की क्षमता को उजागर किया: यह साबित करता है कि ASR सिस्टम स्वचालित रूप से टोन कार्यात्मक भार में परिवर्तन को सीख सकते हैं और प्रतिबिंबित कर सकते हैं
  4. परंपरागत कार्यात्मक भार सिद्धांत को चुनौती दी: दर्शाता है कि न्यूनतम जोड़ी पर आधारित परंपरागत माप संक्रमणकालीन प्रणालियों में टोन निर्भरता को अधिक आंक सकता है

पद्धति विवरण

कार्य परिभाषा

इनपुट: विभिन्न तिब्बती बोलियों का भाषण डेटा आउटपुट: मूल स्थिति बनाम टोन समतलन स्थिति में प्रत्येक बोली के ASR प्रदर्शन में अंतर लक्ष्य: प्रदर्शन गिरावट की डिग्री के माध्यम से प्रत्येक बोली के टोन पर निर्भरता को परिमाणित करना

मॉडल आर्किटेक्चर

डेटा प्रसंस्करण प्रवाह

  1. डेटा स्रोत: TIBMD@MUC कॉर्पस का उपयोग करता है, जिसमें 6 तिब्बती बोलियां शामिल हैं
  2. पाठ रूपांतरण: तिब्बती को Wylie ट्रांसक्रिप्शन सिस्टम में परिवर्तित करता है
  3. ऑडियो पूर्व-प्रसंस्करण: 16kHz पर रीसैम्पल करता है, वर्ण-स्तरीय टोकनाइजेशन

ASR मॉडल

  • आधार मॉडल: XLS-R 300m (क्रॉस-भाषा स्व-पर्यवेक्षित भाषण प्रतिनिधित्व मॉडल)
  • सूक्ष्म-ट्यूनिंग रणनीति: प्रत्येक बोली के लिए मॉडल को अलग से सूक्ष्म-ट्यून करता है
  • प्रशिक्षण कॉन्फ़िगरेशन: CTC हानि, AdamW ऑप्टिमाइज़र, सीखने की दर 3×10^-4

टोन समतलन तकनीक

  • पद्धति: Praat के PSOLA एल्गोरिथम का उपयोग करता है
  • ऑपरेशन: प्रत्येक उच्चारण के प्राकृतिक f0 समोच्च को इसके औसत टोन से प्रतिस्थापित करता है
  • संरक्षित विशेषताएं: आवृत्ति स्पेक्ट्रम लिफाफा और समय संरचना को संरक्षित रखता है

तकनीकी नवाचार बिंदु

  1. टोन समतलन पद्धति: पहली बार PSOLA टोन समतलन को टोनोजेनेसिस अनुसंधान में व्यवस्थित रूप से लागू करता है
  2. क्रॉस-बोली तुलना ढांचा: विभिन्न टोनलाइजेशन स्तरों वाली भाषाओं की तुलना करने के लिए एक एकीकृत मूल्यांकन ढांचा स्थापित करता है
  3. भाषाविज्ञान उपकरण के रूप में ASR: भाषा प्रकारविज्ञान विशेषताओं के परिमाणात्मक संकेतक के रूप में ASR प्रदर्शन का नवीन उपयोग करता है

प्रयोगात्मक सेटअप

डेटासेट

बोली समूहबोलीअवधि (घंटे)वक्ता संख्याउच्चारण संख्या
अंडोशिया हे4.1223549
अबा8.1626546
खम्पाचांगदु2.7972558
डेगे2.3131245
उत्सांगलासा37.384830349
शिगात्से15.15410729

मूल्यांकन मेट्रिक्स

  • वर्ण त्रुटि दर (CER): वर्ण स्तर पर पहचान त्रुटि दर
  • शब्द त्रुटि दर (WER): शब्द स्तर पर पहचान त्रुटि दर
  • प्रदर्शन गिरावट (Δ): टोन समतलन के बाद त्रुटि दर में वृद्धि

तुलनात्मक स्थितियां

  • मूल स्थिति: पूर्ण टोन जानकारी के साथ भाषण
  • समतलन स्थिति: f0 परिवर्तन हटाए गए भाषण

कार्यान्वयन विवरण

  • बैच आकार: 4-8 (GPU मेमोरी के अनुसार समायोजित)
  • प्रशिक्षण चरण: 2000 चरण
  • वार्मअप चरण: 500 चरण
  • ग्रेडिएंट संचय: प्रभावी बैच आकार को 16 पर बनाए रखता है

प्रयोगात्मक परिणाम

मुख्य परिणाम

भाषाटोन स्थितिमूल CERसमतलन CERΔCERमूल WERसमतलन WERΔWER
अंडो समूह
शिया हेटोन-रहित0.1140.1390.0250.3200.3780.058
अबाटोन-रहित0.1820.2020.0200.5250.5630.038
उत्सांग समूह
लासाटोनलाइज्ड0.1770.2370.0600.4860.5930.107
शिगात्सेटोनलाइज्ड0.4900.6290.1390.1750.2500.075
खम्पा समूह
चांगदुटोनलाइज्ड0.2470.3030.0560.5230.6130.090
डेगेटोनलाइज्ड0.4750.4920.0170.9020.9170.015

मुख्य निष्कर्ष

  1. टोनोजेनेसिस कॉन्टिनम सत्यापन:
    • अंडो बोली: औसत ΔCER = 0.023, न्यूनतम टोन निर्भरता प्रदर्शित करता है
    • उत्सांग बोली: औसत ΔCER = 0.100, मजबूत टोन निर्भरता दिखाता है
    • खम्पा बोली: ΔCER दोनों के बीच है, मध्यवर्ती स्थिति को सत्यापित करता है
  2. ग्रेडिएंट पैटर्न: प्रदर्शन गिरावट की डिग्री भाषाविज्ञान विवरण के टोनलाइजेशन स्तर के साथ पूरी तरह संरेखित है
  3. डेगे विसंगति: डेगे खम्पा बोली प्रदर्शन में कम गिरावट दिखाता है, जो प्रशिक्षण डेटा सीमाओं या अवशिष्ट खंडात्मक संकेतों की उपस्थिति को प्रतिबिंबित कर सकता है

प्रयोगात्मक निष्कर्ष

  1. ASR निहित सीखना: ASR मॉडल स्वचालित रूप से विभिन्न बोलियों के टोन कार्यात्मक भार को सीख सकते हैं और प्रतिबिंबित कर सकते हैं
  2. परंपरागत सिद्धांत को चुनौती: शुद्ध न्यूनतम जोड़ी-आधारित कार्यात्मक भार माप संक्रमणकालीन प्रणालियों की जटिलता को पूरी तरह पकड़ नहीं सकता
  3. निरंतरता प्रमाण: टोनोजेनेसिस वास्तव में एक निरंतर प्रक्रिया है, न कि असतत चरण संक्रमण

संबंधित कार्य

टोनोजेनेसिस अनुसंधान

  • शास्त्रीय सिद्धांत: Haudricourt (1954) और Hombert (1977) का अग्रणी कार्य
  • दक्षिण-पूर्व एशिया अनुसंधान: वियतनामी, खमेर आदि की टोनोजेनेसिस प्रक्रिया
  • तिब्बती अनुसंधान: Sun (2015) द्वारा तिब्बती टोन विविधता का विवरण

ASR और टोन

  • टोन मॉडलिंग: प्रत्यक्ष टोन विशेषता एकीकरण और स्पष्ट टोन एनोटेशन दो मुख्य पद्धति
  • टोन समतलन अनुसंधान: Liang and Levow (2025) द्वारा स्थापित पद्धति संबंधी आधार
  • क्रॉस-भाषा ASR: XLS-R जैसे बहुभाषी मॉडल का विकास

कार्यात्मक भार सिद्धांत

  • परंपरागत पद्धति: न्यूनतम जोड़ी गणना पर आधारित स्थिर माप
  • सीमाएं: खंडात्मक और अतिखंडात्मक संकेतों के अंतःक्रिया को संभालने में असमर्थ
  • नई दिशा: कम्प्यूटेशनल पद्धति द्वारा प्रदान की गई गतिशील मूल्यांकन संभावना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. कॉन्टिनम सत्यापन: तिब्बती बोलियां वास्तव में टोनोजेनेसिस के कॉन्टिनम पैटर्न प्रदर्शित करती हैं
  2. कम्प्यूटेशनल पद्धति की प्रभावकारिता: टोन समतलन तकनीक टोन कार्यात्मक भार को प्रभावी रूप से परिमाणित कर सकती है
  3. अनुसंधान उपकरण के रूप में ASR: ASR सिस्टम भाषा प्रकारविज्ञान अनुसंधान के लिए एक प्रभावी उपकरण हो सकता है
  4. सैद्धांतिक योगदान: परंपरागत कार्यात्मक भार सिद्धांत के स्थिर दृष्टिकोण को चुनौती देता है

सीमाएं

  1. डेटा सीमाएं:
    • केवल 6 तिब्बती बोलियों को कवर करता है, संपूर्ण बोली विविधता का प्रतिनिधित्व नहीं कर सकता
    • प्रशिक्षण और परीक्षण डेटा में समान वक्ता हो सकते हैं, सामान्यीकरण मूल्यांकन को प्रभावित करता है
    • परीक्षण सेट अपेक्षाकृत छोटा है (लगभग 30 मिनट/बोली)
  2. पद्धति संबंधी सीमाएं:
    • तिब्बती वर्तनी की ऐतिहासिक प्रकृति ट्रांसक्रिप्शन असंगति लाती है
    • टोन समतलन सभी टोन संकेतों को पूरी तरह हटा नहीं सकता
    • विशिष्ट भ्रम पैटर्न के सूक्ष्म-दानेदार विश्लेषण की कमी
  3. सैद्धांतिक सीमाएं:
    • अन्य प्रोसोडिक विशेषताओं के प्रभाव पर पूरी तरह विचार नहीं करता
    • संक्रमणकालीन प्रणालियों में खंडात्मक-अतिखंडात्मक अंतःक्रिया के तंत्र की समझ सीमित

भविष्य की दिशाएं

  1. अनुसंधान विस्तार:
    • अधिक तिब्बती बोलियों और अन्य भाषा परिवारों को शामिल करता है
    • वक्ता-अनिरपेक्ष मूल्यांकन ढांचा विकसित करता है
    • बड़े पैमाने पर डेटा संग्रह करता है
  2. पद्धति सुधार:
    • श्वास-संबंधी, पूर्व-आकांक्षा जैसी ध्वनि गुणवत्ता विशेषताओं को एकीकृत करता है
    • अधिक सूक्ष्म टोन हेरफेर तकनीक विकसित करता है
    • टोन निर्भरता माप की बहु-मोडल पद्धति स्थापित करता है
  3. अनुप्रयोग विस्तार:
    • अनुकूली बहु-बोली ASR सिस्टम विकसित करता है
    • वास्तविक समय टोनलाइजेशन स्तर पहचान का अन्वेषण करता है
    • भाषा संरक्षण और प्रलेखन कार्य में लागू करता है

गहन मूल्यांकन

शक्तियां

  1. पद्धति नवाचार:
    • पहली बार ASR प्रदर्शन को टोन कार्यात्मक भार के परिमाणात्मक संकेतक के रूप में उपयोग करता है
    • टोन समतलन तकनीक का व्यवस्थित अनुप्रयोग पद्धति संबंधी मूल्य रखता है
    • कम्प्यूटेशनल भाषाविज्ञान और ऐतिहासिक भाषाविज्ञान का अंतःविषय संलयन
  2. प्रयोगात्मक पर्याप्तता:
    • टोनोजेनेसिस कॉन्टिनम के मुख्य नोड्स को कवर करता है
    • प्रयोगात्मक डिजाइन कठोर है, नियंत्रण स्थितियां स्पष्ट हैं
    • परिणाम भाषाविज्ञान सिद्धांत के साथ उच्च स्तर पर संरेखित हैं
  3. परिणाम की विश्वसनीयता:
    • परिमाणात्मक परिणाम गुणात्मक भाषाविज्ञान विवरण का समर्थन करते हैं
    • ग्रेडिएंट पैटर्न स्पष्ट रूप से कॉन्टिनम विशेषता दिखाता है
    • सांख्यिकीय परिणाम महत्वपूर्ण हैं
  4. लेखन स्पष्टता:
    • संरचना स्पष्ट है, तर्क कठोर है
    • तकनीकी विवरण सटीक रूप से वर्णित हैं
    • अंतःविषय पृष्ठभूमि परिचय पर्याप्त है

कमियां

  1. डेटा आकार सीमाएं:
    • कुछ बोलियों के प्रशिक्षण डेटा की अपर्याप्तता परिणाम विश्वसनीयता को प्रभावित कर सकती है
    • वक्ता ओवरलैप समस्या को अधिक कठोर नियंत्रण की आवश्यकता है
    • स्वतंत्र सत्यापन डेटासेट की कमी
  2. पद्धति संबंधी सीमाएं:
    • टोन समतलन टोन संकेतों को पूरी तरह अलग नहीं कर सकता
    • अन्य प्रोसोडिक विशेषताओं के भ्रम प्रभाव पर विचार नहीं करता
    • ASR मॉडल आर्किटेक्चर पूर्वाग्रह परिणामों को प्रभावित कर सकता है
  3. विश्लेषण गहराई:
    • विशिष्ट भ्रम पैटर्न के विश्लेषण की कमी
    • डेगे विसंगति के कारणों की गहन खोज नहीं
    • संक्रमण तंत्र के सैद्धांतिक व्याख्या अपर्याप्त

प्रभाव

  1. शैक्षणिक योगदान:
    • टोनोजेनेसिस अनुसंधान के लिए नई कम्प्यूटेशनल उपकरण प्रदान करता है
    • भाषा प्रकारविज्ञान में कम्प्यूटेशनल भाषाविज्ञान के अनुप्रयोग को आगे बढ़ाता है
    • कार्यात्मक भार सिद्धांत के विकास के लिए नया दृष्टिकोण प्रदान करता है
  2. व्यावहारिक मूल्य:
    • बहु-बोली ASR सिस्टम डिजाइन के लिए मार्गदर्शन प्रदान करता है
    • भाषा संरक्षण और प्रलेखन कार्य में सहायता करता है
    • अन्य टोन भाषाओं के अनुसंधान में लागू किया जा सकता है
  3. पुनरुत्पादनीयता:
    • पद्धति विवरण विस्तृत है, तकनीकी पथ स्पष्ट है
    • खुले स्रोत मॉडल और उपकरण का उपयोग करता है
    • हाइपरपैरामीटर सेटिंग पूर्ण है

लागू परिदृश्य

  1. भाषा प्रकारविज्ञान अनुसंधान: भाषा विशेषताओं में परिवर्तन की डिग्री को परिमाणित करता है
  2. बहुभाषी ASR विकास: टोन-संवेदनशील सिस्टम डिजाइन के लिए मार्गदर्शन देता है
  3. भाषा संरक्षण कार्य: बोली के टोनलाइजेशन स्तर का तेजी से मूल्यांकन करता है
  4. ऐतिहासिक भाषाविज्ञान: ध्वनि परिवर्तन के सैद्धांतिक अनुमानों को सत्यापित करता है

संदर्भ

यह पेपर समृद्ध संबंधित साहित्य का हवाला देता है, जिसमें शामिल हैं:

  • टोनोजेनेसिस शास्त्रीय सिद्धांत: Haudricourt (1954), Hombert (1977)
  • तिब्बती अनुसंधान: Sun (2015), Gesang and Gesang (2002), DeLancey (2017)
  • ASR और टोन: Fu et al. (1998), Zhang and Kirby (2020)
  • कार्यात्मक भार सिद्धांत: Surendran and Levow (2004)
  • तकनीकी आधार: Babu et al. (2021) - XLS-R मॉडल

यह अनुसंधान सफलतापूर्वक कम्प्यूटेशनल पद्धति को परंपरागत ऐतिहासिक भाषाविज्ञान अनुसंधान में प्रस्तुत करता है, टोनोजेनेसिस जैसी महत्वपूर्ण भाषा घटना को समझने के लिए नई परिमाणात्मक उपकरण प्रदान करता है। हालांकि डेटा और पद्धति संबंधी कुछ सीमाएं हैं, लेकिन इसके नवीन अनुसंधान विचार और आश्वस्त प्रयोगात्मक परिणाम इस क्षेत्र के भविष्य विकास के लिए एक महत्वपूर्ण आधार स्थापित करते हैं।