2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de Sá, Da Silveira, Pruski
Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
academic

शब्दार्थ परिवर्तन की विशेषता का सर्वेक्षण

मूल जानकारी

  • पेपर ID: 2402.19088
  • शीर्षक: Survey in Characterization of Semantic Change
  • लेखक: Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (लक्समबर्ग विज्ञान और प्रौद्योगिकी संस्थान और लक्समबर्ग विश्वविद्यालय)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI
  • प्रकाशन समय: प्रीप्रिंट, 17 नवंबर 2025 (arXiv v4)
  • पेपर लिंक: https://arxiv.org/abs/2402.19088

सारांश

भाषा गतिशील रूप से विकसित होती है, नए शब्दों (neologisms) या मौजूदा शब्दों के शब्दार्थ परिवर्तन के माध्यम से सामाजिक-सांस्कृतिक परिवर्तनों को प्रतिबिंबित करती है। शब्द अर्थ को समझना विभिन्न संस्कृतियों, क्षेत्रों या समय अवधियों के पाठ को समझने के लिए महत्वपूर्ण है, और यह मशीन अनुवाद, सूचना पुनः प्राप्ति, प्रश्नोत्तर प्रणाली आदि NLP अनुप्रयोगों के प्रदर्शन को सीधे प्रभावित करता है। यद्यपि मौजूदा विधियों ने शब्दार्थ परिवर्तन का पता लगाने में अच्छी सटीकता प्राप्त की है, लेकिन शब्दार्थ परिवर्तन के प्रकारों को विशेषता (characterize) करने का तरीका अभी भी व्यवस्थित अनुसंधान की कमी है। यह सर्वेक्षण पहली बार शब्दार्थ परिवर्तन की विशेषता के मौजूदा तरीकों की व्यापक समीक्षा करता है, तीन प्रकार के परिवर्तनों को औपचारिक रूप से परिभाषित करता है: आयामी परिवर्तन (शब्द अर्थ व्यापक या संकीर्ण होना), अभिविन्यास परिवर्तन (शब्द अर्थ अधिक निंदनीय या प्रशंसनीय होना), संबंध परिवर्तन (शब्द अर्थ रूपक या मेटोनिमी जैसे अलंकारिक तरीकों से परिवर्तित होना)। पेपर मुख्य अनुसंधान परिणामों को सारांशित करता है, वर्तमान सीमाओं का विश्लेषण करता है, और भविष्य की अनुसंधान दिशाओं को इंगित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

शब्दार्थ परिवर्तन (Lexical Semantic Change, LSC) प्राकृतिक भाषा विकास की एक मुख्य घटना है। मौजूदा अनुसंधान मुख्य रूप से शब्दार्थ परिवर्तन का पता लगाने (detection) पर केंद्रित है, लेकिन कैसे परिवर्तन हुआ (how it changed) की विशेषता अनुसंधान गंभीर रूप से अपर्याप्त है। उदाहरण के लिए:

  • "gay" "खुश" से "समलैंगिक" में परिवर्तित हुआ (आयामी संकीर्णता + अभिविन्यास तटस्थता)
  • "heart" "हृदय अंग" से "साहस" और "केंद्र" जैसे रूपक अर्थों तक विस्तृत हुआ (संबंध परिवर्तन)
  • "awful" "आश्चर्यजनक" से "भयानक" में परिवर्तित हुआ (अभिविन्यास निंदा)

2. महत्व

  • भाषाविज्ञान मूल्य: भाषा विकास के नियमों को समझना, संस्कृति, समाज, प्रौद्योगिकी के भाषा पर प्रभाव को उजागर करना
  • NLP अनुप्रयोग:
    • ऐतिहासिक पाठ समझ (जैसे डिजिटल मानविकी अनुसंधान)
    • ज्ञान ग्राफ रखरखाव (जैसे Wikidata की समय-क्रमिक सुसंगतता)
    • क्रॉस-टेम्पोरल सूचना पुनः प्राप्ति (जैसे तकनीकी साहित्य में "cloud" का शब्दार्थ बहाव)
    • भावना विश्लेषण (जैसे स्लैंग में "sick" का प्रशंसनीयकरण)

3. मौजूदा तरीकों की सीमाएं

  • एकीकृत औपचारिक ढांचे की कमी: विभिन्न अनुसंधान विभिन्न शब्दावली और परिभाषाओं का उपयोग करते हैं, तुलना करना कठिन है
  • मूल्यांकन मानदंड असंगत: मानक डेटासेट और मूल्यांकन मेट्रिक्स की कमी
  • पता लगाने पर भारी, विशेषता पर हल्का: 90% अनुसंधान "क्या परिवर्तन हुआ" पर केंद्रित है, केवल 10% "कैसे परिवर्तन हुआ" पर
  • डेटा की कमी: ऐतिहासिक कॉर्पस आकार आधुनिक NLP की आवश्यकता से बहुत छोटा है (मिलियन बनाम ट्रिलियन टोकन)

4. अनुसंधान प्रेरणा

यह पेपर शब्दार्थ परिवर्तन की विशेषता का पहला व्यवस्थित सर्वेक्षण है, जिसका उद्देश्य है:

  1. मौजूदा प्रतिनिधित्व विधियों और वर्गीकरण विधियों की सीमाओं की पहचान करना
  2. विभिन्न विधियों के लाभों का मूल्यांकन करना
  3. प्रथम-क्रम तर्क के आधार पर औपचारिक परिभाषा प्रदान करना
  4. LSC विशेषता कार्य का वैचारिक प्रदर्शन करना

मुख्य योगदान

  1. पहला विशेषता-केंद्रित LSC सर्वेक्षण: मौजूदा सर्वेक्षणों (Tahmasebi et al. 2018, Kutuzov et al. 2018) से अलग जो पता लगाने पर केंद्रित हैं, यह पेपर विशेषता पर केंद्रित है
  2. त्रि-ध्रुव वर्गीकरण (Three-Pole Taxonomy):
    • आयाम (Dimension): broadening/narrowing (शब्द अर्थ संख्या परिवर्तन)
    • अभिविन्यास (Orientation): amelioration/pejoration (भावनात्मक प्रवृत्ति परिवर्तन)
    • संबंध (Relation): metaphorization/metonymization (अलंकारिक संबंध परिवर्तन)
  3. औपचारिक ढांचा: समुच्चय सिद्धांत के आधार पर गणितीय परिभाषा (Section 5), identification और characterization को अलग करना
  4. व्यवस्थित विधि वर्गीकरण: प्रतिनिधित्व विधि (आवृत्ति/विषय/ग्राफ/एम्बेडिंग) × परिवर्तन ध्रुव (D/R/O) के अनुसार द्वि-आयामी वर्गीकरण मैट्रिक्स (Table 3) का निर्माण
  5. अनुभवजन्य प्रदर्शन: SEMCOR और MASC डेटासेट का उपयोग करके ढांचे की व्यवहार्यता को सत्यापित करना
  6. अनुसंधान अंतराल की पहचान: संबंध ध्रुव (R) और बहु-ध्रुव संयुक्त विशेषता के अनुसंधान की कमी को इंगित करना

विधि विवरण

कार्य परिभाषा

शब्दार्थ परिवर्तन पहचान (Identification)

दिए गए शब्द ww के दो कॉर्पस t1,t2t_1, t_2 में प्रतिनिधित्व R(w,t1),R(w,t2)R(w, t_1), R(w, t_2) को देखते हुए, यह निर्धारित करें कि क्या परिवर्तन हुआ है: fC(R(w,t1),R(w,t2))yf_C(R(w, t_1), R(w, t_2)) \rightarrow y जहां y{0,1}y \in \{0,1\} (द्विआधारी वर्गीकरण) या yRy \in \mathbb{R} (निरंतर दूरी)

शब्दार्थ परिवर्तन विशेषता (Characterization) ★मुख्य नवाचार

पहचान के आधार पर, परिवर्तन प्रकार को आगे वर्गीकृत करें: fx(R(w,t1),R(w,t2))y,x{D,R,O}f_x(R(w, t_1), R(w, t_2)) \rightarrow y, \quad x \in \{D, R, O\}

औपचारिक ढांचा (Section 5 मुख्य)

मूल परिभाषाएं

  • शब्दार्थ ब्रह्मांड: STS_T सभी संभावित शब्दार्थों का समुच्चय है
  • शब्दार्थ फ़ंक्शन: S:V×T(St)S: V \times T \rightarrow \wp(S_t), शब्द ww को कॉर्पस tt में शब्दार्थ समुच्चय में मैप करता है S(w,t)={s1,s2,...,sk}S(w, t) = \{s_1, s_2, ..., s_k\}

शब्दार्थ परिवर्तन निर्धारण

शब्द ww t1,t2t_1, t_2 के बीच परिवर्तन से गुजरता है यदि और केवल यदि:

\text{सत्य} & S(w, t_1) \neq S(w, t_2) \\ \text{असत्य} & \text{अन्यथा} \end{cases}$$ #### त्रि-ध्रुव परिभाषाएं **1. आयामी परिवर्तन (Dimension)** $$|S(w, t_1)| \neq |S(w, t_2)|$$ - Broadening: $|S(w, t_1)| < |S(w, t_2)|$ (शब्द अर्थ वृद्धि) - Narrowing: $|S(w, t_1)| > |S(w, t_2)|$ (शब्द अर्थ में कमी) **उदाहरण**: - SEMCOR में "plane" के 5 शब्दार्थ हैं (समतल, विमान, प्लेनर आदि), MASC में केवल 2 रह गए → संकीर्णता **2. अभिविन्यास परिवर्तन (Orientation)** भावनात्मक फ़ंक्शन $f: V \times T \rightarrow \{-1, 0, +1\}$ को परिभाषित करें, तब: $$f(w, t_1) \neq f(w, t_2)$$ - Amelioration: $f(w, t_1) < f(w, t_2)$ (प्रशंसनीयकरण) - Pejoration: $f(w, t_1) > f(w, t_2)$ (निंदा) **कार्यान्वयन**: भारित योग SentiWordNet स्कोर $$f(w, t) = \frac{1}{N}\sum_{i=1}^{N} p(s_i) \cdot \text{positive}(s_i)$$ **उदाहरण**: - SEMCOR में "heart" का $f=0.15$, MASC में $f=0.97$ → प्रशंसनीयकरण **3. संबंध परिवर्तन (Relation)** संबंध समानता $l: S \times S \rightarrow \mathbb{R}$ को परिभाषित करें, कुल संबंध शक्ति: $$R(w, t) = \sum_{i=1}^{N-1}\sum_{j=i+1}^{N} l(s_i, s_j), \quad s_i, s_j \in S(w, t)$$ - वृद्धि: $R(w, t_1) < R(w, t_2)$ (अधिक रूपक/मेटोनिमी उपयोग) **उदाहरण**: - "heart" शाब्दिक अर्थ "हृदय" से रूपक अर्थ "केंद्र" और "साहस" तक विस्तृत → संबंध वृद्धि ### तकनीकी नवाचार बिंदु 1. **समुच्चय सिद्धांत औपचारिकीकरण**: पहली बार कठोर गणितीय भाषा का उपयोग करके LSC विशेषता को परिभाषित किया, अस्पष्टता को समाप्त किया 2. **ध्रुव समरूपता**: तीन ध्रुव स्वाभाविक रूप से युग्मित होते हैं (broadening/narrowing साझा आयाम माप), गणना ढांचे को सरल बनाता है 3. **संचालनशीलता**: परिभाषाएं सीधे एल्गोरिदम में परिवर्तित हो सकती हैं (जैसे शब्दार्थ गणना, भावनात्मक स्कोरिंग, संबंध ग्राफ विश्लेषण) 4. **Cambridge दृष्टिकोण**: McTaggart गतिशील ट्रैकिंग के बजाय स्थिर तुलना (दो कॉर्पस तुलना) को अपनाया, कम्प्यूटेशनल विधियों के लिए उपयुक्त ## प्रयोगात्मक सेटअप ### डेटासेट वर्गीकरण #### ऐतिहासिक कॉर्पस (Table 2) | कॉर्पस | भाषा | समय अवधि | आकार | विशेषता | |--------|------|----------|------|---------| | **COHA** | अंग्रेजी | 1810s-2000s | 4 अरब शब्द | सबसे आम, संतुलित बहु-शैली | | **Google N-Gram** | बहुभाषी | 1600-2009 | 3 ट्रिलियन शब्द | सबसे बड़ा आकार, लेकिन अधिक शोर | | **DTA** | जर्मन | 1741-1900 | 1022 पाठ | उच्च गुणवत्ता मानव चयन | | **CLMET** | अंग्रेजी | 1710-1920 | 3400 मिलियन शब्द | साहित्यिक कार्य मुख्य | #### प्रदर्शन डेटासेट - **SEMCOR** (1993): 200,000 शब्द, WordNet शब्दार्थ एनोटेशन - **MASC** (2013): 500,000 शब्द, आधुनिक अमेरिकी अंग्रेजी - **एनोटेशन स्रोत**: - शब्दार्थ: WordNet - संबंध: ChainNet (रूपक/मेटोनिमी लिंक) - अभिविन्यास: SentiWordNet (सकारात्मक/नकारात्मक स्कोर) ### मूल्यांकन आयाम पेपर स्वयं एक सर्वेक्षण के रूप में एकीकृत मूल्यांकन मेट्रिक्स प्रदान नहीं करता है, लेकिन मौजूदा विधियों के मूल्यांकन तरीकों का विश्लेषण करता है: #### आयामी ध्रुव (D) - **मेट्रिक्स**: शब्दार्थ संख्या परिवर्तन, क्लस्टरिंग घनत्व, विषय संख्या - **डेटा स्रोत**: शब्दकोश, शब्दार्थ प्रेरण क्लस्टरिंग, विषय मॉडल #### अभिविन्यास ध्रुव (O) - **मेट्रिक्स**: बीज शब्द दूरी, VAD ढांचा स्कोर (Valence-Arousal-Dominance) - **चुनौती**: बीज शब्द स्थिरता धारणा, व्यंग्य/नकार हैंडलिंग #### संबंध ध्रुव (R) - **मेट्रिक्स**: एन्ट्रॉपी वृद्धि (Schlechtweg 2017), संबंध ग्राफ किनारे संख्या - **समस्या**: रूपक बनाम नए समरूप शब्दों को अलग करना कठिन ### विधि वर्गीकरण (Table 3 मुख्य) | विधि | D | R | O | प्रतिनिधित्व विधि | |------|---|---|---|------------------| | Biemann 2006 | ✓ | - | - | Graph | | Tang et al. 2013 | ✓ | ✓ | - | Frequency | | Hamilton et al. 2016a | - | - | ✓ | Graph (SentiProp) | | Inoue et al. 2022 | ✓ | - | - | Topics (InfiniteSCAN) | | Giulianelli et al. 2020 | ✓ | - | - | Embeddings (BERT) | | Fonteyn & Manjavacas 2021 | - | ✓ | ✓ | Embeddings | **मुख्य निष्कर्ष**: - **कोई विधि तीनों ध्रुवों को कवर नहीं करती**: विशेषता जटिलता अधिक है - **आयामी ध्रुव अनुसंधान सबसे अधिक**: 18/23 विधियां - **संबंध ध्रुव सबसे कमजोर**: केवल 3 विधियां - **एम्बेडिंग विधि प्रभावशाली**: हाल का प्रवृत्ति ## प्रयोगात्मक परिणाम ### ढांचा सत्यापन (Section 5.7) #### केस 1: "heart" का बहु-ध्रुव परिवर्तन **डेटा** (SEMCOR → MASC): ``` शब्दार्थ वितरण परिवर्तन: - heart.n.02 (अंग, शाब्दिक): 34.8% → 0% - heart.n.03 (साहस, रूपक+): 12.1% → 90.1% - heart.n.10 (पोकर सूट, नया): 0% → 2.8% ``` **गणना परिणाम**: 1. **आयाम**: $|S|: 5 \rightarrow 3$, संकीर्णता 2. **अभिविन्यास**: $f: 0.15 \rightarrow 0.97$, मजबूत प्रशंसनीयकरण 3. **संबंध**: रूपक उपयोग प्रभावशाली (90.1%), संबंध वृद्धि **व्याख्या**: शाब्दिक अर्थ "हृदय" गायब हो गया, रूपक अर्थ "साहस/केंद्र" प्रोटोटाइप अर्थ बन गया #### केस 2: "plane" की संकीर्णता **डेटा**: ``` SEMCOR: 5 शब्दार्थ (विमान 48.8%, समतल 37.2%, प्लेनर 4.7% आदि) MASC: 2 शब्दार्थ (विमान 90.9%, समतल 9.1%) ``` **गणना परिणाम**: 1. **आयाम**: $5 \rightarrow 2$, महत्वपूर्ण संकीर्णता 2. **अभिविन्यास**: सकारात्मक शब्दार्थ (flat.s.01, +0.375) खो गया → हल्की निंदा 3. **संबंध**: $R: 1 \rightarrow 0$ (plane.n.03 और plane.n.02 के बीच मेटोनिमी संबंध गायब) ### विधि तुलना विश्लेषण (Table 4) #### आवृत्ति विधि **लाभ**: - सरल और व्याख्यायोग्य - नए शब्दों (neologisms) का पता लगाने के लिए उपयुक्त - डेटा आवश्यकता कम **नुकसान**: - शब्दार्थ को अलग करने में असमर्थ (polysemy समस्या) - भाषाई समानता को पकड़ने में कठिनाई - व्यंग्य/नकार के प्रति संवेदनशील **उपयोग परिदृश्य**: अभिविन्यास ध्रुव की बीज शब्द सह-घटना सांख्यिकी #### विषय मॉडल **लाभ**: - अनुपर्यवेक्षित नए शब्दार्थ की खोज - विषय विकास का दृश्य - InfiniteSCAN गतिशील विषय संख्या समायोजन **नुकसान**: - विषयों की मानव व्याख्या आवश्यक - विषय दानेदारपन नियंत्रण कठिन - संबंध ध्रुव और अभिविन्यास ध्रुव अनुसंधान अंतराल **प्रतिनिधि कार्य**: - SCAN (Frermann & Lapata 2016) - InfiniteSCAN (Inoue et al. 2022): स्वचालित शब्दार्थ संख्या परिवर्तन पहचान #### ग्राफ विधि **लाभ**: - शब्द संबंधों का प्राकृतिक प्रतिनिधित्व - शब्दार्थ विकास वृक्ष का दृश्य (Ehmüller et al. 2020) - भावनात्मक प्रसार के लिए उपयुक्त (SentiProp) **नुकसान**: - ग्राफ निर्माण गुणवत्ता पर निर्भरता - उच्च कम्प्यूटेशनल जटिलता - संबंध ध्रुव गंभीर रूप से कम अन्वेषित **प्रतिनिधि कार्य**: - Chinese Whispers क्लस्टरिंग (Biemann 2006) - Ego-network + PMI फिल्टरिंग (Ehmüller et al. 2020) #### एम्बेडिंग विधि **लाभ**: - सूक्ष्म शब्दार्थ परिवर्तन को पकड़ता है - BERT जैसे संदर्भ एम्बेडिंग प्रदर्शन में सुधार - घनत्व एम्बेडिंग (word2gauss) बहुविषयता को मॉडल करता है **नुकसान**: - **Meaning Conflation Deficiency**: एकल वेक्टर सूक्ष्म शब्दार्थ को अलग नहीं कर सकता - कम आवृत्ति वाले शब्द अस्थिर - संदर्भ एम्बेडिंग अत्यधिक संदर्भ-केंद्रित → झूठी सकारात्मकता **प्रतिनिधि कार्य**: - Diachronic embeddings (Hamilton et al. 2016b) - Gaussian embeddings (Moss 2020, Yüksel et al. 2021) - XL-LEXEME (Cassotti et al. 2023): क्रॉस-भाषा WSD प्रशिक्षण ### महत्वपूर्ण निष्कर्ष 1. **विशेषता पहचान से कठिन है**: SemEval-2020 दिखाता है कि संदर्भ एम्बेडिंग LSC पहचान में स्थिर एम्बेडिंग से आगे नहीं निकले, विशेषता को विशेष डिजाइन की आवश्यकता है 2. **डेटा बाधा**: ऐतिहासिक कॉर्पस मिलियन स्तर बनाम आधुनिक LLM ट्रिलियन स्तर की आवश्यकता → कम-नमूना शिक्षा की आवश्यकता 3. **बहुभाषी कमी**: 90% अनुसंधान केवल अंग्रेजी 4. **संबंध ध्रुव अंतराल**: केवल 3 पेपर, कोई मानक डेटासेट नहीं 5. **मूल्यांकन कठिनाई**: स्वर्ण मानक की कमी, अधिकांश गुणात्मक विश्लेषण ## संबंधित कार्य ### मौजूदा सर्वेक्षणों की तुलना | सर्वेक्षण | वर्ष | फोकस | इस पेपर का अंतर | |----------|------|------|-----------------| | **Tang 2018** | 2018 | चार-चरण ढांचा (कॉर्पस → शब्दार्थ → मॉडलिंग → सत्यापन) | पहचान पर केंद्रित, विशेषता केवल संक्षिप्त | | **Tahmasebi et al. 2018** | 2018 | शब्द-स्तर/अर्थ-स्तर अंतर, शब्दिक प्रतिस्थापन | विशेषता अनुसंधान को गहरा करने की सिफारिश | | **Kutuzov et al. 2018** | 2018 | शब्द प्रतिनिधित्व मॉडल और डेटा | वर्गीकरण योजना सत्यापन अपर्याप्त इंगित करता है | | **Montanelli & Periti 2023** | 2023 | संदर्भ एम्बेडिंग विधि | "शब्दार्थ बदलाव के नियम" अनुसंधान का आह्वान | | **यह पेपर** | 2025 | **विशेषता त्रि-ध्रुव + औपचारिकीकरण** | पहला व्यवस्थित विशेषता सर्वेक्षण | ### सैद्धांतिक आधार #### भाषाविज्ञान वर्गीकरण (Traugott 2017) - **Broadening/Narrowing**: शब्दार्थ श्रेणी परिवर्तन - **Amelioration/Pejoration**: भावनात्मक मूल्य परिवर्तन - **Metaphorization/Metonymization**: अलंकारिक तंत्र परिवर्तन #### कम्प्यूटेशनल दृष्टिकोण वर्गीकरण - **Cambridge दृष्टिकोण**: स्थिर तुलना दो कॉर्पस (यह पेपर अपनाता है) - **McTaggart दृष्टिकोण**: गतिशील विकास ट्रैकिंग (इतिहास ज्ञान आवश्यक) ### शब्दार्थ प्रतिनिधित्व विकास 1. **प्रारंभिक**: आवृत्ति + सह-घटना मैट्रिक्स (Sagi et al. 2009) 2. **2010s**: विषय मॉडल (Lau et al. 2012), ग्राफ क्लस्टरिंग (Biemann 2006) 3. **2016+**: स्थिर एम्बेडिंग (Hamilton et al. 2016b) 4. **2019+**: BERT जैसे संदर्भ एम्बेडिंग (Giulianelli et al. 2020) 5. **भविष्य**: LLM जनरेटिव विधि (Cassotti et al. 2024) ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. **विशेषता अनुसंधान गंभीर रूप से अपर्याप्त**: पहचान बनाम विशेषता पेपर अनुपात लगभग 9:1 2. **त्रि-ध्रुव असंतुलित**: आयामी ध्रुव (D) अनुसंधान पर्याप्त, संबंध ध्रुव (R) लगभग खाली 3. **विधि विखंडन**: एकीकृत ढांचा और मूल्यांकन मानदंड की कमी 4. **औपचारिकीकरण आवश्यकता**: समुच्चय सिद्धांत परिभाषा अस्पष्टता को समाप्त कर सकती है, विधि तुलना को बढ़ावा दे सकती है 5. **डेटा चुनौती**: ऐतिहासिक कॉर्पस आकार गहन शिक्षण अनुप्रयोग को सीमित करता है ### सीमाएं #### पद्धति संबंधी सीमाएं 1. **सरलीकृत धारणाएं**: शब्दार्थ वस्तुवाद (sense objectivism) संदर्भ निर्भरता को नजरअंदाज करता है 2. **द्विआधारी विधि सीमा**: broadening/narrowing शब्दार्थ intension (आंतरिक अर्थ) परिवर्तन का वर्णन नहीं कर सकता 3. **संबंध ध्रुव परिभाषा अस्पष्ट**: रूपक बनाम मेटोनिमी बनाम नए समरूप शब्दों को अलग करना कठिन #### डेटा सीमाएं 1. **कॉर्पस पूर्वाग्रह**: - COHA जैसे संतुलित कॉर्पस में भी शैली पूर्वाग्रह है - Google N-Gram शोर अधिक (OCR त्रुटि) 2. **एनोटेशन विलंब**: शब्दकोश नए अर्थ को 5-10 साल बाद दर्ज करते हैं 3. **बहुभाषी कमी**: गैर-अंग्रेजी अनुसंधान <10% #### मूल्यांकन सीमाएं 1. **स्वर्ण मानक अनुपस्थित**: अधिकांश कार्य गुणात्मक विश्लेषण 2. **बीज शब्द स्थिरता**: अभिविन्यास ध्रुव बीज शब्द अपरिवर्तनीयता मानता है (वास्तव में परिवर्तन होता है) 3. **थ्रेसहोल्ड व्यक्तिपरकता**: द्विआधारी वर्गीकरण परिवर्तन थ्रेसहोल्ड पर सहमति की कमी ### भविष्य दिशाएं #### अल्पकालीन (1-2 वर्ष) 1. **संबंध ध्रुव सफलता**: - रूपक/मेटोनिमी एनोटेशन डेटासेट निर्माण - Wikidata जैसे ज्ञान ग्राफ का उपयोग करके अवधारणा संबंध मॉडलिंग 2. **बहु-ध्रुव संयुक्त मॉडलिंग**: एकल मॉडल D+R+O को एक साथ विशेषता करता है 3. **मानक मूल्यांकन**: LSC विशेषता के लिए benchmark स्थापना #### मध्यकालीन (3-5 वर्ष) 1. **LLM अनुप्रयोग**: - कम-नमूना शिक्षा डेटा कमी को कम करती है - जनरेटिव विधि ऐतिहासिक कॉर्पस संश्लेषण (Cassotti et al. 2024) 2. **क्रॉस-भाषा अनुसंधान**: - शब्दार्थ परिवर्तन के सार्वभौमिक नियमों को सत्यापित करना - बहुभाषी प्रशिक्षण मॉडल का उपयोग 3. **कारण विश्लेषण**: "कैसे परिवर्तन हुआ" से "क्यों परिवर्तन हुआ" (सामाजिक-सांस्कृतिक कारक) #### दीर्घकालीन (5 वर्ष+) 1. **शब्दार्थ परिवर्तन नियम**: - कौन से शब्द broadening के लिए प्रवण हैं? - आवृत्ति और परिवर्तन गति का संबंध 2. **अनुप्रयोग-संचालित**: - ऐतिहासिक पाठ मशीन अनुवाद - गतिशील ज्ञान ग्राफ रखरखाव - सांस्कृतिक विकास मॉडलिंग ## गहन मूल्यांकन ### लाभ #### शैक्षणिक योगदान 1. **अंतराल भरना**: पहला व्यवस्थित विशेषता सर्वेक्षण, identification और characterization अंतर स्पष्ट करता है 2. **सैद्धांतिक नवाचार**: - त्रि-ध्रुव वर्गीकरण भाषाविज्ञान और कम्प्यूटेशनल दृष्टिकोण को एकीकृत करता है - औपचारिक ढांचा (Section 5) सीधे एल्गोरिदम डिजाइन को निर्देशित कर सकता है 3. **व्यापकता**: - समय अवधि: 2006-2024 - विधि कवरेज: 4 प्रकार प्रतिनिधित्व × 3 प्रकार परिवर्तन = 12-आयामी विश्लेषण - 23 मुख्य पेपर गहन व्याख्या #### पद्धति संबंधी लाभ 1. **शब्दार्थ खोज**: Research Rabbit उपकरण का उपयोग करके पुनरावृत्तिमान साहित्य विस्तार (11 → 151 पेपर) 2. **अनुभवजन्य सत्यापन**: SEMCOR/MASC केस ढांचे की संचालनशीलता प्रदर्शित करते हैं 3. **दृश्य**: Figure 1 वर्गीकरण वृक्ष, Figure 11 त्रि-आयामी स्थान सहज प्रस्तुति #### लेखन गुणवत्ता 1. **स्पष्ट संरचना**: पृष्ठभूमि → विधि → औपचारिकीकरण → चर्चा तार्किक कठोरता 2. **शब्दावली एकीकरण**: LSC, D/R/O आदि मुख्य अवधारणाओं को स्पष्ट परिभाषित करता है 3. **तालिका सूचना घनत्व**: Table 2-4 बड़ी मात्रा में सूचना संघनित करते हैं ### कमियां #### सैद्धांतिक स्तर 1. **शब्दार्थ वस्तुवाद विवाद**: - मानता है कि शब्दार्थ को अलग-अलग गणना की जा सकती है ($S(w,t)=\{s_1,...,s_k\}$) - Wittgenstein के "पारिवारिक समानता" और उपयोग सिद्धांत को नजरअंदाज करता है - प्रतिक्रिया: लेखक "pragmatic stance" स्वीकार करते हैं, लेकिन prototype theory पर पर्याप्त चर्चा नहीं 2. **संबंध ध्रुव परिभाषा अपर्याप्त**: - सूत्र (6) में $l(s_i, s_j)$ की गणना कैसे करें यह स्पष्ट नहीं - रूपक बनाम मेटोनिमी अंतर ChainNet जैसे बाहरी संसाधनों पर निर्भर 3. **अभिविन्यास ध्रुव सरलीकरण**: - केवल सकारात्मक/नकारात्मक ध्रुवता पर विचार, भावनात्मक बहुआयामिता को नजरअंदाज (VAD को छोड़कर) - बीज शब्द चयन की परिपत्र तर्क समस्या #### प्रयोगात्मक स्तर 1. **सत्यापन अपर्याप्त**: - Section 5.7 केवल 2 शब्दों के केस, सांख्यिकीय महत्व अपर्याप्त - SEMCOR/MASC समय अवधि केवल 20 वर्ष, ऐतिहासिक परिवर्तन प्रदर्शन के लिए अपर्याप्त - मानव एनोटेशन के साथ तुलना सत्यापन की कमी 2. **विधि तुलना अनुपस्थित**: - Table 3 केवल वर्गीकरण, सटीकता की मात्रात्मक तुलना नहीं - समान कार्य पर विभिन्न प्रतिनिधित्व विधियों की तुलना प्रयोग की कमी 3. **डेटासेट सीमाएं**: - WordNet एनोटेशन पर निर्भरता, लेकिन WordNet कवरेज अधूरा (जैसे स्लैंग, नए शब्द) - ChainNet/SentiWordNet शोर पर चर्चा नहीं #### कवरेज श्रेणी 1. **LLM युग विधि अपर्याप्त**: - GPT/BERT को LSC में अनुप्रयोग केवल सरल उल्लेख - prompt engineering, in-context learning आदि नए प्रतिमान पर चर्चा नहीं 2. **बहुमोडल कमी**: छवि-पाठ संयुक्त मॉडलिंग शब्दार्थ समझ में सहायता कर सकता है 3. **संज्ञानात्मक भाषाविज्ञान दृष्टिकोण कमजोर**: Lakoff & Johnson के वैचारिक रूपक सिद्धांत की कम्प्यूटेशनल मॉडल का परिचय नहीं ### प्रभाव मूल्यांकन #### क्षेत्र पर योगदान (अपेक्षित) 1. **प्रतिमान परिवर्तन**: LSC अनुसंधान को पहचान से विशेषता की ओर गहरा करने के लिए प्रेरित करता है 2. **विधि मार्गदर्शन**: औपचारिक ढांचा सीधे एल्गोरिदम में परिवर्तित हो सकता है (जैसे Algorithm 1 छद्मकोड) 3. **डेटासेट आवश्यकता**: त्रि-ध्रुव एनोटेशन डेटासेट निर्माण का आह्वान, नए benchmark को प्रेरित कर सकता है #### व्यावहारिक मूल्य 1. **ऐतिहासिक NLP**: ऐतिहासिक पाठ समझ में सुधार (जैसे शेक्सपियर कार्यों में शब्दार्थ विसंदिग्धता) 2. **ज्ञान इंजीनियरिंग**: Wikidata जैसे समय-क्रमिक ज्ञान ग्राफ रखरखाव निर्देशन 3. **सामाजिक कम्प्यूटिंग**: सोशल मीडिया पर शब्दार्थ विकास ट्रैकिंग (जैसे "woke" का राजनीतिकरण) #### पुनरुत्पादनशीलता - **उच्च**: औपचारिक परिभाषा स्पष्ट, SEMCOR/MASC सार्वजनिक रूप से उपलब्ध - **मध्यम**: कुछ विधियां (जैसे ChainNet) संसाधन प्राप्ति कठिन - **निम्न**: कोड रिपोजिटरी की कमी, पाठकों को स्वयं कार्यान्वयन की आवश्यकता ### लागू परिदृश्य #### उपयुक्त अनुप्रयोग 1. **डिजिटल मानविकी**: साहित्यिक कार्यों में मुख्य शब्दों के शब्दार्थ विकास का विश्लेषण 2. **शब्दकोश संपादन**: स्वचालित रूप से अद्यतन की आवश्यकता वाली प्रविष्टियों की खोज 3. **सामाजिक भाषाविज्ञान**: सामाजिक आंदोलनों में प्रवचन परिवर्तन अनुसंधान (जैसे "feminism") 4. **कम-संसाधन भाषाएं**: औपचारिक ढांचा गैर-अंग्रेजी भाषाओं में स्थानांतरणीय #### अनुपयुक्त परिदृश्य 1. **वास्तविक-समय प्रणाली**: ऐतिहासिक विश्लेषण को बड़े ऐतिहासिक डेटा की आवश्यकता, ऑनलाइन अनुप्रयोग के लिए अनुपयुक्त 2. **सूक्ष्म-दानेदार WSD**: त्रि-ध्रुव वर्गीकरण दानेदारपन मोटा, सूक्ष्म शब्दार्थ अंतर हैंडल नहीं कर सकता 3. **कारण अनुमान**: केवल "कैसे परिवर्तन हुआ" का वर्णन, "क्यों परिवर्तन हुआ" की व्याख्या नहीं कर सकता ## संदर्भ साहित्य (मुख्य साहित्य चयन) ### सैद्धांतिक आधार 1. **Traugott (2017)**: Semantic change - भाषाविज्ञान वर्गीकरण प्राधिकार स्रोत 2. **Koch (2016)**: Meaning change and semantic shifts - अलंकारिक तंत्र विस्तार 3. **Blank (2012)**: Prinzipien des lexikalischen Bedeutungswandels - जर्मन शब्दार्थ परिवर्तन अनुसंधान ### पहचान विधि 4. **Hamilton et al. (2016b)**: Diachronic word embeddings reveal statistical laws - स्थिर एम्बेडिंग मील का पत्थर 5. **Giulianelli et al. (2020)**: Analysing lexical semantic change with contextualised word representations - BERT अनुप्रयोग 6. **Schlechtweg et al. (2020)**: SemEval-2020 Task 1 - मानक मूल्यांकन कार्य ### विशेषता विधि 7. **Inoue et al. (2022)**: Infinite SCAN - विषय मॉडल गतिशील शब्दार्थ संख्या पहचान 8. **Fonteyn & Manjavacas (2021)**: Adjusting scope - बहु-ध्रुव संयुक्त विश्लेषण केस 9. **Ehmüller et al. (2020)**: Sense tree discovery - ग्राफ विधि दृश्य ### सर्वेक्षण तुलना 10. **Tahmasebi et al. (2018)**: Survey of computational approaches to LSC - सबसे व्यापक पहचान सर्वेक्षण 11. **Kutuzov et al. (2018)**: Diachronic word embeddings and semantic shifts - शब्द प्रतिनिधित्व मॉडल सर्वेक्षण --- ## सारांश यह पेपर शब्दार्थ परिवर्तन अनुसंधान क्षेत्र का **मील का पत्थर सर्वेक्षण** है, पहली बार विशेषता समस्या को व्यवस्थित किया, प्रस्तावित त्रि-ध्रुव ढांचा (D/R/O) और औपचारिक परिभाषा बाद के अनुसंधान के लिए सैद्धांतिक आधार स्थापित करता है। इसका सबसे बड़ा मूल्य है: 1. **अनुसंधान दिशा स्पष्ट करना**: संबंध ध्रुव और बहु-ध्रुव संयुक्त मॉडलिंग के अंतराल को इंगित करता है 2. **शब्दावली एकीकरण**: पहचान बनाम विशेषता, broadening बनाम सामान्यीकरण आदि भ्रम को समाप्त करता है 3. **संचालनशीलता**: समुच्चय सिद्धांत परिभाषा सीधे एल्गोरिदम में परिवर्तित हो सकती है हालांकि, पेपर प्रयोगात्मक सत्यापन, LLM युग विधि एकीकरण, संज्ञानात्मक भाषाविज्ञान गहराई में सुधार की गुंजाइश है। भविष्य के कार्य की सिफारिशें: - त्रि-ध्रुव एनोटेशन वाला बड़े पैमाने पर डेटासेट निर्माण (जैसे COHA में 1000 शब्दों के D/R/O परिवर्तन को एनोटेट करना) - अंत-से-अंत विशेषता मॉडल विकास (जैसे बहु-कार्य शिक्षा तीनों ध्रुवों को एक साथ भविष्यवाणी करती है) - LLM की शून्य-शॉट विशेषता क्षमता अन्वेषण (जैसे GPT-4 का उपयोग करके शब्दार्थ रूपक है या नहीं यह निर्धारित करना) NLP शोधकर्ताओं के लिए, यह पेपर LSC क्षेत्र में प्रवेश के लिए **आवश्यक साहित्य** है; अनुप्रयोग विकासकर्ताओं के लिए, इसका औपचारिक ढांचा ऐतिहासिक पाठ समझ प्रणाली निर्माण के लिए **सैद्धांतिक मार्गदर्शन** प्रदान करता है।