2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de SÃ¡, Da Silveira, Pruski

Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.

academic

शब्दार्थ परिवर्तन की विशेषता का सर्वेक्षण

मूल जानकारी

पेपर ID: 2402.19088
शीर्षक: Survey in Characterization of Semantic Change
लेखक: Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (लक्समबर्ग विज्ञान और प्रौद्योगिकी संस्थान और लक्समबर्ग विश्वविद्यालय)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.AI
प्रकाशन समय: प्रीप्रिंट, 17 नवंबर 2025 (arXiv v4)
पेपर लिंक: https://arxiv.org/abs/2402.19088

सारांश

भाषा गतिशील रूप से विकसित होती है, नए शब्दों (neologisms) या मौजूदा शब्दों के शब्दार्थ परिवर्तन के माध्यम से सामाजिक-सांस्कृतिक परिवर्तनों को प्रतिबिंबित करती है। शब्द अर्थ को समझना विभिन्न संस्कृतियों, क्षेत्रों या समय अवधियों के पाठ को समझने के लिए महत्वपूर्ण है, और यह मशीन अनुवाद, सूचना पुनः प्राप्ति, प्रश्नोत्तर प्रणाली आदि NLP अनुप्रयोगों के प्रदर्शन को सीधे प्रभावित करता है। यद्यपि मौजूदा विधियों ने शब्दार्थ परिवर्तन का पता लगाने में अच्छी सटीकता प्राप्त की है, लेकिन शब्दार्थ परिवर्तन के प्रकारों को विशेषता (characterize) करने का तरीका अभी भी व्यवस्थित अनुसंधान की कमी है। यह सर्वेक्षण पहली बार शब्दार्थ परिवर्तन की विशेषता के मौजूदा तरीकों की व्यापक समीक्षा करता है, तीन प्रकार के परिवर्तनों को औपचारिक रूप से परिभाषित करता है: आयामी परिवर्तन (शब्द अर्थ व्यापक या संकीर्ण होना), अभिविन्यास परिवर्तन (शब्द अर्थ अधिक निंदनीय या प्रशंसनीय होना), संबंध परिवर्तन (शब्द अर्थ रूपक या मेटोनिमी जैसे अलंकारिक तरीकों से परिवर्तित होना)। पेपर मुख्य अनुसंधान परिणामों को सारांशित करता है, वर्तमान सीमाओं का विश्लेषण करता है, और भविष्य की अनुसंधान दिशाओं को इंगित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मुख्य समस्या

शब्दार्थ परिवर्तन (Lexical Semantic Change, LSC) प्राकृतिक भाषा विकास की एक मुख्य घटना है। मौजूदा अनुसंधान मुख्य रूप से शब्दार्थ परिवर्तन का पता लगाने (detection) पर केंद्रित है, लेकिन कैसे परिवर्तन हुआ (how it changed) की विशेषता अनुसंधान गंभीर रूप से अपर्याप्त है। उदाहरण के लिए:

"gay" "खुश" से "समलैंगिक" में परिवर्तित हुआ (आयामी संकीर्णता + अभिविन्यास तटस्थता)
"heart" "हृदय अंग" से "साहस" और "केंद्र" जैसे रूपक अर्थों तक विस्तृत हुआ (संबंध परिवर्तन)
"awful" "आश्चर्यजनक" से "भयानक" में परिवर्तित हुआ (अभिविन्यास निंदा)

2. महत्व

भाषाविज्ञान मूल्य: भाषा विकास के नियमों को समझना, संस्कृति, समाज, प्रौद्योगिकी के भाषा पर प्रभाव को उजागर करना
NLP अनुप्रयोग:
- ऐतिहासिक पाठ समझ (जैसे डिजिटल मानविकी अनुसंधान)
- ज्ञान ग्राफ रखरखाव (जैसे Wikidata की समय-क्रमिक सुसंगतता)
- क्रॉस-टेम्पोरल सूचना पुनः प्राप्ति (जैसे तकनीकी साहित्य में "cloud" का शब्दार्थ बहाव)
- भावना विश्लेषण (जैसे स्लैंग में "sick" का प्रशंसनीयकरण)

3. मौजूदा तरीकों की सीमाएं

एकीकृत औपचारिक ढांचे की कमी: विभिन्न अनुसंधान विभिन्न शब्दावली और परिभाषाओं का उपयोग करते हैं, तुलना करना कठिन है
मूल्यांकन मानदंड असंगत: मानक डेटासेट और मूल्यांकन मेट्रिक्स की कमी
पता लगाने पर भारी, विशेषता पर हल्का: 90% अनुसंधान "क्या परिवर्तन हुआ" पर केंद्रित है, केवल 10% "कैसे परिवर्तन हुआ" पर
डेटा की कमी: ऐतिहासिक कॉर्पस आकार आधुनिक NLP की आवश्यकता से बहुत छोटा है (मिलियन बनाम ट्रिलियन टोकन)

4. अनुसंधान प्रेरणा

यह पेपर शब्दार्थ परिवर्तन की विशेषता का पहला व्यवस्थित सर्वेक्षण है, जिसका उद्देश्य है:

मौजूदा प्रतिनिधित्व विधियों और वर्गीकरण विधियों की सीमाओं की पहचान करना
विभिन्न विधियों के लाभों का मूल्यांकन करना
प्रथम-क्रम तर्क के आधार पर औपचारिक परिभाषा प्रदान करना
LSC विशेषता कार्य का वैचारिक प्रदर्शन करना

मुख्य योगदान

पहला विशेषता-केंद्रित LSC सर्वेक्षण: मौजूदा सर्वेक्षणों (Tahmasebi et al. 2018, Kutuzov et al. 2018) से अलग जो पता लगाने पर केंद्रित हैं, यह पेपर विशेषता पर केंद्रित है
त्रि-ध्रुव वर्गीकरण (Three-Pole Taxonomy):
- आयाम (Dimension): broadening/narrowing (शब्द अर्थ संख्या परिवर्तन)
- अभिविन्यास (Orientation): amelioration/pejoration (भावनात्मक प्रवृत्ति परिवर्तन)
- संबंध (Relation): metaphorization/metonymization (अलंकारिक संबंध परिवर्तन)
औपचारिक ढांचा: समुच्चय सिद्धांत के आधार पर गणितीय परिभाषा (Section 5), identification और characterization को अलग करना
व्यवस्थित विधि वर्गीकरण: प्रतिनिधित्व विधि (आवृत्ति/विषय/ग्राफ/एम्बेडिंग) × परिवर्तन ध्रुव (D/R/O) के अनुसार द्वि-आयामी वर्गीकरण मैट्रिक्स (Table 3) का निर्माण
अनुभवजन्य प्रदर्शन: SEMCOR और MASC डेटासेट का उपयोग करके ढांचे की व्यवहार्यता को सत्यापित करना
अनुसंधान अंतराल की पहचान: संबंध ध्रुव (R) और बहु-ध्रुव संयुक्त विशेषता के अनुसंधान की कमी को इंगित करना

विधि विवरण

कार्य परिभाषा

शब्दार्थ परिवर्तन पहचान (Identification)

दिए गए शब्द $w$ के दो कॉर्पस $t_1, t_2$ में प्रतिनिधित्व $R(w, t_1), R(w, t_2)$ को देखते हुए, यह निर्धारित करें कि क्या परिवर्तन हुआ है: $f_C(R(w, t_1), R(w, t_2)) \rightarrow y$ जहां $y \in \{0,1\}$ (द्विआधारी वर्गीकरण) या $y \in \mathbb{R}$ (निरंतर दूरी)

शब्दार्थ ब्रह्मांड: $S_T$ सभी संभावित शब्दार्थों का समुच्चय है
शब्दार्थ फ़ंक्शन: $S: V \times T \rightarrow \wp(S_t)$ , शब्द $w$ को कॉर्पस $t$ में शब्दार्थ समुच्चय में मैप करता है $S(w, t) = \{s_1, s_2, ..., s_k\}$

शब्दार्थ परिवर्तन निर्धारण

शब्द $w$ $t_1, t_2$ के बीच परिवर्तन से गुजरता है यदि और केवल यदि: