2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de Sá, Da Silveira, Pruski
Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
academic

Enquête sur la Caractérisation du Changement Sémantique

Informations Fondamentales

  • ID de l'article : 2402.19088
  • Titre : Survey in Characterization of Semantic Change
  • Auteurs : Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (Luxembourg Institute of Science and Technology & University of Luxembourg)
  • Classification : cs.CL (Linguistique Computationnelle), cs.AI
  • Date de publication : Preprint, 17 novembre 2025 (arXiv v4)
  • Lien de l'article : https://arxiv.org/abs/2402.19088

Résumé

Le langage évolue dynamiquement, reflétant les transformations socioculturelles par le biais de néologismes ou de changements sémantiques de mots existants. Comprendre la signification des mots est essentiel pour interpréter les textes de différentes cultures, domaines ou périodes, et affecte directement les performances des applications de TAL telles que la traduction automatique, la recherche d'information et les systèmes de questions-réponses. Bien que les méthodes existantes aient obtenu une bonne précision dans la détection des changements sémantiques, il existe un manque d'études systématiques sur la façon de caractériser les types de changements sémantiques. Cet article de synthèse offre pour la première fois un examen complet des méthodes existantes de caractérisation des changements sémantiques, fournissant des définitions formelles de trois catégories de changements : changements dimensionnels (élargissement ou rétrécissement du sens des mots), changements d'orientation (le sens des mots devient plus péjoratif ou mélioratif), changements relationnels (le sens des mots se transforme par des procédés rhétoriques tels que la métaphore ou la métonymie). L'article résume les principales réalisations de recherche, analyse les limitations actuelles et indique les directions futures de recherche.

Contexte et Motivation de la Recherche

1. Problème Central

Le changement sémantique lexical (Lexical Semantic Change, LSC) est un phénomène fondamental de l'évolution du langage naturel. Les recherches existantes se concentrent principalement sur la détection de l'occurrence des changements sémantiques, mais il existe une grave insuffisance d'études sur la caractérisation du comment le changement s'est produit. Par exemple :

  • « gay » est passé de « joyeux » à « homosexuel » (rétrécissement dimensionnel + neutralisation d'orientation)
  • « heart » s'est étendu de « organe cardiaque » à des sens métaphoriques tels que « courage » et « noyau » (changement relationnel)
  • « awful » est passé de « inspirant l'admiration » à « mauvais » (péjoration d'orientation)

2. Importance

  • Valeur linguistique : Comprendre les lois de l'évolution du langage, révéler l'impact de la culture, de la société et de la technologie sur le langage
  • Applications en TAL :
    • Compréhension de textes historiques (comme la recherche en humanités numériques)
    • Maintenance des graphes de connaissances (comme la cohérence temporelle de Wikidata)
    • Récupération d'information inter-temporelle (comme la dérive sémantique de « cloud » dans la littérature technique)
    • Analyse des sentiments (comme la méliorisation de « sick » dans l'argot)

3. Limitations des Méthodes Existantes

  • Absence de cadre de formalisation unifié : Les différentes recherches utilisent des terminologies et des définitions différentes, ce qui rend la comparaison difficile
  • Critères d'évaluation incohérents : Absence d'ensembles de données standards et de métriques d'évaluation
  • Accent sur la détection plutôt que sur la caractérisation : 90 % des recherches se concentrent sur « si le changement s'est produit », seuls 10 % étudient « comment le changement s'est produit »
  • Rareté des données : Les corpus historiques sont beaucoup plus petits que ce qui est nécessaire pour le TAL moderne (niveau million vs niveau trillion de tokens)

4. Motivation de la Recherche

Cet article est le premier travail de synthèse systématique sur la caractérisation des changements sémantiques, visant à :

  1. Identifier les limitations des méthodes de représentation et de classification existantes
  2. Évaluer les avantages de différentes approches
  3. Fournir des définitions formalisées basées sur la logique du premier ordre
  4. Démontrer conceptuellement la tâche de caractérisation du LSC

Contributions Principales

  1. Premier article de synthèse orienté vers la caractérisation du LSC : Contrairement aux synthèses existantes (Tahmasebi et al. 2018, Kutuzov et al. 2018) qui se concentrent sur la détection, cet article se concentre sur la caractérisation
  2. Taxonomie à trois pôles (Three-Pole Taxonomy) :
    • Dimension : broadening/narrowing (changement du nombre de sens)
    • Orientation : amelioration/pejoration (changement de la tendance affective)
    • Relation : metaphorization/metonymization (changement des relations rhétoriques)
  3. Cadre de formalisation : Fournit des définitions mathématiques basées sur la théorie des ensembles (Section 5), distinguant l'identification de la caractérisation
  4. Classification systématique des méthodes : Construit une matrice de classification bidimensionnelle (Tableau 3) selon la méthode de représentation (fréquence/sujet/graphe/plongement) × pôle de changement (D/R/O)
  5. Démonstration empirique : Valide la faisabilité du cadre en utilisant les ensembles de données SEMCOR et MASC
  6. Identification des lacunes de recherche : Identifie la rareté des recherches sur le pôle relationnel (R) et la caractérisation conjointe multi-pôles

Détails Méthodologiques

Définition des Tâches

Détection des Changements Sémantiques (Identification)

Étant donné une représentation du mot ww dans deux corpus t1,t2t_1, t_2 notée R(w,t1),R(w,t2)R(w, t_1), R(w, t_2), déterminer si un changement s'est produit : fC(R(w,t1),R(w,t2))yf_C(R(w, t_1), R(w, t_2)) \rightarrow yy{0,1}y \in \{0,1\} (classification binaire) ou yRy \in \mathbb{R} (distance continue)

Caractérisation des Changements Sémantiques (Characterization) ★Innovation Centrale

Sur la base de la détection, classifier davantage les types de changements : fx(R(w,t1),R(w,t2))y,x{D,R,O}f_x(R(w, t_1), R(w, t_2)) \rightarrow y, \quad x \in \{D, R, O\}

Cadre de Formalisation (Cœur de la Section 5)

Définitions Fondamentales

  • Univers sémantique : STS_T est l'ensemble de tous les sens de mots possibles
  • Fonction de sens : S:V×T(St)S: V \times T \rightarrow \wp(S_t), qui mappe le mot ww dans le corpus tt à l'ensemble des sens du mot S(w,t)={s1,s2,...,sk}S(w, t) = \{s_1, s_2, ..., s_k\}

Jugement du Changement Sémantique

Le mot ww subit un changement entre t1,t2t_1, t_2 si et seulement si :

undefined