Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
- ID de l'article : 2402.19088
- Titre : Survey in Characterization of Semantic Change
- Auteurs : Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (Luxembourg Institute of Science and Technology & University of Luxembourg)
- Classification : cs.CL (Linguistique Computationnelle), cs.AI
- Date de publication : Preprint, 17 novembre 2025 (arXiv v4)
- Lien de l'article : https://arxiv.org/abs/2402.19088
Le langage évolue dynamiquement, reflétant les transformations socioculturelles par le biais de néologismes ou de changements sémantiques de mots existants. Comprendre la signification des mots est essentiel pour interpréter les textes de différentes cultures, domaines ou périodes, et affecte directement les performances des applications de TAL telles que la traduction automatique, la recherche d'information et les systèmes de questions-réponses. Bien que les méthodes existantes aient obtenu une bonne précision dans la détection des changements sémantiques, il existe un manque d'études systématiques sur la façon de caractériser les types de changements sémantiques. Cet article de synthèse offre pour la première fois un examen complet des méthodes existantes de caractérisation des changements sémantiques, fournissant des définitions formelles de trois catégories de changements : changements dimensionnels (élargissement ou rétrécissement du sens des mots), changements d'orientation (le sens des mots devient plus péjoratif ou mélioratif), changements relationnels (le sens des mots se transforme par des procédés rhétoriques tels que la métaphore ou la métonymie). L'article résume les principales réalisations de recherche, analyse les limitations actuelles et indique les directions futures de recherche.
Le changement sémantique lexical (Lexical Semantic Change, LSC) est un phénomène fondamental de l'évolution du langage naturel. Les recherches existantes se concentrent principalement sur la détection de l'occurrence des changements sémantiques, mais il existe une grave insuffisance d'études sur la caractérisation du comment le changement s'est produit. Par exemple :
- « gay » est passé de « joyeux » à « homosexuel » (rétrécissement dimensionnel + neutralisation d'orientation)
- « heart » s'est étendu de « organe cardiaque » à des sens métaphoriques tels que « courage » et « noyau » (changement relationnel)
- « awful » est passé de « inspirant l'admiration » à « mauvais » (péjoration d'orientation)
- Valeur linguistique : Comprendre les lois de l'évolution du langage, révéler l'impact de la culture, de la société et de la technologie sur le langage
- Applications en TAL :
- Compréhension de textes historiques (comme la recherche en humanités numériques)
- Maintenance des graphes de connaissances (comme la cohérence temporelle de Wikidata)
- Récupération d'information inter-temporelle (comme la dérive sémantique de « cloud » dans la littérature technique)
- Analyse des sentiments (comme la méliorisation de « sick » dans l'argot)
- Absence de cadre de formalisation unifié : Les différentes recherches utilisent des terminologies et des définitions différentes, ce qui rend la comparaison difficile
- Critères d'évaluation incohérents : Absence d'ensembles de données standards et de métriques d'évaluation
- Accent sur la détection plutôt que sur la caractérisation : 90 % des recherches se concentrent sur « si le changement s'est produit », seuls 10 % étudient « comment le changement s'est produit »
- Rareté des données : Les corpus historiques sont beaucoup plus petits que ce qui est nécessaire pour le TAL moderne (niveau million vs niveau trillion de tokens)
Cet article est le premier travail de synthèse systématique sur la caractérisation des changements sémantiques, visant à :
- Identifier les limitations des méthodes de représentation et de classification existantes
- Évaluer les avantages de différentes approches
- Fournir des définitions formalisées basées sur la logique du premier ordre
- Démontrer conceptuellement la tâche de caractérisation du LSC
- Premier article de synthèse orienté vers la caractérisation du LSC : Contrairement aux synthèses existantes (Tahmasebi et al. 2018, Kutuzov et al. 2018) qui se concentrent sur la détection, cet article se concentre sur la caractérisation
- Taxonomie à trois pôles (Three-Pole Taxonomy) :
- Dimension : broadening/narrowing (changement du nombre de sens)
- Orientation : amelioration/pejoration (changement de la tendance affective)
- Relation : metaphorization/metonymization (changement des relations rhétoriques)
- Cadre de formalisation : Fournit des définitions mathématiques basées sur la théorie des ensembles (Section 5), distinguant l'identification de la caractérisation
- Classification systématique des méthodes : Construit une matrice de classification bidimensionnelle (Tableau 3) selon la méthode de représentation (fréquence/sujet/graphe/plongement) × pôle de changement (D/R/O)
- Démonstration empirique : Valide la faisabilité du cadre en utilisant les ensembles de données SEMCOR et MASC
- Identification des lacunes de recherche : Identifie la rareté des recherches sur le pôle relationnel (R) et la caractérisation conjointe multi-pôles
Étant donné une représentation du mot w dans deux corpus t1,t2 notée R(w,t1),R(w,t2), déterminer si un changement s'est produit :
fC(R(w,t1),R(w,t2))→y
où y∈{0,1} (classification binaire) ou y∈R (distance continue)
Sur la base de la détection, classifier davantage les types de changements :
fx(R(w,t1),R(w,t2))→y,x∈{D,R,O}
- Univers sémantique : ST est l'ensemble de tous les sens de mots possibles
- Fonction de sens : S:V×T→℘(St), qui mappe le mot w dans le corpus t à l'ensemble des sens du mot
S(w,t)={s1,s2,...,sk}
Le mot w subit un changement entre t1,t2 si et seulement si :
undefined