Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
academic
Enquête sur la Caractérisation du Changement Sémantique
Le langage évolue dynamiquement, reflétant les transformations socioculturelles par le biais de néologismes ou de changements sémantiques de mots existants. Comprendre la signification des mots est essentiel pour interpréter les textes de différentes cultures, domaines ou périodes, et affecte directement les performances des applications de TAL telles que la traduction automatique, la recherche d'information et les systèmes de questions-réponses. Bien que les méthodes existantes aient obtenu une bonne précision dans la détection des changements sémantiques, il existe un manque d'études systématiques sur la façon de caractériser les types de changements sémantiques. Cet article de synthèse offre pour la première fois un examen complet des méthodes existantes de caractérisation des changements sémantiques, fournissant des définitions formelles de trois catégories de changements : changements dimensionnels (élargissement ou rétrécissement du sens des mots), changements d'orientation (le sens des mots devient plus péjoratif ou mélioratif), changements relationnels (le sens des mots se transforme par des procédés rhétoriques tels que la métaphore ou la métonymie). L'article résume les principales réalisations de recherche, analyse les limitations actuelles et indique les directions futures de recherche.
Le changement sémantique lexical (Lexical Semantic Change, LSC) est un phénomène fondamental de l'évolution du langage naturel. Les recherches existantes se concentrent principalement sur la détection de l'occurrence des changements sémantiques, mais il existe une grave insuffisance d'études sur la caractérisation du comment le changement s'est produit. Par exemple :
« gay » est passé de « joyeux » à « homosexuel » (rétrécissement dimensionnel + neutralisation d'orientation)
« heart » s'est étendu de « organe cardiaque » à des sens métaphoriques tels que « courage » et « noyau » (changement relationnel)
« awful » est passé de « inspirant l'admiration » à « mauvais » (péjoration d'orientation)
Absence de cadre de formalisation unifié : Les différentes recherches utilisent des terminologies et des définitions différentes, ce qui rend la comparaison difficile
Critères d'évaluation incohérents : Absence d'ensembles de données standards et de métriques d'évaluation
Accent sur la détection plutôt que sur la caractérisation : 90 % des recherches se concentrent sur « si le changement s'est produit », seuls 10 % étudient « comment le changement s'est produit »
Rareté des données : Les corpus historiques sont beaucoup plus petits que ce qui est nécessaire pour le TAL moderne (niveau million vs niveau trillion de tokens)
Premier article de synthèse orienté vers la caractérisation du LSC : Contrairement aux synthèses existantes (Tahmasebi et al. 2018, Kutuzov et al. 2018) qui se concentrent sur la détection, cet article se concentre sur la caractérisation
Taxonomie à trois pôles (Three-Pole Taxonomy) :
Dimension : broadening/narrowing (changement du nombre de sens)
Orientation : amelioration/pejoration (changement de la tendance affective)
Relation : metaphorization/metonymization (changement des relations rhétoriques)
Cadre de formalisation : Fournit des définitions mathématiques basées sur la théorie des ensembles (Section 5), distinguant l'identification de la caractérisation
Classification systématique des méthodes : Construit une matrice de classification bidimensionnelle (Tableau 3) selon la méthode de représentation (fréquence/sujet/graphe/plongement) × pôle de changement (D/R/O)
Démonstration empirique : Valide la faisabilité du cadre en utilisant les ensembles de données SEMCOR et MASC
Identification des lacunes de recherche : Identifie la rareté des recherches sur le pôle relationnel (R) et la caractérisation conjointe multi-pôles
Étant donné une représentation du mot w dans deux corpus t1,t2 notée R(w,t1),R(w,t2), déterminer si un changement s'est produit :
fC(R(w,t1),R(w,t2))→y
où y∈{0,1} (classification binaire) ou y∈R (distance continue)
Broadening (élargissement) : ∣S(w,t1)∣<∣S(w,t2)∣ (augmentation du nombre de sens)
Narrowing (rétrécissement) : ∣S(w,t1)∣>∣S(w,t2)∣ (diminution du nombre de sens)
Exemple :
« plane » a 5 sens dans SEMCOR (plan, avion, rabot, etc.), mais seulement 2 dans MASC → rétrécissement
2. Changement d'Orientation (Orientation)
Définir une fonction de sentiment f:V×T→{−1,0,+1}, alors :
f(w,t1)=f(w,t2)
Amelioration (méliorisation) : f(w,t1)<f(w,t2) (devenir plus positif)
Pejoration (péjoration) : f(w,t1)>f(w,t2) (devenir plus négatif)
Implémentation : Somme pondérée des scores SentiWordNet
f(w,t)=N1∑i=1Np(si)⋅positive(si)
Exemple :
« heart » a f=0.15 dans SEMCOR et f=0.97 dans MASC → méliorisation
3. Changement Relationnel (Relation)
Définir la similarité relationnelle l:S×S→R, force relationnelle totale :
R(w,t)=∑i=1N−1∑j=i+1Nl(si,sj),si,sj∈S(w,t)
Formalisation par théorie des ensembles : Première utilisation d'un langage mathématique rigoureux pour définir la caractérisation du LSC, éliminant les ambiguïtés
Symétrie des pôles : Les trois pôles forment naturellement des paires (broadening/narrowing partagent la mesure dimensionnelle), simplifiant le cadre de calcul
Opérationnalité : Les définitions peuvent être directement converties en algorithmes (comme le comptage des sens, la notation des sentiments, l'analyse des graphes relationnels)
Perspective de Cambridge : Adopte une comparaison statique (comparaison entre deux corpus) plutôt que le suivi dynamique de McTaggart, adapté aux méthodes computationnelles
L'article lui-même, en tant que synthèse, ne fournit pas de métriques d'évaluation unifiées, mais analyse les méthodes d'évaluation des approches existantes :
La caractérisation est plus difficile que la détection : SemEval-2020 montre que les plongements contextuels n'ont pas surpassé les plongements statiques dans la détection du LSC, la caractérisation nécessite une conception plus spécialisée
Goulot d'étranglement des données : Corpus historiques au niveau million vs LLM modernes nécessitant le niveau trillion → nécessité d'apprentissage peu supervisé
Absence de multilingualité : 90 % des recherches concernent uniquement l'anglais
Vide du pôle relationnel : Seulement 3 articles, pas d'ensemble de données standard
Difficulté d'évaluation : Absence d'étalon-or, la plupart des analyses sont qualitatives
Mention simple de l'application de GPT/BERT au LSC
Ne discute pas des nouveaux paradigmes comme l'ingénierie des invites, l'apprentissage en contexte
Absence de Multimodalité : La modélisation conjointe image-texte pourrait aider à la compréhension du sens
Perspective Faible de la Linguistique Cognitive : N'intègre pas les modèles computationnels de la théorie de la métaphore conceptuelle (Lakoff & Johnson)
Cet article est une synthèse historique du domaine du changement sémantique, systématisant pour la première fois le problème de la caractérisation et proposant un cadre théorique à trois pôles (D/R/O) et une formalisation basée sur la théorie des ensembles pour les recherches futures. Sa plus grande valeur réside dans :
Clarification de la Direction de Recherche : Identification des lacunes dans le pôle relationnel et la modélisation conjointe multi-pôles
Unification de la Terminologie : Élimination des confusions entre détection vs caractérisation, broadening vs généralisation
Opérationnalité : Les définitions par théorie des ensembles peuvent être directement converties en algorithmes
Cependant, l'article a encore de la place pour amélioration dans la validation expérimentale, l'intégration des méthodes de l'ère des LLM et l'approfondissement de la perspective de la linguistique cognitive. Les travaux futurs recommandés incluent :
Construction d'un grand ensemble de données annotées trois pôles (par exemple, annotation de 1000 mots pour D/R/O dans COHA)
Développement de modèles de caractérisation bout en bout (par exemple, apprentissage multi-tâches prédisant simultanément les trois pôles)
Exploration de la capacité de caractérisation zéro-shot des LLM (par exemple, utilisation de GPT-4 pour juger si le sens d'un mot s'est métaphorisé)
Pour les chercheurs en TAL, cet article est une lecture essentielle pour entrer dans le domaine du LSC ; pour les développeurs d'applications, son cadre de formalisation fournit un guide théorique pour construire des systèmes de compréhension de textes historiques.