2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de SÃ¡, Da Silveira, Pruski

Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.

academic

Enquête sur la Caractérisation du Changement Sémantique

Informations Fondamentales

ID de l'article : 2402.19088
Titre : Survey in Characterization of Semantic Change
Auteurs : Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (Luxembourg Institute of Science and Technology & University of Luxembourg)
Classification : cs.CL (Linguistique Computationnelle), cs.AI
Date de publication : Preprint, 17 novembre 2025 (arXiv v4)
Lien de l'article : https://arxiv.org/abs/2402.19088

Résumé

Le langage évolue dynamiquement, reflétant les transformations socioculturelles par le biais de néologismes ou de changements sémantiques de mots existants. Comprendre la signification des mots est essentiel pour interpréter les textes de différentes cultures, domaines ou périodes, et affecte directement les performances des applications de TAL telles que la traduction automatique, la recherche d'information et les systèmes de questions-réponses. Bien que les méthodes existantes aient obtenu une bonne précision dans la détection des changements sémantiques, il existe un manque d'études systématiques sur la façon de caractériser les types de changements sémantiques. Cet article de synthèse offre pour la première fois un examen complet des méthodes existantes de caractérisation des changements sémantiques, fournissant des définitions formelles de trois catégories de changements : changements dimensionnels (élargissement ou rétrécissement du sens des mots), changements d'orientation (le sens des mots devient plus péjoratif ou mélioratif), changements relationnels (le sens des mots se transforme par des procédés rhétoriques tels que la métaphore ou la métonymie). L'article résume les principales réalisations de recherche, analyse les limitations actuelles et indique les directions futures de recherche.

Contexte et Motivation de la Recherche

1. Problème Central

Le changement sémantique lexical (Lexical Semantic Change, LSC) est un phénomène fondamental de l'évolution du langage naturel. Les recherches existantes se concentrent principalement sur la détection de l'occurrence des changements sémantiques, mais il existe une grave insuffisance d'études sur la caractérisation du comment le changement s'est produit. Par exemple :

« gay » est passé de « joyeux » à « homosexuel » (rétrécissement dimensionnel + neutralisation d'orientation)
« heart » s'est étendu de « organe cardiaque » à des sens métaphoriques tels que « courage » et « noyau » (changement relationnel)
« awful » est passé de « inspirant l'admiration » à « mauvais » (péjoration d'orientation)

2. Importance

Valeur linguistique : Comprendre les lois de l'évolution du langage, révéler l'impact de la culture, de la société et de la technologie sur le langage
Applications en TAL :
- Compréhension de textes historiques (comme la recherche en humanités numériques)
- Maintenance des graphes de connaissances (comme la cohérence temporelle de Wikidata)
- Récupération d'information inter-temporelle (comme la dérive sémantique de « cloud » dans la littérature technique)
- Analyse des sentiments (comme la méliorisation de « sick » dans l'argot)

3. Limitations des Méthodes Existantes

Absence de cadre de formalisation unifié : Les différentes recherches utilisent des terminologies et des définitions différentes, ce qui rend la comparaison difficile
Critères d'évaluation incohérents : Absence d'ensembles de données standards et de métriques d'évaluation
Accent sur la détection plutôt que sur la caractérisation : 90 % des recherches se concentrent sur « si le changement s'est produit », seuls 10 % étudient « comment le changement s'est produit »
Rareté des données : Les corpus historiques sont beaucoup plus petits que ce qui est nécessaire pour le TAL moderne (niveau million vs niveau trillion de tokens)

4. Motivation de la Recherche

Cet article est le premier travail de synthèse systématique sur la caractérisation des changements sémantiques, visant à :

Identifier les limitations des méthodes de représentation et de classification existantes
Évaluer les avantages de différentes approches
Fournir des définitions formalisées basées sur la logique du premier ordre
Démontrer conceptuellement la tâche de caractérisation du LSC

Contributions Principales

Premier article de synthèse orienté vers la caractérisation du LSC : Contrairement aux synthèses existantes (Tahmasebi et al. 2018, Kutuzov et al. 2018) qui se concentrent sur la détection, cet article se concentre sur la caractérisation
Taxonomie à trois pôles (Three-Pole Taxonomy) :
- Dimension : broadening/narrowing (changement du nombre de sens)
- Orientation : amelioration/pejoration (changement de la tendance affective)
- Relation : metaphorization/metonymization (changement des relations rhétoriques)
Cadre de formalisation : Fournit des définitions mathématiques basées sur la théorie des ensembles (Section 5), distinguant l'identification de la caractérisation
Classification systématique des méthodes : Construit une matrice de classification bidimensionnelle (Tableau 3) selon la méthode de représentation (fréquence/sujet/graphe/plongement) × pôle de changement (D/R/O)
Démonstration empirique : Valide la faisabilité du cadre en utilisant les ensembles de données SEMCOR et MASC
Identification des lacunes de recherche : Identifie la rareté des recherches sur le pôle relationnel (R) et la caractérisation conjointe multi-pôles

Détails Méthodologiques

Définition des Tâches

Détection des Changements Sémantiques (Identification)

Étant donné une représentation du mot $w$ dans deux corpus $t_1, t_2$ notée $R(w, t_1), R(w, t_2)$ , déterminer si un changement s'est produit : $f_C(R(w, t_1), R(w, t_2)) \rightarrow y$ où $y \in \{0,1\}$ (classification binaire) ou $y \in \mathbb{R}$ (distance continue)

Caractérisation des Changements Sémantiques (Characterization) ★Innovation Centrale

Sur la base de la détection, classifier davantage les types de changements : $f_x(R(w, t_1), R(w, t_2)) \rightarrow y, \quad x \in \{D, R, O\}$

Cadre de Formalisation (Cœur de la Section 5)

Définitions Fondamentales

Univers sémantique : $S_T$ est l'ensemble de tous les sens de mots possibles
Fonction de sens : $S: V \times T \rightarrow \wp(S_t)$ , qui mappe le mot $w$ dans le corpus $t$ à l'ensemble des sens du mot $S(w, t) = \{s_1, s_2, ..., s_k\}$

Jugement du Changement Sémantique

Le mot $w$ subit un changement entre $t_1, t_2$ si et seulement si : $C(w, t_1, t_2) = \begin{cases} \text{Vrai} & S(w, t_1) \neq S(w, t_2) \\ \text{Faux} & \text{autrement} \end{cases}$

Définitions des Trois Pôles

1. Changement Dimensionnel (Dimension) $|S(w, t_1)| \neq |S(w, t_2)|$

Broadening (élargissement) : $|S(w, t_1)| < |S(w, t_2)|$ (augmentation du nombre de sens)
Narrowing (rétrécissement) : $|S(w, t_1)| > |S(w, t_2)|$ (diminution du nombre de sens)

Exemple :

« plane » a 5 sens dans SEMCOR (plan, avion, rabot, etc.), mais seulement 2 dans MASC → rétrécissement

2. Changement d'Orientation (Orientation) Définir une fonction de sentiment $f: V \times T \rightarrow \{-1, 0, +1\}$ , alors : $f(w, t_1) \neq f(w, t_2)$

Amelioration (méliorisation) : $f(w, t_1) < f(w, t_2)$ (devenir plus positif)
Pejoration (péjoration) : $f(w, t_1) > f(w, t_2)$ (devenir plus négatif)

Implémentation : Somme pondérée des scores SentiWordNet $f(w, t) = \frac{1}{N}\sum_{i=1}^{N} p(s_i) \cdot \text{positive}(s_i)$

Exemple :

« heart » a $f=0.15$ dans SEMCOR et $f=0.97$ dans MASC → méliorisation

3. Changement Relationnel (Relation) Définir la similarité relationnelle $l: S \times S \rightarrow \mathbb{R}$ , force relationnelle totale : $R(w, t) = \sum_{i=1}^{N-1}\sum_{j=i+1}^{N} l(s_i, s_j), \quad s_i, s_j \in S(w, t)$

Augmentation : $R(w, t_1) < R(w, t_2)$ (plus d'usages métaphoriques/métonymiques)

Exemple :

« heart » s'étend du sens littéral « cœur » aux sens métaphoriques « noyau » et « courage » → renforcement relationnel

Points d'Innovation Technique

Formalisation par théorie des ensembles : Première utilisation d'un langage mathématique rigoureux pour définir la caractérisation du LSC, éliminant les ambiguïtés
Symétrie des pôles : Les trois pôles forment naturellement des paires (broadening/narrowing partagent la mesure dimensionnelle), simplifiant le cadre de calcul
Opérationnalité : Les définitions peuvent être directement converties en algorithmes (comme le comptage des sens, la notation des sentiments, l'analyse des graphes relationnels)
Perspective de Cambridge : Adopte une comparaison statique (comparaison entre deux corpus) plutôt que le suivi dynamique de McTaggart, adapté aux méthodes computationnelles

Configuration Expérimentale

Classification des Ensembles de Données

Corpus Diachroniques (Tableau 2)

Corpus	Langue	Période	Taille	Caractéristiques
COHA	Anglais	1810s-2000s	400 millions de mots	Plus couramment utilisé, équilibré multi-genres
Google N-Gram	Multilingue	1600-2009	300 milliards de mots	Plus grande taille, mais beaucoup de bruit
DTA	Allemand	1741-1900	1022 textes	Haute qualité, sélection manuelle
CLMET	Anglais	1710-1920	34 millions de mots	Principalement des œuvres littéraires

Ensembles de Données de Démonstration

SEMCOR (1993) : 200 000 mots, annotations de sens WordNet
MASC (2013) : 500 000 mots, anglais américain moderne
Sources d'annotation :
- Sens : WordNet
- Relations : ChainNet (liens métaphoriques/métonymiques)
- Orientation : SentiWordNet (scores positifs/négatifs)

Dimensions d'Évaluation

L'article lui-même, en tant que synthèse, ne fournit pas de métriques d'évaluation unifiées, mais analyse les méthodes d'évaluation des approches existantes :

Pôle Dimensionnel (D)

Métriques : Changement du nombre de sens, densité de clustering, nombre de sujets
Sources de données : Dictionnaires, clustering d'induction de sens, modèles de sujets

Pôle d'Orientation (O)

Métriques : Distance aux mots germes, scores du cadre VAD (Valence-Arousal-Dominance)
Défis : Hypothèse de stabilité des mots germes, traitement de l'ironie/négation

Pôle Relationnel (R)

Métriques : Augmentation de l'entropie (Schlechtweg 2017), nombre d'arêtes du graphe relationnel
Problèmes : Difficulté à distinguer la métaphore des nouveaux homophones

Classification des Méthodes (Cœur du Tableau 3)

Méthode	D	R	O	Méthode de Représentation
Biemann 2006	✓	-	-	Graphe
Tang et al. 2013	✓	✓	-	Fréquence
Hamilton et al. 2016a	-	-	✓	Graphe (SentiProp)
Inoue et al. 2022	✓	-	-	Sujets (InfiniteSCAN)
Giulianelli et al. 2020	✓	-	-	Plongements (BERT)
Fonteyn & Manjavacas 2021	-	✓	✓	Plongements

Découvertes Clés :

Aucune méthode ne couvre les trois pôles : La complexité de la caractérisation est élevée
Le pôle dimensionnel est le plus étudié : 18/23 méthodes
Le pôle relationnel est le plus faible : Seulement 3 méthodes
Les méthodes de plongement dominent : Tendance récente

Résultats Expérimentaux

Validation du Cadre (Section 5.7)

Cas 1 : Changements Multi-Pôles de « heart »

Données (SEMCOR → MASC) :

Changement de distribution des sens :
- heart.n.02 (organe, littéral) : 34,8 % → 0 %
- heart.n.03 (courage, métaphorique+) : 12,1 % → 90,1 %
- heart.n.10 (couleur de carte, nouveau) : 0 % → 2,8 %

Résultats de Calcul :

Dimension : $|S|: 5 \rightarrow 3$ , rétrécissement
Orientation : $f: 0.15 \rightarrow 0.97$ , méliorisation forte
Relation : Usage métaphorique dominant (90,1 %), renforcement relationnel

Interprétation : Le sens littéral « cœur » disparaît, le sens métaphorique « courage/noyau » devient le sens prototypique

Cas 2 : Rétrécissement de « plane »

Données :

SEMCOR : 5 sens (avion 48,8 %, plan 37,2 %, rabot 4,7 %, etc.)
MASC : 2 sens (avion 90,9 %, plan 9,1 %)

Résultats de Calcul :

Dimension : $5 \rightarrow 2$ , rétrécissement significatif
Orientation : Perte de sens positif (flat.s.01, +0.375) → légère péjoration
Relation : $R: 1 \rightarrow 0$ (relation de métonymie entre plane.n.03 et plane.n.02 disparue)

Analyse Comparative des Méthodes (Tableau 4)

Méthodes de Fréquence

Avantages :

Simple et interprétable
Adapté à la détection de néologismes
Faibles besoins en données

Inconvénients :

Impossible de distinguer les sens (problème de polysémie)
Difficile de capturer la similarité sémantique
Sensible à l'ironie/négation

Scénarios d'Application : Statistiques de co-occurrence de mots germes pour le pôle d'orientation

Modèles de Sujets

Avantages :

Découverte non supervisée de nouveaux sens
Visualisation de l'évolution des sujets
InfiniteSCAN ajuste dynamiquement le nombre de sujets

Inconvénients :

Nécessite une interprétation manuelle des sujets
Granularité des sujets difficile à contrôler
Lacunes de recherche pour les pôles relationnel et d'orientation

Travaux Représentatifs :

SCAN (Frermann & Lapata 2016)
InfiniteSCAN (Inoue et al. 2022) : Détection automatique du nombre de changements de sens

Méthodes de Graphe

Avantages :

Représentation naturelle des relations entre sens
Visualisation de l'arbre d'évolution des sens (Ehmüller et al. 2020)
Adapté à la propagation des sentiments (SentiProp)

Inconvénients :

Dépend de la qualité de la construction du graphe
Complexité computationnelle élevée
Exploration sérieusement insuffisante du pôle relationnel

Travaux Représentatifs :

Clustering Chinese Whispers (Biemann 2006)
Ego-network + filtrage PMI (Ehmüller et al. 2020)

Méthodes de Plongement

Avantages :

Capture les changements sémantiques subtils
Les plongements contextuels comme BERT améliorent les performances
Les plongements de densité (word2gauss) modélisent la polysémie

Inconvénients :

Deficiency of Meaning Conflation : Un vecteur unique ne peut pas distinguer les sens fins
Instabilité pour les mots peu fréquents
Les plongements contextuels sont trop contextualisés → faux positifs

Travaux Représentatifs :

Diachronic embeddings (Hamilton et al. 2016b)
Gaussian embeddings (Moss 2020, Yüksel et al. 2021)
XL-LEXEME (Cassotti et al. 2023) : Préentraînement WSD multilingue

Découvertes Importantes

La caractérisation est plus difficile que la détection : SemEval-2020 montre que les plongements contextuels n'ont pas surpassé les plongements statiques dans la détection du LSC, la caractérisation nécessite une conception plus spécialisée
Goulot d'étranglement des données : Corpus historiques au niveau million vs LLM modernes nécessitant le niveau trillion → nécessité d'apprentissage peu supervisé
Absence de multilingualité : 90 % des recherches concernent uniquement l'anglais
Vide du pôle relationnel : Seulement 3 articles, pas d'ensemble de données standard
Difficulté d'évaluation : Absence d'étalon-or, la plupart des analyses sont qualitatives

Travaux Connexes

Comparaison avec les Synthèses Existantes

Synthèse	Année	Foyer	Différence avec cet Article
Tang 2018	2018	Cadre en quatre étapes (corpus → sens → modélisation → validation)	Concentré sur la détection, caractérisation brièvement mentionnée
Tahmasebi et al. 2018	2018	Distinction niveau mot/sens, remplacement lexical	Recommande l'approfondissement de la recherche en caractérisation
Kutuzov et al. 2018	2018	Modèles de représentation des mots et données	Indique une validation insuffisante des schémas de classification
Montanelli & Periti 2023	2023	Méthodes de plongement contextuel	Appelle à la recherche sur les « lois du changement sémantique »
Cet Article	2025	Caractérisation des trois pôles + formalisation	Première synthèse systématique de la caractérisation

Fondements Théoriques

Classification Linguistique (Traugott 2017)

Broadening/Narrowing : Changement de l'étendue du sens
Amelioration/Pejoration : Changement de la valeur affective
Metaphorization/Metonymization : Changement du mécanisme rhétorique

Classification Computationnelle

Perspective de Cambridge : Comparaison statique entre deux corpus (adoptée dans cet article)
Perspective de McTaggart : Suivi dynamique du processus d'évolution (nécessite des connaissances historiques)

Évolution de la Représentation des Sens

Période Précoce : Matrice de fréquence + co-occurrence (Sagi et al. 2009)
Années 2010 : Modèles de sujets (Lau et al. 2012), clustering de graphes (Biemann 2006)
2016+ : Plongements statiques (Hamilton et al. 2016b)
2019+ : Plongements contextuels comme BERT (Giulianelli et al. 2020)
Avenir : Méthodes génératives avec LLM (Cassotti et al. 2024)

Conclusion et Discussion

Conclusions Principales

Recherche en caractérisation sérieusement insuffisante : Ratio des articles détection vs caractérisation environ 9:1
Déséquilibre des trois pôles : Le pôle dimensionnel (D) est bien étudié, le pôle relationnel (R) est presque vide
Fragmentation des méthodes : Absence de cadre unifié et de normes d'évaluation
Nécessité de la formalisation : Les définitions par théorie des ensembles peuvent éliminer les ambiguïtés et promouvoir la comparaison des méthodes
Défi des données : La taille limitée des corpus historiques restreint l'application de l'apprentissage profond

Limitations

Limitations Méthodologiques

Hypothèses Simplificatrices : L'objectivisme du sens (sense objectivism) ignore la dépendance au contexte
Limitations de la Dichotomie : broadening/narrowing ne peut pas décrire les changements d'intension (contenu) du sens
Définition Floue du Pôle Relationnel : Difficile de distinguer la métaphore de la métonymie et des nouveaux homophones

Limitations des Données

Biais du Corpus :
- Les corpus équilibrés comme COHA ont toujours des biais de genre
- Google N-Gram a beaucoup de bruit (erreurs OCR)
Retard d'Annotation : Les dictionnaires intègrent les nouveaux sens avec 5-10 ans de retard
Absence de Multilingualité : Recherche non-anglaise < 10 %

Limitations d'Évaluation

Absence d'Étalon-Or : La plupart des travaux utilisent l'analyse qualitative
Stabilité des Mots Germes : Le pôle d'orientation suppose que les mots germes ne changent pas (en réalité ils changent)
Subjectivité des Seuils : Le seuil de changement pour la classification binaire manque de consensus

Directions Futures

Court Terme (1-2 ans)

Percée du Pôle Relationnel :
- Construire des ensembles de données annotées métaphore/métonymie
- Utiliser les graphes de connaissances (Wikidata) pour modéliser les relations conceptuelles
Modélisation Conjointe Multi-Pôles : Un seul modèle caractérisant simultanément D+R+O
Évaluation Standard : Établir un benchmark pour la caractérisation du LSC

Moyen Terme (3-5 ans)

Application des LLM :
- Apprentissage peu supervisé pour atténuer la rareté des données
- Méthodes génératives synthétisant des corpus historiques (Cassotti et al. 2024)
Recherche Multilingue :
- Valider les lois universelles du changement sémantique
- Utiliser les modèles de préentraînement multilingues
Analyse Causale : Du « comment change » au « pourquoi change » (facteurs socioculturels)

Long Terme (5 ans+)

Lois du Changement Sémantique :
- Quels types de mots subissent facilement un broadening ?
- Relation entre la fréquence et la vitesse de changement
Applications Motivées :
- Traduction automatique de textes historiques
- Maintenance des graphes de connaissances dynamiques
- Modélisation de l'évolution culturelle

Évaluation Approfondie

Points Forts

Contributions Académiques

Combler une Lacune : Première synthèse systématique de la caractérisation, clarifiant la distinction entre identification et caractérisation
Innovation Théorique :
- La taxonomie à trois pôles intègre les perspectives linguistiques et computationnelles
- Le cadre de formalisation (Section 5) peut directement guider la conception d'algorithmes
Exhaustivité :
- Période couverte : 2006-2024
- Couverture des méthodes : 4 types de représentation × 3 types de changements = analyse 12 dimensions
- Analyse approfondie de 23 articles clés

Avantages Méthodologiques

Recherche Sémantique : Utilisation de l'outil Research Rabbit pour l'expansion itérative de la littérature (11 → 151 articles)
Validation Empirique : Les cas SEMCOR/MASC démontrent l'opérationnalité du cadre
Visualisation : L'arbre de classification Figure 1 et l'espace tridimensionnel Figure 11 présentent intuitivement

Qualité de Rédaction

Structure Claire : La logique de contexte → méthodes → formalisation → discussion est rigoureuse
Terminologie Unifiée : Définitions claires des concepts clés comme LSC, D/R/O
Tableaux Informatifs : Les Tableaux 2-4 condensent une grande quantité d'informations

Insuffisances

Niveau Théorique

Controverse sur l'Objectivité du Sens :
- Suppose que les sens peuvent être énumérés discrètement ( $S(w,t)=\{s_1,...,s_k\}$ )
- Ignore la « ressemblance familiale » de Wittgenstein et la théorie de l'usage
- Réponse : L'auteur reconnaît une « position pragmatique », mais ne discute pas suffisamment de la théorie du prototype
Définition Insuffisante du Pôle Relationnel :
- La formule (6) pour $l(s_i, s_j)$ n'est pas explicitement calculée
- La distinction métaphore vs métonymie dépend de ressources externes comme ChainNet
Simplification du Pôle d'Orientation :
- Considère uniquement la polarité positive/négative, ignore la multidimensionnalité du sentiment (sauf VAD)
- Problème de raisonnement circulaire dans la sélection des mots germes

Niveau Expérimental

Validation Insuffisante :
- Section 5.7 ne contient que 2 exemples de mots, signification statistique insuffisante
- L'intervalle de temps SEMCOR/MASC est seulement de 20 ans, insuffisant pour montrer les changements diachroniques
- Pas de comparaison avec les annotations manuelles pour valider
Comparaison de Méthodes Manquante :
- Le Tableau 3 ne classe que, sans comparaison quantitative de précision
- Absence d'expériences comparatives de différentes méthodes de représentation sur la même tâche
Limitations des Ensembles de Données :
- Dépend de l'annotation WordNet, mais WordNet n'a pas une couverture complète (comme l'argot, les néologismes)
- Le bruit dans ChainNet/SentiWordNet n'est pas discuté

Couverture

Méthodes Insuffisantes pour l'Ère des LLM :
- Mention simple de l'application de GPT/BERT au LSC
- Ne discute pas des nouveaux paradigmes comme l'ingénierie des invites, l'apprentissage en contexte
Absence de Multimodalité : La modélisation conjointe image-texte pourrait aider à la compréhension du sens
Perspective Faible de la Linguistique Cognitive : N'intègre pas les modèles computationnels de la théorie de la métaphore conceptuelle (Lakoff & Johnson)

Évaluation de l'Impact

Contribution au Domaine (Attendue)

Changement de Paradigme : Pousser la recherche LSC de la détection vers la caractérisation
Orientation Méthodologique : Le cadre de formalisation peut être directement converti en algorithmes (comme le pseudo-code Algorithm 1)
Besoin d'Ensembles de Données : Appel à la construction de données annotées trois pôles, pouvant catalyser de nouveaux benchmarks

Valeur Pratique

TAL Historique : Améliorer la compréhension des textes historiques (comme la désambiguïsation des sens dans les œuvres de Shakespeare)
Ingénierie des Connaissances : Guider la maintenance des graphes de connaissances temporels comme Wikidata
Calcul Social : Suivre l'évolution du sens des mots dans les médias sociaux (comme la politisation de « woke »)

Reproductibilité

Élevée : Les définitions formalisées sont claires, SEMCOR/MASC sont publiquement disponibles
Moyenne : Certaines méthodes (comme ChainNet) sont difficiles à obtenir
Faible : Absence de dépôt de code, nécessitant une implémentation personnelle par les lecteurs

Scénarios d'Application

Applications Appropriées

Humanités Numériques : Analyser l'évolution sémantique des mots clés dans les œuvres littéraires
Édition de Dictionnaires : Découvrir automatiquement les entrées nécessitant une mise à jour
Sociolinguistique : Étudier les changements de discours lors de mouvements sociaux (comme l'évolution de « féminisme »)
Langues Peu Dotées : Le cadre de formalisation peut être transféré aux langues non-anglaises

Scénarios Inappropriés

Systèmes en Temps Réel : L'analyse diachronique nécessite de grandes quantités de données historiques, inadaptée aux applications en ligne
WSD Granulaire : La classification trois pôles est trop grossière pour gérer les différences sémantiques subtiles
Inférence Causale : Décrit uniquement « comment change », ne peut pas expliquer « pourquoi change »

Références (Sélection de Références Clés)

Fondements Théoriques

Traugott (2017) : Semantic change - Source d'autorité pour la classification linguistique
Koch (2016) : Meaning change and semantic shifts - Explication détaillée des mécanismes rhétoriques
Blank (2012) : Prinzipien des lexikalischen Bedeutungswandels - Recherche sur le changement sémantique en allemand

Méthodes de Détection

Hamilton et al. (2016b) : Diachronic word embeddings reveal statistical laws - Jalon des plongements statiques
Giulianelli et al. (2020) : Analysing lexical semantic change with contextualised word representations - Application de BERT
Schlechtweg et al. (2020) : SemEval-2020 Task 1 - Tâche d'évaluation standard

Méthodes de Caractérisation

Inoue et al. (2022) : Infinite SCAN - Modèle de sujet détectant dynamiquement le nombre de sens
Fonteyn & Manjavacas (2021) : Adjusting scope - Exemple d'analyse multi-pôles
Ehmüller et al. (2020) : Sense tree discovery - Méthode de graphe pour la visualisation

Comparaison des Synthèses

Tahmasebi et al. (2018) : Survey of computational approaches to LSC - Synthèse la plus complète sur la détection
Kutuzov et al. (2018) : Diachronic word embeddings and semantic shifts - Synthèse des modèles de représentation des mots

Résumé

Cet article est une synthèse historique du domaine du changement sémantique, systématisant pour la première fois le problème de la caractérisation et proposant un cadre théorique à trois pôles (D/R/O) et une formalisation basée sur la théorie des ensembles pour les recherches futures. Sa plus grande valeur réside dans :

Clarification de la Direction de Recherche : Identification des lacunes dans le pôle relationnel et la modélisation conjointe multi-pôles
Unification de la Terminologie : Élimination des confusions entre détection vs caractérisation, broadening vs généralisation
Opérationnalité : Les définitions par théorie des ensembles peuvent être directement converties en algorithmes

Cependant, l'article a encore de la place pour amélioration dans la validation expérimentale, l'intégration des méthodes de l'ère des LLM et l'approfondissement de la perspective de la linguistique cognitive. Les travaux futurs recommandés incluent :

Construction d'un grand ensemble de données annotées trois pôles (par exemple, annotation de 1000 mots pour D/R/O dans COHA)
Développement de modèles de caractérisation bout en bout (par exemple, apprentissage multi-tâches prédisant simultanément les trois pôles)
Exploration de la capacité de caractérisation zéro-shot des LLM (par exemple, utilisation de GPT-4 pour juger si le sens d'un mot s'est métaphorisé)

Pour les chercheurs en TAL, cet article est une lecture essentielle pour entrer dans le domaine du LSC ; pour les développeurs d'applications, son cadre de formalisation fournit un guide théorique pour construire des systèmes de compréhension de textes historiques.