2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de SÃ¡, Da Silveira, Pruski

Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.

academic

Übersicht zur Charakterisierung des semantischen Wandels

Grundinformationen

Paper-ID: 2402.19088
Titel: Survey in Characterization of Semantic Change
Autoren: Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (Luxembourg Institute of Science and Technology & University of Luxembourg)
Klassifizierung: cs.CL (Computerlinguistik), cs.AI
Veröffentlichungsdatum: Preprint, 17. November 2025 (arXiv v4)
Paper-Link: https://arxiv.org/abs/2402.19088

Zusammenfassung

Sprache entwickelt sich dynamisch weiter, was sich durch Neologismen oder semantische Veränderungen bestehender Wörter widerspiegelt und soziokulturelle Transformationen reflektiert. Das Verständnis von Wortbedeutungen ist entscheidend für die Interpretation von Texten verschiedener Kulturen, Domänen oder Zeiträume und beeinflusst direkt die Leistung von NLP-Anwendungen wie maschinelle Übersetzung, Informationsabruf und Frage-Antwort-Systeme. Obwohl bestehende Methoden bereits gute Genauigkeit bei der Erkennung semantischer Veränderungen erreicht haben, fehlt es an systematischer Forschung zur Charakterisierung (characterize) von Typen semantischer Veränderungen. Diese Übersicht bietet erstmals eine umfassende Zusammenfassung bestehender Methoden zur Charakterisierung semantischer Veränderungen und definiert formal drei Kategorien von Veränderungen: Dimensionsveränderung (Wortbedeutung wird breiter oder enger), Orientierungsveränderung (Wortbedeutung wird negativer oder positiver), Relationsveränderung (Wortbedeutung transformiert sich durch rhetorische Mittel wie Metapher oder Metonymie). Das Paper fasst die wichtigsten Forschungsergebnisse zusammen, analysiert aktuelle Einschränkungen und weist auf zukünftige Forschungsrichtungen hin.

Forschungshintergrund und Motivation

1. Kernproblem

Lexikalischer semantischer Wandel (Lexical Semantic Change, LSC) ist ein Kernphänomen der Sprachentwicklung. Bestehende Forschung konzentriert sich hauptsächlich auf die Erkennung (detection) von semantischen Veränderungen, aber es mangelt erheblich an Forschung zur Charakterisierung von wie sich Bedeutungen verändern (how it changed). Beispiele:

"gay" wandelt sich von "fröhlich" zu "homosexuell" (Dimensionsverengung + Orientierungsneutralisierung)
"heart" erweitert sich von "Herzorgan" zu metaphorischen Bedeutungen wie "Mut" und "Kern" (Relationsveränderung)
"awful" wandelt sich von "ehrfurchtgebietend" zu "schrecklich" (Orientierungsverschlechterung)

2. Bedeutsamkeit

Sprachwissenschaftlicher Wert: Verständnis von Sprachentwicklungsgesetzen, Aufdeckung von Einflüssen von Kultur, Gesellschaft und Technologie auf Sprache
NLP-Anwendungen:
- Verständnis historischer Texte (z.B. Digital Humanities Forschung)
- Wartung von Wissensgraphen (z.B. zeitliche Konsistenz von Wikidata)
- Zeitübergreifender Informationsabruf (z.B. semantische Verschiebung von "cloud" in technischer Literatur)
- Sentimentanalyse (z.B. Positivierung von "sick" in Slang)

3. Einschränkungen bestehender Methoden

Fehlender einheitlicher Formalisierungsrahmen: Verschiedene Forschungsarbeiten verwenden unterschiedliche Terminologie und Definitionen, was Vergleiche erschwert
Inkonsistente Bewertungsstandards: Mangel an standardisierten Datensätzen und Bewertungsmetriken
Übergewicht auf Erkennung statt Charakterisierung: 90% der Forschung konzentriert sich auf "ob Veränderung auftritt", nur 10% auf "wie sich Veränderung vollzieht"
Datenmangel: Historische Korpora sind deutlich kleiner als für modernes NLP erforderlich (Millionen vs. Billionen Tokens)

4. Forschungsmotivation

Dieses Paper ist die erste systematische Übersicht zur Charakterisierung semantischer Veränderungen mit dem Ziel:

Einschränkungen bestehender Darstellungs- und Klassifizierungsmethoden zu identifizieren
Stärken verschiedener Methoden zu bewerten
Formalisierte Definitionen basierend auf Logik erster Ordnung bereitzustellen
Konzeptionelle Demonstration der LSC-Charakterisierungsaufgabe

Kernbeiträge

Erste charakterisierungsorientierte LSC-Übersicht: Im Gegensatz zu bestehenden Übersichten (Tahmasebi et al. 2018, Kutuzov et al. 2018), die sich auf Erkennung konzentrieren, fokussiert dieses Paper auf Charakterisierung
Dreipoliges Klassifizierungssystem (Three-Pole Taxonomy):
- Dimension: broadening/narrowing (Veränderung der Anzahl von Wortbedeutungen)
- Orientierung: amelioration/pejoration (Veränderung der emotionalen Ausrichtung)
- Relation: metaphorization/metonymization (Veränderung der rhetorischen Beziehungen)
Formalisierter Rahmen: Mathematische Definitionen basierend auf Mengenlehre (Section 5), Unterscheidung zwischen Identifikation und Charakterisierung
Systematische Methodenklassifizierung: Zweidimensionale Klassifizierungsmatrix konstruiert nach Darstellungsmethode (Häufigkeit/Thema/Graph/Embedding) × Veränderungspol (D/R/O) (Table 3)
Empirische Demonstration: Validierung des Rahmens mit SEMCOR- und MASC-Datensätzen
Identifikation von Forschungslücken: Aufzeigung von Mangel an Forschung zum Relationspol (R) und gemeinsamer Charakterisierung mehrerer Pole

Methodische Details

Aufgabendefinition

Erkennung semantischer Veränderung (Identification)

Gegeben die Darstellung eines Wortes $w$ in zwei Korpora $t_1, t_2$ als $R(w, t_1), R(w, t_2)$ , bestimme, ob eine Veränderung auftritt: $f_C(R(w, t_1), R(w, t_2)) \rightarrow y$ wobei $y \in \{0,1\}$ (binäre Klassifizierung) oder $y \in \mathbb{R}$ (kontinuierliche Distanz)

Semantisches Universum: $S_T$ ist die Menge aller möglichen Wortbedeutungen
Bedeutungsfunktion: $S: V \times T \rightarrow \wp(S_t)$ , die ein Wort $w$ in Korpus $t$ auf eine Menge von Wortbedeutungen abbildet $S(w, t) = \{s_1, s_2, ..., s_k\}$

Bestimmung semantischer Veränderung

Ein Wort $w$ erfährt Veränderung zwischen $t_1, t_2$ dann und nur dann, wenn: