2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de Sá, Da Silveira, Pruski
Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
academic

Encuesta sobre la Caracterización del Cambio Semántico

Información Básica

  • ID del Artículo: 2402.19088
  • Título: Survey in Characterization of Semantic Change
  • Autores: Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (Luxembourg Institute of Science and Technology & University of Luxembourg)
  • Clasificación: cs.CL (Lingüística Computacional), cs.AI
  • Fecha de Publicación: Preprint, 17 de noviembre de 2025 (arXiv v4)
  • Enlace del Artículo: https://arxiv.org/abs/2402.19088

Resumen

El lenguaje es dinámicamente evolutivo, reflejando cambios socioculturales a través de neologismos o cambios semánticos en palabras existentes. Comprender el significado de las palabras es esencial para interpretar textos de diferentes culturas, dominios o períodos, e impacta directamente el desempeño de aplicaciones de PLN como traducción automática, recuperación de información y sistemas de preguntas y respuestas. Aunque los métodos existentes han logrado buena precisión en la detección de cambios semánticos, aún falta investigación sistemática sobre cómo caracterizar los tipos de cambios semánticos. Esta encuesta es la primera en compilar exhaustivamente los métodos existentes para caracterizar cambios semánticos, proporcionando definiciones formalizadas de tres categorías de cambios: cambios dimensionales (ampliación o estrechamiento del significado de palabras), cambios de orientación (significados que se vuelven más peyorativos o meliorativos), cambios relacionales (cambios de significado a través de mecanismos retóricos como metáfora o metonimia). El artículo resume los principales resultados de investigación, analiza las limitaciones actuales e indica direcciones futuras de investigación.

Antecedentes de Investigación y Motivación

1. Problema Central

El cambio semántico léxico (Lexical Semantic Change, LSC) es un fenómeno central en la evolución del lenguaje natural. La investigación existente se ha enfocado principalmente en detectar si ocurre un cambio semántico, pero hay una grave deficiencia en la investigación sobre cómo caracterizar el cambio. Por ejemplo:

  • "gay" cambió de "alegre" a "homosexual" (estrechamiento dimensional + neutralización de orientación)
  • "heart" se expandió de "órgano cardíaco" a significados metafóricos como "coraje" y "núcleo" (cambio relacional)
  • "awful" cambió de "inspirador de asombro" a "terrible" (peyoración de orientación)

2. Importancia

  • Valor Lingüístico: Comprender las leyes de evolución del lenguaje, revelando el impacto de la cultura, sociedad y tecnología en el lenguaje
  • Aplicaciones de PLN:
    • Comprensión de textos históricos (como investigación en humanidades digitales)
    • Mantenimiento de gráficos de conocimiento (como consistencia temporal en Wikidata)
    • Recuperación de información entre períodos (como cambio semántico de "cloud" en literatura técnica)
    • Análisis de sentimientos (como la amelioración de "sick" en jerga)

3. Limitaciones de Métodos Existentes

  • Falta de Marco Formalizado Unificado: Diferentes investigaciones utilizan terminología y definiciones distintas, dificultando la comparación
  • Estándares de Evaluación Inconsistentes: Falta de conjuntos de datos estándar e indicadores de evaluación
  • Énfasis en Detección sobre Caracterización: El 90% de la investigación se enfoca en "si ocurre cambio", solo el 10% en "cómo cambia"
  • Escasez de Datos: Los corpus históricos son mucho más pequeños que los requeridos por el PLN moderno (nivel de millones vs. billones de tokens)

4. Motivación de la Investigación

Este artículo es el primer trabajo de encuesta sistemática sobre caracterización de cambios semánticos, con el objetivo de:

  1. Identificar limitaciones en métodos de representación y clasificación existentes
  2. Evaluar ventajas de diferentes métodos
  3. Proporcionar definiciones formalizadas basadas en lógica de primer orden
  4. Demostración conceptual de la tarea de caracterización de LSC

Contribuciones Principales

  1. Primera Encuesta Orientada a Caracterización de LSC: A diferencia de encuestas existentes (Tahmasebi et al. 2018, Kutuzov et al. 2018) enfocadas en detección, este artículo se enfoca en caracterización
  2. Taxonomía de Tres Polos:
    • Dimensión (Dimension): ampliación/estrechamiento (cambios en cantidad de significados)
    • Orientación (Orientation): amelioración/peyoración (cambios en tendencia afectiva)
    • Relación (Relation): metaforización/metonimización (cambios en relaciones retóricas)
  3. Marco Formalizado: Proporciona definiciones matemáticas basadas en teoría de conjuntos (Sección 5), distinguiendo entre identificación y caracterización
  4. Clasificación Sistemática de Métodos: Construye una matriz de clasificación bidimensional (Tabla 3) según método de representación (frecuencia/tema/grafo/incrustación) × polo de cambio (D/R/O)
  5. Demostración Empírica: Utiliza conjuntos de datos SEMCOR y MASC para verificar la viabilidad del marco
  6. Identificación de Vacíos de Investigación: Señala la escasez de investigación en el polo relacional (R) y caracterización conjunta de múltiples polos

Detalles de Métodos

Definición de Tareas

Identificación de Cambio Semántico (Detección)

Dado una palabra ww en dos corpus t1,t2t_1, t_2 con representaciones R(w,t1),R(w,t2)R(w, t_1), R(w, t_2), determinar si ocurre cambio: fC(R(w,t1),R(w,t2))yf_C(R(w, t_1), R(w, t_2)) \rightarrow y donde y{0,1}y \in \{0,1\} (clasificación binaria) o yRy \in \mathbb{R} (distancia continua)

Caracterización de Cambio Semántico ★Innovación Principal

Basándose en detección, clasificar además el tipo de cambio: fx(R(w,t1),R(w,t2))y,x{D,R,O}f_x(R(w, t_1), R(w, t_2)) \rightarrow y, \quad x \in \{D, R, O\}

Marco Formalizado (Núcleo de Sección 5)

Definiciones Básicas

  • Universo Semántico: STS_T es el conjunto de todos los significados posibles de palabras
  • Función de Significado: S:V×T(St)S: V \times T \rightarrow \wp(S_t), mapea palabra ww en corpus tt a conjunto de significados S(w,t)={s1,s2,...,sk}S(w, t) = \{s_1, s_2, ..., s_k\}

Determinación de Cambio Semántico

Una palabra ww experimenta cambio entre t1,t2t_1, t_2 si y solo si:

undefined