2025-11-17T06:22:13.355563

Survey in Characterization of Semantic Change

de Sá, Da Silveira, Pruski
Live languages continuously evolve to integrate the cultural change of human societies. This evolution manifests through neologisms (new words) or \textbf{semantic changes} of words (new meaning to existing words). Understanding the meaning of words is vital for interpreting texts coming from different cultures (regionalism or slang), domains (e.g., technical terms), or periods. In computer science, these words are relevant to computational linguistics algorithms such as translation, information retrieval, question answering, etc. Semantic changes can potentially impact the quality of the outcomes of these algorithms. Therefore, it is important to understand and characterize these changes formally. The study of this impact is a recent problem that has attracted the attention of the computational linguistics community. Several approaches propose methods to detect semantic changes with good precision, but more effort is needed to characterize how the meaning of words changes and to reason about how to reduce the impact of semantic change. This survey provides an understandable overview of existing approaches to the \textit{characterization of semantic changes} and also formally defines three classes of characterizations: if the meaning of a word becomes more general or narrow (change in dimension) if the word is used in a more pejorative or positive/ameliorated sense (change in orientation), and if there is a trend to use the word in a, for instance, metaphoric or metonymic context (change in relation). We summarized the main aspects of the selected publications in a table and discussed the needs and trends in the research activities on semantic change characterization.
academic

Survey in Characterization of Semantic Change

基本信息

  • 论文ID: 2402.19088
  • 标题: Survey in Characterization of Semantic Change
  • 作者: Jader Martins Camboim de Sá, Marcos Da Silveira, Cédric Pruski (Luxembourg Institute of Science and Technology & University of Luxembourg)
  • 分类: cs.CL (Computational Linguistics), cs.AI
  • 发表时间: Preprint, November 17, 2025 (arXiv v4)
  • 论文链接: https://arxiv.org/abs/2402.19088

摘要

语言是动态演化的,通过新词(neologisms)或现有词的语义变化来反映社会文化变迁。理解词义对于解读不同文化、领域或时期的文本至关重要,也直接影响机器翻译、信息检索、问答系统等NLP应用的性能。虽然现有方法在语义变化检测上已取得良好精度,但如何表征(characterize)语义变化的类型仍缺乏系统研究。本综述首次全面梳理了语义变化表征的现有方法,形式化定义了三类变化:维度变化(词义变宽或变窄)、取向变化(词义变得更贬义或褒义)、关系变化(词义通过隐喻或转喻等修辞方式转变)。论文总结了主要研究成果,分析了当前局限,并指出未来研究方向。

研究背景与动机

1. 核心问题

语义变化(Lexical Semantic Change, LSC)是自然语言演化的核心现象。现有研究主要聚焦于检测(detection)语义变化是否发生,但对于如何变化(how it changed)的表征研究严重不足。例如:

  • "gay"从"快乐的"变为"同性恋的"(维度窄化 + 取向中性化)
  • "heart"从"心脏器官"扩展到"勇气""核心"等隐喻义(关系变化)
  • "awful"从"令人敬畏的"变为"糟糕的"(取向贬义化)

2. 重要性

  • 语言学价值:理解语言演化规律,揭示文化、社会、技术对语言的影响
  • NLP应用
    • 历史文本理解(如数字人文研究)
    • 知识图谱维护(如Wikidata的时序一致性)
    • 跨时代信息检索(如"cloud"在技术文献中的语义漂移)
    • 情感分析(如"sick"在俚语中的褒义化)

3. 现有方法的局限

  • 缺乏统一形式化框架:各研究使用不同术语和定义,难以比较
  • 评估标准不一致:缺少标准数据集和评价指标
  • 重检测轻表征:90%研究关注"是否变化",仅10%研究"如何变化"
  • 数据稀缺:历史语料库规模远小于现代NLP所需(百万级 vs 万亿级tokens)

4. 研究动机

本文是首个系统性综述语义变化表征的工作,旨在:

  1. 识别现有表示方法和分类方法的局限性
  2. 评估不同方法的优势
  3. 提供基于一阶逻辑的形式化定义
  4. 概念性演示LSC表征任务

核心贡献

  1. 首个表征导向的LSC综述:区别于现有综述(Tahmasebi et al. 2018, Kutuzov et al. 2018)聚焦检测,本文专注表征
  2. 三极分类法(Three-Pole Taxonomy)
    • 维度(Dimension):broadening/narrowing(词义数量变化)
    • 取向(Orientation):amelioration/pejoration(情感倾向变化)
    • 关系(Relation):metaphorization/metonymization(修辞关系变化)
  3. 形式化框架:基于集合论提供数学定义(Section 5),区分identification与characterization
  4. 系统性方法分类:按表示方法(频率/主题/图/嵌入)× 变化极(D/R/O)构建二维分类矩阵(Table 3)
  5. 实证演示:使用SEMCOR和MASC数据集验证框架可行性
  6. 研究空白识别:指出关系极(R)和多极联合表征的研究匮乏

方法详解

任务定义

语义变化检测(Identification)

给定词ww在两个语料库t1,t2t_1, t_2的表示R(w,t1),R(w,t2)R(w, t_1), R(w, t_2),判断是否发生变化: fC(R(w,t1),R(w,t2))yf_C(R(w, t_1), R(w, t_2)) \rightarrow y 其中y{0,1}y \in \{0,1\}(二分类)或yRy \in \mathbb{R}(连续距离)

语义变化表征(Characterization)★核心创新

在检测基础上,进一步分类变化类型: fx(R(w,t1),R(w,t2))y,x{D,R,O}f_x(R(w, t_1), R(w, t_2)) \rightarrow y, \quad x \in \{D, R, O\}

形式化框架(Section 5核心)

基础定义

  • 语义宇宙STS_T为所有可能词义的集合
  • 词义函数S:V×T(St)S: V \times T \rightarrow \wp(S_t),将词ww在语料tt中映射到词义集合 S(w,t)={s1,s2,...,sk}S(w, t) = \{s_1, s_2, ..., s_k\}

语义变化判定

wwt1,t2t_1, t_2间发生变化当且仅当:

\text{True} & S(w, t_1) \neq S(w, t_2) \\ \text{False} & \text{otherwise} \end{cases}$$ #### 三极定义 **1. 维度变化(Dimension)** $$|S(w, t_1)| \neq |S(w, t_2)|$$ - Broadening: $|S(w, t_1)| < |S(w, t_2)|$(词义增加) - Narrowing: $|S(w, t_1)| > |S(w, t_2)|$(词义减少) **示例**: - "plane"在SEMCOR有5个词义(平面、飞机、刨子等),在MASC仅剩2个→窄化 **2. 取向变化(Orientation)** 定义情感函数$f: V \times T \rightarrow \{-1, 0, +1\}$,则: $$f(w, t_1) \neq f(w, t_2)$$ - Amelioration: $f(w, t_1) < f(w, t_2)$(褒义化) - Pejoration: $f(w, t_1) > f(w, t_2)$(贬义化) **实现**:加权求和SentiWordNet分数 $$f(w, t) = \frac{1}{N}\sum_{i=1}^{N} p(s_i) \cdot \text{positive}(s_i)$$ **示例**: - "heart"在SEMCOR的$f=0.15$,在MASC的$f=0.97$→褒义化 **3. 关系变化(Relation)** 定义关系相似度$l: S \times S \rightarrow \mathbb{R}$,总关系强度: $$R(w, t) = \sum_{i=1}^{N-1}\sum_{j=i+1}^{N} l(s_i, s_j), \quad s_i, s_j \in S(w, t)$$ - 增加:$R(w, t_1) < R(w, t_2)$(更多隐喻/转喻用法) **示例**: - "heart"从字面义"心脏"扩展到隐喻义"核心""勇气"→关系增强 ### 技术创新点 1. **集合论形式化**:首次用严格数学语言定义LSC表征,消除歧义 2. **极对称性**:三极自然成对(broadening/narrowing共享维度测量),简化计算框架 3. **可操作性**:定义可直接转化为算法(如词义计数、情感打分、关系图分析) 4. **Cambridge视角**:采用静态对比(两语料库对比)而非McTaggart动态追踪,适合计算方法 ## 实验设置 ### 数据集分类 #### 历时性语料库(Table 2) | 语料库 | 语言 | 时间跨度 | 规模 | 特点 | |--------|------|----------|------|------| | **COHA** | 英语 | 1810s-2000s | 4亿词 | 最常用,平衡多体裁 | | **Google N-Gram** | 多语言 | 1600-2009 | 3千亿词 | 最大规模,但噪声多 | | **DTA** | 德语 | 1741-1900 | 1022文本 | 高质量人工选择 | | **CLMET** | 英语 | 1710-1920 | 3400万词 | 文学作品为主 | #### 演示数据集 - **SEMCOR**(1993):20万词,WordNet词义标注 - **MASC**(2013):50万词,现代美国英语 - **标注来源**: - 词义:WordNet - 关系:ChainNet(隐喻/转喻链接) - 取向:SentiWordNet(正负分数) ### 评价维度 论文本身作为综述不提供统一评价指标,但分析了现有方法的评估方式: #### 维度极(D) - **指标**:词义数量变化、聚类密度、主题数量 - **数据源**:词典、词义诱导聚类、主题模型 #### 取向极(O) - **指标**:与种子词距离、VAD框架分数(Valence-Arousal-Dominance) - **挑战**:种子词稳定性假设、讽刺/否定处理 #### 关系极(R) - **指标**:熵增加(Schlechtweg 2017)、关系图边数 - **问题**:难以区分隐喻vs新同形异义词 ### 方法分类(Table 3核心) | 方法 | D | R | O | 表示方法 | |------|---|---|---|----------| | Biemann 2006 | ✓ | - | - | Graph | | Tang et al. 2013 | ✓ | ✓ | - | Frequency | | Hamilton et al. 2016a | - | - | ✓ | Graph (SentiProp) | | Inoue et al. 2022 | ✓ | - | - | Topics (InfiniteSCAN) | | Giulianelli et al. 2020 | ✓ | - | - | Embeddings (BERT) | | Fonteyn & Manjavacas 2021 | - | ✓ | ✓ | Embeddings | **关键发现**: - **无方法覆盖三极**:表征复杂性高 - **维度极研究最多**:18/23方法 - **关系极最薄弱**:仅3方法 - **嵌入方法主导**:近年趋势 ## 实验结果 ### 框架验证(Section 5.7) #### 案例1:"heart"的多极变化 **数据**(SEMCOR → MASC): ``` 词义分布变化: - heart.n.02(器官,字面):34.8% → 0% - heart.n.03(勇气,隐喻+):12.1% → 90.1% - heart.n.10(扑克花色,新增):0% → 2.8% ``` **计算结果**: 1. **维度**:$|S|: 5 \rightarrow 3$,窄化 2. **取向**:$f: 0.15 \rightarrow 0.97$,强烈褒义化 3. **关系**:隐喻用法主导(90.1%),关系增强 **解释**:字面义"心脏"消失,隐喻义"勇气/核心"成为原型义 #### 案例2:"plane"的窄化 **数据**: ``` SEMCOR: 5词义(飞机48.8%、平面37.2%、刨子4.7%等) MASC: 2词义(飞机90.9%、平面9.1%) ``` **计算结果**: 1. **维度**:$5 \rightarrow 2$,显著窄化 2. **取向**:正向词义(flat.s.01, +0.375)丢失→轻微贬义化 3. **关系**:$R: 1 \rightarrow 0$(plane.n.03与plane.n.02的转喻关系消失) ### 方法比较分析(Table 4) #### 频率方法 **优点**: - 简单可解释 - 适合检测新词(neologisms) - 数据需求小 **缺点**: - 无法区分词义(polysemy问题) - 难以捕捉语义相似性 - 对讽刺/否定敏感 **适用场景**:取向极的种子词共现统计 #### 主题模型 **优点**: - 无监督发现新词义 - 可视化主题演化 - InfiniteSCAN动态调整主题数 **缺点**: - 需人工解释主题 - 主题粒度难控制 - 关系极和取向极研究空白 **代表工作**: - SCAN (Frermann & Lapata 2016) - InfiniteSCAN (Inoue et al. 2022):自动检测词义数量变化 #### 图方法 **优点**: - 自然表示词关系 - 可视化词义演化树(Ehmüller et al. 2020) - 适合传播情感(SentiProp) **缺点**: - 依赖图构建质量 - 计算复杂度高 - 关系极严重欠探索 **代表工作**: - Chinese Whispers聚类(Biemann 2006) - Ego-network + PMI过滤(Ehmüller et al. 2020) #### 嵌入方法 **优点**: - 捕捉细微语义变化 - BERT等上下文嵌入提升性能 - 密度嵌入(word2gauss)建模多义性 **缺点**: - **Meaning Conflation Deficiency**:单向量无法区分细粒度词义 - 低频词不稳定 - 上下文嵌入过度上下文化→假阳性 **代表工作**: - Diachronic embeddings (Hamilton et al. 2016b) - Gaussian embeddings (Moss 2020, Yüksel et al. 2021) - XL-LEXEME (Cassotti et al. 2023):跨语言WSD预训练 ### 重要发现 1. **表征比检测难**:SemEval-2020显示上下文嵌入在LSC检测上未超越静态嵌入,表征更需专门设计 2. **数据瓶颈**:历史语料百万级 vs 现代LLM需万亿级→需少样本学习 3. **多语言缺失**:90%研究仅英语 4. **关系极空白**:仅3篇论文,无标准数据集 5. **评估困难**:缺少金标准,多数定性分析 ## 相关工作 ### 现有综述对比 | 综述 | 年份 | 焦点 | 本文差异 | |------|------|------|----------| | **Tang 2018** | 2018 | 四步框架(语料→词义→建模→验证) | 聚焦检测,表征仅简述 | | **Tahmasebi et al. 2018** | 2018 | 词级/义级区分,词汇替换 | 建议深入表征研究 | | **Kutuzov et al. 2018** | 2018 | 词表示模型和数据 | 指出分类方案验证不足 | | **Montanelli & Periti 2023** | 2023 | 上下文嵌入方法 | 呼吁研究"laws of semantic shift" | | **本文** | 2025 | **表征三极+形式化** | 首个系统性表征综述 | ### 理论基础 #### 语言学分类(Traugott 2017) - **Broadening/Narrowing**:词义范围变化 - **Amelioration/Pejoration**:情感价值变化 - **Metaphorization/Metonymization**:修辞机制变化 #### 计算视角分类 - **Cambridge视角**:静态对比两语料库(本文采用) - **McTaggart视角**:动态追踪演化过程(需史学知识) ### 词义表示演化 1. **早期**:频率+共现矩阵(Sagi et al. 2009) 2. **2010s**:主题模型(Lau et al. 2012)、图聚类(Biemann 2006) 3. **2016+**:静态嵌入(Hamilton et al. 2016b) 4. **2019+**:BERT等上下文嵌入(Giulianelli et al. 2020) 5. **未来**:LLM生成式方法(Cassotti et al. 2024) ## 结论与讨论 ### 主要结论 1. **表征研究严重不足**:检测vs表征论文比例约9:1 2. **三极不均衡**:维度极(D)研究充分,关系极(R)几乎空白 3. **方法碎片化**:缺乏统一框架和评估标准 4. **形式化必要性**:集合论定义可消除歧义,促进方法比较 5. **数据挑战**:历史语料规模限制深度学习应用 ### 局限性 #### 方法论局限 1. **简化假设**:词义客观主义(sense objectivism)忽略语境依赖性 2. **二分法局限**:broadening/narrowing无法描述词义intension(内涵)变化 3. **关系极定义模糊**:隐喻vs转喻vs新同形异义词难区分 #### 数据局限 1. **语料库偏差**: - COHA等平衡语料仍有体裁偏向 - Google N-Gram噪声大(OCR错误) 2. **标注延迟**:词典收录新义滞后5-10年 3. **多语言缺失**:非英语研究<10% #### 评估局限 1. **金标准缺失**:多数工作定性分析 2. **种子词稳定性**:取向极假设种子词不变(实际会变) 3. **阈值主观性**:二分类的变化阈值缺乏共识 ### 未来方向 #### 短期(1-2年) 1. **关系极突破**: - 构建隐喻/转喻标注数据集 - 利用知识图谱(Wikidata)建模概念关系 2. **多极联合建模**:单一模型同时表征D+R+O 3. **标准评估**:建立LSC表征的benchmark #### 中期(3-5年) 1. **LLM应用**: - Few-shot学习缓解数据稀缺 - 生成式方法合成历史语料(Cassotti et al. 2024) 2. **跨语言研究**: - 验证语义变化的普遍规律 - 利用多语言预训练模型 3. **因果分析**:从"如何变"到"为何变"(社会文化因素) #### 长期(5年+) 1. **语义变化定律**: - 哪类词易发生broadening? - 频率与变化速率的关系 2. **应用驱动**: - 历史文本机器翻译 - 动态知识图谱维护 - 文化演化建模 ## 深度评价 ### 优点 #### 学术贡献 1. **填补空白**:首个系统性表征综述,明确identification与characterization区别 2. **理论创新**: - 三极分类法整合语言学与计算视角 - 形式化框架(Section 5)可直接指导算法设计 3. **全面性**: - 时间跨度:2006-2024 - 方法覆盖:4类表示×3类变化=12维度分析 - 23篇核心论文深度解读 #### 方法论优势 1. **语义搜索**:使用Research Rabbit工具迭代扩展文献(11→151篇) 2. **实证验证**:SEMCOR/MASC案例展示框架可操作性 3. **可视化**:Figure 1分类树、Figure 11三维空间直观呈现 #### 写作质量 1. **结构清晰**:背景→方法→形式化→讨论逻辑严密 2. **术语统一**:明确定义LSC、D/R/O等核心概念 3. **表格信息量大**:Table 2-4浓缩大量信息 ### 不足 #### 理论层面 1. **词义客观性争议**: - 假设词义可离散枚举($S(w,t)=\{s_1,...,s_k\}$) - 忽略Wittgenstein的"家族相似性"和用法理论 - 回应:作者承认"pragmatic stance",但未充分讨论prototype theory 2. **关系极定义不足**: - 公式(6)的$l(s_i, s_j)$如何计算未明确 - 隐喻vs转喻区分依赖ChainNet等外部资源 3. **取向极简化**: - 仅考虑正负极性,忽略情感的多维性(除VAD外) - 种子词选择的循环论证问题 #### 实验层面 1. **验证不充分**: - Section 5.7仅2个词的案例,统计显著性不足 - SEMCOR/MASC时间跨度仅20年,不足以展示历时变化 - 未与人工标注对比验证 2. **方法比较缺失**: - Table 3仅分类,未量化比较精度 - 缺少不同表示方法在同一任务上的对比实验 3. **数据集局限**: - 依赖WordNet标注,但WordNet覆盖不全(如俚语、新词) - ChainNet/SentiWordNet的噪声未讨论 #### 覆盖范围 1. **LLM时代方法不足**: - 仅简单提及GPT/BERT在LSC的应用 - 未讨论prompt engineering、in-context learning等新范式 2. **多模态缺失**:图像-文本联合建模可辅助词义理解 3. **认知语言学视角薄弱**:未引入概念隐喻理论(Lakoff & Johnson)的计算模型 ### 影响力评估 #### 对领域的贡献(预期) 1. **范式转变**:推动LSC研究从检测向表征深化 2. **方法指导**:形式化框架可直接转化为算法(如Algorithm 1伪代码) 3. **数据集需求**:呼吁构建三极标注数据,可能催生新benchmark #### 实用价值 1. **历史NLP**:改进历史文本理解(如莎士比亚作品的词义消歧) 2. **知识工程**:指导Wikidata等时序知识图谱维护 3. **社会计算**:追踪社交媒体上的词义演化(如"woke"的政治化) #### 可复现性 - **高**:形式化定义明确,SEMCOR/MASC公开可得 - **中**:部分方法(如ChainNet)资源获取困难 - **低**:缺少代码仓库,需读者自行实现 ### 适用场景 #### 适合应用 1. **数字人文**:分析文学作品中关键词的语义演变 2. **词典编纂**:自动发现需更新的词条 3. **社会语言学**:研究社会运动中的话语变迁(如"feminism") 4. **低资源语言**:形式化框架可迁移到非英语语言 #### 不适合场景 1. **实时系统**:历时分析需大量历史数据,不适合在线应用 2. **细粒度WSD**:三极分类粒度较粗,无法处理微妙语义差异 3. **因果推断**:仅描述"如何变",无法解释"为何变" ## 参考文献(关键文献精选) ### 理论基础 1. **Traugott (2017)**: Semantic change - 语言学分类法权威来源 2. **Koch (2016)**: Meaning change and semantic shifts - 修辞机制详解 3. **Blank (2012)**: Prinzipien des lexikalischen Bedeutungswandels - 德语语义变化研究 ### 检测方法 4. **Hamilton et al. (2016b)**: Diachronic word embeddings reveal statistical laws - 静态嵌入里程碑 5. **Giulianelli et al. (2020)**: Analysing lexical semantic change with contextualised word representations - BERT应用 6. **Schlechtweg et al. (2020)**: SemEval-2020 Task 1 - 标准评测任务 ### 表征方法 7. **Inoue et al. (2022)**: Infinite SCAN - 主题模型动态检测词义数量 8. **Fonteyn & Manjavacas (2021)**: Adjusting scope - 多极联合分析案例 9. **Ehmüller et al. (2020)**: Sense tree discovery - 图方法可视化 ### 综述对比 10. **Tahmasebi et al. (2018)**: Survey of computational approaches to LSC - 最全面的检测综述 11. **Kutuzov et al. (2018)**: Diachronic word embeddings and semantic shifts - 词表示模型综述 --- ## 总结 本文是语义变化研究领域的**里程碑式综述**,首次系统化表征问题,提出的三极框架(D/R/O)和形式化定义为后续研究奠定了理论基础。其最大价值在于: 1. **明确研究方向**:指出关系极和多极联合建模的空白 2. **统一术语**:消除检测vs表征、broadening vs generalization等混淆 3. **可操作性**:集合论定义可直接转化为算法 然而,论文在实验验证、LLM时代方法整合、认知语言学深度方面仍有提升空间。建议未来工作: - 构建三极标注的大规模数据集(如标注1000词在COHA的D/R/O变化) - 开发端到端表征模型(如多任务学习同时预测三极) - 探索LLM的zero-shot表征能力(如用GPT-4判断词义是否隐喻化) 对于NLP研究者,本文是进入LSC领域的**必读文献**;对于应用开发者,其形式化框架提供了构建历史文本理解系统的**理论指南**。