语言是动态演化的,通过新词(neologisms)或现有词的语义变化来反映社会文化变迁。理解词义对于解读不同文化、领域或时期的文本至关重要,也直接影响机器翻译、信息检索、问答系统等NLP应用的性能。虽然现有方法在语义变化检测上已取得良好精度,但如何表征(characterize)语义变化的类型仍缺乏系统研究。本综述首次全面梳理了语义变化表征的现有方法,形式化定义了三类变化:维度变化(词义变宽或变窄)、取向变化(词义变得更贬义或褒义)、关系变化(词义通过隐喻或转喻等修辞方式转变)。论文总结了主要研究成果,分析了当前局限,并指出未来研究方向。
语义变化(Lexical Semantic Change, LSC)是自然语言演化的核心现象。现有研究主要聚焦于检测(detection)语义变化是否发生,但对于如何变化(how it changed)的表征研究严重不足。例如:
本文是首个系统性综述语义变化表征的工作,旨在:
给定词在两个语料库的表示,判断是否发生变化: 其中(二分类)或(连续距离)
在检测基础上,进一步分类变化类型:
词在间发生变化当且仅当:
\text{True} & S(w, t_1) \neq S(w, t_2) \\ \text{False} & \text{otherwise} \end{cases}$$ #### 三极定义 **1. 维度变化(Dimension)** $$|S(w, t_1)| \neq |S(w, t_2)|$$ - Broadening: $|S(w, t_1)| < |S(w, t_2)|$(词义增加) - Narrowing: $|S(w, t_1)| > |S(w, t_2)|$(词义减少) **示例**: - "plane"在SEMCOR有5个词义(平面、飞机、刨子等),在MASC仅剩2个→窄化 **2. 取向变化(Orientation)** 定义情感函数$f: V \times T \rightarrow \{-1, 0, +1\}$,则: $$f(w, t_1) \neq f(w, t_2)$$ - Amelioration: $f(w, t_1) < f(w, t_2)$(褒义化) - Pejoration: $f(w, t_1) > f(w, t_2)$(贬义化) **实现**:加权求和SentiWordNet分数 $$f(w, t) = \frac{1}{N}\sum_{i=1}^{N} p(s_i) \cdot \text{positive}(s_i)$$ **示例**: - "heart"在SEMCOR的$f=0.15$,在MASC的$f=0.97$→褒义化 **3. 关系变化(Relation)** 定义关系相似度$l: S \times S \rightarrow \mathbb{R}$,总关系强度: $$R(w, t) = \sum_{i=1}^{N-1}\sum_{j=i+1}^{N} l(s_i, s_j), \quad s_i, s_j \in S(w, t)$$ - 增加:$R(w, t_1) < R(w, t_2)$(更多隐喻/转喻用法) **示例**: - "heart"从字面义"心脏"扩展到隐喻义"核心""勇气"→关系增强 ### 技术创新点 1. **集合论形式化**:首次用严格数学语言定义LSC表征,消除歧义 2. **极对称性**:三极自然成对(broadening/narrowing共享维度测量),简化计算框架 3. **可操作性**:定义可直接转化为算法(如词义计数、情感打分、关系图分析) 4. **Cambridge视角**:采用静态对比(两语料库对比)而非McTaggart动态追踪,适合计算方法 ## 实验设置 ### 数据集分类 #### 历时性语料库(Table 2) | 语料库 | 语言 | 时间跨度 | 规模 | 特点 | |--------|------|----------|------|------| | **COHA** | 英语 | 1810s-2000s | 4亿词 | 最常用,平衡多体裁 | | **Google N-Gram** | 多语言 | 1600-2009 | 3千亿词 | 最大规模,但噪声多 | | **DTA** | 德语 | 1741-1900 | 1022文本 | 高质量人工选择 | | **CLMET** | 英语 | 1710-1920 | 3400万词 | 文学作品为主 | #### 演示数据集 - **SEMCOR**(1993):20万词,WordNet词义标注 - **MASC**(2013):50万词,现代美国英语 - **标注来源**: - 词义:WordNet - 关系:ChainNet(隐喻/转喻链接) - 取向:SentiWordNet(正负分数) ### 评价维度 论文本身作为综述不提供统一评价指标,但分析了现有方法的评估方式: #### 维度极(D) - **指标**:词义数量变化、聚类密度、主题数量 - **数据源**:词典、词义诱导聚类、主题模型 #### 取向极(O) - **指标**:与种子词距离、VAD框架分数(Valence-Arousal-Dominance) - **挑战**:种子词稳定性假设、讽刺/否定处理 #### 关系极(R) - **指标**:熵增加(Schlechtweg 2017)、关系图边数 - **问题**:难以区分隐喻vs新同形异义词 ### 方法分类(Table 3核心) | 方法 | D | R | O | 表示方法 | |------|---|---|---|----------| | Biemann 2006 | ✓ | - | - | Graph | | Tang et al. 2013 | ✓ | ✓ | - | Frequency | | Hamilton et al. 2016a | - | - | ✓ | Graph (SentiProp) | | Inoue et al. 2022 | ✓ | - | - | Topics (InfiniteSCAN) | | Giulianelli et al. 2020 | ✓ | - | - | Embeddings (BERT) | | Fonteyn & Manjavacas 2021 | - | ✓ | ✓ | Embeddings | **关键发现**: - **无方法覆盖三极**:表征复杂性高 - **维度极研究最多**:18/23方法 - **关系极最薄弱**:仅3方法 - **嵌入方法主导**:近年趋势 ## 实验结果 ### 框架验证(Section 5.7) #### 案例1:"heart"的多极变化 **数据**(SEMCOR → MASC): ``` 词义分布变化: - heart.n.02(器官,字面):34.8% → 0% - heart.n.03(勇气,隐喻+):12.1% → 90.1% - heart.n.10(扑克花色,新增):0% → 2.8% ``` **计算结果**: 1. **维度**:$|S|: 5 \rightarrow 3$,窄化 2. **取向**:$f: 0.15 \rightarrow 0.97$,强烈褒义化 3. **关系**:隐喻用法主导(90.1%),关系增强 **解释**:字面义"心脏"消失,隐喻义"勇气/核心"成为原型义 #### 案例2:"plane"的窄化 **数据**: ``` SEMCOR: 5词义(飞机48.8%、平面37.2%、刨子4.7%等) MASC: 2词义(飞机90.9%、平面9.1%) ``` **计算结果**: 1. **维度**:$5 \rightarrow 2$,显著窄化 2. **取向**:正向词义(flat.s.01, +0.375)丢失→轻微贬义化 3. **关系**:$R: 1 \rightarrow 0$(plane.n.03与plane.n.02的转喻关系消失) ### 方法比较分析(Table 4) #### 频率方法 **优点**: - 简单可解释 - 适合检测新词(neologisms) - 数据需求小 **缺点**: - 无法区分词义(polysemy问题) - 难以捕捉语义相似性 - 对讽刺/否定敏感 **适用场景**:取向极的种子词共现统计 #### 主题模型 **优点**: - 无监督发现新词义 - 可视化主题演化 - InfiniteSCAN动态调整主题数 **缺点**: - 需人工解释主题 - 主题粒度难控制 - 关系极和取向极研究空白 **代表工作**: - SCAN (Frermann & Lapata 2016) - InfiniteSCAN (Inoue et al. 2022):自动检测词义数量变化 #### 图方法 **优点**: - 自然表示词关系 - 可视化词义演化树(Ehmüller et al. 2020) - 适合传播情感(SentiProp) **缺点**: - 依赖图构建质量 - 计算复杂度高 - 关系极严重欠探索 **代表工作**: - Chinese Whispers聚类(Biemann 2006) - Ego-network + PMI过滤(Ehmüller et al. 2020) #### 嵌入方法 **优点**: - 捕捉细微语义变化 - BERT等上下文嵌入提升性能 - 密度嵌入(word2gauss)建模多义性 **缺点**: - **Meaning Conflation Deficiency**:单向量无法区分细粒度词义 - 低频词不稳定 - 上下文嵌入过度上下文化→假阳性 **代表工作**: - Diachronic embeddings (Hamilton et al. 2016b) - Gaussian embeddings (Moss 2020, Yüksel et al. 2021) - XL-LEXEME (Cassotti et al. 2023):跨语言WSD预训练 ### 重要发现 1. **表征比检测难**:SemEval-2020显示上下文嵌入在LSC检测上未超越静态嵌入,表征更需专门设计 2. **数据瓶颈**:历史语料百万级 vs 现代LLM需万亿级→需少样本学习 3. **多语言缺失**:90%研究仅英语 4. **关系极空白**:仅3篇论文,无标准数据集 5. **评估困难**:缺少金标准,多数定性分析 ## 相关工作 ### 现有综述对比 | 综述 | 年份 | 焦点 | 本文差异 | |------|------|------|----------| | **Tang 2018** | 2018 | 四步框架(语料→词义→建模→验证) | 聚焦检测,表征仅简述 | | **Tahmasebi et al. 2018** | 2018 | 词级/义级区分,词汇替换 | 建议深入表征研究 | | **Kutuzov et al. 2018** | 2018 | 词表示模型和数据 | 指出分类方案验证不足 | | **Montanelli & Periti 2023** | 2023 | 上下文嵌入方法 | 呼吁研究"laws of semantic shift" | | **本文** | 2025 | **表征三极+形式化** | 首个系统性表征综述 | ### 理论基础 #### 语言学分类(Traugott 2017) - **Broadening/Narrowing**:词义范围变化 - **Amelioration/Pejoration**:情感价值变化 - **Metaphorization/Metonymization**:修辞机制变化 #### 计算视角分类 - **Cambridge视角**:静态对比两语料库(本文采用) - **McTaggart视角**:动态追踪演化过程(需史学知识) ### 词义表示演化 1. **早期**:频率+共现矩阵(Sagi et al. 2009) 2. **2010s**:主题模型(Lau et al. 2012)、图聚类(Biemann 2006) 3. **2016+**:静态嵌入(Hamilton et al. 2016b) 4. **2019+**:BERT等上下文嵌入(Giulianelli et al. 2020) 5. **未来**:LLM生成式方法(Cassotti et al. 2024) ## 结论与讨论 ### 主要结论 1. **表征研究严重不足**:检测vs表征论文比例约9:1 2. **三极不均衡**:维度极(D)研究充分,关系极(R)几乎空白 3. **方法碎片化**:缺乏统一框架和评估标准 4. **形式化必要性**:集合论定义可消除歧义,促进方法比较 5. **数据挑战**:历史语料规模限制深度学习应用 ### 局限性 #### 方法论局限 1. **简化假设**:词义客观主义(sense objectivism)忽略语境依赖性 2. **二分法局限**:broadening/narrowing无法描述词义intension(内涵)变化 3. **关系极定义模糊**:隐喻vs转喻vs新同形异义词难区分 #### 数据局限 1. **语料库偏差**: - COHA等平衡语料仍有体裁偏向 - Google N-Gram噪声大(OCR错误) 2. **标注延迟**:词典收录新义滞后5-10年 3. **多语言缺失**:非英语研究<10% #### 评估局限 1. **金标准缺失**:多数工作定性分析 2. **种子词稳定性**:取向极假设种子词不变(实际会变) 3. **阈值主观性**:二分类的变化阈值缺乏共识 ### 未来方向 #### 短期(1-2年) 1. **关系极突破**: - 构建隐喻/转喻标注数据集 - 利用知识图谱(Wikidata)建模概念关系 2. **多极联合建模**:单一模型同时表征D+R+O 3. **标准评估**:建立LSC表征的benchmark #### 中期(3-5年) 1. **LLM应用**: - Few-shot学习缓解数据稀缺 - 生成式方法合成历史语料(Cassotti et al. 2024) 2. **跨语言研究**: - 验证语义变化的普遍规律 - 利用多语言预训练模型 3. **因果分析**:从"如何变"到"为何变"(社会文化因素) #### 长期(5年+) 1. **语义变化定律**: - 哪类词易发生broadening? - 频率与变化速率的关系 2. **应用驱动**: - 历史文本机器翻译 - 动态知识图谱维护 - 文化演化建模 ## 深度评价 ### 优点 #### 学术贡献 1. **填补空白**:首个系统性表征综述,明确identification与characterization区别 2. **理论创新**: - 三极分类法整合语言学与计算视角 - 形式化框架(Section 5)可直接指导算法设计 3. **全面性**: - 时间跨度:2006-2024 - 方法覆盖:4类表示×3类变化=12维度分析 - 23篇核心论文深度解读 #### 方法论优势 1. **语义搜索**:使用Research Rabbit工具迭代扩展文献(11→151篇) 2. **实证验证**:SEMCOR/MASC案例展示框架可操作性 3. **可视化**:Figure 1分类树、Figure 11三维空间直观呈现 #### 写作质量 1. **结构清晰**:背景→方法→形式化→讨论逻辑严密 2. **术语统一**:明确定义LSC、D/R/O等核心概念 3. **表格信息量大**:Table 2-4浓缩大量信息 ### 不足 #### 理论层面 1. **词义客观性争议**: - 假设词义可离散枚举($S(w,t)=\{s_1,...,s_k\}$) - 忽略Wittgenstein的"家族相似性"和用法理论 - 回应:作者承认"pragmatic stance",但未充分讨论prototype theory 2. **关系极定义不足**: - 公式(6)的$l(s_i, s_j)$如何计算未明确 - 隐喻vs转喻区分依赖ChainNet等外部资源 3. **取向极简化**: - 仅考虑正负极性,忽略情感的多维性(除VAD外) - 种子词选择的循环论证问题 #### 实验层面 1. **验证不充分**: - Section 5.7仅2个词的案例,统计显著性不足 - SEMCOR/MASC时间跨度仅20年,不足以展示历时变化 - 未与人工标注对比验证 2. **方法比较缺失**: - Table 3仅分类,未量化比较精度 - 缺少不同表示方法在同一任务上的对比实验 3. **数据集局限**: - 依赖WordNet标注,但WordNet覆盖不全(如俚语、新词) - ChainNet/SentiWordNet的噪声未讨论 #### 覆盖范围 1. **LLM时代方法不足**: - 仅简单提及GPT/BERT在LSC的应用 - 未讨论prompt engineering、in-context learning等新范式 2. **多模态缺失**:图像-文本联合建模可辅助词义理解 3. **认知语言学视角薄弱**:未引入概念隐喻理论(Lakoff & Johnson)的计算模型 ### 影响力评估 #### 对领域的贡献(预期) 1. **范式转变**:推动LSC研究从检测向表征深化 2. **方法指导**:形式化框架可直接转化为算法(如Algorithm 1伪代码) 3. **数据集需求**:呼吁构建三极标注数据,可能催生新benchmark #### 实用价值 1. **历史NLP**:改进历史文本理解(如莎士比亚作品的词义消歧) 2. **知识工程**:指导Wikidata等时序知识图谱维护 3. **社会计算**:追踪社交媒体上的词义演化(如"woke"的政治化) #### 可复现性 - **高**:形式化定义明确,SEMCOR/MASC公开可得 - **中**:部分方法(如ChainNet)资源获取困难 - **低**:缺少代码仓库,需读者自行实现 ### 适用场景 #### 适合应用 1. **数字人文**:分析文学作品中关键词的语义演变 2. **词典编纂**:自动发现需更新的词条 3. **社会语言学**:研究社会运动中的话语变迁(如"feminism") 4. **低资源语言**:形式化框架可迁移到非英语语言 #### 不适合场景 1. **实时系统**:历时分析需大量历史数据,不适合在线应用 2. **细粒度WSD**:三极分类粒度较粗,无法处理微妙语义差异 3. **因果推断**:仅描述"如何变",无法解释"为何变" ## 参考文献(关键文献精选) ### 理论基础 1. **Traugott (2017)**: Semantic change - 语言学分类法权威来源 2. **Koch (2016)**: Meaning change and semantic shifts - 修辞机制详解 3. **Blank (2012)**: Prinzipien des lexikalischen Bedeutungswandels - 德语语义变化研究 ### 检测方法 4. **Hamilton et al. (2016b)**: Diachronic word embeddings reveal statistical laws - 静态嵌入里程碑 5. **Giulianelli et al. (2020)**: Analysing lexical semantic change with contextualised word representations - BERT应用 6. **Schlechtweg et al. (2020)**: SemEval-2020 Task 1 - 标准评测任务 ### 表征方法 7. **Inoue et al. (2022)**: Infinite SCAN - 主题模型动态检测词义数量 8. **Fonteyn & Manjavacas (2021)**: Adjusting scope - 多极联合分析案例 9. **Ehmüller et al. (2020)**: Sense tree discovery - 图方法可视化 ### 综述对比 10. **Tahmasebi et al. (2018)**: Survey of computational approaches to LSC - 最全面的检测综述 11. **Kutuzov et al. (2018)**: Diachronic word embeddings and semantic shifts - 词表示模型综述 --- ## 总结 本文是语义变化研究领域的**里程碑式综述**,首次系统化表征问题,提出的三极框架(D/R/O)和形式化定义为后续研究奠定了理论基础。其最大价值在于: 1. **明确研究方向**:指出关系极和多极联合建模的空白 2. **统一术语**:消除检测vs表征、broadening vs generalization等混淆 3. **可操作性**:集合论定义可直接转化为算法 然而,论文在实验验证、LLM时代方法整合、认知语言学深度方面仍有提升空间。建议未来工作: - 构建三极标注的大规模数据集(如标注1000词在COHA的D/R/O变化) - 开发端到端表征模型(如多任务学习同时预测三极) - 探索LLM的zero-shot表征能力(如用GPT-4判断词义是否隐喻化) 对于NLP研究者,本文是进入LSC领域的**必读文献**;对于应用开发者,其形式化框架提供了构建历史文本理解系统的**理论指南**。