2025-11-17T03:07:13.875020

Simple stochastic processes behind Menzerath's Law

Milička
This paper revisits Menzerath's Law, also known as the Menzerath-Altmann Law, which models a relationship between the length of a linguistic construct and the average length of its constituents. Recent findings indicate that simple stochastic processes can display Menzerathian behaviour, though existing models fail to accurately reflect real-world data. If we adopt the basic principle that a word can change its length in both syllables and phonemes, where the correlation between these variables is not perfect and these changes are of a multiplicative nature, we get bivariate log-normal distribution. The present paper shows, that from this very simple principle, we obtain the classic Altmann model of the Menzerath-Altmann Law. If we model the joint distribution separately and independently from the marginal distributions, we can obtain an even more accurate model by using a Gaussian copula. The models are confronted with empirical data, and alternative approaches are discussed.
academic

Simple stochastic processes behind Menzerath's Law

基本信息

  • 论文ID: 2409.00279
  • 标题: Simple stochastic processes behind Menzerath's Law
  • 作者: Jiří Milička (Charles University, Prague, Czech Republic)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间/会议: QUALICO 2023, Lausanne
  • 论文链接: https://arxiv.org/abs/2409.00279

摘要

本文重新审视了Menzerath定律(也称Menzerath-Altmann定律),该定律描述了语言构造长度与其组成成分平均长度之间的关系。最新研究表明,简单的随机过程可以表现出Menzerath行为,但现有模型无法准确反映真实世界的数据。如果采用词汇可以在音节和音素两个维度上改变长度的基本原理,其中这些变量之间的相关性不完美且变化具有乘性性质,我们可以得到二元对数正态分布。本文表明,从这个非常简单的原理出发,我们可以获得经典的Altmann模型。如果将联合分布与边际分布分别独立建模,可以使用高斯copula获得更准确的模型。

研究背景与动机

  1. 要解决的问题:Menzerath定律是语言学中的一个重要定律,描述了语言构造(如词汇)的长度与其组成成分平均长度之间的反比关系。虽然该定律在经验上得到了广泛验证,但缺乏令人满意的理论解释和随机过程基础。
  2. 问题的重要性:Menzerath定律因其普遍性和将不同分割层次整合到统一框架中的能力而在定量语言学界备受关注。理解其背后的随机过程对于语言演化理论和定量语言学具有重要意义。
  3. 现有方法的局限性
    • Torre等人(2021)的研究显示简单随机过程可以表现出Menzerath行为,但模型与真实数据不符
    • 经典的Altmann模型(1980)缺乏随机过程推导和参数解释
    • 现有模型主要关注文本产生过程,而忽略了词汇长度在语言演化中的决定机制
  4. 研究动机:作者认为应该从语言演化的角度而非文本产生的角度来理解Menzerath定律,并提出通过联合分布建模来解释该定律的随机过程基础。

核心贡献

  1. 理论贡献:从二元对数正态分布推导出经典Altmann模型,提供了参数的明确解释
  2. 方法创新:提出使用高斯copula分别建模联合分布和边际分布,获得更准确的模型
  3. 实证验证:在多个数据集上验证了所提出模型的有效性,包括不同语言和语言层次
  4. 理论洞察:解释了Menzerath定律中参数b为负值(增长趋势)的现象

方法详解

任务定义

研究语言构造长度(如词汇的音节数x)与其组成成分长度(如音素数y)之间的联合分布,并从中推导出Menzerath定律的形式。

模型架构

1. 二元对数正态分布模型

基本原理:假设词汇长度变化具有乘性性质,即长词比短词更容易发生长度变化。

数学推导

  • 从对数变换的线性回归开始:
log z = α + β log x

其中 z = xy

  • 参数解释:
β = ρ_log x,log z × (s_log z / s_log x)
α = log z̅ - β log x̅
  • 推导出经典Altmann模型:
y = ax^(-b)

其中:

b = 1 - β = 1 - ρ_log x,log xy × (s_log xy / s_log x)
a = log xy̅ - (1-b) log x̅

2. 高斯Copula模型

设计思路:将联合分布与边际分布解耦,专注于变量间的相关性建模。

实现方法

  • 使用copula函数连接边际分布
  • 只需要边际分布和相关系数即可拟合
  • 能够处理增长和下降趋势

3. 分段边界模型

动机:处理联合分布中的空白区域(如3音节2音素的词不可能存在)

变换公式

x' = x - 1  (音节边界数)
y' = y - x  (非音节的音素边界数)

技术创新点

  1. 乘性过程假设:不同于传统的加性模型,提出词汇长度变化遵循乘性规律
  2. 联合分布视角:从联合分布而非条件期望的角度理解Menzerath定律
  3. 参数可解释性:为经典Altmann模型的参数提供了明确的统计学解释
  4. 模型灵活性:能够处理正负趋势,解决了传统模型的局限性

实验设置

数据集

  1. Menzerath原始数据(1954):德语词汇的音节-音素关系
  2. 希腊语数据(Mikros & Milička 2014):音素-音节-词汇层次
  3. 捷克语数据(Milička 2015):
    • 音素-词素-词汇层次
    • 词素-词汇-从句层次
    • 词汇-从句-句子层次
  4. 阿拉伯语数据(Milička 2015):
    • 音素-词素-词汇层次
    • 词素-词汇-从句层次

评价指标

  • 残差平方和(RSS):用于比较等长度数据集的拟合效果
  • 视觉拟合度:通过图形比较模型与经验数据的匹配程度

对比方法

  • 经典Altmann模型:y = ax^(-b)
  • 双曲模型:y = a/x + b
  • 二元正态分布模型

实验结果

主要结果

  1. 二元对数正态分布
    • 成功推导出经典Altmann模型的形式
    • 提供了参数的统计学解释
    • 视觉上与经验数据拟合良好
  2. 高斯Copula模型
    • 在多个数据集上表现优异
    • 能够处理增长和下降趋势
    • RSS指标显示拟合效果良好
  3. 跨语言验证
    • 在德语、希腊语、捷克语、阿拉伯语上均有效
    • 在不同语言层次(音素、音节、词素、词汇、从句、句子)上适用

重要发现

  1. 负参数解释:当β > 1时,参数b为负值,导致增长趋势,这在经验数据中确实存在
  2. 分段边界方法局限:虽然理论上更清洁,但实际效果不如原始分段方法
  3. 对数变换效果:在copula上应用对数变换并未带来改善

案例分析

论文展示了8个不同数据集的拟合结果,包括:

  • 完整联合分布的可视化
  • Menzerath定律曲线对比
  • 与经典模型的RSS比较

相关工作

主要研究脉络

  1. Menzerath(1954):最初提出定律,测量了联合分布
  2. Altmann(1980):形式化定律并提出经典公式
  3. Torre等(2021):证明简单随机过程可表现Menzerath行为
  4. Milička(2023):提出回归均值解释

本文相对优势

  1. 提供了经典模型的随机过程基础
  2. 参数具有明确的统计学意义
  3. 模型更加灵活,能处理多种趋势
  4. 在多个数据集上得到验证

结论与讨论

主要结论

  1. 二元对数正态分布代表了语言学上合理的随机原理,能够建模构造在组成成分和子组成成分上的长度
  2. 高斯Copula是建模联合分布的有效工具,当专注于联合分布时表现优异
  3. 联合分布建模应该优先于均值建模,提供更多信息
  4. 在实际应用中,应考虑使用边际分布的稳健模型参数和相关系数

局限性

  1. 层次特异性:不同语言层次可能需要不同的随机过程模型
  2. 时间尺度问题:词汇层次的过程发生在语言演化过程中,而从句/句子层次可能发生在交流过程中
  3. 模型选择:虽然提供了多种方法,但缺乏明确的选择标准
  4. 经验验证有限:主要基于视觉拟合和RSS,缺乏更严格的统计检验

未来方向

  1. 统一理论:寻找能够涵盖所有语言层次的合理随机过程
  2. 其他Copula:探索Gumbel或Clayton copula,但需要语言学解释
  3. 泊松分布:探索二元泊松分布的应用
  4. 实际应用:将模型应用于文体学或文本分析

深度评价

优点

  1. 理论贡献显著:首次为经典Altmann模型提供了严格的随机过程推导
  2. 方法创新性强:copula方法在语言学中的应用具有开创性
  3. 实证验证充分:在多语言、多层次数据上验证了模型有效性
  4. 参数可解释性:解决了长期存在的参数意义问题
  5. 写作清晰:数学推导严谨,逻辑清晰

不足

  1. 统计检验不足:主要依赖视觉判断和RSS,缺乏正式的统计显著性检验
  2. 模型比较有限:未与更多先进的统计模型进行比较
  3. 理论验证不够:乘性过程假设缺乏直接的语言学证据
  4. 实用性评估:未充分讨论模型在实际应用中的优势

影响力

  1. 理论价值高:为定量语言学的重要定律提供了理论基础
  2. 方法论贡献:引入了新的统计建模方法
  3. 跨学科意义:连接了统计学与语言学
  4. 可复现性好:方法描述详细,易于复现

适用场景

  1. 定量语言学研究:为语言结构分析提供新工具
  2. 语言演化研究:理解语言变化的随机机制
  3. 文本分析:可用于文体学和作者识别
  4. 跨语言比较:提供标准化的分析框架

参考文献

关键参考文献包括:

  1. Altmann, G. (1980). Prolegomena to Menzerath's law
  2. Menzerath, P. (1954). Die Architektonik des deutschen Wortschatzes
  3. Torre, I. G., et al. (2021). Can Menzerath's law be a criterion of complexity in communication?
  4. Milička, J. (2023). Menzerath's law: Is it just regression toward the mean?

本文为Menzerath定律研究做出了重要的理论贡献,通过随机过程建模为经典定律提供了新的理解视角,具有较高的学术价值和实用意义。