Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.
Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data
- 论文ID: 2510.09562
- 标题: Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data
- 作者: Pok Him Cheng (Columbia University), Joel E. Cohen (Rockefeller University & Columbia University), Hok Kan Ling (Queen's University), Sheung Chi Phillip Yam (Chinese University of Hong Kong)
- 分类: math.ST stat.TH
- 发表时间: October 13, 2025
- 论文链接: https://arxiv.org/abs/2510.09562
Taylor定律(也称为物理学中的波动标度律或统计学中的幂律方差函数)是在生态学、物理学、金融学和流行病学等领域广泛观察到的经验模式。它表明样本方差按样本均值的幂函数进行标度。本文研究了在具有无限均值和方差的重尾分布背景下Taylor定律的推广。我们建立了概率极限并分析了相关的收敛速度。我们的结果通过放松独立同分布假设来适应随机变量之间的依赖性和异质性,从而扩展了现有文献。这种推广使其能够应用于时间序列和网络结构数据等相关数据。我们通过大量仿真支持理论发展,并通过在真实网络数据上的应用证明了实际相关性。
- Taylor定律的经典形式:经典Taylor定律描述了样本方差与样本均值之间的幂律关系:VarX=aμXb,其中a>0和b是常数。
- 现有研究的局限性:
- 大多数研究集中在轻尾数据上,其中总体均值和方差存在
- 主要假设数据是独立同分布的
- 缺乏对依赖性和异质性数据的系统性理论
- 重尾分布的重要性:在金融、风险管理、网络分析等领域,重尾分布(尾指数α ∈ (0,1),具有无限均值和方差)广泛存在
- 现实数据的复杂性:实际数据往往表现出依赖性(如时间序列)和异质性(如网络数据)
- 理论空白:缺乏针对依赖和异质重尾数据的Taylor定律理论框架
- 理论框架扩展:将Taylor定律推广到具有无限均值和方差的重尾分布
- 依赖性处理:放松了独立同分布假设,建立了适用于弱依赖数据的条件
- 异质性建模:处理了不同分布的混合情况
- 网络数据应用:首次将Taylor定律应用于网络结构数据
- 收敛速度分析:提供了详细的收敛速度刻画
- 实证验证:通过三个真实网络数据集验证了理论结果
研究在重尾分布F(x)=x−αl(x)(其中α>0,l(⋅)为缓变函数)下的Taylor定律,特别是当α∈(0,1)时均值和方差无限的情况。
对于非负随机变量X1,…,Xn,具有共同生存函数Fˉ(x)=x−αl(x),定义:
- 第p阶样本矩:Mn,p:=n−1∑i=1nXip
- 第k阶样本中心矩:Mn,kc:=n−1∑i=1n(Xi−Mn,1)k
条件A(p):截断随机变量X˘i:=Xi1(Xi<vn)满足:
∑i=jCov(X˘ip,X˘jp)=o(vn2pcn2)
定理2.8(高阶矩的Taylor定律):
对于h1,h2>α,如果条件A(p)对p=h1和p=h2成立,则:
logMn,h2logMn,h1−ι(h1,h2)=Op(lognlogcn)+O(logn∣logl(tn)∣)
其中ι(h1,h2):=h2−αh1−α。
定理2.11(中心矩的Taylor定律):
对于α∈(0,1)和整数k>α:
logMn,1log∣Mn,kc∣−ι(k,1)=Op(lognlogcn)+O(logn∣logl(tn)∣)
使用Karamata定理建立截断重尾随机变量的矩,通过截断水平tn和vn的巧妙选择来近似无限矩的重尾随机变量。
证明了多种混合条件(强混合、φ-混合等)都满足条件A(p),并给出了AR(1)模型的具体应用。
对于混合分布情况,其中un个变量服从FU(x)=x−αl(x),n−un个变量服从更轻尾的分布FV,证明了Taylor定律仍然成立。
- Wikipedia Talk数据集:147,602个用户,记录用户间的讨论页编辑次数
- Epinions数据集:120,492个产品节点,记录每个产品收到的评论数
- DBpedia数据集:2,302个国家节点,记录与每个国家关联的实体数量
- Hill估计量:用于估计尾指数α
- Taylor定律斜率:log方差与log均值的回归斜率
- 拟合优度:调整R2和置信区间
- 负二项分布拟合
- Pareto分布拟合
- 广义Pareto分布拟合
三个数据集的Hill估计量和Taylor定律隐含的尾指数高度一致:
- Wikipedia Talk: Hill估计0.563,Taylor定律估计接近
- Epinions: Hill估计0.539,Taylor定律估计0.539
- DBpedia: Hill估计0.409,Taylor定律估计一致
所有数据集都表现出清晰的线性关系:
| 数据集 | 斜率 | 调整R2 | 95%置信区间 |
|---|
| Wikipedia Talk | 4.027 | 0.617 | (3.396, 4.658) |
| Epinions | 3.145 | 0.674 | (2.709, 3.580) |
| DBpedia | 2.767 | 0.904 | (2.587, 2.946) |
Pareto分布在中等值范围内比负二项分布更好地拟合数据,但在极端尾部存在偏差。广义Pareto分布提供了最佳的尾部拟合。
论文通过大量仿真验证了理论结果:
- 独立同分布情况:验证了Pareto、稳定分布等的Taylor定律
- AR(1)模型:证实了时间序列依赖性下的理论预测
- 异质性数据:混合分布情况下的仿真结果与理论一致
- 网络数据:随机图上的仿真支持网络应用
- Taylor (1961)首次提出
- Cohen等(2013, 2020, 2022)在重尾分布上的扩展
- Brown等(2017, 2021)对α-稳定分布的研究
- de la Peña等(2022)研究轻尾依赖数据的动态Taylor定律
- 本文首次系统处理重尾依赖数据
本文是首次将Taylor定律应用于网络数据的研究。
- 理论扩展成功:成功将Taylor定律推广到依赖和异质的重尾数据
- 实用性验证:真实网络数据验证了理论的实用价值
- 收敛速度明确:提供了详细的收敛速度分析
- 条件A(p)的验证:在实际应用中验证条件A(p)可能困难
- 缓变函数的复杂性:不同缓变函数的收敛速度差异较大
- 有限样本表现:理论是渐近的,有限样本下可能有偏差
- α ∈ (1,2)情况:扩展到具有有限均值但无限方差的情况
- 更复杂网络结构:研究更一般的网络依赖结构
- 应用领域扩展:探索在其他领域的应用
- 理论严谨性:数学推导严密,证明完整
- 创新性显著:首次系统处理依赖和异质重尾数据的Taylor定律
- 实证充分:仿真和真实数据验证全面
- 应用价值高:网络数据应用具有重要实际意义
- 技术复杂性:截断技术和条件A(p)的实际应用可能困难
- 假设限制:缓变函数的假设在实际中需要验证
- 计算复杂度:某些理论结果的计算实现可能复杂
- 理论贡献重大:为重尾依赖数据的Taylor定律奠定了理论基础
- 应用前景广阔:网络分析、金融风险等领域有重要应用价值
- 方法论意义:截断技术和混合条件处理为相关研究提供了范式
- 网络分析:社交网络、引用网络等度分布分析
- 金融风险:极端事件的尾部风险建模
- 生态学研究:物种分布的空间依赖性分析
- 流行病学:疫情传播的网络效应研究
论文引用了99篇相关文献,主要包括:
- Taylor定律的经典文献:Taylor (1961), Cohen等系列工作
- 重尾分布理论:Bingham等(1987), Embrechts等(2013)
- 混合过程理论:Bradley (2005), Andrews (1983)
- 网络数据来源:Stanford SNAP项目等
总体评价:这是一篇高质量的理论统计学论文,在Taylor定律的推广方面做出了重要贡献。论文理论严谨,实证充分,特别是在网络数据应用方面具有开创性意义。尽管技术复杂度较高,但为相关领域的研究提供了重要的理论基础和方法工具。