2025-11-10T02:53:44.549352

Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data

Cheng, Cohen, Ling et al.

Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.

academic

Ley de Taylor Generalizada para Datos Dependientes y Heterogéneos con Colas Pesadas

Información Básica

ID del Artículo: 2510.09562
Título: Ley de Taylor Generalizada para Datos Dependientes y Heterogéneos con Colas Pesadas
Autores: Pok Him Cheng (Universidad de Columbia), Joel E. Cohen (Universidad Rockefeller y Universidad de Columbia), Hok Kan Ling (Universidad Queen's), Sheung Chi Phillip Yam (Universidad China de Hong Kong)
Clasificación: math.ST stat.TH
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09562

Resumen

La Ley de Taylor (también conocida como ley de escala de fluctuaciones en física o función de varianza de ley de potencias en estadística) es un patrón empírico ampliamente observado en campos como ecología, física, finanzas y epidemiología. Establece que la varianza muestral se escala como una función de potencia de la media muestral. Este artículo investiga la generalización de la Ley de Taylor en el contexto de distribuciones con colas pesadas que tienen media y varianza infinitas. Establecemos límites de probabilidad y analizamos las velocidades de convergencia asociadas. Nuestros resultados extienden la literatura existente al relajar el supuesto de independencia e identidad de distribución, acomodando la dependencia y heterogeneidad entre variables aleatorias. Esta generalización permite su aplicación a datos correlacionados como series temporales y datos con estructura de red. Apoyamos el desarrollo teórico mediante extensas simulaciones y demostramos la relevancia práctica mediante aplicaciones en datos de redes reales.

Contexto de Investigación y Motivación

Antecedentes del Problema

Forma Clásica de la Ley de Taylor: La Ley de Taylor clásica describe la relación de ley de potencias entre la varianza muestral y la media muestral: $\text{Var}X = a\mu_X^b$ , donde $a > 0$ y $b$ son constantes.
Limitaciones de la Investigación Existente:
- La mayoría de estudios se concentran en datos con colas ligeras, donde existen la media y varianza poblacionales
- Los supuestos principales asumen que los datos son independientes e idénticamente distribuidos
- Falta un marco teórico sistemático para datos dependientes y heterogéneos

Motivación de la Investigación

Importancia de Distribuciones con Colas Pesadas: En campos como finanzas, gestión de riesgos y análisis de redes, las distribuciones con colas pesadas (índice de cola α ∈ (0,1), con media y varianza infinitas) son ampliamente prevalentes
Complejidad de Datos Reales: Los datos reales frecuentemente exhiben dependencia (como en series temporales) y heterogeneidad (como en datos de redes)
Vacío Teórico: Falta un marco teórico de la Ley de Taylor para datos con colas pesadas dependientes y heterogéneos

Contribuciones Principales

Extensión del Marco Teórico: Generalización de la Ley de Taylor a distribuciones con colas pesadas con media y varianza infinitas
Tratamiento de Dependencia: Relajación del supuesto de independencia e identidad de distribución, estableciendo condiciones aplicables a datos débilmente dependientes
Modelado de Heterogeneidad: Tratamiento de casos de mezcla de distribuciones diferentes
Aplicación a Datos de Red: Primera aplicación de la Ley de Taylor a datos con estructura de red
Análisis de Velocidad de Convergencia: Caracterización detallada de velocidades de convergencia
Verificación Empírica: Validación de resultados teóricos mediante tres conjuntos de datos de redes reales

Explicación Detallada de Métodos

Definición de la Tarea

Investigación de la Ley de Taylor bajo distribuciones con colas pesadas $F(x) = x^{-\alpha}l(x)$ (donde $\alpha > 0$ , $l(·)$ es una función de variación lenta), particularmente cuando $\alpha \in (0,1)$ y la media y varianza son infinitas.

Marco Teórico

1. Configuración Básica

Para variables aleatorias no negativas $X_1, \ldots, X_n$ con función de supervivencia común $\bar{F}(x) = x^{-\alpha}l(x)$ , se definen:

Momento muestral de orden $p$ : $M_{n,p} := n^{-1}\sum_{i=1}^n X_i^p$
Momento muestral central de orden $k$ : $M_{n,k}^c := n^{-1}\sum_{i=1}^n (X_i - M_{n,1})^k$

2. Condiciones de Dependencia Débil

Condición A(p): Las variables aleatorias truncadas $\breve{X}_i := X_i\mathbf{1}(X_i < v_n)$ satisfacen: $\sum_{i \neq j} \text{Cov}(\breve{X}_i^p, \breve{X}_j^p) = o(v_n^{2p}c_n^2)$

3. Resultados Teóricos Principales

Teorema 2.8 (Ley de Taylor para Momentos de Orden Superior): Para $h_1, h_2 > \alpha$ , si la Condición A(p) se cumple para $p = h_1$ y $p = h_2$ , entonces: $\frac{\log M_{n,h_1}}{\log M_{n,h_2}} - \iota(h_1, h_2) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right)$ donde $\iota(h_1, h_2) := \frac{h_1 - \alpha}{h_2 - \alpha}$ .

Teorema 2.11 (Ley de Taylor para Momentos Centrales): Para $\alpha \in (0,1)$ y entero $k > \alpha$ : $\frac{\log |M_{n,k}^c|}{\log M_{n,1}} - \iota(k,1) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right)$

Puntos de Innovación Técnica

1. Técnica de Truncamiento

Uso del teorema de Karamata para establecer momentos de variables aleatorias con colas pesadas truncadas, mediante la selección ingeniosa de niveles de truncamiento $t_n$ y $v_n$ para aproximar variables aleatorias con colas pesadas de momentos infinitos.

2. Condiciones de Mezcla

Demostración de que múltiples condiciones de mezcla (mezcla fuerte, φ-mezcla, etc.) satisfacen la Condición A(p), con aplicaciones específicas a modelos AR(1).

3. Tratamiento de Heterogeneidad

Para casos de distribuciones mixtas donde $u_n$ variables siguen $F^U(x) = x^{-\alpha}l(x)$ y $n-u_n$ variables siguen una distribución más ligera $F^V$ , se demuestra que la Ley de Taylor aún se cumple.

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos Wikipedia Talk: 147,602 usuarios, registrando el número de ediciones de páginas de discusión entre usuarios
Conjunto de Datos Epinions: 120,492 nodos de productos, registrando el número de reseñas recibidas por cada producto
Conjunto de Datos DBpedia: 2,302 nodos de países, registrando el número de entidades asociadas con cada país

Métricas de Evaluación

Estimador de Hill: Utilizado para estimar el índice de cola α
Pendiente de la Ley de Taylor: Pendiente de regresión entre log varianza y log media
Bondad de Ajuste: $R^2$ ajustado e intervalos de confianza

Métodos de Comparación

Ajuste de distribución binomial negativa
Ajuste de distribución de Pareto
Ajuste de distribución de Pareto generalizada

Resultados Experimentales

Resultados Principales

1. Consistencia de Estimación del Índice de Cola

Los estimadores de Hill y los índices de cola implícitos en la Ley de Taylor son altamente consistentes en los tres conjuntos de datos:

Wikipedia Talk: Estimación de Hill 0.563, estimación de Ley de Taylor cercana
Epinions: Estimación de Hill 0.539, estimación de Ley de Taylor 0.539
DBpedia: Estimación de Hill 0.409, estimación de Ley de Taylor consistente

2. Verificación de la Ley de Taylor

Todos los conjuntos de datos muestran una relación lineal clara:

Conjunto de Datos	Pendiente	$R^2$ Ajustado	Intervalo de Confianza 95%
Wikipedia Talk	4.027	0.617	(3.396, 4.658)
Epinions	3.145	0.674	(2.709, 3.580)
DBpedia	2.767	0.904	(2.587, 2.946)

3. Comparación de Ajuste de Distribuciones

La distribución de Pareto ajusta mejor los datos en el rango de valores medios que la distribución binomial negativa, pero presenta desviaciones en la cola extrema. La distribución de Pareto generalizada proporciona el mejor ajuste de la cola.

Verificación por Simulación

El artículo verifica los resultados teóricos mediante extensas simulaciones:

Caso Independiente e Idénticamente Distribuido: Verificación de la Ley de Taylor para distribuciones de Pareto, distribuciones estables, etc.
Modelo AR(1): Confirmación de predicciones teóricas bajo dependencia de series temporales
Datos Heterogéneos: Resultados de simulación bajo distribuciones mixtas consistentes con la teoría
Datos de Red: Simulaciones en gráficos aleatorios apoyan aplicaciones de red

Trabajo Relacionado

Ley de Taylor Clásica

Taylor (1961) propuso por primera vez
Extensiones de Cohen et al. (2013, 2020, 2022) en distribuciones con colas pesadas
Investigación de Brown et al. (2017, 2021) sobre distribuciones α-estables

Datos Dependientes

de la Peña et al. (2022) investigaron la Ley de Taylor dinámica para datos dependientes con colas ligeras
Este artículo es el primero en tratar sistemáticamente datos dependientes con colas pesadas

Aplicación a Datos de Red

Este artículo es el primero en aplicar la Ley de Taylor a datos de red.

Conclusiones y Discusión

Conclusiones Principales

Extensión Teórica Exitosa: Generalización exitosa de la Ley de Taylor a datos dependientes y heterogéneos con colas pesadas
Verificación de Practicidad: Validación mediante datos de redes reales del valor práctico de la teoría
Análisis de Velocidad de Convergencia Explícito: Análisis detallado de velocidades de convergencia proporcionado

Limitaciones

Verificación de la Condición A(p): La verificación de la Condición A(p) en aplicaciones prácticas puede ser difícil
Complejidad de Funciones de Variación Lenta: Las velocidades de convergencia varían considerablemente con diferentes funciones de variación lenta
Desempeño en Muestras Finitas: La teoría es asintótica, puede haber sesgos en muestras finitas

Direcciones Futuras

Caso α ∈ (1,2): Extensión a casos con media finita pero varianza infinita
Estructuras de Red Más Complejas: Investigación de estructuras de dependencia de red más generales
Expansión de Campos de Aplicación: Exploración de aplicaciones en otros campos

Evaluación Profunda

Fortalezas

Rigor Teórico: Derivaciones matemáticas rigurosas y pruebas completas
Innovación Significativa: Primer tratamiento sistemático de la Ley de Taylor para datos dependientes y heterogéneos con colas pesadas
Verificación Empírica Completa: Simulaciones y verificación con datos reales exhaustivas
Alto Valor de Aplicación: Aplicación a datos de red con importante significado práctico

Deficiencias

Complejidad Técnica: La aplicación práctica de técnicas de truncamiento y la Condición A(p) puede ser difícil
Limitaciones de Supuestos: El supuesto de función de variación lenta requiere verificación en la práctica
Complejidad Computacional: La implementación computacional de algunos resultados teóricos puede ser compleja

Impacto

Contribución Teórica Significativa: Establece fundamentos teóricos para la Ley de Taylor en datos dependientes con colas pesadas
Perspectivas de Aplicación Amplias: Valor de aplicación importante en análisis de redes, riesgo financiero y otros campos
Significado Metodológico: Las técnicas de truncamiento y el tratamiento de condiciones de mezcla proporcionan un paradigma para investigaciones relacionadas

Escenarios de Aplicación

Análisis de Redes: Análisis de distribución de grados en redes sociales, redes de citas, etc.
Riesgo Financiero: Modelado de riesgo de cola de eventos extremos
Investigación Ecológica: Análisis de dependencia espacial en distribución de especies
Epidemiología: Investigación de efectos de red en propagación de epidemias

Referencias

El artículo cita 99 referencias relacionadas, incluyendo principalmente:

Literatura clásica de la Ley de Taylor: Taylor (1961), trabajos de la serie Cohen
Teoría de distribuciones con colas pesadas: Bingham et al. (1987), Embrechts et al. (2013)
Teoría de procesos de mezcla: Bradley (2005), Andrews (1983)
Fuentes de datos de red: Proyecto Stanford SNAP, etc.

Evaluación General: Este es un artículo de estadística teórica de alta calidad que realiza contribuciones importantes en la generalización de la Ley de Taylor. El artículo es teóricamente riguroso, empíricamente completo, y particularmente tiene significado pionero en aplicaciones a datos de red. Aunque la complejidad técnica es relativamente alta, proporciona fundamentos teóricos importantes y herramientas metodológicas para investigaciones en campos relacionados.