2025-11-10T02:53:44.549352

Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data

Cheng, Cohen, Ling et al.
Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.
academic

Ley de Taylor Generalizada para Datos Dependientes y Heterogéneos con Colas Pesadas

Información Básica

  • ID del Artículo: 2510.09562
  • Título: Ley de Taylor Generalizada para Datos Dependientes y Heterogéneos con Colas Pesadas
  • Autores: Pok Him Cheng (Universidad de Columbia), Joel E. Cohen (Universidad Rockefeller y Universidad de Columbia), Hok Kan Ling (Universidad Queen's), Sheung Chi Phillip Yam (Universidad China de Hong Kong)
  • Clasificación: math.ST stat.TH
  • Fecha de Publicación: 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09562

Resumen

La Ley de Taylor (también conocida como ley de escala de fluctuaciones en física o función de varianza de ley de potencias en estadística) es un patrón empírico ampliamente observado en campos como ecología, física, finanzas y epidemiología. Establece que la varianza muestral se escala como una función de potencia de la media muestral. Este artículo investiga la generalización de la Ley de Taylor en el contexto de distribuciones con colas pesadas que tienen media y varianza infinitas. Establecemos límites de probabilidad y analizamos las velocidades de convergencia asociadas. Nuestros resultados extienden la literatura existente al relajar el supuesto de independencia e identidad de distribución, acomodando la dependencia y heterogeneidad entre variables aleatorias. Esta generalización permite su aplicación a datos correlacionados como series temporales y datos con estructura de red. Apoyamos el desarrollo teórico mediante extensas simulaciones y demostramos la relevancia práctica mediante aplicaciones en datos de redes reales.

Contexto de Investigación y Motivación

Antecedentes del Problema

  1. Forma Clásica de la Ley de Taylor: La Ley de Taylor clásica describe la relación de ley de potencias entre la varianza muestral y la media muestral: VarX=aμXb\text{Var}X = a\mu_X^b, donde a>0a > 0 y bb son constantes.
  2. Limitaciones de la Investigación Existente:
    • La mayoría de estudios se concentran en datos con colas ligeras, donde existen la media y varianza poblacionales
    • Los supuestos principales asumen que los datos son independientes e idénticamente distribuidos
    • Falta un marco teórico sistemático para datos dependientes y heterogéneos

Motivación de la Investigación

  1. Importancia de Distribuciones con Colas Pesadas: En campos como finanzas, gestión de riesgos y análisis de redes, las distribuciones con colas pesadas (índice de cola α ∈ (0,1), con media y varianza infinitas) son ampliamente prevalentes
  2. Complejidad de Datos Reales: Los datos reales frecuentemente exhiben dependencia (como en series temporales) y heterogeneidad (como en datos de redes)
  3. Vacío Teórico: Falta un marco teórico de la Ley de Taylor para datos con colas pesadas dependientes y heterogéneos

Contribuciones Principales

  1. Extensión del Marco Teórico: Generalización de la Ley de Taylor a distribuciones con colas pesadas con media y varianza infinitas
  2. Tratamiento de Dependencia: Relajación del supuesto de independencia e identidad de distribución, estableciendo condiciones aplicables a datos débilmente dependientes
  3. Modelado de Heterogeneidad: Tratamiento de casos de mezcla de distribuciones diferentes
  4. Aplicación a Datos de Red: Primera aplicación de la Ley de Taylor a datos con estructura de red
  5. Análisis de Velocidad de Convergencia: Caracterización detallada de velocidades de convergencia
  6. Verificación Empírica: Validación de resultados teóricos mediante tres conjuntos de datos de redes reales

Explicación Detallada de Métodos

Definición de la Tarea

Investigación de la Ley de Taylor bajo distribuciones con colas pesadas F(x)=xαl(x)F(x) = x^{-\alpha}l(x) (donde α>0\alpha > 0, l()l(·) es una función de variación lenta), particularmente cuando α(0,1)\alpha \in (0,1) y la media y varianza son infinitas.

Marco Teórico

1. Configuración Básica

Para variables aleatorias no negativas X1,,XnX_1, \ldots, X_n con función de supervivencia común Fˉ(x)=xαl(x)\bar{F}(x) = x^{-\alpha}l(x), se definen:

  • Momento muestral de orden pp: Mn,p:=n1i=1nXipM_{n,p} := n^{-1}\sum_{i=1}^n X_i^p
  • Momento muestral central de orden kk: Mn,kc:=n1i=1n(XiMn,1)kM_{n,k}^c := n^{-1}\sum_{i=1}^n (X_i - M_{n,1})^k

2. Condiciones de Dependencia Débil

Condición A(p): Las variables aleatorias truncadas X˘i:=Xi1(Xi<vn)\breve{X}_i := X_i\mathbf{1}(X_i < v_n) satisfacen: ijCov(X˘ip,X˘jp)=o(vn2pcn2)\sum_{i \neq j} \text{Cov}(\breve{X}_i^p, \breve{X}_j^p) = o(v_n^{2p}c_n^2)

3. Resultados Teóricos Principales

Teorema 2.8 (Ley de Taylor para Momentos de Orden Superior): Para h1,h2>αh_1, h_2 > \alpha, si la Condición A(p) se cumple para p=h1p = h_1 y p=h2p = h_2, entonces: logMn,h1logMn,h2ι(h1,h2)=Op(logcnlogn)+O(logl(tn)logn)\frac{\log M_{n,h_1}}{\log M_{n,h_2}} - \iota(h_1, h_2) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right) donde ι(h1,h2):=h1αh2α\iota(h_1, h_2) := \frac{h_1 - \alpha}{h_2 - \alpha}.

Teorema 2.11 (Ley de Taylor para Momentos Centrales): Para α(0,1)\alpha \in (0,1) y entero k>αk > \alpha: logMn,kclogMn,1ι(k,1)=Op(logcnlogn)+O(logl(tn)logn)\frac{\log |M_{n,k}^c|}{\log M_{n,1}} - \iota(k,1) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right)

Puntos de Innovación Técnica

1. Técnica de Truncamiento

Uso del teorema de Karamata para establecer momentos de variables aleatorias con colas pesadas truncadas, mediante la selección ingeniosa de niveles de truncamiento tnt_n y vnv_n para aproximar variables aleatorias con colas pesadas de momentos infinitos.

2. Condiciones de Mezcla

Demostración de que múltiples condiciones de mezcla (mezcla fuerte, φ-mezcla, etc.) satisfacen la Condición A(p), con aplicaciones específicas a modelos AR(1).

3. Tratamiento de Heterogeneidad

Para casos de distribuciones mixtas donde unu_n variables siguen FU(x)=xαl(x)F^U(x) = x^{-\alpha}l(x) y nunn-u_n variables siguen una distribución más ligera FVF^V, se demuestra que la Ley de Taylor aún se cumple.

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos Wikipedia Talk: 147,602 usuarios, registrando el número de ediciones de páginas de discusión entre usuarios
  2. Conjunto de Datos Epinions: 120,492 nodos de productos, registrando el número de reseñas recibidas por cada producto
  3. Conjunto de Datos DBpedia: 2,302 nodos de países, registrando el número de entidades asociadas con cada país

Métricas de Evaluación

  1. Estimador de Hill: Utilizado para estimar el índice de cola α
  2. Pendiente de la Ley de Taylor: Pendiente de regresión entre log varianza y log media
  3. Bondad de Ajuste: R2R^2 ajustado e intervalos de confianza

Métodos de Comparación

  • Ajuste de distribución binomial negativa
  • Ajuste de distribución de Pareto
  • Ajuste de distribución de Pareto generalizada

Resultados Experimentales

Resultados Principales

1. Consistencia de Estimación del Índice de Cola

Los estimadores de Hill y los índices de cola implícitos en la Ley de Taylor son altamente consistentes en los tres conjuntos de datos:

  • Wikipedia Talk: Estimación de Hill 0.563, estimación de Ley de Taylor cercana
  • Epinions: Estimación de Hill 0.539, estimación de Ley de Taylor 0.539
  • DBpedia: Estimación de Hill 0.409, estimación de Ley de Taylor consistente

2. Verificación de la Ley de Taylor

Todos los conjuntos de datos muestran una relación lineal clara:

Conjunto de DatosPendienteR2R^2 AjustadoIntervalo de Confianza 95%
Wikipedia Talk4.0270.617(3.396, 4.658)
Epinions3.1450.674(2.709, 3.580)
DBpedia2.7670.904(2.587, 2.946)

3. Comparación de Ajuste de Distribuciones

La distribución de Pareto ajusta mejor los datos en el rango de valores medios que la distribución binomial negativa, pero presenta desviaciones en la cola extrema. La distribución de Pareto generalizada proporciona el mejor ajuste de la cola.

Verificación por Simulación

El artículo verifica los resultados teóricos mediante extensas simulaciones:

  1. Caso Independiente e Idénticamente Distribuido: Verificación de la Ley de Taylor para distribuciones de Pareto, distribuciones estables, etc.
  2. Modelo AR(1): Confirmación de predicciones teóricas bajo dependencia de series temporales
  3. Datos Heterogéneos: Resultados de simulación bajo distribuciones mixtas consistentes con la teoría
  4. Datos de Red: Simulaciones en gráficos aleatorios apoyan aplicaciones de red

Trabajo Relacionado

Ley de Taylor Clásica

  • Taylor (1961) propuso por primera vez
  • Extensiones de Cohen et al. (2013, 2020, 2022) en distribuciones con colas pesadas
  • Investigación de Brown et al. (2017, 2021) sobre distribuciones α-estables

Datos Dependientes

  • de la Peña et al. (2022) investigaron la Ley de Taylor dinámica para datos dependientes con colas ligeras
  • Este artículo es el primero en tratar sistemáticamente datos dependientes con colas pesadas

Aplicación a Datos de Red

Este artículo es el primero en aplicar la Ley de Taylor a datos de red.

Conclusiones y Discusión

Conclusiones Principales

  1. Extensión Teórica Exitosa: Generalización exitosa de la Ley de Taylor a datos dependientes y heterogéneos con colas pesadas
  2. Verificación de Practicidad: Validación mediante datos de redes reales del valor práctico de la teoría
  3. Análisis de Velocidad de Convergencia Explícito: Análisis detallado de velocidades de convergencia proporcionado

Limitaciones

  1. Verificación de la Condición A(p): La verificación de la Condición A(p) en aplicaciones prácticas puede ser difícil
  2. Complejidad de Funciones de Variación Lenta: Las velocidades de convergencia varían considerablemente con diferentes funciones de variación lenta
  3. Desempeño en Muestras Finitas: La teoría es asintótica, puede haber sesgos en muestras finitas

Direcciones Futuras

  1. Caso α ∈ (1,2): Extensión a casos con media finita pero varianza infinita
  2. Estructuras de Red Más Complejas: Investigación de estructuras de dependencia de red más generales
  3. Expansión de Campos de Aplicación: Exploración de aplicaciones en otros campos

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Derivaciones matemáticas rigurosas y pruebas completas
  2. Innovación Significativa: Primer tratamiento sistemático de la Ley de Taylor para datos dependientes y heterogéneos con colas pesadas
  3. Verificación Empírica Completa: Simulaciones y verificación con datos reales exhaustivas
  4. Alto Valor de Aplicación: Aplicación a datos de red con importante significado práctico

Deficiencias

  1. Complejidad Técnica: La aplicación práctica de técnicas de truncamiento y la Condición A(p) puede ser difícil
  2. Limitaciones de Supuestos: El supuesto de función de variación lenta requiere verificación en la práctica
  3. Complejidad Computacional: La implementación computacional de algunos resultados teóricos puede ser compleja

Impacto

  1. Contribución Teórica Significativa: Establece fundamentos teóricos para la Ley de Taylor en datos dependientes con colas pesadas
  2. Perspectivas de Aplicación Amplias: Valor de aplicación importante en análisis de redes, riesgo financiero y otros campos
  3. Significado Metodológico: Las técnicas de truncamiento y el tratamiento de condiciones de mezcla proporcionan un paradigma para investigaciones relacionadas

Escenarios de Aplicación

  1. Análisis de Redes: Análisis de distribución de grados en redes sociales, redes de citas, etc.
  2. Riesgo Financiero: Modelado de riesgo de cola de eventos extremos
  3. Investigación Ecológica: Análisis de dependencia espacial en distribución de especies
  4. Epidemiología: Investigación de efectos de red en propagación de epidemias

Referencias

El artículo cita 99 referencias relacionadas, incluyendo principalmente:

  • Literatura clásica de la Ley de Taylor: Taylor (1961), trabajos de la serie Cohen
  • Teoría de distribuciones con colas pesadas: Bingham et al. (1987), Embrechts et al. (2013)
  • Teoría de procesos de mezcla: Bradley (2005), Andrews (1983)
  • Fuentes de datos de red: Proyecto Stanford SNAP, etc.

Evaluación General: Este es un artículo de estadística teórica de alta calidad que realiza contribuciones importantes en la generalización de la Ley de Taylor. El artículo es teóricamente riguroso, empíricamente completo, y particularmente tiene significado pionero en aplicaciones a datos de red. Aunque la complejidad técnica es relativamente alta, proporciona fundamentos teóricos importantes y herramientas metodológicas para investigaciones en campos relacionados.