Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.
- ID de l'article: 2510.09562
- Titre: Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data
- Auteurs: Pok Him Cheng (Université Columbia), Joel E. Cohen (Université Rockefeller & Université Columbia), Hok Kan Ling (Université Queen's), Sheung Chi Phillip Yam (Université chinoise de Hong Kong)
- Classification: math.ST stat.TH
- Date de publication: 13 octobre 2025
- Lien de l'article: https://arxiv.org/abs/2510.09562
La loi de Taylor (également appelée loi d'échelle des fluctuations en physique ou fonction de variance en loi puissance en statistique) est un motif empirique largement observé dans les domaines de l'écologie, la physique, la finance et l'épidémiologie. Elle indique que la variance d'échantillon s'échelonne selon une fonction puissance de la moyenne d'échantillon. Cet article étudie la généralisation de la loi de Taylor dans le contexte des distributions à queues lourdes avec moyenne et variance infinies. Nous établissons des limites probabilistes et analysons les vitesses de convergence associées. Nos résultats étendent la littérature existante en relâchant l'hypothèse d'indépendance et d'identique distribution pour accommoder la dépendance et l'hétérogénéité entre les variables aléatoires. Cette généralisation permet son application aux données de séries temporelles et structures de réseau. Nous soutenons le développement théorique par des simulations extensives et démontrons la pertinence pratique par des applications sur des données de réseau réelles.
- Forme classique de la loi de Taylor: La loi de Taylor classique décrit la relation en loi puissance entre la variance d'échantillon et la moyenne d'échantillon: VarX=aμXb, où a>0 et b sont des constantes.
- Limitations de la recherche existante:
- La plupart des études se concentrent sur les données à queues légères, où la moyenne et la variance de la population existent
- Les hypothèses principales supposent que les données sont indépendantes et identiquement distribuées
- Absence de théorie systématique pour les données dépendantes et hétérogènes
- Importance des distributions à queues lourdes: Dans les domaines de la finance, la gestion des risques, l'analyse de réseau, etc., les distributions à queues lourdes (indice de queue α ∈ (0,1), avec moyenne et variance infinies) sont largement présentes
- Complexité des données réelles: Les données réelles présentent souvent une dépendance (comme les séries temporelles) et une hétérogénéité (comme les données de réseau)
- Lacune théorique: Absence de cadre théorique pour la loi de Taylor appliquée aux données dépendantes et hétérogènes à queues lourdes
- Extension du cadre théorique: Généralisation de la loi de Taylor aux distributions à queues lourdes avec moyenne et variance infinies
- Traitement de la dépendance: Relâchement de l'hypothèse d'indépendance et d'identique distribution, établissement de conditions applicables aux données faiblement dépendantes
- Modélisation de l'hétérogénéité: Traitement des cas de mélange de distributions différentes
- Application aux données de réseau: Première application de la loi de Taylor aux données de structure de réseau
- Analyse de la vitesse de convergence: Caractérisation détaillée des vitesses de convergence
- Vérification empirique: Validation des résultats théoriques sur trois ensembles de données de réseau réelles
Étude de la loi de Taylor sous les distributions à queues lourdes F(x)=x−αl(x) (où α>0, l(⋅) est une fonction à variation lente), en particulier lorsque α∈(0,1) et la moyenne et la variance sont infinies.
Pour les variables aléatoires non-négatives X1,…,Xn, avec fonction de survie commune Fˉ(x)=x−αl(x), définissez:
- Moment d'échantillon d'ordre p: Mn,p:=n−1∑i=1nXip
- Moment d'échantillon centré d'ordre k: Mn,kc:=n−1∑i=1n(Xi−Mn,1)k
Condition A(p): Les variables aléatoires tronquées X˘i:=Xi1(Xi<vn) satisfont:
∑i=jCov(X˘ip,X˘jp)=o(vn2pcn2)
Théorème 2.8 (Loi de Taylor pour les moments d'ordre supérieur):
Pour h1,h2>α, si la condition A(p) est satisfaite pour p=h1 et p=h2, alors:
logMn,h2logMn,h1−ι(h1,h2)=Op(lognlogcn)+O(logn∣logl(tn)∣)
où ι(h1,h2):=h2−αh1−α.
Théorème 2.11 (Loi de Taylor pour les moments centrés):
Pour α∈(0,1) et entier k>α:
logMn,1log∣Mn,kc∣−ι(k,1)=Op(lognlogcn)+O(logn∣logl(tn)∣)
Utilisation du théorème de Karamata pour établir les moments des variables aléatoires à queues lourdes tronquées, par le choix judicieux des niveaux de troncature tn et vn pour approximer les moments infinis des variables aléatoires à queues lourdes.
Preuve que diverses conditions de mélange (mélange fort, φ-mélange, etc.) satisfont la condition A(p), avec applications spécifiques aux modèles AR(1).
Pour les cas de distribution mixte, où un variables suivent FU(x)=x−αl(x) et n−un variables suivent une distribution plus légère FV, preuve que la loi de Taylor reste valide.
- Ensemble de données Wikipedia Talk: 147 602 utilisateurs, enregistrant le nombre d'éditions de pages de discussion entre utilisateurs
- Ensemble de données Epinions: 120 492 nœuds de produits, enregistrant le nombre de commentaires reçus par chaque produit
- Ensemble de données DBpedia: 2 302 nœuds de pays, enregistrant le nombre d'entités associées à chaque pays
- Estimateur de Hill: Utilisé pour estimer l'indice de queue α
- Pente de la loi de Taylor: Pente de régression entre log variance et log moyenne
- Qualité de l'ajustement: R2 ajusté et intervalles de confiance
- Ajustement de distribution binomiale négative
- Ajustement de distribution de Pareto
- Ajustement de distribution de Pareto généralisée
Les estimateurs de Hill et l'indice de queue implicite de la loi de Taylor sont hautement cohérents sur les trois ensembles de données:
- Wikipedia Talk: Estimation Hill 0,563, estimation loi de Taylor proche
- Epinions: Estimation Hill 0,539, estimation loi de Taylor 0,539
- DBpedia: Estimation Hill 0,409, estimation loi de Taylor cohérente
Tous les ensembles de données présentent une relation linéaire claire:
| Ensemble de données | Pente | R2 ajusté | Intervalle de confiance 95% |
|---|
| Wikipedia Talk | 4,027 | 0,617 | (3,396, 4,658) |
| Epinions | 3,145 | 0,674 | (2,709, 3,580) |
| DBpedia | 2,767 | 0,904 | (2,587, 2,946) |
La distribution de Pareto s'ajuste mieux aux données que la distribution binomiale négative dans la plage de valeurs moyennes, mais présente des écarts dans les queues extrêmes. La distribution de Pareto généralisée fournit le meilleur ajustement de queue.
L'article vérifie les résultats théoriques par des simulations extensives:
- Cas indépendant et identiquement distribué: Vérification de la loi de Taylor pour Pareto, distributions stables, etc.
- Modèle AR(1): Confirmation des prédictions théoriques sous dépendance de série temporelle
- Données hétérogènes: Les résultats de simulation pour les cas de distribution mixte sont cohérents avec la théorie
- Données de réseau: Les simulations sur graphes aléatoires soutiennent l'application de réseau
- Taylor (1961) première proposition
- Extensions de Cohen et al. (2013, 2020, 2022) sur distributions à queues lourdes
- Recherche de Brown et al. (2017, 2021) sur distributions α-stables
- Étude de de la Peña et al. (2022) sur la loi de Taylor dynamique pour données légères dépendantes
- Première approche systématique de cet article pour données dépendantes à queues lourdes
Cet article est le premier à appliquer la loi de Taylor aux données de réseau.
- Extension théorique réussie: Généralisation réussie de la loi de Taylor aux données dépendantes et hétérogènes à queues lourdes
- Vérification de l'utilité pratique: Validation de la valeur pratique de la théorie sur données de réseau réelles
- Analyse de vitesse de convergence explicite: Analyse détaillée des vitesses de convergence
- Vérification de la condition A(p): La vérification de la condition A(p) peut être difficile dans les applications pratiques
- Complexité de la fonction à variation lente: Les différences de vitesse de convergence selon différentes fonctions à variation lente sont importantes
- Performance sur échantillons finis: La théorie est asymptotique, avec possibles biais sur échantillons finis
- Cas α ∈ (1,2): Extension aux cas avec moyenne finie mais variance infinie
- Structures de réseau plus complexes: Étude de structures de dépendance de réseau plus générales
- Extension des domaines d'application: Exploration d'applications dans d'autres domaines
- Rigueur théorique: Dérivations mathématiques rigoureuses, preuves complètes
- Innovation significative: Première approche systématique de la loi de Taylor pour données dépendantes et hétérogènes à queues lourdes
- Vérification empirique suffisante: Simulations et vérifications sur données réelles complètes
- Valeur d'application élevée: L'application aux données de réseau a une importance pratique significative
- Complexité technique: L'application pratique de la technique de troncature et de la condition A(p) peut être difficile
- Limitations des hypothèses: L'hypothèse de fonction à variation lente nécessite vérification en pratique
- Complexité computationnelle: L'implémentation computationnelle de certains résultats théoriques peut être complexe
- Contribution théorique majeure: Établissement des fondations théoriques pour la loi de Taylor sur données dépendantes à queues lourdes
- Perspectives d'application larges: Valeur d'application importante dans l'analyse de réseau, la gestion des risques financiers, etc.
- Signification méthodologique: Les techniques de troncature et le traitement des conditions de mélange fournissent un paradigme pour la recherche connexe
- Analyse de réseau: Analyse de distribution de degrés dans réseaux sociaux, réseaux de citations, etc.
- Risque financier: Modélisation du risque de queue d'événements extrêmes
- Recherche écologique: Analyse de dépendance spatiale dans distribution d'espèces
- Épidémiologie: Étude des effets de réseau dans la propagation d'épidémies
L'article cite 99 références connexes, incluant principalement:
- Littérature classique sur la loi de Taylor: Taylor (1961), travaux en série de Cohen et al.
- Théorie des distributions à queues lourdes: Bingham et al. (1987), Embrechts et al. (2013)
- Théorie des processus de mélange: Bradley (2005), Andrews (1983)
- Sources de données de réseau: Projet Stanford SNAP, etc.
Évaluation globale: Cet article est un travail statistique théorique de haute qualité qui apporte des contributions importantes à la généralisation de la loi de Taylor. L'article est théoriquement rigoureux, empiriquement complet, et particulièrement novateur dans l'application aux données de réseau. Bien que la complexité technique soit élevée, il fournit des fondations théoriques importantes et des outils méthodologiques pour la recherche connexe.