2025-11-10T02:53:44.549352

Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data

Cheng, Cohen, Ling et al.
Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.
academic

Verallgemeinertes Taylorsches Gesetz für abhängige und heterogene schwanzlastige Daten

Grundinformationen

  • Paper-ID: 2510.09562
  • Titel: Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data
  • Autoren: Pok Him Cheng (Columbia University), Joel E. Cohen (Rockefeller University & Columbia University), Hok Kan Ling (Queen's University), Sheung Chi Phillip Yam (Chinese University of Hong Kong)
  • Klassifizierung: math.ST stat.TH
  • Veröffentlichungsdatum: 13. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09562

Zusammenfassung

Das Taylorsche Gesetz (auch bekannt als Fluktuationsskalierungsgesetz in der Physik oder Potenzgesetz-Varianzfunktion in der Statistik) ist ein empirisches Muster, das in Ökologie, Physik, Finanzen und Epidemiologie weit verbreitet beobachtet wird. Es besagt, dass die Stichprobenvarianz als Potenzfunktion des Stichprobenmittelwerts skaliert. Dieser Artikel untersucht die Verallgemeinerung des Taylorschen Gesetzes im Kontext von schwanzlastigen Verteilungen mit unendlichem Mittelwert und Varianz. Wir etablieren probabilistische Grenzwerte und analysieren die zugehörigen Konvergenzgeschwindigkeiten. Unsere Ergebnisse erweitern die bestehende Literatur, indem wir die Annahme der unabhängigen und identischen Verteilung lockern, um Abhängigkeiten und Heterogenität zwischen Zufallsvariablen zu berücksichtigen. Diese Verallgemeinerung ermöglicht die Anwendung auf abhängige Daten wie Zeitreihen und Netzwerkstrukturdaten. Wir unterstützen die theoretische Entwicklung durch umfangreiche Simulationen und demonstrieren die praktische Relevanz durch Anwendungen auf echte Netzwerkdaten.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Klassische Form des Taylorschen Gesetzes: Das klassische Taylorsche Gesetz beschreibt die Potenzgesetz-Beziehung zwischen Stichprobenvarianz und Stichprobenmittelwert: VarX=aμXb\text{Var}X = a\mu_X^b, wobei a>0a > 0 und bb Konstanten sind.
  2. Einschränkungen bestehender Forschung:
    • Die meisten Studien konzentrieren sich auf leichtlastige Daten, bei denen Populationsmittelwert und Varianz existieren
    • Die Hauptannahme ist, dass Daten unabhängig und identisch verteilt sind
    • Es fehlt eine systematische Theorie für abhängige und heterogene Daten

Forschungsmotivation

  1. Bedeutung schwanzlastiger Verteilungen: In Finanzen, Risikomanagement, Netzwerkanalyse und anderen Bereichen sind schwanzlastige Verteilungen (mit Schwanzindex α ∈ (0,1) und unendlichem Mittelwert und Varianz) weit verbreitet
  2. Komplexität realer Daten: Reale Daten zeigen häufig Abhängigkeiten (wie in Zeitreihen) und Heterogenität (wie in Netzwerkdaten)
  3. Theoretische Lücke: Es fehlt ein theoretischer Rahmen für das Taylorsche Gesetz bei abhängigen und heterogenen schwanzlastigen Daten

Kernbeiträge

  1. Theoretischer Rahmen-Erweiterung: Verallgemeinerung des Taylorschen Gesetzes auf schwanzlastige Verteilungen mit unendlichem Mittelwert und Varianz
  2. Behandlung von Abhängigkeiten: Lockerung der Annahme unabhängiger und identischer Verteilung mit Bedingungen für schwach abhängige Daten
  3. Heterogenitätsmodellierung: Behandlung von Mischungen verschiedener Verteilungen
  4. Anwendung auf Netzwerkdaten: Erstmalige Anwendung des Taylorschen Gesetzes auf Netzwerkstrukturdaten
  5. Konvergenzgeschwindigkeitsanalyse: Detaillierte Charakterisierung der Konvergenzgeschwindigkeiten
  6. Empirische Validierung: Validierung der theoretischen Ergebnisse anhand von drei echten Netzwerkdatensätzen

Methodische Details

Aufgabendefinition

Untersuchung des Taylorschen Gesetzes unter schwanzlastigen Verteilungen F(x)=xαl(x)F(x) = x^{-\alpha}l(x) (wobei α>0\alpha > 0 und l()l(·) eine langsam variierende Funktion ist), besonders wenn α(0,1)\alpha \in (0,1) und Mittelwert und Varianz unendlich sind.

Theoretischer Rahmen

1. Grundlegende Einstellung

Für nicht-negative Zufallsvariablen X1,,XnX_1, \ldots, X_n mit gemeinsamer Überlebensfunktion Fˉ(x)=xαl(x)\bar{F}(x) = x^{-\alpha}l(x), definieren wir:

  • Das pp-te Stichprobenmoment: Mn,p:=n1i=1nXipM_{n,p} := n^{-1}\sum_{i=1}^n X_i^p
  • Das kk-te zentrierte Stichprobenmoment: Mn,kc:=n1i=1n(XiMn,1)kM_{n,k}^c := n^{-1}\sum_{i=1}^n (X_i - M_{n,1})^k

2. Schwache Abhängigkeitsbedingungen

Bedingung A(p): Die abgeschnittenen Zufallsvariablen X˘i:=Xi1(Xi<vn)\breve{X}_i := X_i\mathbf{1}(X_i < v_n) erfüllen: ijCov(X˘ip,X˘jp)=o(vn2pcn2)\sum_{i \neq j} \text{Cov}(\breve{X}_i^p, \breve{X}_j^p) = o(v_n^{2p}c_n^2)

3. Haupttheoretische Ergebnisse

Satz 2.8 (Taylorsches Gesetz für höhere Momente): Für h1,h2>αh_1, h_2 > \alpha, wenn Bedingung A(p) für p=h1p = h_1 und p=h2p = h_2 erfüllt ist, dann: logMn,h1logMn,h2ι(h1,h2)=Op(logcnlogn)+O(logl(tn)logn)\frac{\log M_{n,h_1}}{\log M_{n,h_2}} - \iota(h_1, h_2) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right) wobei ι(h1,h2):=h1αh2α\iota(h_1, h_2) := \frac{h_1 - \alpha}{h_2 - \alpha}.

Satz 2.11 (Taylorsches Gesetz für zentrierte Momente): Für α(0,1)\alpha \in (0,1) und ganze Zahl k>αk > \alpha: logMn,kclogMn,1ι(k,1)=Op(logcnlogn)+O(logl(tn)logn)\frac{\log |M_{n,k}^c|}{\log M_{n,1}} - \iota(k,1) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right)

Technische Innovationen

1. Abschneidungstechnik

Verwendung des Karamata-Theorems zur Etablierung von Momenten abgeschnittener schwanzlastiger Zufallsvariablen durch geschickte Wahl der Abschneidungsniveaus tnt_n und vnv_n zur Approximation unendlicher Momente.

2. Mischbedingungen

Nachweis, dass verschiedene Mischbedingungen (starke Mischung, φ-Mischung usw.) Bedingung A(p) erfüllen, mit spezifischen Anwendungen auf AR(1)-Modelle.

3. Heterogenitätsbehandlung

Für Mischverteilungen, bei denen unu_n Variablen FU(x)=xαl(x)F^U(x) = x^{-\alpha}l(x) folgen und nunn-u_n Variablen einer leichteren Verteilung FVF^V folgen, wird nachgewiesen, dass das Taylorsche Gesetz weiterhin gilt.

Experimentelle Einrichtung

Datensätze

  1. Wikipedia Talk-Datensatz: 147.602 Benutzer, Aufzeichnung der Bearbeitungen von Diskussionsseiten zwischen Benutzern
  2. Epinions-Datensatz: 120.492 Produktknoten, Aufzeichnung der Anzahl der Bewertungen pro Produkt
  3. DBpedia-Datensatz: 2.302 Länderknoten, Aufzeichnung der Anzahl der mit jedem Land verbundenen Entitäten

Bewertungsmetriken

  1. Hill-Schätzer: Zur Schätzung des Schwanzindex α
  2. Taylorsche Gesetz-Steigung: Regressionssteigung von log-Varianz gegen log-Mittelwert
  3. Anpassungsgüte: Angepasstes R2R^2 und Konfidenzintervalle

Vergleichsmethoden

  • Negative Binomialverteilungsanpassung
  • Pareto-Verteilungsanpassung
  • Verallgemeinerte Pareto-Verteilungsanpassung

Experimentelle Ergebnisse

Hauptergebnisse

1. Konsistenz der Schwanzindex-Schätzung

Hill-Schätzer und durch das Taylorsche Gesetz implizierte Schwanzindizes sind bei allen drei Datensätzen hochgradig konsistent:

  • Wikipedia Talk: Hill-Schätzung 0,563, Taylorsche Gesetz-Schätzung ähnlich
  • Epinions: Hill-Schätzung 0,539, Taylorsche Gesetz-Schätzung 0,539
  • DBpedia: Hill-Schätzung 0,409, Taylorsche Gesetz-Schätzung konsistent

2. Validierung des Taylorschen Gesetzes

Alle Datensätze zeigen eine klare lineare Beziehung:

DatensatzSteigungAngepasstes R2R^295%-Konfidenzintervall
Wikipedia Talk4,0270,617(3,396, 4,658)
Epinions3,1450,674(2,709, 3,580)
DBpedia2,7670,904(2,587, 2,946)

3. Vergleich der Verteilungsanpassung

Die Pareto-Verteilung passt Daten im mittleren Wertebereich besser an als die negative Binomialverteilung, zeigt aber Abweichungen in extremen Schwänzen. Die verallgemeinerte Pareto-Verteilung bietet die beste Schwanzanpassung.

Simulationsvalidierung

Das Papier validiert die theoretischen Ergebnisse durch umfangreiche Simulationen:

  1. Unabhängig und identisch verteilte Fälle: Validierung des Taylorschen Gesetzes für Pareto-, stabile Verteilungen usw.
  2. AR(1)-Modell: Bestätigung der theoretischen Vorhersagen unter Zeitreihenabhängigkeit
  3. Heterogene Daten: Simulationsergebnisse für Mischverteilungen stimmen mit der Theorie überein
  4. Netzwerkdaten: Simulationen auf Zufallsgraphen unterstützen Netzwerkanwendungen

Verwandte Arbeiten

Klassisches Taylorsches Gesetz

  • Taylor (1961) führte es erstmals ein
  • Erweiterungen von Cohen et al. (2013, 2020, 2022) auf schwanzlastige Verteilungen
  • Forschung von Brown et al. (2017, 2021) zu α-stabilen Verteilungen

Abhängige Daten

  • de la Peña et al. (2022) untersuchten dynamisches Taylorsches Gesetz für leichtlastige abhängige Daten
  • Dieses Papier behandelt erstmals systematisch schwanzlastige abhängige Daten

Netzwerkdatenanwendung

Dieses Papier ist die erste Studie, die das Taylorsche Gesetz auf Netzwerkdaten anwendet.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche theoretische Erweiterung: Erfolgreiche Verallgemeinerung des Taylorschen Gesetzes auf abhängige und heterogene schwanzlastige Daten
  2. Praktische Validierung: Validierung der praktischen Relevanz der Theorie durch echte Netzwerkdaten
  3. Explizite Konvergenzgeschwindigkeiten: Detaillierte Konvergenzgeschwindigkeitsanalyse bereitgestellt

Einschränkungen

  1. Validierung von Bedingung A(p): Die Validierung von Bedingung A(p) in praktischen Anwendungen kann schwierig sein
  2. Komplexität langsam variierender Funktionen: Konvergenzgeschwindigkeiten unterscheiden sich erheblich für verschiedene langsam variierende Funktionen
  3. Endliche Stichprobenleistung: Die Theorie ist asymptotisch; endliche Stichproben können Verzerrungen aufweisen

Zukünftige Richtungen

  1. Fall α ∈ (1,2): Erweiterung auf Fälle mit endlichem Mittelwert aber unendlicher Varianz
  2. Komplexere Netzwerkstrukturen: Untersuchung allgemeinerer Netzwerkabhängigkeitsstrukturen
  3. Erweiterung der Anwendungsbereiche: Erkundung von Anwendungen in anderen Bereichen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Mathematische Ableitungen sind präzise und Beweise vollständig
  2. Signifikante Innovativität: Erstmalige systematische Behandlung des Taylorschen Gesetzes für abhängige und heterogene schwanzlastige Daten
  3. Umfassende empirische Validierung: Simulationen und echte Datenvalidierung sind umfassend
  4. Hoher Anwendungswert: Netzwerkdatenanwendungen haben wichtige praktische Bedeutung

Mängel

  1. Technische Komplexität: Praktische Anwendung von Abschneidungstechniken und Bedingung A(p) kann schwierig sein
  2. Annahmebeschränkungen: Annahmen über langsam variierende Funktionen müssen in der Praxis validiert werden
  3. Rechenkomplexität: Implementierung einiger theoretischer Ergebnisse kann komplex sein

Auswirkungen

  1. Bedeutender theoretischer Beitrag: Legt theoretische Grundlagen für das Taylorsche Gesetz bei schwanzlastigen abhängigen Daten
  2. Breite Anwendungsperspektiven: Wichtige Anwendungswerte in Netzwerkanalyse, Finanzrisiko und anderen Bereichen
  3. Methodologische Bedeutung: Abschneidungstechniken und Mischbedingungsbehandlung bieten Paradigmen für verwandte Forschung

Anwendungsszenarien

  1. Netzwerkanalyse: Analyse der Gradverteilung in sozialen Netzwerken, Zitationsnetzwerken usw.
  2. Finanzrisiko: Modellierung von Extremrisiken bei extremen Ereignissen
  3. Ökologische Forschung: Analyse räumlicher Abhängigkeiten in Artverteilungen
  4. Epidemiologie: Untersuchung von Netzwerkeffekten bei der Ausbreitungsdynamik

Literaturverzeichnis

Das Papier zitiert 99 verwandte Arbeiten, hauptsächlich:

  • Klassische Literatur zum Taylorschen Gesetz: Taylor (1961), Arbeiten von Cohen et al.
  • Theorie schwanzlastiger Verteilungen: Bingham et al. (1987), Embrechts et al. (2013)
  • Theorie von Mischprozessen: Bradley (2005), Andrews (1983)
  • Netzwerkdatenquellen: Stanford SNAP-Projekt usw.

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches statistisches Papier, das wichtige Beiträge zur Verallgemeinerung des Taylorschen Gesetzes leistet. Das Papier ist theoretisch streng, empirisch umfassend und besonders bahnbrechend in der Anwendung auf Netzwerkdaten. Obwohl die technische Komplexität hoch ist, bietet es wichtige theoretische Grundlagen und methodische Werkzeuge für verwandte Forschung.