2025-11-10T02:53:44.549352

Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data

Cheng, Cohen, Ling et al.

Taylor's law, also known as fluctuation scaling in physics and the power-law variance function in statistics, is an empirical pattern widely observed across fields including ecology, physics, finance, and epidemiology. It states that the variance of a sample scales as a power function of the mean of the sample. We study generalizations of Taylor's law in the context of heavy-tailed distributions with infinite mean and variance. We establish the probabilistic limit and analyze the associated convergence rates. Our results extend the existing literature by relaxing the i.i.d. assumption to accommodate dependence and heterogeneity among the random variables. This generalization enables application to dependent data such as time series and network-structured data. We support the theoretical developments by extensive simulations, and the practical relevance through applications to real network data.

academic

Verallgemeinertes Taylorsches Gesetz für abhängige und heterogene schwanzlastige Daten

Grundinformationen

Paper-ID: 2510.09562
Titel: Generalized Taylor's Law for Dependent and Heterogeneous Heavy-Tailed Data
Autoren: Pok Him Cheng (Columbia University), Joel E. Cohen (Rockefeller University & Columbia University), Hok Kan Ling (Queen's University), Sheung Chi Phillip Yam (Chinese University of Hong Kong)
Klassifizierung: math.ST stat.TH
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.09562

Zusammenfassung

Das Taylorsche Gesetz (auch bekannt als Fluktuationsskalierungsgesetz in der Physik oder Potenzgesetz-Varianzfunktion in der Statistik) ist ein empirisches Muster, das in Ökologie, Physik, Finanzen und Epidemiologie weit verbreitet beobachtet wird. Es besagt, dass die Stichprobenvarianz als Potenzfunktion des Stichprobenmittelwerts skaliert. Dieser Artikel untersucht die Verallgemeinerung des Taylorschen Gesetzes im Kontext von schwanzlastigen Verteilungen mit unendlichem Mittelwert und Varianz. Wir etablieren probabilistische Grenzwerte und analysieren die zugehörigen Konvergenzgeschwindigkeiten. Unsere Ergebnisse erweitern die bestehende Literatur, indem wir die Annahme der unabhängigen und identischen Verteilung lockern, um Abhängigkeiten und Heterogenität zwischen Zufallsvariablen zu berücksichtigen. Diese Verallgemeinerung ermöglicht die Anwendung auf abhängige Daten wie Zeitreihen und Netzwerkstrukturdaten. Wir unterstützen die theoretische Entwicklung durch umfangreiche Simulationen und demonstrieren die praktische Relevanz durch Anwendungen auf echte Netzwerkdaten.

Forschungshintergrund und Motivation

Problemhintergrund

Klassische Form des Taylorschen Gesetzes: Das klassische Taylorsche Gesetz beschreibt die Potenzgesetz-Beziehung zwischen Stichprobenvarianz und Stichprobenmittelwert: $\text{Var}X = a\mu_X^b$ , wobei $a > 0$ und $b$ Konstanten sind.
Einschränkungen bestehender Forschung:
- Die meisten Studien konzentrieren sich auf leichtlastige Daten, bei denen Populationsmittelwert und Varianz existieren
- Die Hauptannahme ist, dass Daten unabhängig und identisch verteilt sind
- Es fehlt eine systematische Theorie für abhängige und heterogene Daten

Forschungsmotivation

Bedeutung schwanzlastiger Verteilungen: In Finanzen, Risikomanagement, Netzwerkanalyse und anderen Bereichen sind schwanzlastige Verteilungen (mit Schwanzindex α ∈ (0,1) und unendlichem Mittelwert und Varianz) weit verbreitet
Komplexität realer Daten: Reale Daten zeigen häufig Abhängigkeiten (wie in Zeitreihen) und Heterogenität (wie in Netzwerkdaten)
Theoretische Lücke: Es fehlt ein theoretischer Rahmen für das Taylorsche Gesetz bei abhängigen und heterogenen schwanzlastigen Daten

Kernbeiträge

Theoretischer Rahmen-Erweiterung: Verallgemeinerung des Taylorschen Gesetzes auf schwanzlastige Verteilungen mit unendlichem Mittelwert und Varianz
Behandlung von Abhängigkeiten: Lockerung der Annahme unabhängiger und identischer Verteilung mit Bedingungen für schwach abhängige Daten
Heterogenitätsmodellierung: Behandlung von Mischungen verschiedener Verteilungen
Anwendung auf Netzwerkdaten: Erstmalige Anwendung des Taylorschen Gesetzes auf Netzwerkstrukturdaten
Konvergenzgeschwindigkeitsanalyse: Detaillierte Charakterisierung der Konvergenzgeschwindigkeiten
Empirische Validierung: Validierung der theoretischen Ergebnisse anhand von drei echten Netzwerkdatensätzen

Methodische Details

Aufgabendefinition

Untersuchung des Taylorschen Gesetzes unter schwanzlastigen Verteilungen $F(x) = x^{-\alpha}l(x)$ (wobei $\alpha > 0$ und $l(·)$ eine langsam variierende Funktion ist), besonders wenn $\alpha \in (0,1)$ und Mittelwert und Varianz unendlich sind.

Theoretischer Rahmen

1. Grundlegende Einstellung

Für nicht-negative Zufallsvariablen $X_1, \ldots, X_n$ mit gemeinsamer Überlebensfunktion $\bar{F}(x) = x^{-\alpha}l(x)$ , definieren wir:

Das $p$ -te Stichprobenmoment: $M_{n,p} := n^{-1}\sum_{i=1}^n X_i^p$
Das $k$ -te zentrierte Stichprobenmoment: $M_{n,k}^c := n^{-1}\sum_{i=1}^n (X_i - M_{n,1})^k$

2. Schwache Abhängigkeitsbedingungen

Bedingung A(p): Die abgeschnittenen Zufallsvariablen $\breve{X}_i := X_i\mathbf{1}(X_i < v_n)$ erfüllen: $\sum_{i \neq j} \text{Cov}(\breve{X}_i^p, \breve{X}_j^p) = o(v_n^{2p}c_n^2)$

3. Haupttheoretische Ergebnisse

Satz 2.8 (Taylorsches Gesetz für höhere Momente): Für $h_1, h_2 > \alpha$ , wenn Bedingung A(p) für $p = h_1$ und $p = h_2$ erfüllt ist, dann: $\frac{\log M_{n,h_1}}{\log M_{n,h_2}} - \iota(h_1, h_2) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right)$ wobei $\iota(h_1, h_2) := \frac{h_1 - \alpha}{h_2 - \alpha}$ .

Satz 2.11 (Taylorsches Gesetz für zentrierte Momente): Für $\alpha \in (0,1)$ und ganze Zahl $k > \alpha$ : $\frac{\log |M_{n,k}^c|}{\log M_{n,1}} - \iota(k,1) = O_p\left(\frac{\log c_n}{\log n}\right) + O\left(\frac{|\log l(t_n)|}{\log n}\right)$

Technische Innovationen

1. Abschneidungstechnik

Verwendung des Karamata-Theorems zur Etablierung von Momenten abgeschnittener schwanzlastiger Zufallsvariablen durch geschickte Wahl der Abschneidungsniveaus $t_n$ und $v_n$ zur Approximation unendlicher Momente.

2. Mischbedingungen

Nachweis, dass verschiedene Mischbedingungen (starke Mischung, φ-Mischung usw.) Bedingung A(p) erfüllen, mit spezifischen Anwendungen auf AR(1)-Modelle.

3. Heterogenitätsbehandlung

Für Mischverteilungen, bei denen $u_n$ Variablen $F^U(x) = x^{-\alpha}l(x)$ folgen und $n-u_n$ Variablen einer leichteren Verteilung $F^V$ folgen, wird nachgewiesen, dass das Taylorsche Gesetz weiterhin gilt.

Experimentelle Einrichtung

Datensätze

Wikipedia Talk-Datensatz: 147.602 Benutzer, Aufzeichnung der Bearbeitungen von Diskussionsseiten zwischen Benutzern
Epinions-Datensatz: 120.492 Produktknoten, Aufzeichnung der Anzahl der Bewertungen pro Produkt
DBpedia-Datensatz: 2.302 Länderknoten, Aufzeichnung der Anzahl der mit jedem Land verbundenen Entitäten

Bewertungsmetriken

Hill-Schätzer: Zur Schätzung des Schwanzindex α
Taylorsche Gesetz-Steigung: Regressionssteigung von log-Varianz gegen log-Mittelwert
Anpassungsgüte: Angepasstes $R^2$ und Konfidenzintervalle

Vergleichsmethoden

Negative Binomialverteilungsanpassung
Pareto-Verteilungsanpassung
Verallgemeinerte Pareto-Verteilungsanpassung

Experimentelle Ergebnisse

Hauptergebnisse

1. Konsistenz der Schwanzindex-Schätzung

Hill-Schätzer und durch das Taylorsche Gesetz implizierte Schwanzindizes sind bei allen drei Datensätzen hochgradig konsistent:

Wikipedia Talk: Hill-Schätzung 0,563, Taylorsche Gesetz-Schätzung ähnlich
Epinions: Hill-Schätzung 0,539, Taylorsche Gesetz-Schätzung 0,539
DBpedia: Hill-Schätzung 0,409, Taylorsche Gesetz-Schätzung konsistent

2. Validierung des Taylorschen Gesetzes

Alle Datensätze zeigen eine klare lineare Beziehung:

Datensatz	Steigung	Angepasstes $R^2$	95%-Konfidenzintervall
Wikipedia Talk	4,027	0,617	(3,396, 4,658)
Epinions	3,145	0,674	(2,709, 3,580)
DBpedia	2,767	0,904	(2,587, 2,946)

3. Vergleich der Verteilungsanpassung

Die Pareto-Verteilung passt Daten im mittleren Wertebereich besser an als die negative Binomialverteilung, zeigt aber Abweichungen in extremen Schwänzen. Die verallgemeinerte Pareto-Verteilung bietet die beste Schwanzanpassung.

Simulationsvalidierung

Das Papier validiert die theoretischen Ergebnisse durch umfangreiche Simulationen:

Unabhängig und identisch verteilte Fälle: Validierung des Taylorschen Gesetzes für Pareto-, stabile Verteilungen usw.
AR(1)-Modell: Bestätigung der theoretischen Vorhersagen unter Zeitreihenabhängigkeit
Heterogene Daten: Simulationsergebnisse für Mischverteilungen stimmen mit der Theorie überein
Netzwerkdaten: Simulationen auf Zufallsgraphen unterstützen Netzwerkanwendungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche theoretische Erweiterung: Erfolgreiche Verallgemeinerung des Taylorschen Gesetzes auf abhängige und heterogene schwanzlastige Daten
Praktische Validierung: Validierung der praktischen Relevanz der Theorie durch echte Netzwerkdaten
Explizite Konvergenzgeschwindigkeiten: Detaillierte Konvergenzgeschwindigkeitsanalyse bereitgestellt

Einschränkungen

Validierung von Bedingung A(p): Die Validierung von Bedingung A(p) in praktischen Anwendungen kann schwierig sein
Komplexität langsam variierender Funktionen: Konvergenzgeschwindigkeiten unterscheiden sich erheblich für verschiedene langsam variierende Funktionen
Endliche Stichprobenleistung: Die Theorie ist asymptotisch; endliche Stichproben können Verzerrungen aufweisen

Zukünftige Richtungen

Fall α ∈ (1,2): Erweiterung auf Fälle mit endlichem Mittelwert aber unendlicher Varianz
Komplexere Netzwerkstrukturen: Untersuchung allgemeinerer Netzwerkabhängigkeitsstrukturen
Erweiterung der Anwendungsbereiche: Erkundung von Anwendungen in anderen Bereichen

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Mathematische Ableitungen sind präzise und Beweise vollständig
Signifikante Innovativität: Erstmalige systematische Behandlung des Taylorschen Gesetzes für abhängige und heterogene schwanzlastige Daten
Umfassende empirische Validierung: Simulationen und echte Datenvalidierung sind umfassend
Hoher Anwendungswert: Netzwerkdatenanwendungen haben wichtige praktische Bedeutung

Mängel

Technische Komplexität: Praktische Anwendung von Abschneidungstechniken und Bedingung A(p) kann schwierig sein
Annahmebeschränkungen: Annahmen über langsam variierende Funktionen müssen in der Praxis validiert werden
Rechenkomplexität: Implementierung einiger theoretischer Ergebnisse kann komplex sein

Auswirkungen

Bedeutender theoretischer Beitrag: Legt theoretische Grundlagen für das Taylorsche Gesetz bei schwanzlastigen abhängigen Daten
Breite Anwendungsperspektiven: Wichtige Anwendungswerte in Netzwerkanalyse, Finanzrisiko und anderen Bereichen
Methodologische Bedeutung: Abschneidungstechniken und Mischbedingungsbehandlung bieten Paradigmen für verwandte Forschung

Anwendungsszenarien

Netzwerkanalyse: Analyse der Gradverteilung in sozialen Netzwerken, Zitationsnetzwerken usw.
Finanzrisiko: Modellierung von Extremrisiken bei extremen Ereignissen
Ökologische Forschung: Analyse räumlicher Abhängigkeiten in Artverteilungen
Epidemiologie: Untersuchung von Netzwerkeffekten bei der Ausbreitungsdynamik

Literaturverzeichnis

Das Papier zitiert 99 verwandte Arbeiten, hauptsächlich:

Klassische Literatur zum Taylorschen Gesetz: Taylor (1961), Arbeiten von Cohen et al.
Theorie schwanzlastiger Verteilungen: Bingham et al. (1987), Embrechts et al. (2013)
Theorie von Mischprozessen: Bradley (2005), Andrews (1983)
Netzwerkdatenquellen: Stanford SNAP-Projekt usw.

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches statistisches Papier, das wichtige Beiträge zur Verallgemeinerung des Taylorschen Gesetzes leistet. Das Papier ist theoretisch streng, empirisch umfassend und besonders bahnbrechend in der Anwendung auf Netzwerkdaten. Obwohl die technische Komplexität hoch ist, bietet es wichtige theoretische Grundlagen und methodische Werkzeuge für verwandte Forschung.