2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi

The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.

academic

Pfadweise Vermutung in kategorialen Zeitreihen mit unbegrenzten Alphabeten

Grundinformationen

Papier-ID: 2501.06547
Titel: Pathwise guessing in categorical time series with unbounded alphabets
Autoren: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
Klassifizierung: math.ST math.PR stat.TH
Veröffentlichungsdatum: 16. Oktober 2025
Papierlink: https://arxiv.org/abs/2501.06547

Zusammenfassung

Das Papier untersucht ein Lernproblem, das in vielen Anwendungen natürlicherweise auftritt: Kann man anhand einer endlichen Stichprobe einer kategorialen oder Zählzeitreihe eine Beispielfunktion erlernen, die die Wahrscheinlichkeit, gegebene Datenteile korrekt vorherzusagen, (näherungsweise) maximiert? Im Gegensatz zu klassischen statistischen Inferenzmethoden vermeidet dieser Ansatz die explizite Schätzung bedingter Wahrscheinlichkeiten. Die Autoren schlagen eine nichtparametrische Vermutungsfunktion vor, deren Lernrate unabhängig von der Alphabetgröße ist. Die Analyse umfasst eine breite Klasse von Zeitreihenmodellen, einschließlich endlicher Markov-Ketten, bestimmter Hidden-Markov-Modelle, Poisson-Regression für Zählprozesse und eindimensionaler Gibbs-Maße.

Forschungshintergrund und Motivation

Bedeutung des Problems

Praktische Anwendungstreiber: Vorhersage und Interpolation sind grundlegende Probleme in der Wissenschaft mit breiter Anwendung in kategorialen Zeitreihen, besonders im Kontext aufstrebender großer Sprachmodelle, die als kategoriale Zeitreihenmodelle mit großem Alphabet betrachtet werden können.
Einschränkungen traditioneller Methoden:
- Klassische Methoden beruhen auf punktweisen Schätzungen aller Übergangswahrscheinlichkeiten
- Wenn die Alphabetgröße groß oder die Übergangswahrscheinlichkeiten klein sind, wird die Vermutung schwierig
- Die genaue Schätzung seltener Ereignisse erfordert große Datenmengen, was praktisch nicht machbar ist
Bestehende Herausforderungen:
- Alphabetgröße und Abhängigkeitsordnung sind typischerweise hoch
- Es ist notwendig, Modelle mit unbegrenzter Abhängigkeit und Alphabetgröße zu behandeln
- Traditionelle Methoden können bei großem Alphabet schwierig sein, um Wahrscheinlichkeiten aller möglichen Übergänge zu schätzen

Forschungsmotivation

Die Autoren schlagen einen praktischeren Ansatz vor: Konzentration auf die wahrscheinlichsten Ereignisse, d.h. Vorhersage der wahrscheinlichsten Ergebnisse, während seltenen, unwahrscheinlichen Ereignissen weniger Gewicht gegeben wird. Dieser Ansatz ist besonders geeignet für die Behandlung von Sequenzen mit großen oder unendlichen Symbolmengen.

Kernbeiträge

Nichtparametrische Vermutungsfunktion: Lernrate ist unabhängig von der Alphabetgröße und anwendbar auf eine breite Klasse kategorialer Zeitreihen
Theoretischer Rahmen: Anwendbar auf beliebige Alphabetgrößen mit gelockerten Beschränkungen auf Speicher oder Ordnung
Grenzbedinungen: Kontrolle der Konvergenzrate des Risikos
Minimax-Untergrenzen: Beweis der näherungsweisen Optimalität des vorgeschlagenen Schätzers, wobei Unter- und Obergrenzen bis auf logarithmische Faktoren übereinstimmen
Erstmalige Betrachtung des unendlichen Alphabets: Von Bedeutung, wenn die Alphabetgröße keine vorherige Obergrenze hat oder mit der Stichprobengröße wachsen kann

Methodische Details

Aufgabendefinition

Gegeben zwei unabhängige, identisch verteilte Prozessrealisierungen $(X_j)_{j \in \mathbb{Z}}$ und $(Y_j)_{j \in \mathbb{Z}}$ besteht das Ziel darin, die Werte auf der Vermutungsmenge $G$ unter Verwendung von Informationen aus dem Datensatz $D$ vorherzusagen.

Schätzerdefinition: $f̂^n_{D,G} : A^n \times A^D \to A^G$

Überflüssiges Risiko: $R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)$

Modellarchitektur

Kernschätzer: $f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}$

wobei die Zählfunktion definiert ist als: $N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}$

Hauptannahmen

Annahme A: Sei $(X_i)_{i \in \mathbb{Z}}$ ein stationärer Prozess mit Maß $P$ . Er erfüllt die Annahme, wenn: $\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0$

wobei die Variation definiert ist als: $\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}$

Grenzbedingungen

Für jeden $b \in A^D$ definieren wir: $\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}$

Die Grenze ist: $\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)$

Haupttheoretische Ergebnisse

Obergrenzenergebnisse (Satz 3.1)

Wenn die Stichprobengröße $n$ bestimmte Bedingungen erfüllt, dann: $R(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G}$

Konvergenzraten (Korollar 3.1)

Bei schwacher Grenzbedingung: Wenn $\delta_n\sqrt{\frac{n}{\log n}} \to 0$ , dann: $R(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}$
Bei starker Grenzbedingung: Wenn $\delta_n\sqrt{\frac{n}{\log n}} \to \infty$ , dann: $R(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}$

Minimax-Untergrenzen (Satz 3.2)

Etabliert Minimax-Untergrenzen in zwei Fällen:

Fall mit kleiner Grenze: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}$
Fall mit großer Grenze: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}$

Anwendungsbeispiele

Das Papier zeigt, dass Annahme A auf viele wichtige Modelle anwendbar ist:

Markov-Ketten

Für Markov-Ketten mit Zustandsraum $A$ und Übergansmatrix $Q$ vereinfacht sich die Bedingung zum Dobrushin-Ergodizitätskoeffizienten: $d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1$

Autoregressive Modelle

Übergangswahrscheinlichkeiten binärer autoregressiver Prozesse: $p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right)$

Poisson-Regression

Poisson-Regressionsmodelle für Zählzeitreihen: $p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!}$ wobei $v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right)$

Gibbs-Maße

Eindimensionale Gibbs-Maße erfüllen: $P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)}$

Technische Innovationen

Vermeidung expliziter Wahrscheinlichkeitsschätzung: Keine Notwendigkeit, alle bedingten Wahrscheinlichkeiten zu schätzen, nur Fokus auf die wahrscheinlichsten Ergebnisse
Alphabetgrößenunabhängige Lernrate: Dies ist der Schlüsselvorteil bei der Behandlung großer oder unendlicher Alphabete
Dvoretzky-Kiefer-Wolfowitz-ähnliche Ungleichungen: Etabliert neue Konzentrationungleichungen für zufällige Ketten
Einheitlicher Rahmen: Umfasst eine breite Klasse von Zeitreihenmodellen

Experimentelle und Beweistechniken

Hauptbeweistechniken

Konzentrationungleichungen: Verwendung modifizierter Dvoretzky-Kiefer-Wolfowitz-Ungleichungen
Kopplungsmethoden: Zur Kontrolle von Wahrscheinlichkeitsdifferenzen unter verschiedenen Bedingungen
Le Cam-ähnliche Argumente: Zur Etablierung von Minimax-Untergrenzen
Variationsanalyse: Kontrolle der Variation durch Oszillation von Potentialfunktionen

Schlüssellemmata

Proposition 3.1: Etabliert die Beziehung zwischen $\beta_{D,G}$ und Mengengröße
Proposition 4.1: Bietet konkrete Variationsgrenzen für Gibbs-Maße
Satz A.1: Erweiterung der Dvoretzky-Kiefer-Wolfowitz-ähnlichen Ungleichung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Nichtparametrische Vermutungsmethode für unbegrenzte Alphabete vorgeschlagen
Lernrate unabhängig von der Alphabetgröße etabliert
Näherungsweise Optimalität der Methode bewiesen (bis auf logarithmische Faktoren)
Einheitlicher Rahmen für breite Klasse von Zeitreihenmodellen bereitgestellt

Einschränkungen

Verifikation von Annahme A: Verifikation von Annahme A in praktischen Anwendungen kann herausfordernd sein
Endliche Stichprobenleistung: Theoretische Ergebnisse sind asymptotisch; endliches Stichprobenverhalten kann unterschiedlich sein
Rechenkomplexität: Papier diskutiert Rechenkomplexität des Algorithmus nicht ausführlich

Zukünftige Richtungen

Algorithmische Implementierung: Entwicklung effizienter algorithmischer Implementierungen
Praktische Anwendungen: Verifikation der Methode in praktischen Anwendungen wie großen Sprachmodellen
Erweiterung auf andere Verlustfunktionen: Betrachtung unterschiedlicher Risikomaße

Tiefe Bewertung

Stärken

Signifikante theoretische Beiträge: Erstmalige Behandlung des unendlichen Alphabets mit vollständigem theoretischen Rahmen
Starke methodische Innovation: Der Ansatz zur Vermeidung expliziter Wahrscheinlichkeitsschätzung hat praktischen Wert
Tiefgehende Analyse: Bereitstellung von Ober- und übereinstimmenden Untergrenzen mit Beweis der Näherungsoptimalität
Breite Anwendbarkeit: Einheitlicher Rahmen umfasst viele wichtige Zeitreihenmodelle

Mängel

Fehlende experimentelle Verifikation: Papier ist rein theoretisch ohne numerische Experimente oder praktische Anwendungsbeispiele
Unzureichende Algorithmusdetails: Praktische Implementierung und Rechenkomplexität nicht ausführlich diskutiert
Schwierige Annahmeverifikation: Verifikationsmethode von Annahme A in der Praxis unklar

Auswirkungen

Hoher theoretischer Wert: Bietet neue theoretische Werkzeuge für Behandlung großer Alphabetzeitreihen
Großes praktisches Potenzial: Bedeutung in modernen Anwendungen wie großen Sprachmodellen
Methodische Universalität: Rahmen möglicherweise auf andere verwandte Probleme anwendbar

Anwendungsszenarien

Große Sprachmodelle: Textgenerierungsaufgaben mit großem Vokabular
Bioinformatik: DNA/Proteinsequenzanalyse
Netzwerkverkehrsanalyse: Vorhersage von Netzwerkverhalten mit großem Zustandsraum
Finanzielle Zeitreihen: Analyse hochfrequenter Handelsdaten

Literaturverzeichnis

Das Papier zitiert 26 relevante Arbeiten, die wichtige Werke aus mehreren Bereichen abdecken, einschließlich Markov-Kettentheorie, statistischer Lerntheorie, dynamischer Systeme und Wahrscheinlichkeitstheorie, und bietet damit eine solide theoretische Grundlage für dieses Papier.