Pathwise guessing in categorical time series with unbounded alphabets
Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic
Pfadweise Vermutung in kategorialen Zeitreihen mit unbegrenzten Alphabeten
Das Papier untersucht ein Lernproblem, das in vielen Anwendungen natürlicherweise auftritt: Kann man anhand einer endlichen Stichprobe einer kategorialen oder Zählzeitreihe eine Beispielfunktion erlernen, die die Wahrscheinlichkeit, gegebene Datenteile korrekt vorherzusagen, (näherungsweise) maximiert? Im Gegensatz zu klassischen statistischen Inferenzmethoden vermeidet dieser Ansatz die explizite Schätzung bedingter Wahrscheinlichkeiten. Die Autoren schlagen eine nichtparametrische Vermutungsfunktion vor, deren Lernrate unabhängig von der Alphabetgröße ist. Die Analyse umfasst eine breite Klasse von Zeitreihenmodellen, einschließlich endlicher Markov-Ketten, bestimmter Hidden-Markov-Modelle, Poisson-Regression für Zählprozesse und eindimensionaler Gibbs-Maße.
Praktische Anwendungstreiber: Vorhersage und Interpolation sind grundlegende Probleme in der Wissenschaft mit breiter Anwendung in kategorialen Zeitreihen, besonders im Kontext aufstrebender großer Sprachmodelle, die als kategoriale Zeitreihenmodelle mit großem Alphabet betrachtet werden können.
Einschränkungen traditioneller Methoden:
Klassische Methoden beruhen auf punktweisen Schätzungen aller Übergangswahrscheinlichkeiten
Wenn die Alphabetgröße groß oder die Übergangswahrscheinlichkeiten klein sind, wird die Vermutung schwierig
Die genaue Schätzung seltener Ereignisse erfordert große Datenmengen, was praktisch nicht machbar ist
Bestehende Herausforderungen:
Alphabetgröße und Abhängigkeitsordnung sind typischerweise hoch
Es ist notwendig, Modelle mit unbegrenzter Abhängigkeit und Alphabetgröße zu behandeln
Traditionelle Methoden können bei großem Alphabet schwierig sein, um Wahrscheinlichkeiten aller möglichen Übergänge zu schätzen
Die Autoren schlagen einen praktischeren Ansatz vor: Konzentration auf die wahrscheinlichsten Ereignisse, d.h. Vorhersage der wahrscheinlichsten Ergebnisse, während seltenen, unwahrscheinlichen Ereignissen weniger Gewicht gegeben wird. Dieser Ansatz ist besonders geeignet für die Behandlung von Sequenzen mit großen oder unendlichen Symbolmengen.
Nichtparametrische Vermutungsfunktion: Lernrate ist unabhängig von der Alphabetgröße und anwendbar auf eine breite Klasse kategorialer Zeitreihen
Theoretischer Rahmen: Anwendbar auf beliebige Alphabetgrößen mit gelockerten Beschränkungen auf Speicher oder Ordnung
Grenzbedinungen: Kontrolle der Konvergenzrate des Risikos
Minimax-Untergrenzen: Beweis der näherungsweisen Optimalität des vorgeschlagenen Schätzers, wobei Unter- und Obergrenzen bis auf logarithmische Faktoren übereinstimmen
Erstmalige Betrachtung des unendlichen Alphabets: Von Bedeutung, wenn die Alphabetgröße keine vorherige Obergrenze hat oder mit der Stichprobengröße wachsen kann
Gegeben zwei unabhängige, identisch verteilte Prozessrealisierungen (Xj)j∈Z und (Yj)j∈Z besteht das Ziel darin, die Werte auf der Vermutungsmenge G unter Verwendung von Informationen aus dem Datensatz D vorherzusagen.
Für Markov-Ketten mit Zustandsraum A und Übergansmatrix Q vereinfacht sich die Bedingung zum Dobrushin-Ergodizitätskoeffizienten:
d(Q):=supa,b∈A∥Q(a,⋅)−Q(b,⋅)∥TV<1
Vermeidung expliziter Wahrscheinlichkeitsschätzung: Keine Notwendigkeit, alle bedingten Wahrscheinlichkeiten zu schätzen, nur Fokus auf die wahrscheinlichsten Ergebnisse
Alphabetgrößenunabhängige Lernrate: Dies ist der Schlüsselvorteil bei der Behandlung großer oder unendlicher Alphabete
Dvoretzky-Kiefer-Wolfowitz-ähnliche Ungleichungen: Etabliert neue Konzentrationungleichungen für zufällige Ketten
Einheitlicher Rahmen: Umfasst eine breite Klasse von Zeitreihenmodellen
Das Papier zitiert 26 relevante Arbeiten, die wichtige Werke aus mehreren Bereichen abdecken, einschließlich Markov-Kettentheorie, statistischer Lerntheorie, dynamischer Systeme und Wahrscheinlichkeitstheorie, und bietet damit eine solide theoretische Grundlage für dieses Papier.