Pathwise guessing in categorical time series with unbounded alphabets
Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic
Indovinare per percorso in serie temporali categoriche con alfabeti illimitati
L'articolo affronta un problema di apprendimento che emerge naturalmente in numerose applicazioni: dato un campione finito di una serie temporale categorica o di conteggio, è possibile apprendere una funzione campionaria che massimizzi (approssimativamente) la probabilità di indovinare correttamente il valore di una parte data utilizzando i dati rimanenti? A differenza dei metodi classici di inferenza statistica, l'approccio proposto evita la stima esplicita delle probabilità condizionali. Gli autori presentano una funzione di indovinazione non parametrica con tasso di apprendimento indipendente dalla dimensione dell'alfabeto, con un'analisi che copre un'ampia classe di modelli di serie temporali, incluse catene di Markov di ordine finito, alcune catene di Markov nascoste, regressioni di Poisson per processi di conteggio e misure di Gibbs unidimensionali.
Motivazione dalle Applicazioni Pratiche: La previsione e l'interpolazione sono problemi fondamentali in ambito scientifico, con ampie applicazioni nelle serie temporali categoriche, in particolare nel contesto dell'emergere dei grandi modelli linguistici, che possono essere considerati come modelli di serie temporali categoriche con alfabeti di grandi dimensioni.
Limitazioni dei Metodi Tradizionali:
I metodi classici si basano sulla stima puntuale di tutte le probabilità di transizione
Quando la dimensione dell'alfabeto è grande o le probabilità di transizione sono piccole, l'indovinazione diventa difficile
La stima accurata di eventi rari richiede una grande quantità di dati, il che è impraticabile nella pratica
Sfide Esistenti:
La dimensione dell'alfabeto e l'ordine di dipendenza sono tipicamente elevati
È necessario gestire modelli con dipendenza illimitata e dimensione dell'alfabeto
I metodi tradizionali potrebbero avere difficoltà a stimare le probabilità di tutte le possibili transizioni nel caso di alfabeti grandi
Gli autori propongono un approccio più pratico: concentrarsi sugli eventi più probabili, cioè prevedere i risultati più probabili, attribuendo minore peso agli eventi rari e improbabili. Questo approccio è particolarmente adatto per gestire sequenze con insiemi di simboli grandi o infiniti.
Propone una funzione di indovinazione non parametrica: Con tasso di apprendimento indipendente dalla dimensione dell'alfabeto, applicabile a un'ampia classe di serie temporali categoriche
Stabilisce un quadro teorico: Applicabile a qualsiasi dimensione dell'alfabeto, rilassando i vincoli sulla memoria o sull'ordine
Fornisce condizioni marginali: Che controllano il tasso di convergenza del rischio
Stabilisce limiti inferiori minimax: Provando l'approssimativa optimalità dello stimatore proposto, con limiti inferiori e superiori che coincidono a meno di fattori logaritmici
Considera per la prima volta il caso di alfabeto infinito: Di importanza cruciale quando la dimensione dell'alfabeto non ha un limite superiore a priori o può crescere con la dimensione del campione
Dati due copie indipendenti e identicamente distribuite di processi (Xj)j∈Z e (Yj)j∈Z, l'obiettivo è utilizzare le informazioni dal dataset D per prevedere i valori sull'insieme di indovinazione G.
Per una catena di Markov con spazio degli stati A e matrice di transizione Q, la condizione si semplifica al coefficiente di ergodicità di Dobrushin:
d(Q):=supa,b∈A∥Q(a,⋅)−Q(b,⋅)∥TV<1
Evita la stima esplicita delle probabilità: Non è necessario stimare tutte le probabilità condizionali, concentrandosi solo sui risultati più probabili
Tasso di apprendimento indipendente dalla dimensione dell'alfabeto: Questo è il vantaggio chiave nel trattare alfabeti grandi o infiniti
Disuguaglianze di tipo Dvoretzky-Kiefer-Wolfowitz: Stabilisce nuove disuguaglianze di concentrazione per catene casuali
Quadro unificato: Copre un'ampia classe di modelli di serie temporali
L'articolo cita 26 lavori correlati, coprendo importanti contributi da molteplici campi inclusa la teoria delle catene di Markov, la teoria dell'apprendimento statistico, i sistemi dinamici e la teoria della probabilità, fornendo un solido fondamento teorico per questo lavoro.