Pathwise guessing in categorical time series with unbounded alphabets
Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic
Adivinanza por caminos en series de tiempo categóricas con alfabetos no acotados
Este artículo estudia un problema de aprendizaje que surge naturalmente en diversas aplicaciones: dada una muestra finita de una serie de tiempo categórica o de conteo, ¿es posible aprender una función de muestra que (aproximadamente) maximice la probabilidad de adivinar correctamente el valor de una parte dada utilizando los datos restantes? A diferencia de los métodos clásicos de inferencia estadística, el enfoque presentado evita la estimación explícita de probabilidades condicionales. Los autores proponen una función de adivinanza no paramétrica cuya tasa de aprendizaje es independiente del tamaño del alfabeto, con análisis que abarca una amplia categoría de modelos de series de tiempo, incluyendo cadenas de Markov de orden finito, ciertas cadenas de Markov ocultas, regresión de Poisson para procesos de conteo y medidas de Gibbs unidimensionales.
Impulsado por Aplicaciones Prácticas: La predicción e interpolación son problemas fundamentales en la ciencia, con aplicaciones generalizadas en series de tiempo categóricas, particularmente en el contexto del auge de los modelos de lenguaje grandes, que pueden considerarse como modelos de series de tiempo categóricas con alfabetos grandes.
Limitaciones de Métodos Tradicionales:
Los métodos clásicos dependen de estimaciones puntuales de todas las probabilidades de transición
Cuando el tamaño del alfabeto es grande o las probabilidades de transición son pequeñas, la adivinanza se vuelve difícil
La estimación precisa de eventos raros requiere grandes cantidades de datos, lo que es impracticable en la práctica
Desafíos Existentes:
El tamaño del alfabeto y el orden de dependencia suelen ser ambos altos
Es necesario manejar modelos con dependencia no acotada y tamaño de alfabeto no acotado
Los métodos tradicionales pueden tener dificultades para estimar probabilidades de todas las transiciones posibles en casos de alfabeto grande
Los autores proponen un enfoque más práctico: enfocarse en los eventos más probables, es decir, predecir el resultado más probable, mientras se asigna menor peso a eventos raros e improbables. Este enfoque es particularmente adecuado para manejar secuencias con conjuntos de símbolos grandes o infinitos.
Propone una función de adivinanza no paramétrica: La tasa de aprendizaje es independiente del tamaño del alfabeto, aplicable a una amplia categoría de series de tiempo categóricas
Establece un marco teórico: Aplicable a tamaños de alfabeto arbitrarios, relajando las restricciones sobre memoria u orden
Proporciona condiciones de margen: Que controlan la tasa de convergencia del riesgo
Establece límites inferiores minimax: Demostrando la optimalidad aproximada del estimador propuesto, con límites inferiores y superiores coincidiendo dentro de factores logarítmicos
Considera por primera vez el caso de alfabeto infinito: De importancia cuando el tamaño del alfabeto no tiene cota superior a priori o puede crecer con el tamaño de la muestra
Dados dos procesos independientes e idénticamente distribuidos (Xj)j∈Z e (Yj)j∈Z, el objetivo es utilizar la información del conjunto de datos D para predecir valores en el conjunto de adivinanza G.
Para una cadena de Markov con espacio de estados A y matriz de transición Q, la condición se simplifica al coeficiente de ergodicidad de Dobrushin:
d(Q):=supa,b∈A∥Q(a,⋅)−Q(b,⋅)∥TV<1
Evita la estimación explícita de probabilidades: No requiere estimar todas las probabilidades condicionales, solo se enfoca en los resultados más probables
Tasa de aprendizaje independiente del tamaño del alfabeto: Esta es la ventaja clave para manejar alfabetos grandes o infinitos
Desigualdad de tipo Dvoretzky-Kiefer-Wolfowitz: Se establecen nuevas desigualdades de concentración para cadenas aleatorias
Marco unificado: Abarca una amplia categoría de modelos de series de tiempo
El artículo cita 26 referencias relacionadas, abarcando múltiples campos incluyendo teoría de cadenas de Markov, teoría del aprendizaje estadístico, sistemas dinámicos y teoría de probabilidades, proporcionando una base teórica sólida para este trabajo.