2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic

Adivinanza por caminos en series de tiempo categóricas con alfabetos no acotados

Información Básica

  • ID del Artículo: 2501.06547
  • Título: Pathwise guessing in categorical time series with unbounded alphabets
  • Autores: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
  • Clasificación: math.ST math.PR stat.TH
  • Fecha de Publicación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.06547

Resumen

Este artículo estudia un problema de aprendizaje que surge naturalmente en diversas aplicaciones: dada una muestra finita de una serie de tiempo categórica o de conteo, ¿es posible aprender una función de muestra que (aproximadamente) maximice la probabilidad de adivinar correctamente el valor de una parte dada utilizando los datos restantes? A diferencia de los métodos clásicos de inferencia estadística, el enfoque presentado evita la estimación explícita de probabilidades condicionales. Los autores proponen una función de adivinanza no paramétrica cuya tasa de aprendizaje es independiente del tamaño del alfabeto, con análisis que abarca una amplia categoría de modelos de series de tiempo, incluyendo cadenas de Markov de orden finito, ciertas cadenas de Markov ocultas, regresión de Poisson para procesos de conteo y medidas de Gibbs unidimensionales.

Antecedentes y Motivación de la Investigación

Importancia del Problema

  1. Impulsado por Aplicaciones Prácticas: La predicción e interpolación son problemas fundamentales en la ciencia, con aplicaciones generalizadas en series de tiempo categóricas, particularmente en el contexto del auge de los modelos de lenguaje grandes, que pueden considerarse como modelos de series de tiempo categóricas con alfabetos grandes.
  2. Limitaciones de Métodos Tradicionales:
    • Los métodos clásicos dependen de estimaciones puntuales de todas las probabilidades de transición
    • Cuando el tamaño del alfabeto es grande o las probabilidades de transición son pequeñas, la adivinanza se vuelve difícil
    • La estimación precisa de eventos raros requiere grandes cantidades de datos, lo que es impracticable en la práctica
  3. Desafíos Existentes:
    • El tamaño del alfabeto y el orden de dependencia suelen ser ambos altos
    • Es necesario manejar modelos con dependencia no acotada y tamaño de alfabeto no acotado
    • Los métodos tradicionales pueden tener dificultades para estimar probabilidades de todas las transiciones posibles en casos de alfabeto grande

Motivación de la Investigación

Los autores proponen un enfoque más práctico: enfocarse en los eventos más probables, es decir, predecir el resultado más probable, mientras se asigna menor peso a eventos raros e improbables. Este enfoque es particularmente adecuado para manejar secuencias con conjuntos de símbolos grandes o infinitos.

Contribuciones Principales

  1. Propone una función de adivinanza no paramétrica: La tasa de aprendizaje es independiente del tamaño del alfabeto, aplicable a una amplia categoría de series de tiempo categóricas
  2. Establece un marco teórico: Aplicable a tamaños de alfabeto arbitrarios, relajando las restricciones sobre memoria u orden
  3. Proporciona condiciones de margen: Que controlan la tasa de convergencia del riesgo
  4. Establece límites inferiores minimax: Demostrando la optimalidad aproximada del estimador propuesto, con límites inferiores y superiores coincidiendo dentro de factores logarítmicos
  5. Considera por primera vez el caso de alfabeto infinito: De importancia cuando el tamaño del alfabeto no tiene cota superior a priori o puede crecer con el tamaño de la muestra

Explicación Detallada de la Metodología

Definición de la Tarea

Dados dos procesos independientes e idénticamente distribuidos (Xj)jZ(X_j)_{j \in \mathbb{Z}} e (Yj)jZ(Y_j)_{j \in \mathbb{Z}}, el objetivo es utilizar la información del conjunto de datos DD para predecir valores en el conjunto de adivinanza GG.

Definición del Estimador: f^D,Gn:An×ADAG\hat{f}^n_{D,G} : A^n \times A^D \to A^G

Riesgo Excesivo: R(f^D,Gn):=supbAD(P~(f^D,Gn(YD)YGYD=b)infaAGP~(aYGYD=b))P~(YD=b)R(\hat{f}^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(\hat{f}^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)

Arquitectura del Modelo

Estimador Principal: f^D,Gn[X1n](b):=argmaxaAGND,Gn[X1n](b,a)ND,Gn[X1n](b)\hat{f}^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}

donde la función de conteo se define como: ND,Gn[X1n](b,a):=i=0n11{XθiD=b,XθiG=a}N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}

Supuestos Principales

Supuesto A: Sea (Xi)iZ(X_i)_{i \in \mathbb{Z}} un proceso estacionario con medida PP. Se satisface si: Γ(P):=j=0(1Varj(p))>0\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0

donde la variación se define como: Varn(p):=sup{12aAp(ax)p(ay):x,yAZ,xi=yi,in}\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}

Condiciones de Margen

Para cada bADb \in A^D, se define: δD,G(b)=inf{P(XGc,XD=b)infaAGP(XGa,XD=b)>0:cAG}\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}

El margen es: δD,G:=infbADδD,G(b)\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)

Resultados Teóricos Principales

Resultados de Cota Superior (Teorema 3.1)

Si el tamaño de muestra nn satisface condiciones específicas, entonces: R(f^D,Gn)εβD,GR(\hat{f}^n_{D,G}) \leq \varepsilon \land \beta_{D,G}

Tasas de Convergencia (Corolario 3.1)

  1. Cuando la condición de margen es débil: Si δnnlogn0\delta_n\sqrt{\frac{n}{\log n}} \to 0, entonces: R(f^D,Gn)12lognnβD,GR(\hat{f}^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}
  2. Cuando la condición de margen es fuerte: Si δnnlogn\delta_n\sqrt{\frac{n}{\log n}} \to \infty, entonces: R(f^D,Gn)exp(Γ2nδn28(G+D)2)βD,GR(\hat{f}^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}

Cota Inferior Minimax (Teorema 3.2)

Se establecen cotas inferiores minimax en dos casos:

  1. Caso de margen pequeño: infψnΨnsupPPnR(ψn;P)e1n(14)G+D\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}
  2. Caso de margen grande: infψnΨnsupPQnR(ψn;P)δnenδn2(14)D+G\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}

Ejemplos de Aplicación

El artículo demuestra que el Supuesto A es aplicable a diversos modelos importantes:

Cadenas de Markov

Para una cadena de Markov con espacio de estados AA y matriz de transición QQ, la condición se simplifica al coeficiente de ergodicidad de Dobrushin: d(Q):=supa,bAQ(a,)Q(b,)TV<1d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1

Modelos Autorregresivos

Probabilidades de transición de un proceso autorregresivo binario: p(ax)=Υ(aj=1ξjxj+aξ0)p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right)

Regresión de Poisson

Modelo de regresión de Poisson para series de tiempo de conteo: p(ax)=ev(x)v(x)aa!p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!} donde v(x)=exp(j=1ξjmin{xj,c})v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right)

Medidas de Gibbs

Las medidas de Gibbs unidimensionales satisfacen: P(XΛ=xΛXΛc=yΛc)=exp(βHΛΦ(xΛyΛc))ZΛΦ(y)P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)}

Innovaciones Técnicas

  1. Evita la estimación explícita de probabilidades: No requiere estimar todas las probabilidades condicionales, solo se enfoca en los resultados más probables
  2. Tasa de aprendizaje independiente del tamaño del alfabeto: Esta es la ventaja clave para manejar alfabetos grandes o infinitos
  3. Desigualdad de tipo Dvoretzky-Kiefer-Wolfowitz: Se establecen nuevas desigualdades de concentración para cadenas aleatorias
  4. Marco unificado: Abarca una amplia categoría de modelos de series de tiempo

Técnicas Experimentales y de Prueba

Técnicas Principales de Prueba

  1. Desigualdades de concentración: Uso de desigualdades de Dvoretzky-Kiefer-Wolfowitz modificadas
  2. Método de acoplamiento: Para controlar diferencias de probabilidad bajo diferentes condiciones
  3. Argumentos de tipo Le Cam: Para establecer cotas inferiores minimax
  4. Análisis variacional: Control de variación a través de oscilación de funciones potenciales

Lemas Clave

  • Proposición 3.1: Establece la relación entre βD,G\beta_{D,G} y el tamaño de los conjuntos
  • Proposición 4.1: Proporciona cotas de variación concretas para medidas de Gibbs
  • Teorema A.1: Extensión de la desigualdad de tipo Dvoretzky-Kiefer-Wolfowitz

Trabajo Relacionado

Métodos Tradicionales

  1. Predicción clásica: Basada en estimaciones puntuales de probabilidades de transición
  2. Marco de aprendizaje PAC: Estudia tasas óptimas para aprender probabilidades condicionales
  3. Modelos de regresión paramétrica: Ofrecen flexibilidad pero con supuestos restrictivos

Ventajas de Este Trabajo

  1. Maneja alfabetos grandes: La tasa de aprendizaje no depende del tamaño del alfabeto
  2. Método no paramétrico: Evita los supuestos restrictivos de modelos paramétricos
  3. Garantías teóricas: Proporciona tasas de convergencia aproximadamente óptimas

Conclusiones y Discusión

Conclusiones Principales

  1. Se propone un método de adivinanza no paramétrico aplicable a alfabetos no acotados
  2. Se establece una tasa de aprendizaje independiente del tamaño del alfabeto
  3. Se demuestra la optimalidad aproximada del método (dentro de factores logarítmicos)
  4. Se proporciona un marco unificado para una amplia categoría de modelos de series de tiempo

Limitaciones

  1. Verificación del Supuesto A: Verificar el Supuesto A en aplicaciones prácticas puede ser desafiante
  2. Desempeño en muestras finitas: Los resultados teóricos son asintóticos; el comportamiento en muestras finitas puede diferir
  3. Complejidad computacional: El artículo no discute en detalle la complejidad computacional del algoritmo

Direcciones Futuras

  1. Implementación algorítmica: Desarrollar implementaciones algorítmicas eficientes
  2. Aplicaciones prácticas: Verificar el método en aplicaciones prácticas como modelos de lenguaje grandes
  3. Extensión a otras funciones de pérdida: Considerar diferentes medidas de riesgo

Evaluación Profunda

Fortalezas

  1. Contribución teórica significativa: Aborda por primera vez el caso de alfabeto infinito, estableciendo un marco teórico completo
  2. Metodología innovadora: El enfoque de evitar estimación explícita de probabilidades tiene valor práctico
  3. Análisis profundo: Proporciona cotas superiores e inferiores coincidentes, demostrando optimalidad aproximada
  4. Amplio rango de aplicabilidad: El marco unificado abarca múltiples modelos importantes de series de tiempo

Deficiencias

  1. Falta de verificación experimental: El artículo es puramente teórico, sin experimentos numéricos o casos de aplicación práctica
  2. Detalles algorítmicos insuficientes: No discute en detalle la implementación práctica y complejidad computacional
  3. Dificultad en verificación de supuestos: El método para verificar el Supuesto A en la práctica no es claro

Impacto

  1. Alto valor teórico: Proporciona nuevas herramientas teóricas para manejar series de tiempo con alfabetos grandes
  2. Gran potencial práctico: Tiene importancia significativa en aplicaciones modernas como modelos de lenguaje grandes
  3. Generalidad del método: El marco puede ser aplicable a otros problemas relacionados

Escenarios de Aplicación

  1. Modelos de lenguaje grandes: Tareas de generación de texto con vocabularios muy grandes
  2. Bioinformática: Análisis de secuencias de ADN/proteínas
  3. Análisis de tráfico de red: Predicción de comportamiento de red con espacio de estados grande
  4. Series de tiempo financieras: Análisis de datos de comercio de alta frecuencia

Referencias

El artículo cita 26 referencias relacionadas, abarcando múltiples campos incluyendo teoría de cadenas de Markov, teoría del aprendizaje estadístico, sistemas dinámicos y teoría de probabilidades, proporcionando una base teórica sólida para este trabajo.