2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi

The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.

academic

無限アルファベットを持つカテゴリカル時系列における経路的推測

基本情報

論文ID: 2501.06547
タイトル: Pathwise guessing in categorical time series with unbounded alphabets
著者: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
分類: math.ST math.PR stat.TH
発表日: 2025年10月16日
論文リンク: https://arxiv.org/abs/2501.06547

要約

本論文は、多くの応用において自然に生じる学習問題を研究している。すなわち、カテゴリカルまたはカウント時系列の有限標本が与えられたとき、残りのデータを用いて与えられた部分データの値を正しく推測する確率を（近似的に）最大化する標本関数を学習できるかという問題である。古典的統計推論方法と異なり、本論文の方法は条件付き確率の明示的推定を回避している。著者らは、学習率がアルファベット大きさに無関係な非パラメトリック推測関数を提案し、有限階マルコフ連鎖、特定の隠れマルコフ連鎖、計数過程のポアソン回帰、および一次元ギブス測度を含む広範な時系列モデルクラスを分析している。

研究背景と動機

問題の重要性

実践的応用による駆動：予測と補間は科学における基本的問題であり、カテゴリカル時系列に広く応用されている。特に大規模言語モデルの台頭により、これらのモデルを大規模アルファベットを持つカテゴリカル時系列モデルとして見なすことができる。
従来的方法の限界：
- 古典的方法は全ての遷移確率の点推定に依存している
- アルファベット大きさが大きい場合や遷移確率が小さい場合、推測が困難になる
- 稀な事象の正確な推定には膨大なデータが必要であり、実践的には不可行である
既存の課題：
- アルファベット大きさと依存階数が通常両方とも高い
- 無限の依存性とアルファベット大きさを持つモデルを扱う必要がある
- 従来的方法は大規模アルファベットの場合、全ての可能な遷移の確率推定が困難である

研究動機

著者らは、より実用的なアプローチを提案している。すなわち、最も起こりやすい事象、つまり最も可能性の高い結果の予測に焦点を当て、稀で起こりにくい事象にはより少ない重みを与えるアプローチである。この方法は特に大規模または無限の記号集合を持つ列の処理に適している。

核心的貢献

非パラメトリック推測関数の提案：学習率がアルファベット大きさに無関係であり、広範なカテゴリカル時系列クラスに適用可能
理論的枠組みの確立：任意のアルファベット大きさに適用可能であり、記憶またはメモリ階数の制約を緩和
周辺条件の提供：リスク収束率を制御
ミニマックス下界の確立：提案推定量の近似最適性を証明し、下界と上界が対数因子内で一致
無限アルファベット場合の初めての考察：アルファベット大きさに先験的上界がない場合、または標本大きさとともに増加する場合に重要

方法の詳細

タスク定義

2つの独立で同分布の過程副本 $(X_j)_{j \in \mathbb{Z}}$ と $(Y_j)_{j \in \mathbb{Z}}$ が与えられたとき、データセット $D$ の情報を用いて推測集合 $G$ 上の値を予測することが目標である。

推定量の定義： $f̂^n_{D,G} : A^n \times A^D \to A^G$

超過リスク： $R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)$

モデル構造

核心推定量： $f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}$

ここで計数関数は以下のように定義される： $N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}$

主要な仮定

仮定A： $(X_i)_{i \in \mathbb{Z}}$ を測度 $P$ を持つ定常過程とするとき、以下を満たす場合： $\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0$

ここで変分は以下のように定義される： $\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}$

周辺条件

各 $b \in A^D$ に対して、以下を定義する： $\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}$

周辺は： $\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)$

主要な理論的結果

上界結果（定理3.1）

標本大きさ $n$ が特定の条件を満たす場合： $R(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G}$

収束率（系3.1）

周辺条件が弱い場合： $\delta_n\sqrt{\frac{n}{\log n}} \to 0$ ならば： $R(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}$
周辺条件が強い場合： $\delta_n\sqrt{\frac{n}{\log n}} \to \infty$ ならば： $R(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}$

ミニマックス下界（定理3.2）

2つの場合におけるミニマックス下界を確立している：

周辺が小さい場合： $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}$
周辺が大きい場合： $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}$