The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
論文ID : 2501.06547タイトル : Pathwise guessing in categorical time series with unbounded alphabets著者 : J.-R. Chazottes, S. Gallo, D. Y. Takahashi分類 : math.ST math.PR stat.TH発表日 : 2025年10月16日論文リンク : https://arxiv.org/abs/2501.06547 本論文は、多くの応用において自然に生じる学習問題を研究している。すなわち、カテゴリカルまたはカウント時系列の有限標本が与えられたとき、残りのデータを用いて与えられた部分データの値を正しく推測する確率を(近似的に)最大化する標本関数を学習できるかという問題である。古典的統計推論方法と異なり、本論文の方法は条件付き確率の明示的推定を回避している。著者らは、学習率がアルファベット大きさに無関係な非パラメトリック推測関数を提案し、有限階マルコフ連鎖、特定の隠れマルコフ連鎖、計数過程のポアソン回帰、および一次元ギブス測度を含む広範な時系列モデルクラスを分析している。
実践的応用による駆動 :予測と補間は科学における基本的問題であり、カテゴリカル時系列に広く応用されている。特に大規模言語モデルの台頭により、これらのモデルを大規模アルファベットを持つカテゴリカル時系列モデルとして見なすことができる。従来的方法の限界 :古典的方法は全ての遷移確率の点推定に依存している アルファベット大きさが大きい場合や遷移確率が小さい場合、推測が困難になる 稀な事象の正確な推定には膨大なデータが必要であり、実践的には不可行である 既存の課題 :アルファベット大きさと依存階数が通常両方とも高い 無限の依存性とアルファベット大きさを持つモデルを扱う必要がある 従来的方法は大規模アルファベットの場合、全ての可能な遷移の確率推定が困難である 著者らは、より実用的なアプローチを提案している。すなわち、最も起こりやすい事象、つまり最も可能性の高い結果の予測に焦点を当て、稀で起こりにくい事象にはより少ない重みを与えるアプローチである。この方法は特に大規模または無限の記号集合を持つ列の処理に適している。
非パラメトリック推測関数の提案 :学習率がアルファベット大きさに無関係であり、広範なカテゴリカル時系列クラスに適用可能理論的枠組みの確立 :任意のアルファベット大きさに適用可能であり、記憶またはメモリ階数の制約を緩和周辺条件の提供 :リスク収束率を制御ミニマックス下界の確立 :提案推定量の近似最適性を証明し、下界と上界が対数因子内で一致無限アルファベット場合の初めての考察 :アルファベット大きさに先験的上界がない場合、または標本大きさとともに増加する場合に重要2つの独立で同分布の過程副本 ( X j ) j ∈ Z (X_j)_{j \in \mathbb{Z}} ( X j ) j ∈ Z と ( Y j ) j ∈ Z (Y_j)_{j \in \mathbb{Z}} ( Y j ) j ∈ Z が与えられたとき、データセット D D D の情報を用いて推測集合 G G G 上の値を予測することが目標である。
推定量の定義 :
f ^ D , G n : A n × A D → A G f̂^n_{D,G} : A^n \times A^D \to A^G f ^ D , G n : A n × A D → A G
超過リスク :
R ( f ^ D , G n ) : = sup b ∈ A D ( P ~ ( f ^ D , G n ( Y D ) ≠ Y G ∣ Y D = b ) − inf a ∈ A G P ~ ( a ≠ Y G ∣ Y D = b ) ) P ~ ( Y D = b ) R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b) R ( f ^ D , G n ) := sup b ∈ A D ( P ~ ( f ^ D , G n ( Y D ) = Y G ∣ Y D = b ) − inf a ∈ A G P ~ ( a = Y G ∣ Y D = b ) ) P ~ ( Y D = b )
核心推定量 :
f ^ D , G n [ X 1 n ] ( b ) : = arg max a ∈ A G N D , G n [ X 1 n ] ( b , a ) N D , G n [ X 1 n ] ( b ) f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)} f ^ D , G n [ X 1 n ] ( b ) := arg max a ∈ A G N D , G n [ X 1 n ] ( b ) N D , G n [ X 1 n ] ( b , a )
ここで計数関数は以下のように定義される:
N D , G n [ X 1 n ] ( b , a ) : = ∑ i = 0 n − 1 1 { X θ i D = b , X θ i G = a } N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\} N D , G n [ X 1 n ] ( b , a ) := ∑ i = 0 n − 1 1 { X θ i D = b , X θ i G = a }
仮定A :( X i ) i ∈ Z (X_i)_{i \in \mathbb{Z}} ( X i ) i ∈ Z を測度 P P P を持つ定常過程とするとき、以下を満たす場合:
Γ ( P ) : = ∏ j = 0 ∞ ( 1 − Var j ( p ) ) > 0 \Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0 Γ ( P ) := ∏ j = 0 ∞ ( 1 − Var j ( p )) > 0
ここで変分は以下のように定義される:
Var n ( p ) : = sup { 1 2 ∑ a ∈ A ∣ p ( a ∣ x ) − p ( a ∣ y ) ∣ : x , y ∈ A Z − , x i = y i , i ≥ − n } \text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\} Var n ( p ) := sup { 2 1 ∑ a ∈ A ∣ p ( a ∣ x ) − p ( a ∣ y ) ∣ : x , y ∈ A Z − , x i = y i , i ≥ − n }
各 b ∈ A D b \in A^D b ∈ A D に対して、以下を定義する:
δ D , G ( b ) = inf { P ( X G ≠ c , X D = b ) − inf a ∈ A G P ( X G ≠ a , X D = b ) > 0 : c ∈ A G } \delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\} δ D , G ( b ) = inf { P ( X G = c , X D = b ) − inf a ∈ A G P ( X G = a , X D = b ) > 0 : c ∈ A G }
周辺は:δ D , G : = inf b ∈ A D δ D , G ( b ) \delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b) δ D , G := inf b ∈ A D δ D , G ( b )
標本大きさ n n n が特定の条件を満たす場合:
R ( f ^ D , G n ) ≤ ε ∧ β D , G R(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G} R ( f ^ D , G n ) ≤ ε ∧ β D , G
周辺条件が弱い場合 :δ n n log n → 0 \delta_n\sqrt{\frac{n}{\log n}} \to 0 δ n l o g n n → 0 ならば:
R ( f ^ D , G n ) ≤ 1 2 log n n ∧ β D , G R(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G} R ( f ^ D , G n ) ≤ 2 1 n l o g n ∧ β D , G 周辺条件が強い場合 :δ n n log n → ∞ \delta_n\sqrt{\frac{n}{\log n}} \to \infty δ n l o g n n → ∞ ならば:
R ( f ^ D , G n ) ≤ exp ( − Γ 2 n δ n 2 8 ( ∣ G ∣ + ∣ D ∣ ) 2 ) ∧ β D , G R(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G} R ( f ^ D , G n ) ≤ exp ( − 8 ( ∣ G ∣ + ∣ D ∣ ) 2 Γ 2 n δ n 2 ) ∧ β D , G 2つの場合におけるミニマックス下界を確立している:
周辺が小さい場合 :
inf ψ n ∈ Ψ n sup P ∈ P n R ( ψ n ; P ) ≥ e − 1 n ( 1 4 ) ∣ G ∣ + ∣ D ∣ \inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|} inf ψ n ∈ Ψ n sup P ∈ P n R ( ψ n ; P ) ≥ n e − 1 ( 4 1 ) ∣ G ∣ + ∣ D ∣ 周辺が大きい場合 :
inf ψ n ∈ Ψ n sup P ∈ Q n R ( ψ n ; P ) ≥ δ n e − n δ n 2 ( 1 4 ) ∣ D ∣ + ∣ G ∣ \inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|} inf ψ n ∈ Ψ n sup P ∈ Q n R ( ψ n ; P ) ≥ δ n e − n δ n 2 ( 4 1 ) ∣ D ∣ + ∣ G ∣ 論文は仮定Aが多くの重要なモデルに適用可能であることを示している:
状態空間 A A A と遷移行列 Q Q Q を持つマルコフ連鎖の場合、条件はドブルシン遍歴係数に簡略化される:
d ( Q ) : = sup a , b ∈ A ∥ Q ( a , ⋅ ) − Q ( b , ⋅ ) ∥ T V < 1 d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1 d ( Q ) := sup a , b ∈ A ∥ Q ( a , ⋅ ) − Q ( b , ⋅ ) ∥ T V < 1
二値自己回帰過程の遷移確率:
p ( a ∣ x ) = Υ ( a ∑ j = 1 ∞ ξ j x − j + a ξ 0 ) p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right) p ( a ∣ x ) = Υ ( a ∑ j = 1 ∞ ξ j x − j + a ξ 0 )
計数時系列のポアソン回帰モデル:
p ( a ∣ x ) = e − v ( x ) v ( x ) a a ! p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!} p ( a ∣ x ) = a ! e − v ( x ) v ( x ) a
ここで v ( x ) = exp ( ∑ j = 1 ∞ ξ j min { x − j , c } ) v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right) v ( x ) = exp ( ∑ j = 1 ∞ ξ j min { x − j , c } )
一次元ギブス測度は以下を満たす:
P ( X Λ = x Λ ∣ X Λ c = y Λ c ) = exp ( − β H Λ Φ ( x Λ y Λ c ) ) Z Λ Φ ( y ) P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)} P ( X Λ = x Λ ∣ X Λ c = y Λ c ) = Z Λ Φ ( y ) e x p ( − β H Λ Φ ( x Λ y Λ c ))
明示的確率推定の回避 :全ての条件付き確率を推定する必要がなく、最も可能性の高い結果のみに焦点を当てるアルファベット大きさに無関係な学習率 :大規模または無限アルファベットを扱う際の主要な利点ドヴォレツキー・キーファー・ウォルフォウィッツ型不等式 :ランダム連鎖のための新しい集中不等式の確立統一的枠組み :広範な時系列モデルクラスを包含集中不等式 :修正されたドヴォレツキー・キーファー・ウォルフォウィッツ不等式の使用カップリング方法 :異なる条件下での確率差を制御するために使用ル・カム型論証 :ミニマックス下界の確立に使用変分分析 :ポテンシャル関数の振動による変分制御命題3.1 :β D , G \beta_{D,G} β D , G と集合大きさの関係を確立命題4.1 :ギブス測度に対する具体的な変分界を提供定理A.1 :ドヴォレツキー・キーファー・ウォルフォウィッツ型不等式の拡張古典的予測 :遷移確率の点推定に基づくPAC学習枠組み :条件付き確率学習の最適率を研究パラメトリック回帰モデル :柔軟性を持つが仮定が制限的大規模アルファベットの処理 :学習率がアルファベット大きさに依存しない非パラメトリック方法 :パラメトリックモデルの制限的仮定を回避理論的保証 :近似最適な収束率を提供無限アルファベットに適用可能な非パラメトリック推測方法を提案 アルファベット大きさに無関係な学習率を確立 方法の近似最適性を証明(対数因子内) 広範な時系列モデルクラスに対する統一的枠組みを提供 仮定Aの検証 :実践的応用における仮定Aの検証は困難である可能性有限標本性能 :理論的結果は漸近的であり、有限標本の振る舞いは異なる可能性計算複雑性 :論文はアルゴリズムの計算複雑性について詳細に論じていないアルゴリズム実装 :効率的なアルゴリズム実装の開発実践的応用 :大規模言語モデルなどの実践的応用における方法の検証他の損失関数への拡張 :異なるリスク尺度の考慮理論的貢献が顕著 :無限アルファベット場合を初めて扱い、完全な理論的枠組みを確立方法の革新性が強い :明示的確率推定を回避するアプローチは実用的価値を持つ分析が深い :上界と一致する下界を提供し、近似最適性を証明適用範囲が広い :統一的枠組みが多くの重要な時系列モデルを包含実験検証の欠如 :論文は純理論的であり、数値実験や実践的応用例を提供していないアルゴリズム詳細の不足 :実装と計算複雑性について詳細に論じていない仮定検証の困難性 :仮定Aの実践的検証方法が不明確理論的価値が高い :大規模アルファベット時系列を扱うための新しい理論的ツールを提供実用的可能性が大きい :大規模言語モデルなどの現代的応用において重要な意義を持つ方法の汎用性 :枠組みが他の関連問題に適用される可能性大規模言語モデル :語彙が大きいテキスト生成タスク生物情報学 :DNA/タンパク質配列分析ネットワークトラフィック分析 :大規模状態空間を持つネットワーク行動予測金融時系列 :高頻度取引データ分析論文は26篇の関連文献を引用しており、マルコフ連鎖理論、統計学習理論、力学系、確率論など複数の分野の重要な研究をカバーしており、本論文の理論的基礎に堅固な支援を提供している。