The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
论文ID : 2501.06547标题 : Pathwise guessing in categorical time series with unbounded alphabets作者 : J.-R. Chazottes, S. Gallo, D. Y. Takahashi分类 : math.ST math.PR stat.TH发表时间 : October 16, 2025论文链接 : https://arxiv.org/abs/2501.06547 该论文研究了一个在多种应用中自然产生的学习问题:给定分类或计数时间序列的有限样本,能否学习一个样本函数,使其(近似)最大化使用剩余部分数据正确猜测给定部分数据值的概率?与经典统计推断方法不同,本文方法避免显式估计条件概率。作者提出了一个学习率与字母表大小无关的非参数猜测函数,分析涵盖了包括有限阶马尔可夫链、某些隐马尔可夫链、计数过程的泊松回归和一维吉布斯测度在内的广泛时间序列模型类别。
实际应用驱动 :预测和插值是科学中的基础问题,在分类时间序列中有广泛应用,特别是在大语言模型兴起的背景下,这些模型可以视为具有大字母表的分类时间序列模型。传统方法的局限性 :经典方法依赖于估计所有转移概率的逐点估计 当字母表大小很大或转移概率很小时,猜测变得困难 准确估计稀有事件需要大量数据,这在实践中不可行 现有挑战 :字母表大小和依赖阶数通常都很高 需要处理无界依赖和字母表大小的模型 传统方法在大字母表情况下可能难以估计所有可能转移的概率 作者提出了一种更实用的方法:专注于最可能发生的事件,即预测最可能的结果,而对稀有、不太可能的事件给予较少权重。这种方法特别适用于处理具有大型或无限符号集的序列。
提出了非参数猜测函数 :学习率与字母表大小无关,适用于广泛的分类时间序列类别建立了理论框架 :适用于任意字母表大小,放宽了对记忆或阶数的约束提供了边际条件 :控制风险的收敛率建立了minimax下界 :证明了所提估计器的近似最优性,下界与上界在对数因子内匹配首次考虑无限字母表情况 :当字母表大小没有先验上界或可随样本大小增长时具有重要意义给定两个独立的同分布过程副本 ( X j ) j ∈ Z (X_j)_{j \in \mathbb{Z}} ( X j ) j ∈ Z 和 ( Y j ) j ∈ Z (Y_j)_{j \in \mathbb{Z}} ( Y j ) j ∈ Z ,目标是使用数据集 D D D 的信息预测猜测集 G G G 上的值。
估计器定义 :
f ^ D , G n : A n × A D → A G f̂^n_{D,G} : A^n \times A^D \to A^G f ^ D , G n : A n × A D → A G
超额风险 :
R ( f ^ D , G n ) : = sup b ∈ A D ( P ~ ( f ^ D , G n ( Y D ) ≠ Y G ∣ Y D = b ) − inf a ∈ A G P ~ ( a ≠ Y G ∣ Y D = b ) ) P ~ ( Y D = b ) R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b) R ( f ^ D , G n ) := sup b ∈ A D ( P ~ ( f ^ D , G n ( Y D ) = Y G ∣ Y D = b ) − inf a ∈ A G P ~ ( a = Y G ∣ Y D = b ) ) P ~ ( Y D = b )
核心估计器 :
f ^ D , G n [ X 1 n ] ( b ) : = arg max a ∈ A G N D , G n [ X 1 n ] ( b , a ) N D , G n [ X 1 n ] ( b ) f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)} f ^ D , G n [ X 1 n ] ( b ) := arg max a ∈ A G N D , G n [ X 1 n ] ( b ) N D , G n [ X 1 n ] ( b , a )
其中计数函数定义为:
N D , G n [ X 1 n ] ( b , a ) : = ∑ i = 0 n − 1 1 { X θ i D = b , X θ i G = a } N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\} N D , G n [ X 1 n ] ( b , a ) := ∑ i = 0 n − 1 1 { X θ i D = b , X θ i G = a }
假设A :设 ( X i ) i ∈ Z (X_i)_{i \in \mathbb{Z}} ( X i ) i ∈ Z 是具有测度 P P P 的平稳过程,如果满足:
Γ ( P ) : = ∏ j = 0 ∞ ( 1 − Var j ( p ) ) > 0 \Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0 Γ ( P ) := ∏ j = 0 ∞ ( 1 − Var j ( p )) > 0
其中变分定义为:
Var n ( p ) : = sup { 1 2 ∑ a ∈ A ∣ p ( a ∣ x ) − p ( a ∣ y ) ∣ : x , y ∈ A Z − , x i = y i , i ≥ − n } \text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\} Var n ( p ) := sup { 2 1 ∑ a ∈ A ∣ p ( a ∣ x ) − p ( a ∣ y ) ∣ : x , y ∈ A Z − , x i = y i , i ≥ − n }
对于每个 b ∈ A D b \in A^D b ∈ A D ,定义:
δ D , G ( b ) = inf { P ( X G ≠ c , X D = b ) − inf a ∈ A G P ( X G ≠ a , X D = b ) > 0 : c ∈ A G } \delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\} δ D , G ( b ) = inf { P ( X G = c , X D = b ) − inf a ∈ A G P ( X G = a , X D = b ) > 0 : c ∈ A G }
边际为:δ D , G : = inf b ∈ A D δ D , G ( b ) \delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b) δ D , G := inf b ∈ A D δ D , G ( b )
如果样本大小 n n n 满足特定条件,则:
R ( f ^ D , G n ) ≤ ε ∧ β D , G R(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G} R ( f ^ D , G n ) ≤ ε ∧ β D , G
当边际条件较弱时 :如果 δ n n log n → 0 \delta_n\sqrt{\frac{n}{\log n}} \to 0 δ n l o g n n → 0 ,则:
R ( f ^ D , G n ) ≤ 1 2 log n n ∧ β D , G R(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G} R ( f ^ D , G n ) ≤ 2 1 n l o g n ∧ β D , G 当边际条件较强时 :如果 δ n n log n → ∞ \delta_n\sqrt{\frac{n}{\log n}} \to \infty δ n l o g n n → ∞ ,则:
R ( f ^ D , G n ) ≤ exp ( − Γ 2 n δ n 2 8 ( ∣ G ∣ + ∣ D ∣ ) 2 ) ∧ β D , G R(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G} R ( f ^ D , G n ) ≤ exp ( − 8 ( ∣ G ∣ + ∣ D ∣ ) 2 Γ 2 n δ n 2 ) ∧ β D , G 建立了两种情况下的minimax下界:
边际较小情况 :
inf ψ n ∈ Ψ n sup P ∈ P n R ( ψ n ; P ) ≥ e − 1 n ( 1 4 ) ∣ G ∣ + ∣ D ∣ \inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|} inf ψ n ∈ Ψ n sup P ∈ P n R ( ψ n ; P ) ≥ n e − 1 ( 4 1 ) ∣ G ∣ + ∣ D ∣ 边际较大情况 :
inf ψ n ∈ Ψ n sup P ∈ Q n R ( ψ n ; P ) ≥ δ n e − n δ n 2 ( 1 4 ) ∣ D ∣ + ∣ G ∣ \inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|} inf ψ n ∈ Ψ n sup P ∈ Q n R ( ψ n ; P ) ≥ δ n e − n δ n 2 ( 4 1 ) ∣ D ∣ + ∣ G ∣ 论文展示了假设A适用于多种重要模型:
对于状态空间 A A A 和转移矩阵 Q Q Q 的马尔可夫链,条件简化为Dobrushin遍历系数:
d ( Q ) : = sup a , b ∈ A ∥ Q ( a , ⋅ ) − Q ( b , ⋅ ) ∥ T V < 1 d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1 d ( Q ) := sup a , b ∈ A ∥ Q ( a , ⋅ ) − Q ( b , ⋅ ) ∥ T V < 1
二元自回归过程的转移概率:
p ( a ∣ x ) = Υ ( a ∑ j = 1 ∞ ξ j x − j + a ξ 0 ) p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right) p ( a ∣ x ) = Υ ( a ∑ j = 1 ∞ ξ j x − j + a ξ 0 )
计数时间序列的泊松回归模型:
p ( a ∣ x ) = e − v ( x ) v ( x ) a a ! p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!} p ( a ∣ x ) = a ! e − v ( x ) v ( x ) a
其中 v ( x ) = exp ( ∑ j = 1 ∞ ξ j min { x − j , c } ) v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right) v ( x ) = exp ( ∑ j = 1 ∞ ξ j min { x − j , c } )
一维吉布斯测度满足:
P ( X Λ = x Λ ∣ X Λ c = y Λ c ) = exp ( − β H Λ Φ ( x Λ y Λ c ) ) Z Λ Φ ( y ) P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)} P ( X Λ = x Λ ∣ X Λ c = y Λ c ) = Z Λ Φ ( y ) e x p ( − β H Λ Φ ( x Λ y Λ c ))
避免显式概率估计 :不需要估计所有条件概率,只关注最可能的结果字母表大小无关的学习率 :这是处理大型或无限字母表的关键优势Dvoretzky-Kiefer-Wolfowitz型不等式 :为随机链建立了新的集中不等式统一框架 :涵盖了广泛的时间序列模型类别集中不等式 :使用修改的Dvoretzky-Kiefer-Wolfowitz不等式耦合方法 :用于控制不同条件下的概率差异Le Cam型论证 :用于建立minimax下界变分分析 :通过势函数的振荡控制变分命题3.1 :建立了 β D , G \beta_{D,G} β D , G 与集合大小的关系命题4.1 :为吉布斯测度提供了具体的变分界定理A.1 :Dvoretzky-Kiefer-Wolfowitz型不等式的扩展经典预测 :基于转移概率的逐点估计PAC学习框架 :研究学习条件概率的最优率参数回归模型 :具有灵活性但假设限制性强处理大字母表 :学习率不依赖于字母表大小非参数方法 :避免了参数模型的限制性假设理论保证 :提供了近似最优的收敛率提出了适用于无界字母表的非参数猜测方法 建立了与字母表大小无关的学习率 证明了方法的近似最优性(在对数因子内) 为广泛的时间序列模型类别提供了统一框架 假设A的验证 :在实际应用中验证假设A可能具有挑战性有限样本性能 :理论结果是渐近的,有限样本行为可能不同计算复杂性 :论文未详细讨论算法的计算复杂性算法实现 :开发高效的算法实现实际应用 :在大语言模型等实际应用中验证方法扩展到其他损失函数 :考虑不同的风险度量理论贡献显著 :首次处理无限字母表情况,建立了完整的理论框架方法创新性强 :避免显式概率估计的思路具有实用价值分析深入 :提供了上界和匹配的下界,证明了近似最优性适用范围广 :统一框架涵盖了多种重要的时间序列模型缺乏实验验证 :论文纯理论,未提供数值实验或实际应用案例算法细节不足 :未详细讨论实际实现和计算复杂性假设验证困难 :假设A在实践中的验证方法不明确理论价值高 :为处理大字母表时间序列提供了新的理论工具实用潜力大 :在大语言模型等现代应用中具有重要意义方法通用性 :框架可能适用于其他相关问题大语言模型 :词汇表很大的文本生成任务生物信息学 :DNA/蛋白质序列分析网络流量分析 :具有大状态空间的网络行为预测金融时间序列 :高频交易数据分析论文引用了26篇相关文献,涵盖了马尔可夫链理论、统计学习理论、动力系统和概率论等多个领域的重要工作,为本文的理论基础提供了坚实支撑。