2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic

Pathwise guessing in categorical time series with unbounded alphabets

基本信息

  • 论文ID: 2501.06547
  • 标题: Pathwise guessing in categorical time series with unbounded alphabets
  • 作者: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
  • 分类: math.ST math.PR stat.TH
  • 发表时间: October 16, 2025
  • 论文链接: https://arxiv.org/abs/2501.06547

摘要

该论文研究了一个在多种应用中自然产生的学习问题:给定分类或计数时间序列的有限样本,能否学习一个样本函数,使其(近似)最大化使用剩余部分数据正确猜测给定部分数据值的概率?与经典统计推断方法不同,本文方法避免显式估计条件概率。作者提出了一个学习率与字母表大小无关的非参数猜测函数,分析涵盖了包括有限阶马尔可夫链、某些隐马尔可夫链、计数过程的泊松回归和一维吉布斯测度在内的广泛时间序列模型类别。

研究背景与动机

问题的重要性

  1. 实际应用驱动:预测和插值是科学中的基础问题,在分类时间序列中有广泛应用,特别是在大语言模型兴起的背景下,这些模型可以视为具有大字母表的分类时间序列模型。
  2. 传统方法的局限性
    • 经典方法依赖于估计所有转移概率的逐点估计
    • 当字母表大小很大或转移概率很小时,猜测变得困难
    • 准确估计稀有事件需要大量数据,这在实践中不可行
  3. 现有挑战
    • 字母表大小和依赖阶数通常都很高
    • 需要处理无界依赖和字母表大小的模型
    • 传统方法在大字母表情况下可能难以估计所有可能转移的概率

研究动机

作者提出了一种更实用的方法:专注于最可能发生的事件,即预测最可能的结果,而对稀有、不太可能的事件给予较少权重。这种方法特别适用于处理具有大型或无限符号集的序列。

核心贡献

  1. 提出了非参数猜测函数:学习率与字母表大小无关,适用于广泛的分类时间序列类别
  2. 建立了理论框架:适用于任意字母表大小,放宽了对记忆或阶数的约束
  3. 提供了边际条件:控制风险的收敛率
  4. 建立了minimax下界:证明了所提估计器的近似最优性,下界与上界在对数因子内匹配
  5. 首次考虑无限字母表情况:当字母表大小没有先验上界或可随样本大小增长时具有重要意义

方法详解

任务定义

给定两个独立的同分布过程副本 (Xj)jZ(X_j)_{j \in \mathbb{Z}}(Yj)jZ(Y_j)_{j \in \mathbb{Z}},目标是使用数据集 DD 的信息预测猜测集 GG 上的值。

估计器定义f^D,Gn:An×ADAGf̂^n_{D,G} : A^n \times A^D \to A^G

超额风险R(f^D,Gn):=supbAD(P~(f^D,Gn(YD)YGYD=b)infaAGP~(aYGYD=b))P~(YD=b)R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)

模型架构

核心估计器f^D,Gn[X1n](b):=argmaxaAGND,Gn[X1n](b,a)ND,Gn[X1n](b)f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}

其中计数函数定义为: ND,Gn[X1n](b,a):=i=0n11{XθiD=b,XθiG=a}N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}

主要假设

假设A:设 (Xi)iZ(X_i)_{i \in \mathbb{Z}} 是具有测度 PP 的平稳过程,如果满足: Γ(P):=j=0(1Varj(p))>0\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0

其中变分定义为: Varn(p):=sup{12aAp(ax)p(ay):x,yAZ,xi=yi,in}\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}

边际条件

对于每个 bADb \in A^D,定义: δD,G(b)=inf{P(XGc,XD=b)infaAGP(XGa,XD=b)>0:cAG}\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}

边际为:δD,G:=infbADδD,G(b)\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)

主要理论结果

上界结果(定理3.1)

如果样本大小 nn 满足特定条件,则: R(f^D,Gn)εβD,GR(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G}

收敛率(推论3.1)

  1. 当边际条件较弱时:如果 δnnlogn0\delta_n\sqrt{\frac{n}{\log n}} \to 0,则: R(f^D,Gn)12lognnβD,GR(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}
  2. 当边际条件较强时:如果 δnnlogn\delta_n\sqrt{\frac{n}{\log n}} \to \infty,则: R(f^D,Gn)exp(Γ2nδn28(G+D)2)βD,GR(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}

Minimax下界(定理3.2)

建立了两种情况下的minimax下界:

  1. 边际较小情况infψnΨnsupPPnR(ψn;P)e1n(14)G+D\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}
  2. 边际较大情况infψnΨnsupPQnR(ψn;P)δnenδn2(14)D+G\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}

应用实例

论文展示了假设A适用于多种重要模型:

马尔可夫链

对于状态空间 AA 和转移矩阵 QQ 的马尔可夫链,条件简化为Dobrushin遍历系数: d(Q):=supa,bAQ(a,)Q(b,)TV<1d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1

自回归模型

二元自回归过程的转移概率: p(ax)=Υ(aj=1ξjxj+aξ0)p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right)

泊松回归

计数时间序列的泊松回归模型: p(ax)=ev(x)v(x)aa!p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!} 其中 v(x)=exp(j=1ξjmin{xj,c})v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right)

吉布斯测度

一维吉布斯测度满足: P(XΛ=xΛXΛc=yΛc)=exp(βHΛΦ(xΛyΛc))ZΛΦ(y)P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)}

技术创新点

  1. 避免显式概率估计:不需要估计所有条件概率,只关注最可能的结果
  2. 字母表大小无关的学习率:这是处理大型或无限字母表的关键优势
  3. Dvoretzky-Kiefer-Wolfowitz型不等式:为随机链建立了新的集中不等式
  4. 统一框架:涵盖了广泛的时间序列模型类别

实验与证明技术

主要证明技术

  1. 集中不等式:使用修改的Dvoretzky-Kiefer-Wolfowitz不等式
  2. 耦合方法:用于控制不同条件下的概率差异
  3. Le Cam型论证:用于建立minimax下界
  4. 变分分析:通过势函数的振荡控制变分

关键引理

  • 命题3.1:建立了 βD,G\beta_{D,G} 与集合大小的关系
  • 命题4.1:为吉布斯测度提供了具体的变分界
  • 定理A.1:Dvoretzky-Kiefer-Wolfowitz型不等式的扩展

相关工作

传统方法

  1. 经典预测:基于转移概率的逐点估计
  2. PAC学习框架:研究学习条件概率的最优率
  3. 参数回归模型:具有灵活性但假设限制性强

本文优势

  1. 处理大字母表:学习率不依赖于字母表大小
  2. 非参数方法:避免了参数模型的限制性假设
  3. 理论保证:提供了近似最优的收敛率

结论与讨论

主要结论

  1. 提出了适用于无界字母表的非参数猜测方法
  2. 建立了与字母表大小无关的学习率
  3. 证明了方法的近似最优性(在对数因子内)
  4. 为广泛的时间序列模型类别提供了统一框架

局限性

  1. 假设A的验证:在实际应用中验证假设A可能具有挑战性
  2. 有限样本性能:理论结果是渐近的,有限样本行为可能不同
  3. 计算复杂性:论文未详细讨论算法的计算复杂性

未来方向

  1. 算法实现:开发高效的算法实现
  2. 实际应用:在大语言模型等实际应用中验证方法
  3. 扩展到其他损失函数:考虑不同的风险度量

深度评价

优点

  1. 理论贡献显著:首次处理无限字母表情况,建立了完整的理论框架
  2. 方法创新性强:避免显式概率估计的思路具有实用价值
  3. 分析深入:提供了上界和匹配的下界,证明了近似最优性
  4. 适用范围广:统一框架涵盖了多种重要的时间序列模型

不足

  1. 缺乏实验验证:论文纯理论,未提供数值实验或实际应用案例
  2. 算法细节不足:未详细讨论实际实现和计算复杂性
  3. 假设验证困难:假设A在实践中的验证方法不明确

影响力

  1. 理论价值高:为处理大字母表时间序列提供了新的理论工具
  2. 实用潜力大:在大语言模型等现代应用中具有重要意义
  3. 方法通用性:框架可能适用于其他相关问题

适用场景

  1. 大语言模型:词汇表很大的文本生成任务
  2. 生物信息学:DNA/蛋白质序列分析
  3. 网络流量分析:具有大状态空间的网络行为预测
  4. 金融时间序列:高频交易数据分析

参考文献

论文引用了26篇相关文献,涵盖了马尔可夫链理论、统计学习理论、动力系统和概率论等多个领域的重要工作,为本文的理论基础提供了坚实支撑。