2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi

The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.

academic

무한 알파벳을 가진 범주형 시계열에서의 경로별 추측

기본 정보

논문 ID: 2501.06547
제목: 무한 알파벳을 가진 범주형 시계열에서의 경로별 추측
저자: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
분류: math.ST math.PR stat.TH
발표 시간: 2025년 10월 16일
논문 링크: https://arxiv.org/abs/2501.06547

초록

본 논문은 다양한 응용 분야에서 자연스럽게 발생하는 학습 문제를 연구한다: 범주형 또는 계수 시계열의 유한 표본이 주어졌을 때, 나머지 데이터 부분을 사용하여 주어진 데이터 부분의 값을 올바르게 추측할 확률을 (근사적으로) 최대화하는 표본 함수를 학습할 수 있는가? 고전적 통계 추론 방법과 달리, 본 논문의 방법은 조건부 확률의 명시적 추정을 회피한다. 저자들은 알파벳 크기와 무관한 학습률을 가진 비모수 추측 함수를 제안하며, 분석은 유한 차수 마르코프 연쇄, 특정 숨겨진 마르코프 연쇄, 계수 과정의 포아송 회귀, 1차원 깁스 측도를 포함한 광범위한 시계열 모델 클래스를 다룬다.

연구 배경 및 동기

문제의 중요성

실제 응용 주도: 예측과 보간은 과학의 기초 문제이며, 범주형 시계열에서 광범위한 응용을 가지고 있다. 특히 대규모 언어 모델의 등장 배경에서, 이러한 모델들은 큰 알파벳을 가진 범주형 시계열 모델로 볼 수 있다.
전통적 방법의 한계:
- 고전적 방법은 모든 전이 확률의 점별 추정에 의존한다
- 알파벳 크기가 크거나 전이 확률이 작을 때 추측이 어려워진다
- 희귀 사건의 정확한 추정은 많은 데이터를 필요로 하며, 이는 실제로 불가능하다
- 전통적 방법은 큰 알파벳의 경우 모든 가능한 전이의 확률을 추정하기 어려울 수 있다
기존 과제:
- 알파벳 크기와 의존성 차수가 일반적으로 모두 높다
- 무한 의존성과 알파벳 크기를 가진 모델을 처리해야 한다

연구 동기

저자들은 더 실용적인 접근 방식을 제안한다: 가장 가능성 높은 사건, 즉 가장 가능성 높은 결과를 예측하는 데 초점을 맞추고, 희귀하고 가능성 낮은 사건에는 더 적은 가중치를 부여한다. 이 방법은 특히 크거나 무한한 기호 집합을 가진 수열을 처리하는 데 적합하다.

핵심 기여

비모수 추측 함수 제안: 알파벳 크기와 무관한 학습률로 광범위한 범주형 시계열 클래스에 적용 가능
이론적 프레임워크 수립: 임의의 알파벳 크기에 적용 가능하며, 메모리 또는 차수에 대한 제약을 완화
한계 조건 제공: 위험의 수렴률 제어
미니맥스 하한 수립: 제안된 추정기의 근사 최적성 증명, 하한과 상한이 로그 인수 내에서 일치
무한 알파벳 경우 최초 고려: 알파벳 크기에 선험적 상한이 없거나 표본 크기에 따라 증가할 수 있을 때 중요

방법론 상세 설명

작업 정의

두 개의 독립적이고 동일하게 분포된 과정 복사본 $(X_j)_{j \in \mathbb{Z}}$ 와 $(Y_j)_{j \in \mathbb{Z}}$ 가 주어졌을 때, 데이터 집합 $D$ 의 정보를 사용하여 추측 집합 $G$ 상의 값을 예측하는 것이 목표이다.

추정기 정의: $\hat{f}^n_{D,G} : A^n \times A^D \to A^G$

초과 위험: $R(\hat{f}^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(\hat{f}^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)$

모델 구조

핵심 추정기: $\hat{f}^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}$

여기서 계수 함수는 다음과 같이 정의된다: $N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}$

주요 가정

가정 A: $(X_i)_{i \in \mathbb{Z}}$ 가 측도 $P$ 를 가진 정상 과정이라 하자. 다음을 만족하면: $\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0$

여기서 변분은 다음과 같이 정의된다: $\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}$

한계 조건

각 $b \in A^D$ 에 대해, 다음을 정의한다: $\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}$

한계: $\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)$

주요 이론적 결과

상한 결과 (정리 3.1)

표본 크기 $n$ 이 특정 조건을 만족하면: $R(\hat{f}^n_{D,G}) \leq \varepsilon \land \beta_{D,G}$

수렴률 (추론 3.1)

한계 조건이 약할 때: $\delta_n\sqrt{\frac{n}{\log n}} \to 0$ 이면: $R(\hat{f}^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}$
한계 조건이 강할 때: $\delta_n\sqrt{\frac{n}{\log n}} \to \infty$ 이면: $R(\hat{f}^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}$

미니맥스 하한 (정리 3.2)

두 가지 경우에서 미니맥스 하한을 수립한다:

한계가 작은 경우: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}$
한계가 큰 경우: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}$

명시적 확률 추정 회피: 모든 조건부 확률을 추정할 필요가 없으며, 가장 가능성 높은 결과에만 초점
알파벳 크기 무관 학습률: 크거나 무한한 알파벳을 처리하는 핵심 장점
Dvoretzky-Kiefer-Wolfowitz 유형 부등식: 무작위 연쇄에 대한 새로운 집중 부등식 수립
통일된 프레임워크: 광범위한 시계열 모델 클래스를 포함