2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic

Поточечное угадывание в категориальных временных рядах с неограниченными алфавитами

Основная информация

  • ID статьи: 2501.06547
  • Название: Pathwise guessing in categorical time series with unbounded alphabets
  • Авторы: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
  • Классификация: math.ST math.PR stat.TH
  • Дата публикации: 16 октября 2025
  • Ссылка на статью: https://arxiv.org/abs/2501.06547

Аннотация

В данной статье исследуется задача обучения, естественно возникающая в различных приложениях: по конечной выборке категориальных или счётных временных рядов можно ли научиться выбирать функцию выборки, которая (приблизительно) максимизирует вероятность правильного угадывания значений, заданных оставшейся частью данных? В отличие от классических методов статистического вывода, предложенный подход избегает явного оценивания условных вероятностей. Авторы предлагают непараметрическую функцию угадывания, скорость обучения которой не зависит от размера алфавита. Анализ охватывает широкий класс моделей временных рядов, включая цепи Маркова конечного порядка, некоторые скрытые цепи Маркова, пуассоновскую регрессию процессов подсчёта и одномерные меры Гиббса.

Исследовательский контекст и мотивация

Важность проблемы

  1. Практическое применение: Прогнозирование и интерполяция являются фундаментальными задачами в науке с широким применением в категориальных временных рядах, особенно в контексте развития больших языковых моделей, которые можно рассматривать как модели категориальных временных рядов с большим алфавитом.
  2. Ограничения традиционных методов:
    • Классические методы полагаются на поточечное оценивание всех вероятностей переходов
    • Когда размер алфавита велик или вероятности переходов малы, угадывание становится затруднительным
    • Точное оценивание редких событий требует больших объёмов данных, что на практике неосуществимо
  3. Существующие вызовы:
    • Размер алфавита и порядок зависимости обычно оба велики
    • Необходимо обрабатывать модели с неограниченной зависимостью и размером алфавита
    • Традиционные методы могут испытывать трудности при оценивании вероятностей всех возможных переходов в случае большого алфавита

Исследовательская мотивация

Авторы предлагают более практичный подход: сосредоточиться на наиболее вероятных событиях, то есть прогнозировать наиболее вероятный результат, придавая меньший вес редким, маловероятным событиям. Такой подход особенно полезен при работе с последовательностями, имеющими большой или бесконечный набор символов.

Основные вклады

  1. Предложена непараметрическая функция угадывания: скорость обучения не зависит от размера алфавита и применима к широкому классу категориальных временных рядов
  2. Установлена теоретическая база: применима к произвольному размеру алфавита, ослабляет ограничения на память или порядок
  3. Предоставлены граничные условия: контролируют скорость сходимости риска
  4. Установлены нижние границы минимакса: доказана приблизительная оптимальность предложенной оценки, нижняя и верхняя границы совпадают с точностью до логарифмических множителей
  5. Впервые рассмотрен случай бесконечного алфавита: имеет важное значение, когда размер алфавита не имеет априорной верхней границы или может расти с размером выборки

Описание методологии

Определение задачи

Даны две независимые одинаково распределённые копии процессов (Xj)jZ(X_j)_{j \in \mathbb{Z}} и (Yj)jZ(Y_j)_{j \in \mathbb{Z}}, цель состоит в использовании информации из набора данных DD для прогнозирования значений на множестве GG.

Определение оценки: f^D,Gn:An×ADAG\hat{f}^n_{D,G} : A^n \times A^D \to A^G

Избыточный риск: R(f^D,Gn):=supbAD(P~(f^D,Gn(YD)YGYD=b)infaAGP~(aYGYD=b))P~(YD=b)R(\hat{f}^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(\hat{f}^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)

Архитектура модели

Основная оценка: f^D,Gn[X1n](b):=argmaxaAGND,Gn[X1n](b,a)ND,Gn[X1n](b)\hat{f}^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}

где функция подсчёта определяется как: ND,Gn[X1n](b,a):=i=0n11{XθiD=b,XθiG=a}N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}

Основные предположения

Предположение A: Пусть (Xi)iZ(X_i)_{i \in \mathbb{Z}} — стационарный процесс с мерой PP, удовлетворяющий условию: Γ(P):=j=0(1Varj(p))>0\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0

где вариация определяется как: Varn(p):=sup{12aAp(ax)p(ay):x,yAZ,xi=yi,in}\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}

Граничные условия

Для каждого bADb \in A^D определяется: δD,G(b)=inf{P(XGc,XD=b)infaAGP(XGa,XD=b)>0:cAG}\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}

Граница: δD,G:=infbADδD,G(b)\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)

Основные теоретические результаты

Верхние границы (Теорема 3.1)

Если размер выборки nn удовлетворяет определённым условиям, то: R(f^D,Gn)εβD,GR(\hat{f}^n_{D,G}) \leq \varepsilon \land \beta_{D,G}

Скорости сходимости (Следствие 3.1)

  1. При слабых граничных условиях: если δnnlogn0\delta_n\sqrt{\frac{n}{\log n}} \to 0, то: R(f^D,Gn)12lognnβD,GR(\hat{f}^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}
  2. При сильных граничных условиях: если δnnlogn\delta_n\sqrt{\frac{n}{\log n}} \to \infty, то: R(f^D,Gn)exp(Γ2nδn28(G+D)2)βD,GR(\hat{f}^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}

Нижние границы минимакса (Теорема 3.2)

Установлены нижние границы минимакса в двух случаях:

  1. При малой границе: infψnΨnsupPPnR(ψn;P)e1n(14)G+D\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}
  2. При большой границе: infψnΨnsupPQnR(ψn;P)δnenδn2(14)D+G\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}

Примеры приложений

Статья демонстрирует применимость предположения A к различным важным моделям:

Цепи Маркова

Для цепи Маркова с пространством состояний AA и матрицей переходов QQ условие упрощается до коэффициента эргодичности Добрушина: d(Q):=supa,bAQ(a,)Q(b,)TV<1d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1

Авторегрессионные модели

Вероятности переходов бинарного авторегрессионного процесса: p(ax)=Υ(aj=1ξjxj+aξ0)p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right)

Пуассоновская регрессия

Модель пуассоновской регрессии для счётных временных рядов: p(ax)=ev(x)v(x)aa!p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!} где v(x)=exp(j=1ξjmin{xj,c})v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right)

Меры Гиббса

Одномерные меры Гиббса удовлетворяют: P(XΛ=xΛXΛc=yΛc)=exp(βHΛΦ(xΛyΛc))ZΛΦ(y)P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)}

Технические инновации

  1. Избежание явного оценивания вероятностей: не требуется оценивание всех условных вероятностей, внимание сосредоточено только на наиболее вероятных результатах
  2. Скорость обучения, независимая от размера алфавита: это ключевое преимущество при работе с большим или бесконечным алфавитом
  3. Неравенства типа Дворецкого-Кифера-Вольфовица: установлены новые неравенства концентрации для случайных цепей
  4. Единая база: охватывает широкий класс моделей временных рядов

Экспериментальные методы и техники доказательства

Основные техники доказательства

  1. Неравенства концентрации: использование модифицированного неравенства Дворецкого-Кифера-Вольфовица
  2. Методы связи: для контроля различий вероятностей при различных условиях
  3. Аргументы типа Ле Кама: для установления нижних границ минимакса
  4. Вариационный анализ: контроль вариации через колебания потенциальных функций

Ключевые леммы

  • Предложение 3.1: устанавливает связь между βD,G\beta_{D,G} и размерами множеств
  • Предложение 4.1: предоставляет конкретные вариационные границы для мер Гиббса
  • Теорема A.1: расширение неравенства типа Дворецкого-Кифера-Вольфовица

Связанные работы

Традиционные подходы

  1. Классическое прогнозирование: основано на поточечном оценивании вероятностей переходов
  2. Структура PAC-обучения: исследование оптимальных скоростей обучения условных вероятностей
  3. Параметрические регрессионные модели: обладают гибкостью, но имеют ограничивающие предположения

Преимущества данной работы

  1. Обработка больших алфавитов: скорость обучения не зависит от размера алфавита
  2. Непараметрический метод: избегает ограничивающих предположений параметрических моделей
  3. Теоретические гарантии: предоставляет приблизительно оптимальные скорости сходимости

Заключение и обсуждение

Основные выводы

  1. Предложен непараметрический метод угадывания, применимый к неограниченным алфавитам
  2. Установлена скорость обучения, независимая от размера алфавита
  3. Доказана приблизительная оптимальность метода (с точностью до логарифмических множителей)
  4. Предоставлена единая база для широкого класса моделей временных рядов

Ограничения

  1. Проверка предположения A: проверка предположения A в практических приложениях может быть сложной
  2. Поведение на конечных выборках: теоретические результаты асимптотические, поведение на конечных выборках может отличаться
  3. Вычислительная сложность: статья не обсуждает подробно вычислительную сложность алгоритма

Направления будущих исследований

  1. Реализация алгоритмов: разработка эффективных алгоритмических реализаций
  2. Практические приложения: проверка метода в практических приложениях, таких как большие языковые модели
  3. Расширение на другие функции потерь: рассмотрение различных мер риска

Глубокая оценка

Достоинства

  1. Значительный теоретический вклад: впервые рассмотрен случай бесконечного алфавита, установлена полная теоретическая база
  2. Сильная инновационность метода: идея избежать явного оценивания вероятностей имеет практическую ценность
  3. Глубокий анализ: предоставлены верхние и совпадающие нижние границы, доказана приблизительная оптимальность
  4. Широкая область применения: единая база охватывает множество важных моделей временных рядов

Недостатки

  1. Отсутствие экспериментальной проверки: статья чисто теоретическая, не содержит численных экспериментов или практических приложений
  2. Недостаточно деталей алгоритма: не обсуждаются подробно практическая реализация и вычислительная сложность
  3. Сложность проверки предположений: методы проверки предположения A на практике не ясны

Влияние

  1. Высокая теоретическая ценность: предоставляет новые теоретические инструменты для работы с временными рядами с большим алфавитом
  2. Большой практический потенциал: имеет важное значение в современных приложениях, таких как большие языковые модели
  3. Универсальность метода: база может быть применима к другим связанным задачам

Области применения

  1. Большие языковые модели: задачи генерации текста с большим словарём
  2. Биоинформатика: анализ последовательностей ДНК/белков
  3. Анализ сетевого трафика: прогнозирование поведения сети с большим пространством состояний
  4. Финансовые временные ряды: анализ высокочастотных торговых данных

Библиография

Статья ссылается на 26 связанных работ, охватывающих теорию цепей Маркова, теорию статистического обучения, динамические системы и теорию вероятностей, обеспечивая прочную теоретическую основу для данной работы.