Pathwise guessing in categorical time series with unbounded alphabets
Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic
Поточечное угадывание в категориальных временных рядах с неограниченными алфавитами
В данной статье исследуется задача обучения, естественно возникающая в различных приложениях: по конечной выборке категориальных или счётных временных рядов можно ли научиться выбирать функцию выборки, которая (приблизительно) максимизирует вероятность правильного угадывания значений, заданных оставшейся частью данных? В отличие от классических методов статистического вывода, предложенный подход избегает явного оценивания условных вероятностей. Авторы предлагают непараметрическую функцию угадывания, скорость обучения которой не зависит от размера алфавита. Анализ охватывает широкий класс моделей временных рядов, включая цепи Маркова конечного порядка, некоторые скрытые цепи Маркова, пуассоновскую регрессию процессов подсчёта и одномерные меры Гиббса.
Практическое применение: Прогнозирование и интерполяция являются фундаментальными задачами в науке с широким применением в категориальных временных рядах, особенно в контексте развития больших языковых моделей, которые можно рассматривать как модели категориальных временных рядов с большим алфавитом.
Ограничения традиционных методов:
Классические методы полагаются на поточечное оценивание всех вероятностей переходов
Когда размер алфавита велик или вероятности переходов малы, угадывание становится затруднительным
Точное оценивание редких событий требует больших объёмов данных, что на практике неосуществимо
Существующие вызовы:
Размер алфавита и порядок зависимости обычно оба велики
Необходимо обрабатывать модели с неограниченной зависимостью и размером алфавита
Традиционные методы могут испытывать трудности при оценивании вероятностей всех возможных переходов в случае большого алфавита
Авторы предлагают более практичный подход: сосредоточиться на наиболее вероятных событиях, то есть прогнозировать наиболее вероятный результат, придавая меньший вес редким, маловероятным событиям. Такой подход особенно полезен при работе с последовательностями, имеющими большой или бесконечный набор символов.
Предложена непараметрическая функция угадывания: скорость обучения не зависит от размера алфавита и применима к широкому классу категориальных временных рядов
Установлена теоретическая база: применима к произвольному размеру алфавита, ослабляет ограничения на память или порядок
Предоставлены граничные условия: контролируют скорость сходимости риска
Установлены нижние границы минимакса: доказана приблизительная оптимальность предложенной оценки, нижняя и верхняя границы совпадают с точностью до логарифмических множителей
Впервые рассмотрен случай бесконечного алфавита: имеет важное значение, когда размер алфавита не имеет априорной верхней границы или может расти с размером выборки
Даны две независимые одинаково распределённые копии процессов (Xj)j∈Z и (Yj)j∈Z, цель состоит в использовании информации из набора данных D для прогнозирования значений на множестве G.
Для цепи Маркова с пространством состояний A и матрицей переходов Q условие упрощается до коэффициента эргодичности Добрушина:
d(Q):=supa,b∈A∥Q(a,⋅)−Q(b,⋅)∥TV<1
Избежание явного оценивания вероятностей: не требуется оценивание всех условных вероятностей, внимание сосредоточено только на наиболее вероятных результатах
Скорость обучения, независимая от размера алфавита: это ключевое преимущество при работе с большим или бесконечным алфавитом
Неравенства типа Дворецкого-Кифера-Вольфовица: установлены новые неравенства концентрации для случайных цепей
Единая база: охватывает широкий класс моделей временных рядов
Статья ссылается на 26 связанных работ, охватывающих теорию цепей Маркова, теорию статистического обучения, динамические системы и теорию вероятностей, обеспечивая прочную теоретическую основу для данной работы.