Efficient Autoregressive Inference for Transformer Probabilistic Models
Hassan, Loka, Li et al.
Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.
academic
Эффективный Авторегрессивный Вывод для Вероятностных Моделей на основе Трансформеров
Модели амортизированного вероятностного вывода на основе трансформеров (такие как нейронные процессы, сети с предварительной подгонкой и табличные фундаментальные модели) демонстрируют превосходные результаты при единичном маргинальном предсказании. Однако многие практические приложения, от интерполяции сигналов до предсказания нескольких столбцов в таблицах, требуют захвата согласованного совместного распределения, которое фиксирует зависимости между предсказаниями. Чистые авторегрессивные архитектуры эффективно генерируют такие распределения, но за счет гибкой условной способности на основе множеств, которая делает эти модели мощными в метаобучении. Напротив, стандартный подход к получению совместного распределения из моделей на основе множеств требует дорогостоящего переодирования всего расширенного условного множества на каждом авторегрессивном шаге. В данной работе представляется причинный авторегрессивный буфер, который сохраняет преимущества обеих парадигм. Метод разделяет кодирование контекста и обновление условного множества, позволяя модели обработать контекст один раз и кэшировать его, при этом динамический буфер захватывает зависимости между целевыми переменными. На синтетических функциях, сигналах ЭЭГ, когнитивных моделях и табличных данных метод достигает ускорения совместной выборки до 20 раз при сохранении точности предсказания, сравнимой с сильными базовыми методами.
Существующие вероятностные модели на основе трансформеров сталкиваются с фундаментальным узким местом эффективности: при необходимости генерации совместного распределения требуется переодирование всего условного множества на каждом авторегрессивном шаге. Конкретно:
Ограничения моделей с условием на множество: Нейронные процессы (NPs), сети с предварительной подгонкой (PFNs) и подобные модели хорошо работают при маргинальном предсказании, но при авторегрессивном развертывании требуют повторного кодирования контекста, что приводит к вычислительной сложности O(K(N+K)²)
Недостатки чистых авторегрессивных моделей: Хотя они вычислительно эффективны, им не хватает гибкой способности условия на множество, что ограничивает их применение в задачах метаобучения
Предложен механизм причинного авторегрессивного буфера: Разделяет кодирование контекста с условием на множество и последовательное предсказание, обеспечивая эффективную совместную выборку и оценку правдоподобия
Разработана единая стратегия обучения: Использует маскированное внимание и обучение с расписанием размера буфера, позволяя единой модели с минимальными дополнительными затратами изучить оба режима работы
Проверена широкая применимость: Достигнуто ускорение совместной выборки до 20 раз на TNPs/PFNs и табличных фундаментальных моделях при сохранении сравнимой точности предсказания
Оптимизирована теоретическая сложность: Вычислительная сложность снижена с O(K(N+K)²) до O(N²+NK+K²)
Дано контекстное множество C = {(xₙ, yₙ)}ᴺₙ₌₁ и целевое множество T = {(xₘ, yₘ)}ᴹₘ₌₁, цель состоит в изучении предсказывающего распределения p_θ(y₁:ₘ|x₁:ₘ; C), где θ — параметры модели.
Данный метод служит модульным компонентом, который может быть интегрирован в существующие архитектуры NP/PFN. Дополняет предыдущие работы, сосредоточенные на масштабируемости контекстного множества, сосредотачиваясь на эффективности авторегрессивной совместной выборки.
Связано с TNP-A, но имеет ключевые отличия: TNP-A использует повторение целевых переменных как при обучении, так и при выводе, тогда как данный метод требует это только при оценке правдоподобия.
Улучшение позиционного кодирования: Использование RoPE или ALiBi для поддержки более длинных последовательностей
Спекулятивное декодирование: Адаптивные стратегии вывода, заимствованные из процессов draft-verify
Параметрически эффективная тонкая настройка: Использование адаптеров или LoRA для добавления функциональности буфера к предварительно обученным моделям
Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
Jingang et al. (2025): Табличная фундаментальная модель TabICL
Общая оценка: Это высококачественная исследовательская статья, демонстрирующая превосходные результаты в теоретических инновациях, экспериментальной проверке и инженерной реализации. Метод успешно решает важное узкое место эффективности в вероятностных моделях и имеет широкие перспективы применения и академическую ценность.