Efficient Autoregressive Inference for Transformer Probabilistic Models
Hassan, Loka, Li et al.
Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.
academic
Inférence Autorégressive Efficace pour les Modèles Probabilistes Transformer
Les modèles d'inférence probabiliste amortie basés sur Transformer (tels que les Processus Neuraux, les Réseaux Pré-ajustés et les Modèles Fondamentaux Tabulaires) excellent dans les prédictions marginales uniques. Cependant, de nombreuses applications pratiques, allant de l'interpolation de signaux à la prédiction multi-colonnes tabulaire, nécessitent de capturer les dépendances entre prédictions dans une distribution conjointe cohérente. Les architectures purement autorégressive peuvent générer efficacement de telles distributions, mais sacrifient la capacité de conditionnement d'ensemble flexible qui rend ces modèles puissants en méta-apprentissage. Inversement, la méthode standard pour obtenir des distributions conjointes à partir de modèles basés sur des ensembles nécessite un réencodage coûteux de l'ensemble de conditions augmenté à chaque étape autorégressive. Cet article introduit le Tampon Autorégressif Causal, qui préserve les avantages des deux paradigmes. La méthode découple l'encodage du contexte de la mise à jour de l'ensemble de conditions, le modèle traitant le contexte une seule fois et le mettant en cache, tandis qu'un tampon dynamique capture les dépendances entre cibles. Sur des fonctions synthétiques, des signaux EEG, des modèles cognitifs et des données tabulaires, la méthode atteint une accélération de l'échantillonnage conjoint jusqu'à 20 fois tout en correspondant à la précision de prédiction des bases de référence fortes.
Les modèles probabilistes basés sur Transformer existants font face à un goulot d'étranglement d'efficacité fondamental : lors de la génération de distributions conjointes, l'ensemble de conditions complet doit être réencodé à chaque étape autorégressive. Spécifiquement :
Limitations des modèles avec conditionnement d'ensemble: Les Processus Neuraux (NP), les Réseaux Pré-ajustés (PFN) et autres modèles excèlent dans les prédictions marginales, mais lors du déploiement autorégressif, ils nécessitent un réencodage répété du contexte, entraînant une complexité computationnelle de O(K(N+K)²)
Insuffisances des modèles purement autorégressifs: Bien que computationnellement efficaces, ils manquent de capacité de conditionnement d'ensemble flexible, limitant les applications dans les tâches de méta-apprentissage
Proposition du mécanisme Tampon Autorégressif Causal: Découple l'encodage du contexte du conditionnement d'ensemble de la prédiction séquentielle, permettant un échantillonnage conjoint et une évaluation de vraisemblance efficaces
Conception d'une stratégie d'entraînement unifiée: Utilise l'attention masquée et l'apprentissage par curriculum de taille de tampon, permettant à un modèle unique d'apprendre les deux modes opératoires avec un coût supplémentaire minimal
Vérification de l'applicabilité générale: Réalise une accélération de l'échantillonnage conjoint jusqu'à 20 fois sur les TNP/PFN et les Modèles Fondamentaux Tabulaires, tout en maintenant une précision de prédiction comparable
Optimisation de la complexité théorique: Réduit la complexité computationnelle de O(K(N+K)²) à O(N²+NK+K²)
Étant donné un ensemble de contexte C = {(xₙ, yₙ)}ᴺₙ₌₁ et un ensemble de cibles T = {(xₘ, yₘ)}ᴹₘ₌₁, l'objectif est d'apprendre la distribution de prédiction p_θ(y₁:ₘ|x₁:ₘ; C), où θ représente les paramètres du modèle.
Encodeur de contexte rC: Traite les paires de contexte, utilisant l'auto-attention multi-têtes bidirectionnelle, mettant en cache les paires clé-valeur à chaque couche
Encodeur de tampon rB: Utilise l'auto-attention multi-têtes strictement causale sur le préfixe du tampon
Décodeur de cible rtgt: Interroge le contexte mis en cache et le préfixe de tampon visible par attention croisée
La méthode proposée fonctionne comme un composant modulaire pouvant s'intégrer aux architectures NP/PFN existantes. Elle complète les travaux antérieurs se concentrant sur l'évolutivité de l'ensemble de contexte, en s'attaquant à l'efficacité de l'échantillonnage conjoint autorégressif.
S'appuie sur la tendance à encadrer l'inférence bayésienne comme des tâches d'apprentissage contextuel, exploitant les variantes NP et PFN basées sur Transformer.
Connexe à TNP-A mais avec des différences clés: TNP-A utilise la répétition de cibles lors de l'entraînement et de l'inférence, tandis que cette méthode ne l'exige que lors de l'évaluation de vraisemblance.
Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
Jingang et al. (2025): Modèles Fondamentaux Tabulaires TabICL
Évaluation Générale: Cet article de recherche de haute qualité excelle dans l'innovation théorique, la vérification expérimentale et l'implémentation d'ingénierie. La méthode résout avec succès un goulot d'étranglement d'efficacité important dans les modèles probabilistes, possédant des perspectives d'application larges et une valeur académique significative.