2025-11-25T22:34:18.624435

Efficient Autoregressive Inference for Transformer Probabilistic Models

Hassan, Loka, Li et al.

Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.

academic

Inferenza Autoregressiva Efficiente per Modelli Probabilistici Transformer

Informazioni Fondamentali

ID Articolo: 2510.09477
Titolo: Efficient Autoregressive Inference for Transformer Probabilistic Models
Autori: Conor Hassan, Nasrulloh Loka, Cen-You Li, Daolang Huang, Paul E. Chang, Yang Yang, Francesco Silvestrin, Samuel Kaski, Luigi Acerbi
Classificazione: stat.ML cs.LG
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09477

Riassunto

I modelli di inferenza probabilistica ammortizzata basati su Transformer (come i Processi Neurali, le Reti Predittive Precedenti e i Modelli Fondamentali Tabulari) eccellono nelle previsioni marginali singole. Tuttavia, molte applicazioni pratiche, dalla interpolazione di segnali alla previsione multi-colonna tabulare, richiedono di catturare distribuzioni congiunte coerenti che modellino le dipendenze tra previsioni. L'architettura puramente autoregressiva può generare efficientemente tali distribuzioni, ma sacrifica la capacità di condizionamento flessibile dell'insieme che rende questi modelli potenti nell'apprendimento meta. Al contrario, il metodo standard per ottenere distribuzioni congiunte dai modelli basati su insiemi richiede una ricodifica costosa dell'intero insieme di condizionamento aumentato ad ogni passo autoregressivo. Questo articolo introduce il buffer autoregressivo causale, che preserva i vantaggi di entrambi i paradigmi. Il metodo disaccoppia la codifica del contesto dall'aggiornamento dell'insieme di condizionamento, con il modello che elabora il contesto una volta e lo memorizza nella cache, mentre un buffer dinamico cattura le dipendenze tra target. Su funzioni sintetiche, segnali EEG, modelli cognitivi e dati tabulari, il metodo raggiunge accelerazioni fino a 20 volte nel campionamento congiunto mantenendo al contempo l'accuratezza predittiva di forti baseline.

Contesto di Ricerca e Motivazione

Problema Centrale

I modelli probabilistici basati su Transformer affrontano un collo di bottiglia di efficienza fondamentale: quando è necessario generare una distribuzione congiunta, l'intero insieme di condizionamento deve essere ricodificato ad ogni passo autoregressivo. Nello specifico:

Limitazioni dei modelli con condizionamento su insiemi: I Processi Neurali (NP), le Reti Predittive Precedenti (PFN) e modelli simili eccellono nelle previsioni marginali, ma durante il dispiegamento autoregressivo richiedono ricodifiche ripetute del contesto, risultando in una complessità computazionale O(K(N+K)²)
Insufficienze dei modelli puramente autoregressivi: Sebbene computazionalmente efficienti, mancano della capacità di condizionamento flessibile su insiemi, limitando l'applicazione nei compiti di apprendimento meta

Importanza

La previsione di distribuzioni congiunte è cruciale in molteplici applicazioni critiche:

Dipendenze temporali nell'interpolazione di segnali
Correlazioni tra caratteristiche nella previsione multi-colonna tabulare
Dipendenze sequenziali nella modellazione di dati comportamentali
Valutazione della verosimiglianza congiunta nella selezione bayesiana di modelli

Limitazioni dei Metodi Esistenti

Dispiegamento autoregressivo TNP-D: Richiede ricodifica dell'insieme di condizionamento in crescita ad ogni passo
TNP-A: Richiede elaborazione di insiemi target ripetuti sia durante l'addestramento che l'inferenza, con enorme sovraccarico computazionale
TNP-ND: Limitato a distribuzioni gaussiane multivariate, capacità espressiva ridotta

Contributi Principali

Propone il meccanismo del buffer autoregressivo causale: Disaccoppia la codifica del contesto del condizionamento su insiemi dalla previsione sequenziale, realizzando campionamento congiunto e valutazione della verosimiglianza efficienti
Progetta una strategia di addestramento unificata: Utilizza maschere di attenzione e apprendimento curricolare della dimensione del buffer, consentendo a un singolo modello di apprendere entrambe le modalità operative con costo aggiuntivo minimo
Verifica l'applicabilità diffusa: Realizza accelerazioni fino a 20 volte nel campionamento congiunto su TNP/PFN e modelli fondamentali tabulari, mantenendo al contempo accuratezza predittiva comparabile
Ottimizzazione della complessità teorica: Riduce la complessità computazionale da O(K(N+K)²) a O(N²+NK+K²)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di contesto C = {(xₙ, yₙ)}ᴺₙ₌₁ e un insieme di target T = {(xₘ, yₘ)}ᴹₘ₌₁, l'obiettivo è apprendere la distribuzione predittiva p_θ(y₁:ₘ|x₁:ₘ; C), dove θ sono i parametri del modello.

Architettura del Modello

Componenti Principali

Codificatore di contesto rC: Elabora coppie di contesto utilizzando auto-attenzione multi-testa bidirezionale, memorizzando nella cache le coppie chiave-valore ad ogni livello
Codificatore di buffer rB: Utilizza auto-attenzione multi-testa rigorosamente causale sul prefisso del buffer
Decodificatore di target rtgt: Interroga il contesto memorizzato nella cache e il prefisso del buffer visibile tramite attenzione incrociata

Parametrizzazione della Distribuzione Predittiva

p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))

dove bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)

Progettazione della Maschera di Attenzione

Implementa quattro requisiti chiave:

(R1) Immutabilità del contesto: Codificato una volta e memorizzato nella cache come sola lettura
(R2) Causalità rigorosa del buffer: Il token j può solo prestare attenzione alle posizioni <j
(R3) Flusso di informazioni unidirezionale dal contesto: Nessuna retroazione verso C
(R4) Il target presta attenzione al contesto memorizzato nella cache e al prefisso del buffer visibile

Punti di Innovazione Tecnica

1. Progettazione Disaccoppiata

Cache di contesto statico: Codificato una volta, riutilizzato più volte
Buffer dinamico: Aggiornamento incrementale, cattura dipendenze tra target

2. Curriculum di Addestramento

50% dei target presta attenzione solo al contesto
50% dei target presta attenzione al contesto + prefisso del buffer di lunghezza casuale
Assicura che il modello funzioni bene in diversi stati del buffer

3. Modalità di Inferenza Efficienti

Campionamento autoregressivo: Precompilazione del contesto, decodifica sequenziale dei target
Valutazione della verosimiglianza congiunta: Calcolo di tutte le probabilità condizionali in un singolo passaggio in avanti
Campionamento in batch: Condivisione della cache del contesto, stati del buffer indipendenti

Configurazione Sperimentale

Dataset

Funzioni Sintetiche:
- Processi Gaussiani (GP): kernel RBF, Matérn-3/2, Matérn-5/2
- Funzione a dente di sega: non gaussiana, derivate discontinue
Dati EEG: 11.520 prove, 122 soggetti, 7 canali rilevanti, 256 punti temporali
Modello di Inferenza Causale Multisensoriale: Dati di esperimenti di localizzazione audiovisiva, 15 partecipanti
Dati Tabulari: Dataset UCI (consumo di energia, emissioni turbina a gas, condivisione biciclette)

Metriche di Valutazione

Verosimiglianza logaritmica media: Valuta la qualità della previsione
Tempo di clock: Tempo di esecuzione effettivo per campionamento, valutazione della verosimiglianza, passi di addestramento
RMSE della verosimiglianza marginale logaritmica: Accuratezza nel compito di selezione del modello

Metodi di Confronto

TNP-D-Ind: Previsione indipendente, veloce ma senza modellazione delle dipendenze
TNP-D-AR: Dispiegamento autoregressivo, espressivo ma richiede ricodifica
TNP-ND: Distribuzione congiunta gaussiana multivariata, capacità espressiva limitata
TNP-A: Modellazione completamente autoregressiva, lenta sia nell'addestramento che nel campionamento

Dettagli di Implementazione

Ottimizzatore: Adam, tasso di apprendimento 1×10⁻⁴
Architettura: Transformer a 6 livelli, 4 teste di attenzione, dimensione 128
Testa predittiva: Modello di miscela gaussiana a 20 componenti
Dimensione del buffer: K=16 (esperimenti principali)

Risultati Sperimentali

Risultati Principali

Efficienza Computazionale

Campionamento autoregressivo: 3-20 volte più veloce di TNP-A e TNP-D-AR
Valutazione della verosimiglianza: Comparabile a TNP-A, K volte più veloce di TNP-D-AR
Velocità di addestramento: 4-12 volte più veloce di TNP-A, comparabile ai baseline più veloci

Accuratezza Predittiva

Dataset	TNP-D-AR	TNP-A	Questo Metodo (K=16)	Questo Metodo (K=1)
GP	2.57	0.80	2.51	2.56
Sawtooth	1.05	-0.43	1.00	1.09
EEG-Int	0.51	0.46	0.52	0.54
EEG-For	1.07	-0.04	0.85	1.21

Esperimenti di Ablazione

Impatto della dimensione del buffer: Con K=1 equivale all'autoregressione standard, con K=16 leggera riduzione delle prestazioni ma accelerazione significativa della velocità
Kernel Triton personalizzati: Forniscono accelerazione significativa con batch di grandi dimensioni
Modalità di attenzione: Anche disabilitando FlashAttention, TNP-A rimane più lento di ordini di grandezza rispetto ad altri metodi

Analisi di Casi

Nel compito di inferenza causale multisensoriale:

Selezione del modello: RMSE LML di 3.56, vicino ai 3.47 di TNP-D-AR
Previsione dei dati: Verosimiglianza logaritmica media di -2.76, comparabile a tutti i forti baseline
Correlazione con valori reali: R²=1.00 (LML), R²=0.92 (ΔLML)

Lavori Correlati

Processi Neurali e Reti Predittive Precedenti

Questo metodo funziona come componente modulare integrabile nelle architetture NP/PFN esistenti. Complementare ai lavori precedenti focalizzati sulla scalabilità dell'insieme di contesto, questo articolo affronta l'efficienza del campionamento congiunto autoregressivo.

Modelli Probabilistici Transformer

Costruisce sulla tendenza di inquadrare l'inferenza bayesiana come compiti di apprendimento contestuale, sfruttando varianti NP e PFN basate su Transformer.

Modelli Fondamentali Tabulari

Si integra naturalmente con modelli come TabPFN e TabICL, fornendo un modulo complementare per previsioni congiunte efficienti.

Stima della Densità Congiunta Autoregressiva

Correlato a TNP-A ma con differenze chiave: TNP-A utilizza ripetizione dei target sia nell'addestramento che nell'inferenza, mentre questo metodo la richiede solo nella valutazione della verosimiglianza.

Conclusioni e Discussione

Conclusioni Principali

Svolta nell'efficienza: Integra con successo l'efficienza del Transformer autoregressivo nel framework NP/PFN
Mantenimento delle prestazioni: Mantiene l'accuratezza predittiva mentre accelera significativamente la velocità
Applicabilità diffusa: Verifica l'efficacia del metodo in molteplici domini e compiti

Limitazioni

Scalabilità della lunghezza del buffer: Ancora O(K²) quando K aumenta, attualmente utilizza embedding di posizione fissi
Deriva di qualità con buffer lunghi: Possibile riduzione di qualità rispetto all'autoregressione esatta che ricodifica ad ogni passo
Occupazione di memoria: Richiede mantenimento della cache del contesto e dello stato del buffer

Direzioni Future

Miglioramento della codifica di posizione: Utilizzo di RoPE o ALiBi per supportare sequenze più lunghe
Decodifica speculativa: Strategie di inferenza adattive ispirate ai processi draft-verify
Messa a punto efficiente dei parametri: Utilizzo di adattatori o LoRA per aggiungere funzionalità di buffer ai modelli pre-addestrati

Valutazione Approfondita

Punti di Forza

Forte innovazione: Risolve abilmente il compromesso tra condizionamento su insiemi ed efficienza autoregressiva
Fondamenti teorici solidi: Fornisce analisi di complessità chiara e derivazioni matematiche
Esperimenti completi: Copre dati sintetici, dati reali, molteplici domini di applicazione
Ottimizzazione ingegneristica: Include ottimizzazioni di basso livello come kernel CUDA personalizzati
Riproducibilità: Fornisce dettagli di implementazione dettagliati e renderà disponibile il codice open-source

Carenze

Ambito di applicazione: Principalmente applicabile a sequenze di target di lunghezza media, sequenze molto lunghe rimangono una sfida
Analisi teorica: Manca l'analisi dei limiti teorici dell'errore di approssimazione del buffer
Esperimenti di confronto: Nessun confronto con i più recenti meccanismi di attenzione efficiente (come l'attenzione lineare)

Impatto

Valore accademico: Fornisce nuove prospettive per l'inferenza efficiente nei modelli probabilistici
Valore pratico: Riduce significativamente i costi computazionali della previsione congiunta, rendendo possibili applicazioni pratiche
Scalabilità: Il metodo ha buona generalità e può essere applicato a molteplici varianti di Transformer

Scenari di Applicazione

Applicazioni che richiedono campionamento congiunto frequente (come la quantificazione dell'incertezza)
Compiti di previsione sequenziale con contesto su larga scala
Scenari con elevati requisiti di inferenza in tempo reale
Modellazione congiunta di dati multimodali

Bibliografia

La bibliografia principale include:

Garnelo et al. (2018): Articolo originale su Neural Processes
Nguyen & Grover (2022): Transformer Neural Processes
Müller et al. (2022): Prior-Fitted Networks
Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
Jingang et al. (2025): Modello Fondamentale Tabulare TabICL

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle nell'innovazione teorica, verifica sperimentale e implementazione ingegneristica. Il metodo risolve con successo un importante collo di bottiglia di efficienza nei modelli probabilistici, con ampi prospettive di applicazione e valore accademico.