2025-11-25T22:34:18.624435

Efficient Autoregressive Inference for Transformer Probabilistic Models

Hassan, Loka, Li et al.
Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.
academic

Inferenza Autoregressiva Efficiente per Modelli Probabilistici Transformer

Informazioni Fondamentali

  • ID Articolo: 2510.09477
  • Titolo: Efficient Autoregressive Inference for Transformer Probabilistic Models
  • Autori: Conor Hassan, Nasrulloh Loka, Cen-You Li, Daolang Huang, Paul E. Chang, Yang Yang, Francesco Silvestrin, Samuel Kaski, Luigi Acerbi
  • Classificazione: stat.ML cs.LG
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.09477

Riassunto

I modelli di inferenza probabilistica ammortizzata basati su Transformer (come i Processi Neurali, le Reti Predittive Precedenti e i Modelli Fondamentali Tabulari) eccellono nelle previsioni marginali singole. Tuttavia, molte applicazioni pratiche, dalla interpolazione di segnali alla previsione multi-colonna tabulare, richiedono di catturare distribuzioni congiunte coerenti che modellino le dipendenze tra previsioni. L'architettura puramente autoregressiva può generare efficientemente tali distribuzioni, ma sacrifica la capacità di condizionamento flessibile dell'insieme che rende questi modelli potenti nell'apprendimento meta. Al contrario, il metodo standard per ottenere distribuzioni congiunte dai modelli basati su insiemi richiede una ricodifica costosa dell'intero insieme di condizionamento aumentato ad ogni passo autoregressivo. Questo articolo introduce il buffer autoregressivo causale, che preserva i vantaggi di entrambi i paradigmi. Il metodo disaccoppia la codifica del contesto dall'aggiornamento dell'insieme di condizionamento, con il modello che elabora il contesto una volta e lo memorizza nella cache, mentre un buffer dinamico cattura le dipendenze tra target. Su funzioni sintetiche, segnali EEG, modelli cognitivi e dati tabulari, il metodo raggiunge accelerazioni fino a 20 volte nel campionamento congiunto mantenendo al contempo l'accuratezza predittiva di forti baseline.

Contesto di Ricerca e Motivazione

Problema Centrale

I modelli probabilistici basati su Transformer affrontano un collo di bottiglia di efficienza fondamentale: quando è necessario generare una distribuzione congiunta, l'intero insieme di condizionamento deve essere ricodificato ad ogni passo autoregressivo. Nello specifico:

  1. Limitazioni dei modelli con condizionamento su insiemi: I Processi Neurali (NP), le Reti Predittive Precedenti (PFN) e modelli simili eccellono nelle previsioni marginali, ma durante il dispiegamento autoregressivo richiedono ricodifiche ripetute del contesto, risultando in una complessità computazionale O(K(N+K)²)
  2. Insufficienze dei modelli puramente autoregressivi: Sebbene computazionalmente efficienti, mancano della capacità di condizionamento flessibile su insiemi, limitando l'applicazione nei compiti di apprendimento meta

Importanza

La previsione di distribuzioni congiunte è cruciale in molteplici applicazioni critiche:

  • Dipendenze temporali nell'interpolazione di segnali
  • Correlazioni tra caratteristiche nella previsione multi-colonna tabulare
  • Dipendenze sequenziali nella modellazione di dati comportamentali
  • Valutazione della verosimiglianza congiunta nella selezione bayesiana di modelli

Limitazioni dei Metodi Esistenti

  1. Dispiegamento autoregressivo TNP-D: Richiede ricodifica dell'insieme di condizionamento in crescita ad ogni passo
  2. TNP-A: Richiede elaborazione di insiemi target ripetuti sia durante l'addestramento che l'inferenza, con enorme sovraccarico computazionale
  3. TNP-ND: Limitato a distribuzioni gaussiane multivariate, capacità espressiva ridotta

Contributi Principali

  1. Propone il meccanismo del buffer autoregressivo causale: Disaccoppia la codifica del contesto del condizionamento su insiemi dalla previsione sequenziale, realizzando campionamento congiunto e valutazione della verosimiglianza efficienti
  2. Progetta una strategia di addestramento unificata: Utilizza maschere di attenzione e apprendimento curricolare della dimensione del buffer, consentendo a un singolo modello di apprendere entrambe le modalità operative con costo aggiuntivo minimo
  3. Verifica l'applicabilità diffusa: Realizza accelerazioni fino a 20 volte nel campionamento congiunto su TNP/PFN e modelli fondamentali tabulari, mantenendo al contempo accuratezza predittiva comparabile
  4. Ottimizzazione della complessità teorica: Riduce la complessità computazionale da O(K(N+K)²) a O(N²+NK+K²)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un insieme di contesto C = {(xₙ, yₙ)}ᴺₙ₌₁ e un insieme di target T = {(xₘ, yₘ)}ᴹₘ₌₁, l'obiettivo è apprendere la distribuzione predittiva p_θ(y₁:ₘ|x₁:ₘ; C), dove θ sono i parametri del modello.

Architettura del Modello

Componenti Principali

  1. Codificatore di contesto rC: Elabora coppie di contesto utilizzando auto-attenzione multi-testa bidirezionale, memorizzando nella cache le coppie chiave-valore ad ogni livello
  2. Codificatore di buffer rB: Utilizza auto-attenzione multi-testa rigorosamente causale sul prefisso del buffer
  3. Decodificatore di target rtgt: Interroga il contesto memorizzato nella cache e il prefisso del buffer visibile tramite attenzione incrociata

Parametrizzazione della Distribuzione Predittiva

p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))

dove bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)

Progettazione della Maschera di Attenzione

Implementa quattro requisiti chiave:

  • (R1) Immutabilità del contesto: Codificato una volta e memorizzato nella cache come sola lettura
  • (R2) Causalità rigorosa del buffer: Il token j può solo prestare attenzione alle posizioni <j
  • (R3) Flusso di informazioni unidirezionale dal contesto: Nessuna retroazione verso C
  • (R4) Il target presta attenzione al contesto memorizzato nella cache e al prefisso del buffer visibile

Punti di Innovazione Tecnica

1. Progettazione Disaccoppiata

  • Cache di contesto statico: Codificato una volta, riutilizzato più volte
  • Buffer dinamico: Aggiornamento incrementale, cattura dipendenze tra target

2. Curriculum di Addestramento

  • 50% dei target presta attenzione solo al contesto
  • 50% dei target presta attenzione al contesto + prefisso del buffer di lunghezza casuale
  • Assicura che il modello funzioni bene in diversi stati del buffer

3. Modalità di Inferenza Efficienti

  • Campionamento autoregressivo: Precompilazione del contesto, decodifica sequenziale dei target
  • Valutazione della verosimiglianza congiunta: Calcolo di tutte le probabilità condizionali in un singolo passaggio in avanti
  • Campionamento in batch: Condivisione della cache del contesto, stati del buffer indipendenti

Configurazione Sperimentale

Dataset

  1. Funzioni Sintetiche:
    • Processi Gaussiani (GP): kernel RBF, Matérn-3/2, Matérn-5/2
    • Funzione a dente di sega: non gaussiana, derivate discontinue
  2. Dati EEG: 11.520 prove, 122 soggetti, 7 canali rilevanti, 256 punti temporali
  3. Modello di Inferenza Causale Multisensoriale: Dati di esperimenti di localizzazione audiovisiva, 15 partecipanti
  4. Dati Tabulari: Dataset UCI (consumo di energia, emissioni turbina a gas, condivisione biciclette)

Metriche di Valutazione

  • Verosimiglianza logaritmica media: Valuta la qualità della previsione
  • Tempo di clock: Tempo di esecuzione effettivo per campionamento, valutazione della verosimiglianza, passi di addestramento
  • RMSE della verosimiglianza marginale logaritmica: Accuratezza nel compito di selezione del modello

Metodi di Confronto

  • TNP-D-Ind: Previsione indipendente, veloce ma senza modellazione delle dipendenze
  • TNP-D-AR: Dispiegamento autoregressivo, espressivo ma richiede ricodifica
  • TNP-ND: Distribuzione congiunta gaussiana multivariata, capacità espressiva limitata
  • TNP-A: Modellazione completamente autoregressiva, lenta sia nell'addestramento che nel campionamento

Dettagli di Implementazione

  • Ottimizzatore: Adam, tasso di apprendimento 1×10⁻⁴
  • Architettura: Transformer a 6 livelli, 4 teste di attenzione, dimensione 128
  • Testa predittiva: Modello di miscela gaussiana a 20 componenti
  • Dimensione del buffer: K=16 (esperimenti principali)

Risultati Sperimentali

Risultati Principali

Efficienza Computazionale

  • Campionamento autoregressivo: 3-20 volte più veloce di TNP-A e TNP-D-AR
  • Valutazione della verosimiglianza: Comparabile a TNP-A, K volte più veloce di TNP-D-AR
  • Velocità di addestramento: 4-12 volte più veloce di TNP-A, comparabile ai baseline più veloci

Accuratezza Predittiva

DatasetTNP-D-ARTNP-AQuesto Metodo (K=16)Questo Metodo (K=1)
GP2.570.802.512.56
Sawtooth1.05-0.431.001.09
EEG-Int0.510.460.520.54
EEG-For1.07-0.040.851.21

Esperimenti di Ablazione

  • Impatto della dimensione del buffer: Con K=1 equivale all'autoregressione standard, con K=16 leggera riduzione delle prestazioni ma accelerazione significativa della velocità
  • Kernel Triton personalizzati: Forniscono accelerazione significativa con batch di grandi dimensioni
  • Modalità di attenzione: Anche disabilitando FlashAttention, TNP-A rimane più lento di ordini di grandezza rispetto ad altri metodi

Analisi di Casi

Nel compito di inferenza causale multisensoriale:

  • Selezione del modello: RMSE LML di 3.56, vicino ai 3.47 di TNP-D-AR
  • Previsione dei dati: Verosimiglianza logaritmica media di -2.76, comparabile a tutti i forti baseline
  • Correlazione con valori reali: R²=1.00 (LML), R²=0.92 (ΔLML)

Lavori Correlati

Processi Neurali e Reti Predittive Precedenti

Questo metodo funziona come componente modulare integrabile nelle architetture NP/PFN esistenti. Complementare ai lavori precedenti focalizzati sulla scalabilità dell'insieme di contesto, questo articolo affronta l'efficienza del campionamento congiunto autoregressivo.

Modelli Probabilistici Transformer

Costruisce sulla tendenza di inquadrare l'inferenza bayesiana come compiti di apprendimento contestuale, sfruttando varianti NP e PFN basate su Transformer.

Modelli Fondamentali Tabulari

Si integra naturalmente con modelli come TabPFN e TabICL, fornendo un modulo complementare per previsioni congiunte efficienti.

Stima della Densità Congiunta Autoregressiva

Correlato a TNP-A ma con differenze chiave: TNP-A utilizza ripetizione dei target sia nell'addestramento che nell'inferenza, mentre questo metodo la richiede solo nella valutazione della verosimiglianza.

Conclusioni e Discussione

Conclusioni Principali

  1. Svolta nell'efficienza: Integra con successo l'efficienza del Transformer autoregressivo nel framework NP/PFN
  2. Mantenimento delle prestazioni: Mantiene l'accuratezza predittiva mentre accelera significativamente la velocità
  3. Applicabilità diffusa: Verifica l'efficacia del metodo in molteplici domini e compiti

Limitazioni

  1. Scalabilità della lunghezza del buffer: Ancora O(K²) quando K aumenta, attualmente utilizza embedding di posizione fissi
  2. Deriva di qualità con buffer lunghi: Possibile riduzione di qualità rispetto all'autoregressione esatta che ricodifica ad ogni passo
  3. Occupazione di memoria: Richiede mantenimento della cache del contesto e dello stato del buffer

Direzioni Future

  1. Miglioramento della codifica di posizione: Utilizzo di RoPE o ALiBi per supportare sequenze più lunghe
  2. Decodifica speculativa: Strategie di inferenza adattive ispirate ai processi draft-verify
  3. Messa a punto efficiente dei parametri: Utilizzo di adattatori o LoRA per aggiungere funzionalità di buffer ai modelli pre-addestrati

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione: Risolve abilmente il compromesso tra condizionamento su insiemi ed efficienza autoregressiva
  2. Fondamenti teorici solidi: Fornisce analisi di complessità chiara e derivazioni matematiche
  3. Esperimenti completi: Copre dati sintetici, dati reali, molteplici domini di applicazione
  4. Ottimizzazione ingegneristica: Include ottimizzazioni di basso livello come kernel CUDA personalizzati
  5. Riproducibilità: Fornisce dettagli di implementazione dettagliati e renderà disponibile il codice open-source

Carenze

  1. Ambito di applicazione: Principalmente applicabile a sequenze di target di lunghezza media, sequenze molto lunghe rimangono una sfida
  2. Analisi teorica: Manca l'analisi dei limiti teorici dell'errore di approssimazione del buffer
  3. Esperimenti di confronto: Nessun confronto con i più recenti meccanismi di attenzione efficiente (come l'attenzione lineare)

Impatto

  1. Valore accademico: Fornisce nuove prospettive per l'inferenza efficiente nei modelli probabilistici
  2. Valore pratico: Riduce significativamente i costi computazionali della previsione congiunta, rendendo possibili applicazioni pratiche
  3. Scalabilità: Il metodo ha buona generalità e può essere applicato a molteplici varianti di Transformer

Scenari di Applicazione

  • Applicazioni che richiedono campionamento congiunto frequente (come la quantificazione dell'incertezza)
  • Compiti di previsione sequenziale con contesto su larga scala
  • Scenari con elevati requisiti di inferenza in tempo reale
  • Modellazione congiunta di dati multimodali

Bibliografia

La bibliografia principale include:

  • Garnelo et al. (2018): Articolo originale su Neural Processes
  • Nguyen & Grover (2022): Transformer Neural Processes
  • Müller et al. (2022): Prior-Fitted Networks
  • Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
  • Jingang et al. (2025): Modello Fondamentale Tabulare TabICL

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che eccelle nell'innovazione teorica, verifica sperimentale e implementazione ingegneristica. Il metodo risolve con successo un importante collo di bottiglia di efficienza nei modelli probabilistici, con ampi prospettive di applicazione e valore accademico.