2025-11-25T22:34:18.624435

Efficient Autoregressive Inference for Transformer Probabilistic Models

Hassan, Loka, Li et al.

Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.

academic

Effiziente autoregressives Inferenz für Transformer-Wahrscheinlichkeitsmodelle

Grundinformationen

Paper-ID: 2510.09477
Titel: Efficient Autoregressive Inference for Transformer Probabilistic Models
Autoren: Conor Hassan, Nasrulloh Loka, Cen-You Li, Daolang Huang, Paul E. Chang, Yang Yang, Francesco Silvestrin, Samuel Kaski, Luigi Acerbi
Klassifizierung: stat.ML cs.LG
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09477

Zusammenfassung

Auf Transformer basierende amortisierte probabilistische Inferenzmodelle (wie neuronale Prozesse, vorhergehend angepasste Netzwerke und tabellarische Grundmodelle) zeigen hervorragende Leistungen bei einzelnen Randvorhersagen. Viele praktische Anwendungen – von Signalinterpolation bis zur Vorhersage mehrerer Spalten – erfordern jedoch kohärente Gelenkverteilungen, die Abhängigkeiten zwischen Vorhersagen erfassen. Rein autoregressives Architekturen können solche Verteilungen effizient generieren, opfern aber die flexible Mengenkonditionalität, die diese Modelle im Meta-Learning stark macht. Umgekehrt erfordert die Standardmethode zur Gewinnung von Gelenkverteilungen aus mengenbasierten Modellen eine teure Neukodierung des gesamten erweiterten Bedingungssatzes bei jedem autoregressiven Schritt. Dieses Paper führt kausale autoregressives Puffer ein, die die Vorteile beider Paradigmen bewahren. Die Methode entkoppelt die Kontextkodierung von der Bedingungssatzaktualisierung – das Modell verarbeitet den Kontext einmal und speichert ihn zwischen, während ein dynamischer Puffer Zielabhängigkeiten erfasst. Bei synthetischen Funktionen, EEG-Signalen, kognitiven Modellen und tabellarischen Daten erreicht die Methode bis zu 20-fache Beschleunigung beim gemeinsamen Sampling bei gleichzeitiger Beibehaltung der Vorhersagegenauigkeit starker Baselines.

Forschungshintergrund und Motivation

Kernproblem

Bestehende auf Transformer basierende Wahrscheinlichkeitsmodelle sehen sich einem grundlegenden Effizienzengpass gegenüber: Bei der Generierung von Gelenkverteilungen muss der gesamte Bedingungssatz bei jedem autoregressiven Schritt neu kodiert werden. Konkret:

Einschränkungen mengenkonditionalter Modelle: Neuronale Prozesse (NPs), vorhergehend angepasste Netzwerke (PFNs) und ähnliche Modelle sind hervorragend bei Randvorhersagen, erfordern aber bei autoregressiver Bereitstellung wiederholte Neukodierung des Kontexts, was zu einer Rechenkomplexität von O(K(N+K)²) führt
Unzulänglichkeiten rein autoregressiver Modelle: Obwohl rechnerisch effizient, fehlt ihnen die flexible Mengenkonditionalität, was ihre Anwendung bei Meta-Learning-Aufgaben einschränkt

Bedeutung

Gelenkverteilungsvorhersagen sind in mehreren kritischen Anwendungen wesentlich:

Zeitliche Abhängigkeiten bei der Signalinterpolation
Merkmalskorrelationen bei der Vorhersage mehrerer Spalten
Sequenzabhängigkeiten bei der Verhaltensmodellierung
Gemeinsame Wahrscheinlichkeitsbewertung bei der Bayes'schen Modellauswahl

Einschränkungen bestehender Methoden

TNP-D autoregressives Deployment: Neukodierung des wachsenden Bedingungssatzes bei jedem Schritt erforderlich
TNP-A: Training und Inferenz erfordern die Verarbeitung wiederholter Zielmengen mit enormem Rechenaufwand
TNP-ND: Beschränkt auf multivariate Gaußverteilungen mit begrenzter Ausdruckskraft

Kernbeiträge

Einführung des kausalen autoregressiven Puffermechanismus: Entkopplung der Kontextkodierung von Mengenkonditionalität und Sequenzvorhersage für effizientes gemeinsames Sampling und Wahrscheinlichkeitsbewertung
Entwurf einer einheitlichen Trainingsstrategie: Verwendung von maskierter Aufmerksamkeit und Puffergröße-Curriculum-Learning, das es einem einzelnen Modell ermöglicht, beide Betriebsmodi mit minimalen zusätzlichen Kosten zu erlernen
Validierung breiter Anwendbarkeit: Erreichung von bis zu 20-facher Beschleunigung beim gemeinsamen Sampling auf TNPs/PFNs und tabellarischen Grundmodellen bei Beibehaltung vergleichbarer Vorhersagegenauigkeit
Optimierung der theoretischen Komplexität: Reduzierung der Rechenkomplexität von O(K(N+K)²) auf O(N²+NK+K²)

Methodische Details

Aufgabendefinition

Gegeben ein Kontextsatz C = {(xₙ, yₙ)}ᴺₙ₌₁ und ein Zielsatz T = {(xₘ, yₘ)}ᴹₘ₌₁ besteht das Ziel darin, die Vorhersageverteilung p_θ(y₁:ₘ|x₁:ₘ; C) zu erlernen, wobei θ die Modellparameter sind.

Modellarchitektur

Kernkomponenten

Kontextkodierungsmodul rC: Verarbeitet Kontextpaare mit bidirektionaler Multi-Head-Selbstaufmerksamkeit und speichert Schlüssel-Wert-Paare bei jedem Layer
Pufferkodierungsmodul rB: Verwendet strikte kausale Multi-Head-Selbstaufmerksamkeit für das Pufferprefix
Zieldekodermodul rtgt: Fragt zwischengespeicherten Kontext und sichtbares Pufferprefix durch Kreuzaufmerksamkeit ab

Parametrisierung der Vorhersageverteilung

p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))

wobei bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)

Aufmerksamkeitsmaskendesign

Implementierung von vier Schlüsselanforderungen:

(R1) Kontextunveränderlichkeit: Einmalige Kodierung und Zwischenspeicherung als schreibgeschützt
(R2) Strikte Pufferkausalität: Token j kann nur Positionen <j beachten
(R3) Unidirektionaler Informationsfluss aus dem Kontext: Keine Rückschreiben in C
(R4) Zielaufmerksamkeit auf zwischengespeicherten Kontext und sichtbares Pufferprefix

Technische Innovationen

1. Entkoppeltes Design

Statischer Kontextzwischenspeicher: Einmalige Kodierung, mehrfache Wiederverwendung
Dynamischer Puffer: Inkrementelle Aktualisierung, erfasst Zielabhängigkeiten

2. Trainings-Curriculum

50% der Ziele beachten nur den Kontext
50% der Ziele beachten Kontext + Pufferprefix zufälliger Länge
Gewährleistet, dass das Modell bei verschiedenen Pufferzuständen gut funktioniert

3. Effiziente Inferenzmodi

Autoregressives Sampling: Kontextvorfüllung, sequenzielle Zieldecodierung
Gemeinsame Wahrscheinlichkeitsbewertung: Berechnung aller bedingten Wahrscheinlichkeiten in einem Vorwärtsdurchlauf
Batch-Sampling: Gemeinsamer Kontextzwischenspeicher, unabhängige Pufferzustände

Experimentelle Einrichtung

Datensätze

Synthetische Funktionen:
- Gaußsche Prozesse (GP): RBF-, Matérn-3/2-, Matérn-5/2-Kernel
- Sägezahnfunktion: Nicht-Gaußsch, diskontinuierliche Ableitungen
EEG-Daten: 11.520 Versuche, 122 Probanden, 7 relevante Kanäle, 256 Zeitpunkte
Multisensorisches Kausalinferenzmodell: Audio-visuelle Lokalisierungsexperimentdaten, 15 Teilnehmer
Tabellarische Daten: UCI-Datensätze (Stromverbrauch, Gasturbineneemissionen, Fahrradfreigabe)

Bewertungsmetriken

Durchschnittliche Log-Wahrscheinlichkeit: Bewertung der Vorhersagequalität
Wanduhrzeit: Tatsächliche Laufzeit für Sampling, Wahrscheinlichkeitsbewertung, Trainingsschritte
Log-Marginal-Likelihood-RMSE: Genauigkeit bei Modellauswahlaufgaben

Vergleichsmethoden

TNP-D-Ind: Unabhängige Vorhersagen, schnell aber keine Abhängigkeitsmodellierung
TNP-D-AR: Autoregressives Deployment, ausdrucksstark aber Neukodierung erforderlich
TNP-ND: Multivariate Gaußsche Gelenkverteilung, begrenzte Ausdruckskraft
TNP-A: Vollständig autoregressives Modellieren, Training und Sampling sind langsam

Implementierungsdetails

Optimierer: Adam, Lernrate 1×10⁻⁴
Architektur: 6-schichtiger Transformer, 4 Aufmerksamkeitsköpfe, Dimension 128
Vorhersagekopf: 20-Komponenten-Gaußsche Mischung
Puffergröße: K=16 (Hauptexperimente)

Experimentelle Ergebnisse

Hauptergebnisse

Rechnerische Effizienz

Autoregressives Sampling: 3-20x schneller als TNP-A und TNP-D-AR
Wahrscheinlichkeitsbewertung: Vergleichbar mit TNP-A, K-mal schneller als TNP-D-AR
Trainingsgeschwindigkeit: 4-12x schneller als TNP-A, vergleichbar mit schnellsten Baselines

Vorhersagegenauigkeit

Datensatz	TNP-D-AR	TNP-A	Diese Methode (K=16)	Diese Methode (K=1)
GP	2,57	0,80	2,51	2,56
Sägezahn	1,05	-0,43	1,00	1,09
EEG-Int	0,51	0,46	0,52	0,54
EEG-For	1,07	-0,04	0,85	1,21

Ablationsstudien

Puffergröße-Auswirkung: K=1 entspricht standardmäßigem Autoregression, K=16 zeigt leichte Leistungsabnahme aber erhebliche Geschwindigkeitssteigerung
Benutzerdefinierte Triton-Kernel: Bieten signifikante Beschleunigung bei großen Batches
Aufmerksamkeitsmuster: Selbst mit deaktiviertem FlashAttention ist TNP-A mehrere Größenordnungen langsamer

Fallstudien

Bei multisensorischen Kausalinferenzaufgaben:

Modellauswahl: LML-RMSE von 3,56, nahe TNP-D-AR's 3,47
Datenvorhersage: Durchschnittliche Log-Wahrscheinlichkeit von -2,76, vergleichbar mit allen starken Baselines
Korrelation mit Grundwahrheit: R²=1,00 (LML), R²=0,92 (ΔLML)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effizienz-Durchbruch: Erfolgreiche Integration der Effizienz autoregressiver Transformer in NP/PFN-Rahmen
Leistungserhalt: Beibehaltung der Vorhersagegenauigkeit bei erheblicher Geschwindigkeitssteigerung
Breite Anwendbarkeit: Validierung der Methodeneffektivität über mehrere Domänen und Aufgaben

Einschränkungen

Pufferlängen-Skalierung: O(K²)-Term bleibt bei wachsendem K, aktuelle Implementierung verwendet feste Positionseinbettungen
Qualitätsabweichung bei langen Puffern: Mögliche Qualitätsabnahme im Vergleich zu exaktem Autoregression mit Neukodierung bei jedem Schritt
Speicherverbrauch: Erfordert Wartung von Kontextzwischenspeicher und Pufferzuständen

Zukünftige Richtungen

Verbesserungen der Positionscodierung: Verwendung von RoPE oder ALiBi zur Unterstützung längerer Sequenzen
Spekulative Decodierung: Adaptive Inferenzstrategien inspiriert von Draft-Verify-Prozessen
Parametereffiziente Feinabstimmung: Verwendung von Adaptern oder LoRA zum Hinzufügen von Pufferfunktionalität zu vortrainierten Modellen

Tiefgreifende Bewertung

Stärken

Starke Innovation: Elegante Lösung des Kompromisses zwischen Mengenkonditionalität und autoregressiver Effizienz
Solide Theorie: Klare Komplexitätsanalyse und mathematische Herleitung
Umfassende Experimente: Abdeckung synthetischer Daten, realer Daten, mehrerer Anwendungsdomänen
Technische Optimierung: Einschließlich benutzerdefinierter CUDA-Kernel und anderer Low-Level-Optimierungen
Reproduzierbarkeit: Detaillierte Implementierungsdetails und geplante Open-Source-Veröffentlichung

Mängel

Anwendungsbereich: Hauptsächlich für mittellange Zielsequenzen geeignet, sehr lange Sequenzen bleiben herausfordernd
Theoretische Analyse: Fehlende theoretische Grenzen für Puffernäherungsfehler
Vergleichende Experimente: Keine Vergleiche mit neuesten effizienten Aufmerksamkeitsmechanismen (z.B. lineare Aufmerksamkeit)

Auswirkungen

Akademischer Wert: Bietet neue Perspektiven für effiziente Inferenz in Wahrscheinlichkeitsmodellen
Praktischer Wert: Erhebliche Reduzierung der Rechenkosten für Gelenkvorhersagen, ermöglicht praktische Anwendungen
Skalierbarkeit: Methode zeigt gute Universalität, anwendbar auf verschiedene Transformer-Varianten

Anwendungsszenarien

Anwendungen, die häufiges gemeinsames Sampling erfordern (z.B. Unsicherheitsquantifizierung)
Sequenzvorhersageaufgaben mit großem Kontext
Szenarien mit hohen Echtzeitanforderungen
Gemeinsame Modellierung multimodaler Daten

Referenzen

Hauptreferenzen umfassen:

Garnelo et al. (2018): Originalpaper zu Neural Processes
Nguyen & Grover (2022): Transformer Neural Processes
Müller et al. (2022): Prior-Fitted Networks
Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
Jingang et al. (2025): TabICL tabellarische Grundmodelle

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper mit hervorragenden Leistungen in theoretischer Innovation, experimenteller Validierung und technischer Implementierung. Die Methode löst erfolgreich einen wichtigen Effizienzengpass in Wahrscheinlichkeitsmodellen und hat breite Anwendungsperspektiven und akademischen Wert.