2025-11-25T22:34:18.624435

Efficient Autoregressive Inference for Transformer Probabilistic Models

Hassan, Loka, Li et al.
Transformer-based models for amortized probabilistic inference, such as neural processes, prior-fitted networks, and tabular foundation models, excel at single-pass marginal prediction. However, many real-world applications, from signal interpolation to multi-column tabular predictions, require coherent joint distributions that capture dependencies between predictions. While purely autoregressive architectures efficiently generate such distributions, they sacrifice the flexible set-conditioning that makes these models powerful for meta-learning. Conversely, the standard approach to obtain joint distributions from set-based models requires expensive re-encoding of the entire augmented conditioning set at each autoregressive step. We introduce a causal autoregressive buffer that preserves the advantages of both paradigms. Our approach decouples context encoding from updating the conditioning set. The model processes the context once and caches it. A dynamic buffer then captures target dependencies: as targets are incorporated, they enter the buffer and attend to both the cached context and previously buffered targets. This enables efficient batched autoregressive generation and one-pass joint log-likelihood evaluation. A unified training strategy allows seamless integration of set-based and autoregressive modes at minimal additional cost. Across synthetic functions, EEG signals, cognitive models, and tabular data, our method matches predictive accuracy of strong baselines while delivering up to 20 times faster joint sampling. Our approach combines the efficiency of autoregressive generative models with the representational power of set-based conditioning, making joint prediction practical for transformer-based probabilistic models.
academic

Effiziente autoregressives Inferenz für Transformer-Wahrscheinlichkeitsmodelle

Grundinformationen

  • Paper-ID: 2510.09477
  • Titel: Efficient Autoregressive Inference for Transformer Probabilistic Models
  • Autoren: Conor Hassan, Nasrulloh Loka, Cen-You Li, Daolang Huang, Paul E. Chang, Yang Yang, Francesco Silvestrin, Samuel Kaski, Luigi Acerbi
  • Klassifizierung: stat.ML cs.LG
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09477

Zusammenfassung

Auf Transformer basierende amortisierte probabilistische Inferenzmodelle (wie neuronale Prozesse, vorhergehend angepasste Netzwerke und tabellarische Grundmodelle) zeigen hervorragende Leistungen bei einzelnen Randvorhersagen. Viele praktische Anwendungen – von Signalinterpolation bis zur Vorhersage mehrerer Spalten – erfordern jedoch kohärente Gelenkverteilungen, die Abhängigkeiten zwischen Vorhersagen erfassen. Rein autoregressives Architekturen können solche Verteilungen effizient generieren, opfern aber die flexible Mengenkonditionalität, die diese Modelle im Meta-Learning stark macht. Umgekehrt erfordert die Standardmethode zur Gewinnung von Gelenkverteilungen aus mengenbasierten Modellen eine teure Neukodierung des gesamten erweiterten Bedingungssatzes bei jedem autoregressiven Schritt. Dieses Paper führt kausale autoregressives Puffer ein, die die Vorteile beider Paradigmen bewahren. Die Methode entkoppelt die Kontextkodierung von der Bedingungssatzaktualisierung – das Modell verarbeitet den Kontext einmal und speichert ihn zwischen, während ein dynamischer Puffer Zielabhängigkeiten erfasst. Bei synthetischen Funktionen, EEG-Signalen, kognitiven Modellen und tabellarischen Daten erreicht die Methode bis zu 20-fache Beschleunigung beim gemeinsamen Sampling bei gleichzeitiger Beibehaltung der Vorhersagegenauigkeit starker Baselines.

Forschungshintergrund und Motivation

Kernproblem

Bestehende auf Transformer basierende Wahrscheinlichkeitsmodelle sehen sich einem grundlegenden Effizienzengpass gegenüber: Bei der Generierung von Gelenkverteilungen muss der gesamte Bedingungssatz bei jedem autoregressiven Schritt neu kodiert werden. Konkret:

  1. Einschränkungen mengenkonditionalter Modelle: Neuronale Prozesse (NPs), vorhergehend angepasste Netzwerke (PFNs) und ähnliche Modelle sind hervorragend bei Randvorhersagen, erfordern aber bei autoregressiver Bereitstellung wiederholte Neukodierung des Kontexts, was zu einer Rechenkomplexität von O(K(N+K)²) führt
  2. Unzulänglichkeiten rein autoregressiver Modelle: Obwohl rechnerisch effizient, fehlt ihnen die flexible Mengenkonditionalität, was ihre Anwendung bei Meta-Learning-Aufgaben einschränkt

Bedeutung

Gelenkverteilungsvorhersagen sind in mehreren kritischen Anwendungen wesentlich:

  • Zeitliche Abhängigkeiten bei der Signalinterpolation
  • Merkmalskorrelationen bei der Vorhersage mehrerer Spalten
  • Sequenzabhängigkeiten bei der Verhaltensmodellierung
  • Gemeinsame Wahrscheinlichkeitsbewertung bei der Bayes'schen Modellauswahl

Einschränkungen bestehender Methoden

  1. TNP-D autoregressives Deployment: Neukodierung des wachsenden Bedingungssatzes bei jedem Schritt erforderlich
  2. TNP-A: Training und Inferenz erfordern die Verarbeitung wiederholter Zielmengen mit enormem Rechenaufwand
  3. TNP-ND: Beschränkt auf multivariate Gaußverteilungen mit begrenzter Ausdruckskraft

Kernbeiträge

  1. Einführung des kausalen autoregressiven Puffermechanismus: Entkopplung der Kontextkodierung von Mengenkonditionalität und Sequenzvorhersage für effizientes gemeinsames Sampling und Wahrscheinlichkeitsbewertung
  2. Entwurf einer einheitlichen Trainingsstrategie: Verwendung von maskierter Aufmerksamkeit und Puffergröße-Curriculum-Learning, das es einem einzelnen Modell ermöglicht, beide Betriebsmodi mit minimalen zusätzlichen Kosten zu erlernen
  3. Validierung breiter Anwendbarkeit: Erreichung von bis zu 20-facher Beschleunigung beim gemeinsamen Sampling auf TNPs/PFNs und tabellarischen Grundmodellen bei Beibehaltung vergleichbarer Vorhersagegenauigkeit
  4. Optimierung der theoretischen Komplexität: Reduzierung der Rechenkomplexität von O(K(N+K)²) auf O(N²+NK+K²)

Methodische Details

Aufgabendefinition

Gegeben ein Kontextsatz C = {(xₙ, yₙ)}ᴺₙ₌₁ und ein Zielsatz T = {(xₘ, yₘ)}ᴹₘ₌₁ besteht das Ziel darin, die Vorhersageverteilung p_θ(y₁:ₘ|x₁:ₘ; C) zu erlernen, wobei θ die Modellparameter sind.

Modellarchitektur

Kernkomponenten

  1. Kontextkodierungsmodul rC: Verarbeitet Kontextpaare mit bidirektionaler Multi-Head-Selbstaufmerksamkeit und speichert Schlüssel-Wert-Paare bei jedem Layer
  2. Pufferkodierungsmodul rB: Verwendet strikte kausale Multi-Head-Selbstaufmerksamkeit für das Pufferprefix
  3. Zieldekodermodul rtgt: Fragt zwischengespeicherten Kontext und sichtbares Pufferprefix durch Kreuzaufmerksamkeit ab

Parametrisierung der Vorhersageverteilung

p_θ(y*₁:K|x*₁:K; C) = ∏ᴷₖ₌₁ p_θ(y*ₖ|rtgt(x*ₖ, [rC(C), b₁:ₖ₋₁]))

wobei bₖ = rB((xₖ, yₖ), rC(C), b₁:ₖ₋₁)

Aufmerksamkeitsmaskendesign

Implementierung von vier Schlüsselanforderungen:

  • (R1) Kontextunveränderlichkeit: Einmalige Kodierung und Zwischenspeicherung als schreibgeschützt
  • (R2) Strikte Pufferkausalität: Token j kann nur Positionen <j beachten
  • (R3) Unidirektionaler Informationsfluss aus dem Kontext: Keine Rückschreiben in C
  • (R4) Zielaufmerksamkeit auf zwischengespeicherten Kontext und sichtbares Pufferprefix

Technische Innovationen

1. Entkoppeltes Design

  • Statischer Kontextzwischenspeicher: Einmalige Kodierung, mehrfache Wiederverwendung
  • Dynamischer Puffer: Inkrementelle Aktualisierung, erfasst Zielabhängigkeiten

2. Trainings-Curriculum

  • 50% der Ziele beachten nur den Kontext
  • 50% der Ziele beachten Kontext + Pufferprefix zufälliger Länge
  • Gewährleistet, dass das Modell bei verschiedenen Pufferzuständen gut funktioniert

3. Effiziente Inferenzmodi

  • Autoregressives Sampling: Kontextvorfüllung, sequenzielle Zieldecodierung
  • Gemeinsame Wahrscheinlichkeitsbewertung: Berechnung aller bedingten Wahrscheinlichkeiten in einem Vorwärtsdurchlauf
  • Batch-Sampling: Gemeinsamer Kontextzwischenspeicher, unabhängige Pufferzustände

Experimentelle Einrichtung

Datensätze

  1. Synthetische Funktionen:
    • Gaußsche Prozesse (GP): RBF-, Matérn-3/2-, Matérn-5/2-Kernel
    • Sägezahnfunktion: Nicht-Gaußsch, diskontinuierliche Ableitungen
  2. EEG-Daten: 11.520 Versuche, 122 Probanden, 7 relevante Kanäle, 256 Zeitpunkte
  3. Multisensorisches Kausalinferenzmodell: Audio-visuelle Lokalisierungsexperimentdaten, 15 Teilnehmer
  4. Tabellarische Daten: UCI-Datensätze (Stromverbrauch, Gasturbineneemissionen, Fahrradfreigabe)

Bewertungsmetriken

  • Durchschnittliche Log-Wahrscheinlichkeit: Bewertung der Vorhersagequalität
  • Wanduhrzeit: Tatsächliche Laufzeit für Sampling, Wahrscheinlichkeitsbewertung, Trainingsschritte
  • Log-Marginal-Likelihood-RMSE: Genauigkeit bei Modellauswahlaufgaben

Vergleichsmethoden

  • TNP-D-Ind: Unabhängige Vorhersagen, schnell aber keine Abhängigkeitsmodellierung
  • TNP-D-AR: Autoregressives Deployment, ausdrucksstark aber Neukodierung erforderlich
  • TNP-ND: Multivariate Gaußsche Gelenkverteilung, begrenzte Ausdruckskraft
  • TNP-A: Vollständig autoregressives Modellieren, Training und Sampling sind langsam

Implementierungsdetails

  • Optimierer: Adam, Lernrate 1×10⁻⁴
  • Architektur: 6-schichtiger Transformer, 4 Aufmerksamkeitsköpfe, Dimension 128
  • Vorhersagekopf: 20-Komponenten-Gaußsche Mischung
  • Puffergröße: K=16 (Hauptexperimente)

Experimentelle Ergebnisse

Hauptergebnisse

Rechnerische Effizienz

  • Autoregressives Sampling: 3-20x schneller als TNP-A und TNP-D-AR
  • Wahrscheinlichkeitsbewertung: Vergleichbar mit TNP-A, K-mal schneller als TNP-D-AR
  • Trainingsgeschwindigkeit: 4-12x schneller als TNP-A, vergleichbar mit schnellsten Baselines

Vorhersagegenauigkeit

DatensatzTNP-D-ARTNP-ADiese Methode (K=16)Diese Methode (K=1)
GP2,570,802,512,56
Sägezahn1,05-0,431,001,09
EEG-Int0,510,460,520,54
EEG-For1,07-0,040,851,21

Ablationsstudien

  • Puffergröße-Auswirkung: K=1 entspricht standardmäßigem Autoregression, K=16 zeigt leichte Leistungsabnahme aber erhebliche Geschwindigkeitssteigerung
  • Benutzerdefinierte Triton-Kernel: Bieten signifikante Beschleunigung bei großen Batches
  • Aufmerksamkeitsmuster: Selbst mit deaktiviertem FlashAttention ist TNP-A mehrere Größenordnungen langsamer

Fallstudien

Bei multisensorischen Kausalinferenzaufgaben:

  • Modellauswahl: LML-RMSE von 3,56, nahe TNP-D-AR's 3,47
  • Datenvorhersage: Durchschnittliche Log-Wahrscheinlichkeit von -2,76, vergleichbar mit allen starken Baselines
  • Korrelation mit Grundwahrheit: R²=1,00 (LML), R²=0,92 (ΔLML)

Verwandte Arbeiten

Neuronale Prozesse und vorhergehend angepasste Netzwerke

Diese Methode fungiert als modulare Komponente, die in bestehende NP/PFN-Architekturen integriert werden kann. Sie ergänzt frühere Arbeiten, die sich auf die Skalierbarkeit von Kontextsätzen konzentrieren, während dieses Paper die Effizienz des autoregressiven Gelenksampling adressiert.

Transformer-Wahrscheinlichkeitsmodelle

Baut auf dem Trend auf, Bayes'sche Inferenzrahmen als Kontextlernaufgaben zu formulieren, und nutzt auf Transformer basierende NP- und PFN-Varianten.

Tabellarische Grundmodelle

Integriert sich natürlich mit Modellen wie TabPFN und TabICL und bietet ein ergänzendes Modul für effiziente Gelenkvorhersagen.

Autoregressives Gelenkdichteschätzen

Verwandt mit TNP-A, aber mit Schlüsselunterschieden: TNP-A verwendet Zielwiederholung sowohl beim Training als auch bei der Inferenz, während diese Methode dies nur bei der Wahrscheinlichkeitsbewertung benötigt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effizienz-Durchbruch: Erfolgreiche Integration der Effizienz autoregressiver Transformer in NP/PFN-Rahmen
  2. Leistungserhalt: Beibehaltung der Vorhersagegenauigkeit bei erheblicher Geschwindigkeitssteigerung
  3. Breite Anwendbarkeit: Validierung der Methodeneffektivität über mehrere Domänen und Aufgaben

Einschränkungen

  1. Pufferlängen-Skalierung: O(K²)-Term bleibt bei wachsendem K, aktuelle Implementierung verwendet feste Positionseinbettungen
  2. Qualitätsabweichung bei langen Puffern: Mögliche Qualitätsabnahme im Vergleich zu exaktem Autoregression mit Neukodierung bei jedem Schritt
  3. Speicherverbrauch: Erfordert Wartung von Kontextzwischenspeicher und Pufferzuständen

Zukünftige Richtungen

  1. Verbesserungen der Positionscodierung: Verwendung von RoPE oder ALiBi zur Unterstützung längerer Sequenzen
  2. Spekulative Decodierung: Adaptive Inferenzstrategien inspiriert von Draft-Verify-Prozessen
  3. Parametereffiziente Feinabstimmung: Verwendung von Adaptern oder LoRA zum Hinzufügen von Pufferfunktionalität zu vortrainierten Modellen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Elegante Lösung des Kompromisses zwischen Mengenkonditionalität und autoregressiver Effizienz
  2. Solide Theorie: Klare Komplexitätsanalyse und mathematische Herleitung
  3. Umfassende Experimente: Abdeckung synthetischer Daten, realer Daten, mehrerer Anwendungsdomänen
  4. Technische Optimierung: Einschließlich benutzerdefinierter CUDA-Kernel und anderer Low-Level-Optimierungen
  5. Reproduzierbarkeit: Detaillierte Implementierungsdetails und geplante Open-Source-Veröffentlichung

Mängel

  1. Anwendungsbereich: Hauptsächlich für mittellange Zielsequenzen geeignet, sehr lange Sequenzen bleiben herausfordernd
  2. Theoretische Analyse: Fehlende theoretische Grenzen für Puffernäherungsfehler
  3. Vergleichende Experimente: Keine Vergleiche mit neuesten effizienten Aufmerksamkeitsmechanismen (z.B. lineare Aufmerksamkeit)

Auswirkungen

  1. Akademischer Wert: Bietet neue Perspektiven für effiziente Inferenz in Wahrscheinlichkeitsmodellen
  2. Praktischer Wert: Erhebliche Reduzierung der Rechenkosten für Gelenkvorhersagen, ermöglicht praktische Anwendungen
  3. Skalierbarkeit: Methode zeigt gute Universalität, anwendbar auf verschiedene Transformer-Varianten

Anwendungsszenarien

  • Anwendungen, die häufiges gemeinsames Sampling erfordern (z.B. Unsicherheitsquantifizierung)
  • Sequenzvorhersageaufgaben mit großem Kontext
  • Szenarien mit hohen Echtzeitanforderungen
  • Gemeinsame Modellierung multimodaler Daten

Referenzen

Hauptreferenzen umfassen:

  • Garnelo et al. (2018): Originalpaper zu Neural Processes
  • Nguyen & Grover (2022): Transformer Neural Processes
  • Müller et al. (2022): Prior-Fitted Networks
  • Bruinsma et al. (2023): Autoregressive Conditional Neural Processes
  • Jingang et al. (2025): TabICL tabellarische Grundmodelle

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper mit hervorragenden Leistungen in theoretischer Innovation, experimenteller Validierung und technischer Implementierung. Die Methode löst erfolgreich einen wichtigen Effizienzengpass in Wahrscheinlichkeitsmodellen und hat breite Anwendungsperspektiven und akademischen Wert.