2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.

Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.

academic

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Grundinformationen

Paper-ID: 2508.16845
Titel: NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Autoren: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
Klassifizierung: cs.CV cs.AI cs.LG
Veröffentlichungskonferenz: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
Paper-Link: https://arxiv.org/abs/2508.16845

Zusammenfassung

Jüngste Fortschritte bei Vision-Language-Action (VLA) Modellen haben eine zweikomponentige Architektur etabliert: Ein vortrainiertes Vision-Language-Modell (VLM) kodiert visuelle Beobachtungen und Aufgabenbeschreibungen, während ein Action-Decoder diese Darstellungen in kontinuierliche Aktionen abbildet. Diffusionsmodelle werden aufgrund ihrer Fähigkeit, komplexe multimodale Aktionsverteilungen zu modellieren, häufig als Action-Decoder eingesetzt. Allerdings erfordern sie während der Inferenz mehrere iterative Denoise-Schritte, was die Praktikabilität in realen Szenarien mit hoher Kontrollfrequenz einschränkt. Dieser Artikel stellt NinA (Normalizing Flows in Action) vor, eine schnelle und ausdrucksstarke Alternative zu VLA-Diffusions-Decodern. NinA ersetzt den Diffusions-Action-Decoder durch normalisierende Flüsse (NF), die durch reversible Transformationen One-Shot-Sampling ermöglichen und die Inferenzzeit erheblich reduzieren. Experimente zeigen, dass NinA unter identischen Trainingsbedingungen mit diffusionsbasierten Gegenstücken konkurriert, während gleichzeitig eine deutlich schnellere Inferenzgeschwindigkeit erreicht wird.

Forschungshintergrund und Motivation

Problemdefinition

Aktuelle VLA-Modelle verwenden häufig Diffusionsmodelle als Action-Decoder, die zwar komplexe multimodale Aktionsverteilungen modellieren können, aber unter Inferenzlatenz leiden:

Inferenzeffizienz-Engpass: Diffusionsmodelle erfordern autoregressive Denoise-Prozesse mit mehreren Forward-Passes
Anforderungen an Echtzeitsteuerung: Die Feinsteuerung von Robotern erfordert hochfrequente Reaktionen, wobei Latenz ein kritischer Limitierungsfaktor ist
Rechenressourcenverbrauch: Multi-Step-Sampling erhöht den Rechenaufwand

Forschungsmotivation

Die Robotersteuerung stellt extreme Anforderungen an Echtzeitleistung, und der Multi-Step-Sampling-Mechanismus bestehender Diffusionsmodelle wird zum Engpass bei der Bereitstellung. Normalisierende Flüsse als generative Modelle bieten folgende Vorteile:

Stichprobengenerierung durch einen einzigen Forward-Pass
Genaue Likelihood-Schätzung
Unterstützung für Variational Inference und Unsicherheitsquantifizierung
Potenzial in Imitation Learning und Reinforcement Learning

Kernbeiträge

NinA-Framework: Erstmalige Anwendung normalisierender Flüsse auf Action-Decoding in VLA-Modellen, ermöglicht effiziente One-Shot-Aktionsgenerierung
Dual-Architektur-Design: Entwicklung zweier normalisierender Fluss-Varianten basierend auf MLP und Transformer, die Effizienz und Leistung ausbalancieren
Leistungsvalidierung: Nachweis, dass NinA auf dem LIBERO-Benchmark mit Diffusionsmodellen konkurriert, während gleichzeitig 7-10x Inferenzbeschleunigung erreicht wird
Umfassende Analyse: Detaillierte Ablationsstudien und Hyperparameter-Analyse, die Richtlinien für die Anwendung normalisierender Flüsse in der Robotersteuerung bieten

Methodische Details

Aufgabendefinition

Gegeben eine visuelle Beobachtung $o_t$ und eine Textanweisung $g$ muss das VLA-Modell entsprechende Roboter-Aktionen $a_t$ generieren. Das Ziel ist die Maximierung der Log-Likelihood von Experten-Aktionen:

$\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]$

Modellarchitektur

Gesamtrahmen

NinA verwendet ein modulares Design, behält den VLM-Encoder von FLOWER bei und ersetzt nur den Action-Decoder:

VLM-Encoder: $h_t = \text{VLM}(o_t, g)$ generiert multimodale Einbettungen
Normalisierender Fluss-Decoder: $a_t \sim \pi_\theta(\cdot | h_t)$ generiert Aktionssequenzen

Design normalisierender Flüsse

Basierend auf der RealNVP-Architektur, implementiert eine Sequenz reversibler Transformationen:

$\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|$

wobei $z_0 \sim \mathcal{N}(0, I)$ die Basisverteilung ist und $f_\theta = f_K \circ \cdots \circ f_1$ die Sequenz reversibler Transformationen darstellt.

Dual-Varianten-Architektur

MLP-Variante:

Aktionsvektor wird elementweise aufgeteilt: $(x_1, x_2)$
Bedingtes Netzwerk: $g_{\phi_k}(x_1, h_t)$ realisiert Konditionierung durch Verkettung
Affine Transformation: $y_2 = \exp(s) \cdot x_2 + b$
Parameterzahl: 2M, schnellste Inferenzgeschwindigkeit

Transformer-Variante:

Aktionssequenz wird sequenzweise aufgeteilt
Bedingtes Netzwerk: Self-Attention + Cross-Attention-Mechanismus
Stärkere Ausdruckskraft und Skalierbarkeit
Parameterzahl: 38M, bessere Leistung

Technische Innovationen

Rausch-Injektionsstrategie: Während des Trainings wird Gaußsches Rauschen $\mathcal{N}(0, \sigma^2_{noise})$ zu Aktionen hinzugefügt als Regularisierungstechnik
PLU-Layer-Integration: Einführung trainierbarer reversibler linearer Layer zur Verbesserung der Ausdruckskraft
Konditionierungsmechanismus: MLP durch Verkettung, Transformer durch Cross-Attention realisiert VLM-Feature-Konditionierung
Stabilitätsoptimierung: Tanh-Aktivierungsfunktion auf Skalierungsparameter angewendet zur Vermeidung von Trainingsinstabilität

Experimentelle Einrichtung

Datensätze

Verwendung des LIBERO-Benchmarks mit fünf Unterkategorien:

LIBERO Spatial: Räumliche Reasoning-Aufgaben
LIBERO Object: Objektmanipulationsaufgaben
LIBERO Goal: Zielorientierte Aufgaben
LIBERO 10: 10-Aufgaben-Kombination
LIBERO 90: 90-Aufgaben-Kombination

Bewertungsmetriken

Aufgabenerfolgsquote als primäre Bewertungsmetrik, Berichte für alle Unterkategorien und durchschnittliche Erfolgsquote.

Vergleichsmethoden

FLOWER (330M): Ursprüngliches Diffusions-Policy-Modell
FLOWER (31M): Reduziertes Diffusionsmodell mit angepasster Parameterzahl
Ablationsvarianten: Entfernung von PLU-Layern, Rausch-Injektion, Roboter-Vortraining usw.

Implementierungsdetails

Hardware: NVIDIA H100 GPU zum Trainieren, RTX 3060 zum Testen der Inferenz
Training: 100 Epochen, Batch-Größe 80
VLM: Florence-2 Large
Hyperparameter auf LIBERO-10 optimiert, dann auf alle Aufgaben angewendet

Experimentelle Ergebnisse

Hauptergebnisse

Modell	LIBERO Spatial	LIBERO Object	LIBERO Goal	LIBERO 10	LIBERO 90	Durchschnitt
Diffusion (330M)	0.982	0.976	0.942	0.906	0.954	0.952
Diffusion (31M)	0.890	0.984	0.952	0.864	0.894	0.916
NinA Transformer (38M)	0.970	0.978	0.938	0.920	0.887	0.938
NinA MLP (2M)	0.878	0.982	0.902	0.928	0.856	0.909

Inferenzeffizienz-Vergleich

Modell	Parameterzahl	H100 Inferenzzeit	RTX 3060 Inferenzzeit
Diffusion (330M)	330M	0.110s	0.163s
Diffusion (31M)	31M	0.120s	0.181s
NinA Transformer (38M)	38M	0.021s	0.023s
NinA MLP (2M)	2M	0.015s	0.019s

Ablationsstudien

Rausch-Injektions-Auswirkung:

NinA Transformer: 0.938 → 0.896 (Rauschen entfernt)
NinA MLP: 0.909 → 0.880 (Rauschen entfernt)

PLU-Layer-Auswirkung:

Leichte Verbesserung bei Transformer (0.934 vs 0.938)
Gemischte Auswirkungen auf MLP

Hyperparameter-Analyse:

Optimale Flusstiefe: Transformer 18, MLP 28
Optimale versteckte Dimension: Transformer 256, MLP 64
Optimale Rausch-Standardabweichung: 0.03 für beide

Experimentelle Erkenntnisse

Signifikante Effizienzvorteile: NinA erreicht 7-10x Inferenzbeschleunigung, 8.7x Reduktion der Parameterzahl
Stabile Leistung: Nur 1.4% Leistungsabfall (0.938 vs 0.952)
Klare Architektur-Kompromisse: MLP schneller aber etwas schlechtere Leistung, Transformer balanciert Leistung und Effizienz
Rausch-Injektion kritisch: Wichtige Regularisierungstechnik mit signifikanter Leistungsverbesserung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Machbarkeitsvalidierung: Normalisierende Flüsse können als effektive Alternative zu Diffusionsmodellen dienen
Effizienzsteigerung: Signifikante Reduktion von Inferenzzeit und Parameterbedarf
Leistungserhaltung: Beibehaltung wettbewerbsfähiger Leistung bei drastischer Effizienzsteigerung
Praktischer Wert: Bietet neuen technologischen Weg für Echtzeit-Robotersteuerung

Limitierungen

Begrenzte Evaluierungsreichweite: Validierung nur auf LIBERO-Benchmark, fehlende echte Roboter-Experimente
Fehlende Vortrainierung: Kein vollständiges VLA-Vortraining, nur Action-Decoder-Feinabstimmung
Aufgabenkomplexität: LIBERO-Aufgaben sind relativ einfach, Leistung bei komplexen Operationen unbekannt
Unzureichende theoretische Analyse: Fehlende theoretische Erklärung für Vorteile normalisierender Flüsse bei Action-Modellierung

Zukünftige Richtungen

Großflächiges Vortraining: Erkundung normalisierender Flüsse in vollständigem VLA-Vortraining
Echte Bereitstellungsvalidierung: Validierung von Echtzeitsteuerungseffekten in echten Robotersystemen
Theoretische Vertiefung: Analyse theoretischer Vorteile normalisierender Flüsse gegenüber Diffusionsmodellen
Anwendungserweiterung: Erkundung von Anwendungen in Reinforcement Learning und Unsicherheitsschätzung

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Einführung normalisierender Flüsse in VLA-Modelle, neuartig und praktisch
Umfassende Experimente: Vollständige Vergleichsexperimente und Ablationsstudien
Hoher Ingenieurwert: Signifikante Effizienzsteigerung von großem Wert für praktische Bereitstellung
Universelle Methode: Einfache Integration in bestehende VLA-Architekturen

Mängel

Begrenzte theoretische Tiefe: Fehlende theoretische Analyse der Methodeneffektivität
Evaluierungslimitierungen: Nur Simulationsumgebung getestet, fehlende echte Roboter-Validierung
Unzureichende Validierung komplexer Aufgaben: LIBERO-Aufgaben relativ einfach, Fähigkeit bei komplexen Operationen unbekannt
Langfristige Abhängigkeitsmodellierung: Fähigkeit normalisierender Flüsse bei Langsequenz-Action-Modellierung bedarf weiterer Validierung

Einflussfaktor

Technischer Beitrag: Bietet neue effiziente Lösung für VLA-Modelle
Praktischer Wert: Signifikante Inferenzeffizienz-Steigerung von großem Ingenieurwert
Forschungsinspiration: Eröffnet neue Anwendungsrichtung normalisierender Flüsse in Robotersteuerung
Reproduzierbarkeit: Open-Source-Code ermöglicht Reproduktion und Erweiterung

Anwendungsszenarien

Echtzeitsteuerung: Roboter-Kontrollaufgaben mit hoher Frequenzanforderung
Ressourcenbegrenzte Umgebungen: Edge-Bereitstellung mit begrenzten Rechenressourcen
Unsicherheitsquantifizierung: Anwendungen mit Anforderungen an Action-Wahrscheinlichkeitsschätzung
Online-Lernen: Online-Adaptationsszenarien mit schneller Inferenzanforderung

Literaturverzeichnis

Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl

Zusammenfassung: NinA stellt eine innovative und praktische Lösung dar, die durch normalisierende Flüsse die Inferenzeffizienz von VLA-Modellen erheblich verbessert und gleichzeitig wettbewerbsfähige Leistung beibehält. Obwohl theoretische Analysen und Validierungen komplexer Aufgaben noch verbesserungsbedürftig sind, ist das Anwendungspotenzial in der Echtzeit-Robotersteuerung enorm und bietet wertvolle technologische Beiträge für das Feld.

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemdefinition

Forschungsmotivation

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

Gesamtrahmen

Design normalisierender Flüsse

Dual-Varianten-Architektur

Technische Innovationen

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Inferenzeffizienz-Vergleich

Ablationsstudien

Experimentelle Erkenntnisse

Verwandte Arbeiten

VLA-Modell-Entwicklung

Normalisierende Flüsse Forschung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Limitierungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Mängel

Einflussfaktor

Anwendungsszenarien

Literaturverzeichnis