NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic
NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Jüngste Fortschritte bei Vision-Language-Action (VLA) Modellen haben eine zweikomponentige Architektur etabliert: Ein vortrainiertes Vision-Language-Modell (VLM) kodiert visuelle Beobachtungen und Aufgabenbeschreibungen, während ein Action-Decoder diese Darstellungen in kontinuierliche Aktionen abbildet. Diffusionsmodelle werden aufgrund ihrer Fähigkeit, komplexe multimodale Aktionsverteilungen zu modellieren, häufig als Action-Decoder eingesetzt. Allerdings erfordern sie während der Inferenz mehrere iterative Denoise-Schritte, was die Praktikabilität in realen Szenarien mit hoher Kontrollfrequenz einschränkt. Dieser Artikel stellt NinA (Normalizing Flows in Action) vor, eine schnelle und ausdrucksstarke Alternative zu VLA-Diffusions-Decodern. NinA ersetzt den Diffusions-Action-Decoder durch normalisierende Flüsse (NF), die durch reversible Transformationen One-Shot-Sampling ermöglichen und die Inferenzzeit erheblich reduzieren. Experimente zeigen, dass NinA unter identischen Trainingsbedingungen mit diffusionsbasierten Gegenstücken konkurriert, während gleichzeitig eine deutlich schnellere Inferenzgeschwindigkeit erreicht wird.
Aktuelle VLA-Modelle verwenden häufig Diffusionsmodelle als Action-Decoder, die zwar komplexe multimodale Aktionsverteilungen modellieren können, aber unter Inferenzlatenz leiden:
Inferenzeffizienz-Engpass: Diffusionsmodelle erfordern autoregressive Denoise-Prozesse mit mehreren Forward-Passes
Anforderungen an Echtzeitsteuerung: Die Feinsteuerung von Robotern erfordert hochfrequente Reaktionen, wobei Latenz ein kritischer Limitierungsfaktor ist
Rechenressourcenverbrauch: Multi-Step-Sampling erhöht den Rechenaufwand
Die Robotersteuerung stellt extreme Anforderungen an Echtzeitleistung, und der Multi-Step-Sampling-Mechanismus bestehender Diffusionsmodelle wird zum Engpass bei der Bereitstellung. Normalisierende Flüsse als generative Modelle bieten folgende Vorteile:
Stichprobengenerierung durch einen einzigen Forward-Pass
Genaue Likelihood-Schätzung
Unterstützung für Variational Inference und Unsicherheitsquantifizierung
Potenzial in Imitation Learning und Reinforcement Learning
NinA-Framework: Erstmalige Anwendung normalisierender Flüsse auf Action-Decoding in VLA-Modellen, ermöglicht effiziente One-Shot-Aktionsgenerierung
Dual-Architektur-Design: Entwicklung zweier normalisierender Fluss-Varianten basierend auf MLP und Transformer, die Effizienz und Leistung ausbalancieren
Leistungsvalidierung: Nachweis, dass NinA auf dem LIBERO-Benchmark mit Diffusionsmodellen konkurriert, während gleichzeitig 7-10x Inferenzbeschleunigung erreicht wird
Umfassende Analyse: Detaillierte Ablationsstudien und Hyperparameter-Analyse, die Richtlinien für die Anwendung normalisierender Flüsse in der Robotersteuerung bieten
Gegeben eine visuelle Beobachtung ot und eine Textanweisung g muss das VLA-Modell entsprechende Roboter-Aktionen at generieren. Das Ziel ist die Maximierung der Log-Likelihood von Experten-Aktionen:
Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl
Zusammenfassung: NinA stellt eine innovative und praktische Lösung dar, die durch normalisierende Flüsse die Inferenzeffizienz von VLA-Modellen erheblich verbessert und gleichzeitig wettbewerbsfähige Leistung beibehält. Obwohl theoretische Analysen und Validierungen komplexer Aufgaben noch verbesserungsbedürftig sind, ist das Anwendungspotenzial in der Echtzeit-Robotersteuerung enorm und bietet wertvolle technologische Beiträge für das Feld.