2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Grundinformationen

  • Paper-ID: 2508.16845
  • Titel: NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
  • Autoren: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • Klassifizierung: cs.CV cs.AI cs.LG
  • Veröffentlichungskonferenz: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • Paper-Link: https://arxiv.org/abs/2508.16845

Zusammenfassung

Jüngste Fortschritte bei Vision-Language-Action (VLA) Modellen haben eine zweikomponentige Architektur etabliert: Ein vortrainiertes Vision-Language-Modell (VLM) kodiert visuelle Beobachtungen und Aufgabenbeschreibungen, während ein Action-Decoder diese Darstellungen in kontinuierliche Aktionen abbildet. Diffusionsmodelle werden aufgrund ihrer Fähigkeit, komplexe multimodale Aktionsverteilungen zu modellieren, häufig als Action-Decoder eingesetzt. Allerdings erfordern sie während der Inferenz mehrere iterative Denoise-Schritte, was die Praktikabilität in realen Szenarien mit hoher Kontrollfrequenz einschränkt. Dieser Artikel stellt NinA (Normalizing Flows in Action) vor, eine schnelle und ausdrucksstarke Alternative zu VLA-Diffusions-Decodern. NinA ersetzt den Diffusions-Action-Decoder durch normalisierende Flüsse (NF), die durch reversible Transformationen One-Shot-Sampling ermöglichen und die Inferenzzeit erheblich reduzieren. Experimente zeigen, dass NinA unter identischen Trainingsbedingungen mit diffusionsbasierten Gegenstücken konkurriert, während gleichzeitig eine deutlich schnellere Inferenzgeschwindigkeit erreicht wird.

Forschungshintergrund und Motivation

Problemdefinition

Aktuelle VLA-Modelle verwenden häufig Diffusionsmodelle als Action-Decoder, die zwar komplexe multimodale Aktionsverteilungen modellieren können, aber unter Inferenzlatenz leiden:

  1. Inferenzeffizienz-Engpass: Diffusionsmodelle erfordern autoregressive Denoise-Prozesse mit mehreren Forward-Passes
  2. Anforderungen an Echtzeitsteuerung: Die Feinsteuerung von Robotern erfordert hochfrequente Reaktionen, wobei Latenz ein kritischer Limitierungsfaktor ist
  3. Rechenressourcenverbrauch: Multi-Step-Sampling erhöht den Rechenaufwand

Forschungsmotivation

Die Robotersteuerung stellt extreme Anforderungen an Echtzeitleistung, und der Multi-Step-Sampling-Mechanismus bestehender Diffusionsmodelle wird zum Engpass bei der Bereitstellung. Normalisierende Flüsse als generative Modelle bieten folgende Vorteile:

  • Stichprobengenerierung durch einen einzigen Forward-Pass
  • Genaue Likelihood-Schätzung
  • Unterstützung für Variational Inference und Unsicherheitsquantifizierung
  • Potenzial in Imitation Learning und Reinforcement Learning

Kernbeiträge

  1. NinA-Framework: Erstmalige Anwendung normalisierender Flüsse auf Action-Decoding in VLA-Modellen, ermöglicht effiziente One-Shot-Aktionsgenerierung
  2. Dual-Architektur-Design: Entwicklung zweier normalisierender Fluss-Varianten basierend auf MLP und Transformer, die Effizienz und Leistung ausbalancieren
  3. Leistungsvalidierung: Nachweis, dass NinA auf dem LIBERO-Benchmark mit Diffusionsmodellen konkurriert, während gleichzeitig 7-10x Inferenzbeschleunigung erreicht wird
  4. Umfassende Analyse: Detaillierte Ablationsstudien und Hyperparameter-Analyse, die Richtlinien für die Anwendung normalisierender Flüsse in der Robotersteuerung bieten

Methodische Details

Aufgabendefinition

Gegeben eine visuelle Beobachtung oto_t und eine Textanweisung gg muss das VLA-Modell entsprechende Roboter-Aktionen ata_t generieren. Das Ziel ist die Maximierung der Log-Likelihood von Experten-Aktionen:

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

Modellarchitektur

Gesamtrahmen

NinA verwendet ein modulares Design, behält den VLM-Encoder von FLOWER bei und ersetzt nur den Action-Decoder:

  1. VLM-Encoder: ht=VLM(ot,g)h_t = \text{VLM}(o_t, g) generiert multimodale Einbettungen
  2. Normalisierender Fluss-Decoder: atπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) generiert Aktionssequenzen

Design normalisierender Flüsse

Basierend auf der RealNVP-Architektur, implementiert eine Sequenz reversibler Transformationen:

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

wobei z0N(0,I)z_0 \sim \mathcal{N}(0, I) die Basisverteilung ist und fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1 die Sequenz reversibler Transformationen darstellt.

Dual-Varianten-Architektur

MLP-Variante:

  • Aktionsvektor wird elementweise aufgeteilt: (x1,x2)(x_1, x_2)
  • Bedingtes Netzwerk: gϕk(x1,ht)g_{\phi_k}(x_1, h_t) realisiert Konditionierung durch Verkettung
  • Affine Transformation: y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • Parameterzahl: 2M, schnellste Inferenzgeschwindigkeit

Transformer-Variante:

  • Aktionssequenz wird sequenzweise aufgeteilt
  • Bedingtes Netzwerk: Self-Attention + Cross-Attention-Mechanismus
  • Stärkere Ausdruckskraft und Skalierbarkeit
  • Parameterzahl: 38M, bessere Leistung

Technische Innovationen

  1. Rausch-Injektionsstrategie: Während des Trainings wird Gaußsches Rauschen N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}) zu Aktionen hinzugefügt als Regularisierungstechnik
  2. PLU-Layer-Integration: Einführung trainierbarer reversibler linearer Layer zur Verbesserung der Ausdruckskraft
  3. Konditionierungsmechanismus: MLP durch Verkettung, Transformer durch Cross-Attention realisiert VLM-Feature-Konditionierung
  4. Stabilitätsoptimierung: Tanh-Aktivierungsfunktion auf Skalierungsparameter angewendet zur Vermeidung von Trainingsinstabilität

Experimentelle Einrichtung

Datensätze

Verwendung des LIBERO-Benchmarks mit fünf Unterkategorien:

  • LIBERO Spatial: Räumliche Reasoning-Aufgaben
  • LIBERO Object: Objektmanipulationsaufgaben
  • LIBERO Goal: Zielorientierte Aufgaben
  • LIBERO 10: 10-Aufgaben-Kombination
  • LIBERO 90: 90-Aufgaben-Kombination

Bewertungsmetriken

Aufgabenerfolgsquote als primäre Bewertungsmetrik, Berichte für alle Unterkategorien und durchschnittliche Erfolgsquote.

Vergleichsmethoden

  • FLOWER (330M): Ursprüngliches Diffusions-Policy-Modell
  • FLOWER (31M): Reduziertes Diffusionsmodell mit angepasster Parameterzahl
  • Ablationsvarianten: Entfernung von PLU-Layern, Rausch-Injektion, Roboter-Vortraining usw.

Implementierungsdetails

  • Hardware: NVIDIA H100 GPU zum Trainieren, RTX 3060 zum Testen der Inferenz
  • Training: 100 Epochen, Batch-Größe 80
  • VLM: Florence-2 Large
  • Hyperparameter auf LIBERO-10 optimiert, dann auf alle Aufgaben angewendet

Experimentelle Ergebnisse

Hauptergebnisse

ModellLIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90Durchschnitt
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

Inferenzeffizienz-Vergleich

ModellParameterzahlH100 InferenzzeitRTX 3060 Inferenzzeit
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

Ablationsstudien

Rausch-Injektions-Auswirkung:

  • NinA Transformer: 0.938 → 0.896 (Rauschen entfernt)
  • NinA MLP: 0.909 → 0.880 (Rauschen entfernt)

PLU-Layer-Auswirkung:

  • Leichte Verbesserung bei Transformer (0.934 vs 0.938)
  • Gemischte Auswirkungen auf MLP

Hyperparameter-Analyse:

  • Optimale Flusstiefe: Transformer 18, MLP 28
  • Optimale versteckte Dimension: Transformer 256, MLP 64
  • Optimale Rausch-Standardabweichung: 0.03 für beide

Experimentelle Erkenntnisse

  1. Signifikante Effizienzvorteile: NinA erreicht 7-10x Inferenzbeschleunigung, 8.7x Reduktion der Parameterzahl
  2. Stabile Leistung: Nur 1.4% Leistungsabfall (0.938 vs 0.952)
  3. Klare Architektur-Kompromisse: MLP schneller aber etwas schlechtere Leistung, Transformer balanciert Leistung und Effizienz
  4. Rausch-Injektion kritisch: Wichtige Regularisierungstechnik mit signifikanter Leistungsverbesserung

Verwandte Arbeiten

VLA-Modell-Entwicklung

  • Frühe Arbeiten: RT-1, RT-2 etablieren grundlegende Vision-Language-Action-Rahmen
  • Architektur-Evolution: π0, π0.5, FLOWER etablieren Dual-Komponenten-Architektur von VLM + Action-Expert
  • Diffusions-Anwendung: Aktuelle Mainstream-Nutzung von Diffusionsmodellen als Action-Decoder

Normalisierende Flüsse Forschung

  • Theoretische Grundlagen: NICE, RealNVP etablieren theoretische Rahmen reversibler Transformationen
  • Kontroll-Anwendungen: Jüngste Arbeiten erkunden normalisierende Flüsse in Imitation Learning und Reinforcement Learning
  • Vorteilhafte Eigenschaften: Genaue Likelihood-Schätzung, One-Shot-Sampling, Variational Inference Unterstützung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeitsvalidierung: Normalisierende Flüsse können als effektive Alternative zu Diffusionsmodellen dienen
  2. Effizienzsteigerung: Signifikante Reduktion von Inferenzzeit und Parameterbedarf
  3. Leistungserhaltung: Beibehaltung wettbewerbsfähiger Leistung bei drastischer Effizienzsteigerung
  4. Praktischer Wert: Bietet neuen technologischen Weg für Echtzeit-Robotersteuerung

Limitierungen

  1. Begrenzte Evaluierungsreichweite: Validierung nur auf LIBERO-Benchmark, fehlende echte Roboter-Experimente
  2. Fehlende Vortrainierung: Kein vollständiges VLA-Vortraining, nur Action-Decoder-Feinabstimmung
  3. Aufgabenkomplexität: LIBERO-Aufgaben sind relativ einfach, Leistung bei komplexen Operationen unbekannt
  4. Unzureichende theoretische Analyse: Fehlende theoretische Erklärung für Vorteile normalisierender Flüsse bei Action-Modellierung

Zukünftige Richtungen

  1. Großflächiges Vortraining: Erkundung normalisierender Flüsse in vollständigem VLA-Vortraining
  2. Echte Bereitstellungsvalidierung: Validierung von Echtzeitsteuerungseffekten in echten Robotersystemen
  3. Theoretische Vertiefung: Analyse theoretischer Vorteile normalisierender Flüsse gegenüber Diffusionsmodellen
  4. Anwendungserweiterung: Erkundung von Anwendungen in Reinforcement Learning und Unsicherheitsschätzung

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige Einführung normalisierender Flüsse in VLA-Modelle, neuartig und praktisch
  2. Umfassende Experimente: Vollständige Vergleichsexperimente und Ablationsstudien
  3. Hoher Ingenieurwert: Signifikante Effizienzsteigerung von großem Wert für praktische Bereitstellung
  4. Universelle Methode: Einfache Integration in bestehende VLA-Architekturen

Mängel

  1. Begrenzte theoretische Tiefe: Fehlende theoretische Analyse der Methodeneffektivität
  2. Evaluierungslimitierungen: Nur Simulationsumgebung getestet, fehlende echte Roboter-Validierung
  3. Unzureichende Validierung komplexer Aufgaben: LIBERO-Aufgaben relativ einfach, Fähigkeit bei komplexen Operationen unbekannt
  4. Langfristige Abhängigkeitsmodellierung: Fähigkeit normalisierender Flüsse bei Langsequenz-Action-Modellierung bedarf weiterer Validierung

Einflussfaktor

  1. Technischer Beitrag: Bietet neue effiziente Lösung für VLA-Modelle
  2. Praktischer Wert: Signifikante Inferenzeffizienz-Steigerung von großem Ingenieurwert
  3. Forschungsinspiration: Eröffnet neue Anwendungsrichtung normalisierender Flüsse in Robotersteuerung
  4. Reproduzierbarkeit: Open-Source-Code ermöglicht Reproduktion und Erweiterung

Anwendungsszenarien

  1. Echtzeitsteuerung: Roboter-Kontrollaufgaben mit hoher Frequenzanforderung
  2. Ressourcenbegrenzte Umgebungen: Edge-Bereitstellung mit begrenzten Rechenressourcen
  3. Unsicherheitsquantifizierung: Anwendungen mit Anforderungen an Action-Wahrscheinlichkeitsschätzung
  4. Online-Lernen: Online-Adaptationsszenarien mit schneller Inferenzanforderung

Literaturverzeichnis

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

Zusammenfassung: NinA stellt eine innovative und praktische Lösung dar, die durch normalisierende Flüsse die Inferenzeffizienz von VLA-Modellen erheblich verbessert und gleichzeitig wettbewerbsfähige Leistung beibehält. Obwohl theoretische Analysen und Validierungen komplexer Aufgaben noch verbesserungsbedürftig sind, ist das Anwendungspotenzial in der Echtzeit-Robotersteuerung enorm und bietet wertvolle technologische Beiträge für das Feld.