2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.

Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.

academic

NinA : Normalizing Flows in Action. Entraînement de modèles VLA avec des flux normalisants

Informations de base

ID de l'article : 2508.16845
Titre : NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Auteurs : Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
Classification : cs.CV cs.AI cs.LG
Conférence de publication : NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
Lien de l'article : https://arxiv.org/abs/2508.16845

Résumé

Les progrès récents des modèles vision-langage-action (VLA) ont établi une architecture à deux composants : un modèle vision-langage (VLM) préentraîné qui encode les observations visuelles et les descriptions de tâches, et un décodeur d'action qui mappe ces représentations en actions continues. Les modèles de diffusion ont été largement adoptés comme décodeurs d'action en raison de leur capacité à modéliser des distributions d'actions multimodales complexes. Cependant, ils nécessitent plusieurs étapes de débruitage itératives lors de l'inférence, ce qui limite leur utilité dans les scénarios du monde réel nécessitant un contrôle haute fréquence. Cet article propose NinA (Normalizing Flows in Action), une alternative rapide et expressive aux décodeurs de diffusion VLA. NinA remplace le décodeur d'action de diffusion par des flux normalisants (NF), réalisant un échantillonnage en une seule étape via des transformations réversibles, réduisant ainsi considérablement le temps d'inférence. Les expériences montrent que NinA égale les performances des modèles basés sur la diffusion sous le même régime d'entraînement, tout en réalisant une vitesse d'inférence significativement plus rapide.

Contexte et motivation de la recherche

Définition du problème

Les modèles VLA actuels adoptent universellement les modèles de diffusion comme décodeurs d'action, qui, bien que capables de modéliser des distributions d'actions multimodales complexes, présentent des problèmes de latence d'inférence :

Goulot d'étranglement de l'efficacité d'inférence : Les modèles de diffusion nécessitent un processus de débruitage autorégressif avec plusieurs passages avant
Exigences de contrôle en temps réel : Le contrôle fin des robots nécessite des réponses haute fréquence, la latence étant un facteur limitant clé
Consommation de ressources informatiques : L'échantillonnage multi-étapes augmente les frais généraux informatiques

Motivation de la recherche

Le contrôle robotique exige une réactivité extrêmement élevée, et le mécanisme d'échantillonnage multi-étapes des modèles de diffusion existants devient un goulot d'étranglement de déploiement. Les flux normalisants en tant que modèles génératifs présentent les avantages suivants :

Génération d'échantillons en un seul passage avant
Fourniture d'estimations de vraisemblance exactes
Support de l'inférence variationnelle et de la quantification de l'incertitude
Potentiel démontré dans l'apprentissage par imitation et l'apprentissage par renforcement

Contributions principales

Proposition du cadre NinA : Application pour la première fois des flux normalisants au décodage d'action des modèles VLA, réalisant une génération d'action efficace en une seule étape
Conception d'architecture duale : Développement de deux variantes de flux normalisants basées sur MLP et Transformer, équilibrant efficacité et performance
Vérification des performances : Démonstration sur l'indice de référence LIBERO que NinA égale les performances des modèles de diffusion, tout en réalisant une accélération d'inférence de 7 à 10 fois
Analyse complète : Fourniture d'expériences d'ablation détaillées et d'analyses d'hyperparamètres, guidant l'application des flux normalisants au contrôle robotique

Explication détaillée de la méthode

Définition de la tâche

Étant donné une observation visuelle $o_t$ et une instruction textuelle $g$ , le modèle VLA doit générer l'action robotique correspondante $a_t$ . L'objectif est de maximiser la log-vraisemblance des actions d'expert :

$\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]$

Architecture du modèle

Cadre global

NinA adopte une conception modulaire, conservant l'encodeur VLM de FLOWER inchangé, remplaçant uniquement le décodeur d'action :

Encodeur VLM : $h_t = \text{VLM}(o_t, g)$ générant des plongements multimodaux
Décodeur de flux normalisants : $a_t \sim \pi_\theta(\cdot | h_t)$ générant des séquences d'actions

Conception des flux normalisants

Basée sur l'architecture RealNVP, réalisant une séquence de transformations réversibles :

$\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|$

où $z_0 \sim \mathcal{N}(0, I)$ est la distribution de base, et $f_\theta = f_K \circ \cdots \circ f_1$ est la séquence de transformations réversibles.

Architecture à deux variantes

Variante MLP :

Vecteur d'action divisé par élément : $(x_1, x_2)$
Réseau conditionnel : $g_{\phi_k}(x_1, h_t)$ réalisant le conditionnement par concaténation
Transformation affine : $y_2 = \exp(s) \cdot x_2 + b$
Nombre de paramètres : 2M, vitesse d'inférence la plus rapide

Variante Transformer :

Séquence d'actions divisée par séquence
Réseau conditionnel : mécanisme d'auto-attention + attention croisée
Capacité d'expression plus forte et extensibilité
Nombre de paramètres : 38M, performance supérieure

Points d'innovation technique

Stratégie d'injection de bruit : Ajout de bruit gaussien $\mathcal{N}(0, \sigma^2_{noise})$ aux actions lors de l'entraînement, comme technique de régularisation
Intégration de couches PLU : Introduction de couches linéaires réversibles entraînables pour améliorer la capacité d'expression
Mécanisme de conditionnement : MLP via concaténation, Transformer via attention croisée pour le conditionnement des caractéristiques VLM
Optimisation de la stabilité : Application de la fonction d'activation tanh aux paramètres d'échelle pour prévenir l'instabilité d'entraînement

Configuration expérimentale

Ensemble de données

Utilisation de l'indice de référence LIBERO, comprenant 5 sous-tâches :

LIBERO Spatial : tâches de raisonnement spatial
LIBERO Object : tâches de manipulation d'objets
LIBERO Goal : tâches orientées vers les objectifs
LIBERO 10 : combinaison de 10 tâches
LIBERO 90 : combinaison de 90 tâches

Métriques d'évaluation

Utilisation du taux de réussite des tâches comme métrique d'évaluation principale, rapportant les taux de réussite pour chaque sous-tâche et la moyenne.

Méthodes de comparaison

FLOWER (330M) : Modèle de politique de diffusion original
FLOWER (31M) : Modèle de diffusion réduit avec nombre de paramètres correspondant
Variantes d'ablation : Suppression des couches PLU, injection de bruit, préentraînement robotique, etc.

Détails d'implémentation

Matériel : GPU NVIDIA H100 pour l'entraînement, RTX 3060 pour les tests d'inférence
Entraînement : 100 épochs, taille de lot 80
VLM : Florence-2 Large
Hyperparamètres optimisés sur LIBERO-10 puis appliqués à toutes les tâches

Résultats expérimentaux

Résultats principaux

Modèle	LIBERO Spatial	LIBERO Object	LIBERO Goal	LIBERO 10	LIBERO 90	Moyenne
Diffusion (330M)	0.982	0.976	0.942	0.906	0.954	0.952
Diffusion (31M)	0.890	0.984	0.952	0.864	0.894	0.916
NinA Transformer (38M)	0.970	0.978	0.938	0.920	0.887	0.938
NinA MLP (2M)	0.878	0.982	0.902	0.928	0.856	0.909

Comparaison de l'efficacité d'inférence

Modèle	Nombre de paramètres	Temps d'inférence H100	Temps d'inférence RTX 3060
Diffusion (330M)	330M	0.110s	0.163s
Diffusion (31M)	31M	0.120s	0.181s
NinA Transformer (38M)	38M	0.021s	0.023s
NinA MLP (2M)	2M	0.015s	0.019s

Expériences d'ablation

Impact de l'injection de bruit :

NinA Transformer : 0.938 → 0.896 (sans bruit)
NinA MLP : 0.909 → 0.880 (sans bruit)

Impact des couches PLU :

Légère amélioration pour Transformer (0.934 vs 0.938)
Impact mixte pour MLP

Analyse des hyperparamètres :

Profondeur de flux optimale : 18 pour Transformer, 28 pour MLP
Dimension cachée optimale : 256 pour Transformer, 64 pour MLP
Écart-type de bruit optimal : 0.03 pour les deux

Découvertes expérimentales

Avantages d'efficacité significatifs : NinA réalise une accélération d'inférence de 7 à 10 fois, réduisant le nombre de paramètres de 8,7 fois
Performance stable : Seule une baisse de performance de 1,4 % (0.938 vs 0.952)
Compromis architecturaux clairs : MLP plus rapide mais performance légèrement inférieure, Transformer équilibrant performance et efficacité
Injection de bruit critique : Technique de régularisation importante améliorant significativement les performances

Travaux connexes

Développement des modèles VLA

Travaux précoces : RT-1, RT-2 établissant le cadre fondamental vision-langage-action
Évolution architecturale : π0, π0.5, FLOWER établissant l'architecture à deux composants VLM + expert d'action
Application de la diffusion : Adoption actuelle dominante des modèles de diffusion comme décodeurs d'action

Recherche sur les flux normalisants

Fondements théoriques : NICE, RealNVP établissant le cadre théorique des transformations réversibles
Applications au contrôle : Travaux récents explorant les flux normalisants dans l'apprentissage par imitation et l'apprentissage par renforcement
Caractéristiques avantageuses : Estimation exacte de vraisemblance, échantillonnage en une étape, support de l'inférence variationnelle

Conclusions et discussion

Conclusions principales

Vérification de la faisabilité : Les flux normalisants peuvent servir d'alternative efficace aux modèles de diffusion
Amélioration de l'efficacité : Réduction significative du temps d'inférence et des besoins en paramètres
Maintien des performances : Préservation de performances compétitives malgré l'amélioration drastique de l'efficacité
Valeur pratique : Fourniture d'une nouvelle voie technologique pour le contrôle robotique en temps réel

Limitations

Portée d'évaluation limitée : Vérification uniquement sur l'indice de référence LIBERO, absence d'expériences sur robots réels
Préentraînement absent : Absence de préentraînement VLA complet, uniquement l'ajustement fin du décodeur d'action
Complexité des tâches : Les tâches LIBERO sont relativement simples, les performances sur opérations complexes inconnues
Analyse théorique insuffisante : Absence d'explication théorique des avantages des flux normalisants par rapport aux modèles de diffusion

Directions futures

Préentraînement à grande échelle : Exploration des performances des flux normalisants dans le préentraînement VLA complet
Vérification de déploiement réel : Validation des effets de contrôle en temps réel sur systèmes robotiques réels
Approfondissement théorique : Analyse des avantages théoriques des flux normalisants par rapport aux modèles de diffusion
Extension d'application : Exploration des applications dans l'apprentissage par renforcement et l'estimation d'incertitude

Évaluation approfondie

Avantages

Forte innovativité : Introduction pour la première fois des flux normalisants dans les modèles VLA, approche novatrice et pratique
Expériences complètes : Fourniture d'expériences de comparaison complètes et d'analyses d'ablation
Valeur d'ingénierie élevée : L'amélioration significative de l'efficacité présente une importance majeure pour le déploiement pratique
Méthode générique : Intégration facile dans les architectures VLA existantes

Insuffisances

Profondeur théorique limitée : Absence d'analyse théorique de l'efficacité de la méthode
Limitations d'évaluation : Tests uniquement en environnement simulé, absence de vérification sur robots réels
Vérification insuffisante sur tâches complexes : Les tâches LIBERO sont relativement simples, capacités sur opérations complexes inconnues
Modélisation de dépendances à long terme : La capacité des flux normalisants à modéliser des séquences d'actions longues nécessite une vérification supplémentaire

Impact

Contribution technique : Fourniture d'une nouvelle solution efficace pour les modèles VLA
Valeur pratique : L'amélioration significative de l'efficacité d'inférence présente une valeur d'ingénierie importante
Inspiration pour la recherche : Ouverture d'une nouvelle direction d'application des flux normalisants au contrôle robotique
Reproductibilité : Code en source ouverte, facilitant la reproduction et l'extension

Scénarios d'application

Contrôle en temps réel : Tâches de contrôle robotique nécessitant des réponses haute fréquence
Environnements à ressources limitées : Scénarios de déploiement en périphérie avec ressources informatiques limitées
Quantification d'incertitude : Applications nécessitant l'estimation de probabilités d'actions
Apprentissage en ligne : Scénarios d'adaptation en ligne nécessitant une inférence rapide

Références

Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl

Résumé : NinA propose une solution innovante et pratique qui améliore significativement l'efficacité d'inférence des modèles VLA via les flux normalisants, tout en maintenant des performances compétitives. Bien que des améliorations soient nécessaires en analyse théorique et vérification sur tâches complexes, son potentiel d'application au contrôle robotique en temps réel est considérable, apportant une contribution technologique précieuse au domaine.