NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic
NinA : Normalizing Flows in Action. Entraînement de modèles VLA avec des flux normalisants
Les progrès récents des modèles vision-langage-action (VLA) ont établi une architecture à deux composants : un modèle vision-langage (VLM) préentraîné qui encode les observations visuelles et les descriptions de tâches, et un décodeur d'action qui mappe ces représentations en actions continues. Les modèles de diffusion ont été largement adoptés comme décodeurs d'action en raison de leur capacité à modéliser des distributions d'actions multimodales complexes. Cependant, ils nécessitent plusieurs étapes de débruitage itératives lors de l'inférence, ce qui limite leur utilité dans les scénarios du monde réel nécessitant un contrôle haute fréquence. Cet article propose NinA (Normalizing Flows in Action), une alternative rapide et expressive aux décodeurs de diffusion VLA. NinA remplace le décodeur d'action de diffusion par des flux normalisants (NF), réalisant un échantillonnage en une seule étape via des transformations réversibles, réduisant ainsi considérablement le temps d'inférence. Les expériences montrent que NinA égale les performances des modèles basés sur la diffusion sous le même régime d'entraînement, tout en réalisant une vitesse d'inférence significativement plus rapide.
Les modèles VLA actuels adoptent universellement les modèles de diffusion comme décodeurs d'action, qui, bien que capables de modéliser des distributions d'actions multimodales complexes, présentent des problèmes de latence d'inférence :
Goulot d'étranglement de l'efficacité d'inférence : Les modèles de diffusion nécessitent un processus de débruitage autorégressif avec plusieurs passages avant
Exigences de contrôle en temps réel : Le contrôle fin des robots nécessite des réponses haute fréquence, la latence étant un facteur limitant clé
Consommation de ressources informatiques : L'échantillonnage multi-étapes augmente les frais généraux informatiques
Le contrôle robotique exige une réactivité extrêmement élevée, et le mécanisme d'échantillonnage multi-étapes des modèles de diffusion existants devient un goulot d'étranglement de déploiement. Les flux normalisants en tant que modèles génératifs présentent les avantages suivants :
Génération d'échantillons en un seul passage avant
Fourniture d'estimations de vraisemblance exactes
Support de l'inférence variationnelle et de la quantification de l'incertitude
Potentiel démontré dans l'apprentissage par imitation et l'apprentissage par renforcement
Proposition du cadre NinA : Application pour la première fois des flux normalisants au décodage d'action des modèles VLA, réalisant une génération d'action efficace en une seule étape
Conception d'architecture duale : Développement de deux variantes de flux normalisants basées sur MLP et Transformer, équilibrant efficacité et performance
Vérification des performances : Démonstration sur l'indice de référence LIBERO que NinA égale les performances des modèles de diffusion, tout en réalisant une accélération d'inférence de 7 à 10 fois
Analyse complète : Fourniture d'expériences d'ablation détaillées et d'analyses d'hyperparamètres, guidant l'application des flux normalisants au contrôle robotique
Étant donné une observation visuelle ot et une instruction textuelle g, le modèle VLA doit générer l'action robotique correspondante at. L'objectif est de maximiser la log-vraisemblance des actions d'expert :
Utilisation du taux de réussite des tâches comme métrique d'évaluation principale, rapportant les taux de réussite pour chaque sous-tâche et la moyenne.
Profondeur théorique limitée : Absence d'analyse théorique de l'efficacité de la méthode
Limitations d'évaluation : Tests uniquement en environnement simulé, absence de vérification sur robots réels
Vérification insuffisante sur tâches complexes : Les tâches LIBERO sont relativement simples, capacités sur opérations complexes inconnues
Modélisation de dépendances à long terme : La capacité des flux normalisants à modéliser des séquences d'actions longues nécessite une vérification supplémentaire
Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl
Résumé : NinA propose une solution innovante et pratique qui améliore significativement l'efficacité d'inférence des modèles VLA via les flux normalisants, tout en maintenant des performances compétitives. Bien que des améliorations soient nécessaires en analyse théorique et vérification sur tâches complexes, son potentiel d'application au contrôle robotique en temps réel est considérable, apportant une contribution technologique précieuse au domaine.