2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA : Normalizing Flows in Action. Entraînement de modèles VLA avec des flux normalisants

Informations de base

  • ID de l'article : 2508.16845
  • Titre : NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
  • Auteurs : Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • Classification : cs.CV cs.AI cs.LG
  • Conférence de publication : NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • Lien de l'article : https://arxiv.org/abs/2508.16845

Résumé

Les progrès récents des modèles vision-langage-action (VLA) ont établi une architecture à deux composants : un modèle vision-langage (VLM) préentraîné qui encode les observations visuelles et les descriptions de tâches, et un décodeur d'action qui mappe ces représentations en actions continues. Les modèles de diffusion ont été largement adoptés comme décodeurs d'action en raison de leur capacité à modéliser des distributions d'actions multimodales complexes. Cependant, ils nécessitent plusieurs étapes de débruitage itératives lors de l'inférence, ce qui limite leur utilité dans les scénarios du monde réel nécessitant un contrôle haute fréquence. Cet article propose NinA (Normalizing Flows in Action), une alternative rapide et expressive aux décodeurs de diffusion VLA. NinA remplace le décodeur d'action de diffusion par des flux normalisants (NF), réalisant un échantillonnage en une seule étape via des transformations réversibles, réduisant ainsi considérablement le temps d'inférence. Les expériences montrent que NinA égale les performances des modèles basés sur la diffusion sous le même régime d'entraînement, tout en réalisant une vitesse d'inférence significativement plus rapide.

Contexte et motivation de la recherche

Définition du problème

Les modèles VLA actuels adoptent universellement les modèles de diffusion comme décodeurs d'action, qui, bien que capables de modéliser des distributions d'actions multimodales complexes, présentent des problèmes de latence d'inférence :

  1. Goulot d'étranglement de l'efficacité d'inférence : Les modèles de diffusion nécessitent un processus de débruitage autorégressif avec plusieurs passages avant
  2. Exigences de contrôle en temps réel : Le contrôle fin des robots nécessite des réponses haute fréquence, la latence étant un facteur limitant clé
  3. Consommation de ressources informatiques : L'échantillonnage multi-étapes augmente les frais généraux informatiques

Motivation de la recherche

Le contrôle robotique exige une réactivité extrêmement élevée, et le mécanisme d'échantillonnage multi-étapes des modèles de diffusion existants devient un goulot d'étranglement de déploiement. Les flux normalisants en tant que modèles génératifs présentent les avantages suivants :

  • Génération d'échantillons en un seul passage avant
  • Fourniture d'estimations de vraisemblance exactes
  • Support de l'inférence variationnelle et de la quantification de l'incertitude
  • Potentiel démontré dans l'apprentissage par imitation et l'apprentissage par renforcement

Contributions principales

  1. Proposition du cadre NinA : Application pour la première fois des flux normalisants au décodage d'action des modèles VLA, réalisant une génération d'action efficace en une seule étape
  2. Conception d'architecture duale : Développement de deux variantes de flux normalisants basées sur MLP et Transformer, équilibrant efficacité et performance
  3. Vérification des performances : Démonstration sur l'indice de référence LIBERO que NinA égale les performances des modèles de diffusion, tout en réalisant une accélération d'inférence de 7 à 10 fois
  4. Analyse complète : Fourniture d'expériences d'ablation détaillées et d'analyses d'hyperparamètres, guidant l'application des flux normalisants au contrôle robotique

Explication détaillée de la méthode

Définition de la tâche

Étant donné une observation visuelle oto_t et une instruction textuelle gg, le modèle VLA doit générer l'action robotique correspondante ata_t. L'objectif est de maximiser la log-vraisemblance des actions d'expert :

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

Architecture du modèle

Cadre global

NinA adopte une conception modulaire, conservant l'encodeur VLM de FLOWER inchangé, remplaçant uniquement le décodeur d'action :

  1. Encodeur VLM : ht=VLM(ot,g)h_t = \text{VLM}(o_t, g) générant des plongements multimodaux
  2. Décodeur de flux normalisants : atπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) générant des séquences d'actions

Conception des flux normalisants

Basée sur l'architecture RealNVP, réalisant une séquence de transformations réversibles :

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

z0N(0,I)z_0 \sim \mathcal{N}(0, I) est la distribution de base, et fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1 est la séquence de transformations réversibles.

Architecture à deux variantes

Variante MLP :

  • Vecteur d'action divisé par élément : (x1,x2)(x_1, x_2)
  • Réseau conditionnel : gϕk(x1,ht)g_{\phi_k}(x_1, h_t) réalisant le conditionnement par concaténation
  • Transformation affine : y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • Nombre de paramètres : 2M, vitesse d'inférence la plus rapide

Variante Transformer :

  • Séquence d'actions divisée par séquence
  • Réseau conditionnel : mécanisme d'auto-attention + attention croisée
  • Capacité d'expression plus forte et extensibilité
  • Nombre de paramètres : 38M, performance supérieure

Points d'innovation technique

  1. Stratégie d'injection de bruit : Ajout de bruit gaussien N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}) aux actions lors de l'entraînement, comme technique de régularisation
  2. Intégration de couches PLU : Introduction de couches linéaires réversibles entraînables pour améliorer la capacité d'expression
  3. Mécanisme de conditionnement : MLP via concaténation, Transformer via attention croisée pour le conditionnement des caractéristiques VLM
  4. Optimisation de la stabilité : Application de la fonction d'activation tanh aux paramètres d'échelle pour prévenir l'instabilité d'entraînement

Configuration expérimentale

Ensemble de données

Utilisation de l'indice de référence LIBERO, comprenant 5 sous-tâches :

  • LIBERO Spatial : tâches de raisonnement spatial
  • LIBERO Object : tâches de manipulation d'objets
  • LIBERO Goal : tâches orientées vers les objectifs
  • LIBERO 10 : combinaison de 10 tâches
  • LIBERO 90 : combinaison de 90 tâches

Métriques d'évaluation

Utilisation du taux de réussite des tâches comme métrique d'évaluation principale, rapportant les taux de réussite pour chaque sous-tâche et la moyenne.

Méthodes de comparaison

  • FLOWER (330M) : Modèle de politique de diffusion original
  • FLOWER (31M) : Modèle de diffusion réduit avec nombre de paramètres correspondant
  • Variantes d'ablation : Suppression des couches PLU, injection de bruit, préentraînement robotique, etc.

Détails d'implémentation

  • Matériel : GPU NVIDIA H100 pour l'entraînement, RTX 3060 pour les tests d'inférence
  • Entraînement : 100 épochs, taille de lot 80
  • VLM : Florence-2 Large
  • Hyperparamètres optimisés sur LIBERO-10 puis appliqués à toutes les tâches

Résultats expérimentaux

Résultats principaux

ModèleLIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90Moyenne
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

Comparaison de l'efficacité d'inférence

ModèleNombre de paramètresTemps d'inférence H100Temps d'inférence RTX 3060
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

Expériences d'ablation

Impact de l'injection de bruit :

  • NinA Transformer : 0.938 → 0.896 (sans bruit)
  • NinA MLP : 0.909 → 0.880 (sans bruit)

Impact des couches PLU :

  • Légère amélioration pour Transformer (0.934 vs 0.938)
  • Impact mixte pour MLP

Analyse des hyperparamètres :

  • Profondeur de flux optimale : 18 pour Transformer, 28 pour MLP
  • Dimension cachée optimale : 256 pour Transformer, 64 pour MLP
  • Écart-type de bruit optimal : 0.03 pour les deux

Découvertes expérimentales

  1. Avantages d'efficacité significatifs : NinA réalise une accélération d'inférence de 7 à 10 fois, réduisant le nombre de paramètres de 8,7 fois
  2. Performance stable : Seule une baisse de performance de 1,4 % (0.938 vs 0.952)
  3. Compromis architecturaux clairs : MLP plus rapide mais performance légèrement inférieure, Transformer équilibrant performance et efficacité
  4. Injection de bruit critique : Technique de régularisation importante améliorant significativement les performances

Travaux connexes

Développement des modèles VLA

  • Travaux précoces : RT-1, RT-2 établissant le cadre fondamental vision-langage-action
  • Évolution architecturale : π0, π0.5, FLOWER établissant l'architecture à deux composants VLM + expert d'action
  • Application de la diffusion : Adoption actuelle dominante des modèles de diffusion comme décodeurs d'action

Recherche sur les flux normalisants

  • Fondements théoriques : NICE, RealNVP établissant le cadre théorique des transformations réversibles
  • Applications au contrôle : Travaux récents explorant les flux normalisants dans l'apprentissage par imitation et l'apprentissage par renforcement
  • Caractéristiques avantageuses : Estimation exacte de vraisemblance, échantillonnage en une étape, support de l'inférence variationnelle

Conclusions et discussion

Conclusions principales

  1. Vérification de la faisabilité : Les flux normalisants peuvent servir d'alternative efficace aux modèles de diffusion
  2. Amélioration de l'efficacité : Réduction significative du temps d'inférence et des besoins en paramètres
  3. Maintien des performances : Préservation de performances compétitives malgré l'amélioration drastique de l'efficacité
  4. Valeur pratique : Fourniture d'une nouvelle voie technologique pour le contrôle robotique en temps réel

Limitations

  1. Portée d'évaluation limitée : Vérification uniquement sur l'indice de référence LIBERO, absence d'expériences sur robots réels
  2. Préentraînement absent : Absence de préentraînement VLA complet, uniquement l'ajustement fin du décodeur d'action
  3. Complexité des tâches : Les tâches LIBERO sont relativement simples, les performances sur opérations complexes inconnues
  4. Analyse théorique insuffisante : Absence d'explication théorique des avantages des flux normalisants par rapport aux modèles de diffusion

Directions futures

  1. Préentraînement à grande échelle : Exploration des performances des flux normalisants dans le préentraînement VLA complet
  2. Vérification de déploiement réel : Validation des effets de contrôle en temps réel sur systèmes robotiques réels
  3. Approfondissement théorique : Analyse des avantages théoriques des flux normalisants par rapport aux modèles de diffusion
  4. Extension d'application : Exploration des applications dans l'apprentissage par renforcement et l'estimation d'incertitude

Évaluation approfondie

Avantages

  1. Forte innovativité : Introduction pour la première fois des flux normalisants dans les modèles VLA, approche novatrice et pratique
  2. Expériences complètes : Fourniture d'expériences de comparaison complètes et d'analyses d'ablation
  3. Valeur d'ingénierie élevée : L'amélioration significative de l'efficacité présente une importance majeure pour le déploiement pratique
  4. Méthode générique : Intégration facile dans les architectures VLA existantes

Insuffisances

  1. Profondeur théorique limitée : Absence d'analyse théorique de l'efficacité de la méthode
  2. Limitations d'évaluation : Tests uniquement en environnement simulé, absence de vérification sur robots réels
  3. Vérification insuffisante sur tâches complexes : Les tâches LIBERO sont relativement simples, capacités sur opérations complexes inconnues
  4. Modélisation de dépendances à long terme : La capacité des flux normalisants à modéliser des séquences d'actions longues nécessite une vérification supplémentaire

Impact

  1. Contribution technique : Fourniture d'une nouvelle solution efficace pour les modèles VLA
  2. Valeur pratique : L'amélioration significative de l'efficacité d'inférence présente une valeur d'ingénierie importante
  3. Inspiration pour la recherche : Ouverture d'une nouvelle direction d'application des flux normalisants au contrôle robotique
  4. Reproductibilité : Code en source ouverte, facilitant la reproduction et l'extension

Scénarios d'application

  1. Contrôle en temps réel : Tâches de contrôle robotique nécessitant des réponses haute fréquence
  2. Environnements à ressources limitées : Scénarios de déploiement en périphérie avec ressources informatiques limitées
  3. Quantification d'incertitude : Applications nécessitant l'estimation de probabilités d'actions
  4. Apprentissage en ligne : Scénarios d'adaptation en ligne nécessitant une inférence rapide

Références

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

Résumé : NinA propose une solution innovante et pratique qui améliore significativement l'efficacité d'inférence des modèles VLA via les flux normalisants, tout en maintenant des performances compétitives. Bien que des améliorations soient nécessaires en analyse théorique et vérification sur tâches complexes, son potentiel d'application au contrôle robotique en temps réel est considérable, apportant une contribution technologique précieuse au domaine.