NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic
NinA: Normalizing Flows in Action. Entrenamiento de Modelos VLA con Flujos Normalizadores
Los avances recientes en modelos de visión-lenguaje-acción (VLA) han establecido una arquitectura de dos componentes: un modelo de visión-lenguaje (VLM) preentrenado que codifica observaciones visuales y descripciones de tareas, y un decodificador de acciones que mapea estas representaciones a acciones continuas. Los modelos de difusión se han adoptado ampliamente como decodificadores de acciones debido a su capacidad para modelar distribuciones de acciones multimodales complejas. Sin embargo, requieren múltiples pasos de desruidización iterativa durante la inferencia, lo que limita su practicidad en escenarios del mundo real que requieren control de alta frecuencia. Este artículo propone NinA (Normalizing Flows in Action), como una alternativa rápida y expresiva al decodificador de difusión de VLA. NinA reemplaza el decodificador de acciones de difusión con flujos normalizadores (NF), logrando muestreo de una sola pasada mediante transformaciones invertibles, reduciendo significativamente el tiempo de inferencia. Los experimentos demuestran que NinA iguala el rendimiento de los modelos basados en difusión correspondientes bajo el mismo régimen de entrenamiento, mientras logra una velocidad de inferencia significativamente más rápida.
Los modelos VLA actuales adoptan ampliamente modelos de difusión como decodificadores de acciones, que aunque pueden modelar distribuciones de acciones multimodales complejas, presentan problemas de latencia en la inferencia:
Cuello de botella en eficiencia de inferencia: Los modelos de difusión requieren un proceso de desruidización autorregresivo con múltiples pasadas hacia adelante
Requisitos de control en tiempo real: El control de grano fino de robots requiere respuestas de alta frecuencia, siendo la latencia un factor limitante crítico
Consumo de recursos computacionales: El muestreo multietapa aumenta la sobrecarga computacional
El control robótico requiere requisitos extremadamente altos de tiempo real, y el mecanismo de muestreo multietapa de los modelos de difusión existentes se ha convertido en un cuello de botella de implementación. Los flujos normalizadores como modelos generativos presentan las siguientes ventajas:
Generación de muestras mediante una única pasada hacia adelante
Proporciona estimaciones de verosimilitud exactas
Soporta inferencia variacional y cuantificación de incertidumbre
Muestra potencial en aprendizaje por imitación y aprendizaje por refuerzo
Propuesta del Marco NinA: Primera aplicación de flujos normalizadores al decodificador de acciones de modelos VLA, logrando generación de acciones eficiente de una sola pasada
Diseño de Arquitectura Dual: Desarrollo de dos variantes de flujos normalizadores basadas en MLP y Transformer, equilibrando eficiencia y rendimiento
Verificación de Rendimiento: Demostración en el benchmark LIBERO de que NinA tiene rendimiento comparable al de modelos de difusión, mientras logra aceleración de inferencia de 7-10 veces
Análisis Integral: Proporciona experimentos de ablación detallados y análisis de hiperparámetros, ofreciendo orientación para la aplicación de flujos normalizadores en control robótico
Dada una observación visual ot e instrucción textual g, el modelo VLA necesita generar la acción robótica correspondiente at. El objetivo es maximizar la verosimilitud logarítmica de las acciones de expertos:
Estrategia de Inyección de Ruido: Adición de ruido gaussiano N(0,σnoise2) a las acciones durante el entrenamiento, como técnica de regularización
Integración de Capas PLU: Introducción de capas lineales invertibles entrenables para mejorar la capacidad expresiva
Mecanismo de Condicionamiento: MLP mediante concatenación, Transformer mediante atención cruzada para implementar condicionamiento de características VLM
Optimización de Estabilidad: Aplicación de función de activación tanh a parámetros de escala para prevenir inestabilidad en el entrenamiento
Profundidad Teórica Limitada: Falta análisis teórico de la efectividad del método
Limitaciones de Evaluación: Solo pruebas en entorno de simulación, falta verificación con robots reales
Verificación Insuficiente de Tareas Complejas: Las tareas de LIBERO son relativamente simples, capacidad en operaciones complejas desconocida
Modelado de Dependencias a Largo Plazo: La capacidad de flujos normalizadores en modelado de acciones de secuencias largas requiere verificación adicional
Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl
Resumen: NinA propone una solución innovadora y práctica que mejora significativamente la eficiencia de inferencia de modelos VLA mediante flujos normalizadores, mientras mantiene rendimiento competitivo. Aunque aún requiere mejora en análisis teórico y verificación de tareas complejas, su potencial de aplicación en control robótico en tiempo real es enorme, proporcionando una contribución técnica valiosa para el campo.