2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA: Normalizing Flows in Action. Entrenamiento de Modelos VLA con Flujos Normalizadores

Información Básica

  • ID del Artículo: 2508.16845
  • Título: NinA: Normalizing Flows in Action. Entrenamiento de Modelos VLA con Flujos Normalizadores
  • Autores: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • Clasificación: cs.CV cs.AI cs.LG
  • Conferencia de Publicación: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • Enlace del Artículo: https://arxiv.org/abs/2508.16845

Resumen

Los avances recientes en modelos de visión-lenguaje-acción (VLA) han establecido una arquitectura de dos componentes: un modelo de visión-lenguaje (VLM) preentrenado que codifica observaciones visuales y descripciones de tareas, y un decodificador de acciones que mapea estas representaciones a acciones continuas. Los modelos de difusión se han adoptado ampliamente como decodificadores de acciones debido a su capacidad para modelar distribuciones de acciones multimodales complejas. Sin embargo, requieren múltiples pasos de desruidización iterativa durante la inferencia, lo que limita su practicidad en escenarios del mundo real que requieren control de alta frecuencia. Este artículo propone NinA (Normalizing Flows in Action), como una alternativa rápida y expresiva al decodificador de difusión de VLA. NinA reemplaza el decodificador de acciones de difusión con flujos normalizadores (NF), logrando muestreo de una sola pasada mediante transformaciones invertibles, reduciendo significativamente el tiempo de inferencia. Los experimentos demuestran que NinA iguala el rendimiento de los modelos basados en difusión correspondientes bajo el mismo régimen de entrenamiento, mientras logra una velocidad de inferencia significativamente más rápida.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los modelos VLA actuales adoptan ampliamente modelos de difusión como decodificadores de acciones, que aunque pueden modelar distribuciones de acciones multimodales complejas, presentan problemas de latencia en la inferencia:

  1. Cuello de botella en eficiencia de inferencia: Los modelos de difusión requieren un proceso de desruidización autorregresivo con múltiples pasadas hacia adelante
  2. Requisitos de control en tiempo real: El control de grano fino de robots requiere respuestas de alta frecuencia, siendo la latencia un factor limitante crítico
  3. Consumo de recursos computacionales: El muestreo multietapa aumenta la sobrecarga computacional

Motivación de la Investigación

El control robótico requiere requisitos extremadamente altos de tiempo real, y el mecanismo de muestreo multietapa de los modelos de difusión existentes se ha convertido en un cuello de botella de implementación. Los flujos normalizadores como modelos generativos presentan las siguientes ventajas:

  • Generación de muestras mediante una única pasada hacia adelante
  • Proporciona estimaciones de verosimilitud exactas
  • Soporta inferencia variacional y cuantificación de incertidumbre
  • Muestra potencial en aprendizaje por imitación y aprendizaje por refuerzo

Contribuciones Principales

  1. Propuesta del Marco NinA: Primera aplicación de flujos normalizadores al decodificador de acciones de modelos VLA, logrando generación de acciones eficiente de una sola pasada
  2. Diseño de Arquitectura Dual: Desarrollo de dos variantes de flujos normalizadores basadas en MLP y Transformer, equilibrando eficiencia y rendimiento
  3. Verificación de Rendimiento: Demostración en el benchmark LIBERO de que NinA tiene rendimiento comparable al de modelos de difusión, mientras logra aceleración de inferencia de 7-10 veces
  4. Análisis Integral: Proporciona experimentos de ablación detallados y análisis de hiperparámetros, ofreciendo orientación para la aplicación de flujos normalizadores en control robótico

Explicación Detallada del Método

Definición de la Tarea

Dada una observación visual oto_t e instrucción textual gg, el modelo VLA necesita generar la acción robótica correspondiente ata_t. El objetivo es maximizar la verosimilitud logarítmica de las acciones de expertos:

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

Arquitectura del Modelo

Marco General

NinA adopta un diseño modular, manteniendo el codificador VLM de FLOWER sin cambios, reemplazando solo el decodificador de acciones:

  1. Codificador VLM: ht=VLM(ot,g)h_t = \text{VLM}(o_t, g) genera incrustaciones multimodales
  2. Decodificador de Flujo Normalizador: atπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) genera secuencias de acciones

Diseño del Flujo Normalizador

Basado en la arquitectura RealNVP, implementa una secuencia de transformaciones invertibles:

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

donde z0N(0,I)z_0 \sim \mathcal{N}(0, I) es la distribución base, y fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1 es la secuencia de transformaciones invertibles.

Arquitectura de Doble Variante

Variante MLP:

  • Partición de vector de acciones por elemento: (x1,x2)(x_1, x_2)
  • Red condicional: gϕk(x1,ht)g_{\phi_k}(x_1, h_t) implementa condicionamiento mediante concatenación
  • Transformación afín: y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • Cantidad de parámetros: 2M, velocidad de inferencia más rápida

Variante Transformer:

  • Partición de secuencia de acciones por secuencia
  • Red condicional: mecanismo de autoatención + atención cruzada
  • Mayor capacidad expresiva y escalabilidad
  • Cantidad de parámetros: 38M, rendimiento superior

Puntos de Innovación Técnica

  1. Estrategia de Inyección de Ruido: Adición de ruido gaussiano N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}) a las acciones durante el entrenamiento, como técnica de regularización
  2. Integración de Capas PLU: Introducción de capas lineales invertibles entrenables para mejorar la capacidad expresiva
  3. Mecanismo de Condicionamiento: MLP mediante concatenación, Transformer mediante atención cruzada para implementar condicionamiento de características VLM
  4. Optimización de Estabilidad: Aplicación de función de activación tanh a parámetros de escala para prevenir inestabilidad en el entrenamiento

Configuración Experimental

Conjunto de Datos

Utiliza el benchmark LIBERO para pruebas, incluyendo 5 subtareas:

  • LIBERO Spatial: Tareas de razonamiento espacial
  • LIBERO Object: Tareas de manipulación de objetos
  • LIBERO Goal: Tareas orientadas a objetivos
  • LIBERO 10: Combinación de 10 tareas
  • LIBERO 90: Combinación de 90 tareas

Métricas de Evaluación

Se adopta la tasa de éxito de tareas como métrica de evaluación principal, reportando tasa de éxito para cada subtarea y promedio.

Métodos de Comparación

  • FLOWER (330M): Modelo de política de difusión original
  • FLOWER (31M): Modelo de difusión reducido con cantidad de parámetros coincidente
  • Variantes de Ablación: Eliminación de capas PLU, inyección de ruido, preentrenamiento robótico, etc.

Detalles de Implementación

  • Hardware: Entrenamiento en GPU NVIDIA H100, prueba de inferencia en RTX 3060
  • Entrenamiento: 100 épocas, tamaño de lote 80
  • VLM: Florence-2 Large
  • Hiperparámetros optimizados en LIBERO-10 aplicados a todas las tareas

Resultados Experimentales

Resultados Principales

ModeloLIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90Promedio
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

Comparación de Eficiencia de Inferencia

ModeloCantidad de ParámetrosTiempo de Inferencia H100Tiempo de Inferencia RTX 3060
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

Experimentos de Ablación

Impacto de Inyección de Ruido:

  • NinA Transformer: 0.938 → 0.896 (sin ruido)
  • NinA MLP: 0.909 → 0.880 (sin ruido)

Impacto de Capas PLU:

  • Mejora leve en Transformer (0.934 vs 0.938)
  • Impacto mixto en MLP

Análisis de Hiperparámetros:

  • Profundidad de flujo óptima: 18 para Transformer, 28 para MLP
  • Dimensión oculta óptima: 256 para Transformer, 64 para MLP
  • Desviación estándar de ruido óptima: 0.03 para ambos

Hallazgos Experimentales

  1. Ventaja de Eficiencia Significativa: NinA logra aceleración de inferencia de 7-10 veces, reducción de parámetros de 8.7 veces
  2. Rendimiento Estable: Solo 1.4% de degradación de rendimiento (0.938 vs 0.952)
  3. Compensación de Arquitectura Clara: MLP más rápido pero rendimiento ligeramente inferior, Transformer equilibra rendimiento y eficiencia
  4. Inyección de Ruido Crítica: Como técnica de regularización importante mejora significativamente el rendimiento

Trabajo Relacionado

Desarrollo de Modelos VLA

  • Trabajo Temprano: RT-1, RT-2 establecen el marco fundamental de visión-lenguaje-acción
  • Evolución de Arquitectura: π0, π0.5, FLOWER establecen la arquitectura de dos componentes de VLM + experto en acciones
  • Aplicación de Difusión: La tendencia actual adopta modelos de difusión como decodificadores de acciones

Investigación en Flujos Normalizadores

  • Fundamentos Teóricos: NICE, RealNVP establecen el marco teórico de transformaciones invertibles
  • Aplicaciones en Control: Trabajos recientes comienzan a explorar flujos normalizadores en aprendizaje por imitación y aprendizaje por refuerzo
  • Características de Ventaja: Estimación de verosimilitud exacta, muestreo de una sola pasada, soporte de inferencia variacional

Conclusiones y Discusión

Conclusiones Principales

  1. Verificación de Viabilidad: Los flujos normalizadores pueden servir como alternativa efectiva a los modelos de difusión
  2. Mejora de Eficiencia: Reducción significativa del tiempo de inferencia y requisitos de parámetros
  3. Mantenimiento de Rendimiento: Mantiene rendimiento competitivo mientras mejora significativamente la eficiencia
  4. Valor Práctico: Proporciona una nueva ruta tecnológica para control robótico en tiempo real

Limitaciones

  1. Rango de Evaluación Limitado: Validación solo en benchmark LIBERO, falta de experimentos con robots reales
  2. Ausencia de Preentrenamiento: Sin preentrenamiento completo de VLA, solo ajuste fino del decodificador de acciones
  3. Complejidad de Tareas: Las tareas de LIBERO son relativamente simples, rendimiento en operaciones complejas desconocido
  4. Análisis Teórico Insuficiente: Falta de explicación teórica de las ventajas de flujos normalizadores sobre modelos de difusión

Direcciones Futuras

  1. Preentrenamiento a Gran Escala: Exploración del rendimiento de flujos normalizadores en preentrenamiento completo de VLA
  2. Verificación de Implementación Real: Validación del efecto de control en tiempo real en sistemas robóticos reales
  3. Profundización Teórica: Análisis de ventajas teóricas de flujos normalizadores comparado con modelos de difusión
  4. Expansión de Aplicaciones: Exploración de aplicaciones en aprendizaje por refuerzo, estimación de incertidumbre

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera introducción de flujos normalizadores en modelos VLA, idea novedosa y práctica
  2. Experimentos Suficientes: Proporciona experimentos de comparación integral y análisis de ablación
  3. Alto Valor de Ingeniería: La mejora significativa de eficiencia tiene importancia crucial para implementación práctica
  4. Método Universal: Puede integrarse fácilmente en arquitecturas VLA existentes

Deficiencias

  1. Profundidad Teórica Limitada: Falta análisis teórico de la efectividad del método
  2. Limitaciones de Evaluación: Solo pruebas en entorno de simulación, falta verificación con robots reales
  3. Verificación Insuficiente de Tareas Complejas: Las tareas de LIBERO son relativamente simples, capacidad en operaciones complejas desconocida
  4. Modelado de Dependencias a Largo Plazo: La capacidad de flujos normalizadores en modelado de acciones de secuencias largas requiere verificación adicional

Impacto

  1. Contribución Técnica: Proporciona nueva solución eficiente para modelos VLA
  2. Valor Práctico: La mejora significativa de eficiencia de inferencia tiene valor de ingeniería importante
  3. Inspiración de Investigación: Abre nueva dirección de aplicación de flujos normalizadores en control robótico
  4. Reproducibilidad: Código de código abierto, facilita reproducción y extensión

Escenarios Aplicables

  1. Control en Tiempo Real: Tareas de control robótico que requieren respuesta de alta frecuencia
  2. Entornos con Recursos Limitados: Escenarios de implementación en el borde con recursos computacionales limitados
  3. Cuantificación de Incertidumbre: Aplicaciones que requieren estimación de probabilidad de acciones
  4. Aprendizaje en Línea: Escenarios de adaptación en línea que requieren inferencia rápida

Referencias

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

Resumen: NinA propone una solución innovadora y práctica que mejora significativamente la eficiencia de inferencia de modelos VLA mediante flujos normalizadores, mientras mantiene rendimiento competitivo. Aunque aún requiere mejora en análisis teórico y verificación de tareas complejas, su potencial de aplicación en control robótico en tiempo real es enorme, proporcionando una contribución técnica valiosa para el campo.