2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.

Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.

academic

NinA: Normalizing Flows in Action. Entrenamiento de Modelos VLA con Flujos Normalizadores

Información Básica

ID del Artículo: 2508.16845
Título: NinA: Normalizing Flows in Action. Entrenamiento de Modelos VLA con Flujos Normalizadores
Autores: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
Clasificación: cs.CV cs.AI cs.LG
Conferencia de Publicación: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
Enlace del Artículo: https://arxiv.org/abs/2508.16845

Resumen

Los avances recientes en modelos de visión-lenguaje-acción (VLA) han establecido una arquitectura de dos componentes: un modelo de visión-lenguaje (VLM) preentrenado que codifica observaciones visuales y descripciones de tareas, y un decodificador de acciones que mapea estas representaciones a acciones continuas. Los modelos de difusión se han adoptado ampliamente como decodificadores de acciones debido a su capacidad para modelar distribuciones de acciones multimodales complejas. Sin embargo, requieren múltiples pasos de desruidización iterativa durante la inferencia, lo que limita su practicidad en escenarios del mundo real que requieren control de alta frecuencia. Este artículo propone NinA (Normalizing Flows in Action), como una alternativa rápida y expresiva al decodificador de difusión de VLA. NinA reemplaza el decodificador de acciones de difusión con flujos normalizadores (NF), logrando muestreo de una sola pasada mediante transformaciones invertibles, reduciendo significativamente el tiempo de inferencia. Los experimentos demuestran que NinA iguala el rendimiento de los modelos basados en difusión correspondientes bajo el mismo régimen de entrenamiento, mientras logra una velocidad de inferencia significativamente más rápida.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los modelos VLA actuales adoptan ampliamente modelos de difusión como decodificadores de acciones, que aunque pueden modelar distribuciones de acciones multimodales complejas, presentan problemas de latencia en la inferencia:

Cuello de botella en eficiencia de inferencia: Los modelos de difusión requieren un proceso de desruidización autorregresivo con múltiples pasadas hacia adelante
Requisitos de control en tiempo real: El control de grano fino de robots requiere respuestas de alta frecuencia, siendo la latencia un factor limitante crítico
Consumo de recursos computacionales: El muestreo multietapa aumenta la sobrecarga computacional

Motivación de la Investigación

El control robótico requiere requisitos extremadamente altos de tiempo real, y el mecanismo de muestreo multietapa de los modelos de difusión existentes se ha convertido en un cuello de botella de implementación. Los flujos normalizadores como modelos generativos presentan las siguientes ventajas:

Generación de muestras mediante una única pasada hacia adelante
Proporciona estimaciones de verosimilitud exactas
Soporta inferencia variacional y cuantificación de incertidumbre
Muestra potencial en aprendizaje por imitación y aprendizaje por refuerzo

Contribuciones Principales

Propuesta del Marco NinA: Primera aplicación de flujos normalizadores al decodificador de acciones de modelos VLA, logrando generación de acciones eficiente de una sola pasada
Diseño de Arquitectura Dual: Desarrollo de dos variantes de flujos normalizadores basadas en MLP y Transformer, equilibrando eficiencia y rendimiento
Verificación de Rendimiento: Demostración en el benchmark LIBERO de que NinA tiene rendimiento comparable al de modelos de difusión, mientras logra aceleración de inferencia de 7-10 veces
Análisis Integral: Proporciona experimentos de ablación detallados y análisis de hiperparámetros, ofreciendo orientación para la aplicación de flujos normalizadores en control robótico

Explicación Detallada del Método

Definición de la Tarea

Dada una observación visual $o_t$ e instrucción textual $g$ , el modelo VLA necesita generar la acción robótica correspondiente $a_t$ . El objetivo es maximizar la verosimilitud logarítmica de las acciones de expertos:

$\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]$

Arquitectura del Modelo

Marco General

NinA adopta un diseño modular, manteniendo el codificador VLM de FLOWER sin cambios, reemplazando solo el decodificador de acciones:

Codificador VLM: $h_t = \text{VLM}(o_t, g)$ genera incrustaciones multimodales
Decodificador de Flujo Normalizador: $a_t \sim \pi_\theta(\cdot | h_t)$ genera secuencias de acciones

Diseño del Flujo Normalizador

Basado en la arquitectura RealNVP, implementa una secuencia de transformaciones invertibles:

$\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|$

donde $z_0 \sim \mathcal{N}(0, I)$ es la distribución base, y $f_\theta = f_K \circ \cdots \circ f_1$ es la secuencia de transformaciones invertibles.

Arquitectura de Doble Variante

Variante MLP:

Partición de vector de acciones por elemento: $(x_1, x_2)$
Red condicional: $g_{\phi_k}(x_1, h_t)$ implementa condicionamiento mediante concatenación
Transformación afín: $y_2 = \exp(s) \cdot x_2 + b$
Cantidad de parámetros: 2M, velocidad de inferencia más rápida

Variante Transformer:

Partición de secuencia de acciones por secuencia
Red condicional: mecanismo de autoatención + atención cruzada
Mayor capacidad expresiva y escalabilidad
Cantidad de parámetros: 38M, rendimiento superior

Puntos de Innovación Técnica

Estrategia de Inyección de Ruido: Adición de ruido gaussiano $\mathcal{N}(0, \sigma^2_{noise})$ a las acciones durante el entrenamiento, como técnica de regularización
Integración de Capas PLU: Introducción de capas lineales invertibles entrenables para mejorar la capacidad expresiva
Mecanismo de Condicionamiento: MLP mediante concatenación, Transformer mediante atención cruzada para implementar condicionamiento de características VLM
Optimización de Estabilidad: Aplicación de función de activación tanh a parámetros de escala para prevenir inestabilidad en el entrenamiento

Configuración Experimental

Conjunto de Datos

Utiliza el benchmark LIBERO para pruebas, incluyendo 5 subtareas:

LIBERO Spatial: Tareas de razonamiento espacial
LIBERO Object: Tareas de manipulación de objetos
LIBERO Goal: Tareas orientadas a objetivos
LIBERO 10: Combinación de 10 tareas
LIBERO 90: Combinación de 90 tareas

Métricas de Evaluación

Se adopta la tasa de éxito de tareas como métrica de evaluación principal, reportando tasa de éxito para cada subtarea y promedio.

Métodos de Comparación

FLOWER (330M): Modelo de política de difusión original
FLOWER (31M): Modelo de difusión reducido con cantidad de parámetros coincidente
Variantes de Ablación: Eliminación de capas PLU, inyección de ruido, preentrenamiento robótico, etc.

Detalles de Implementación

Hardware: Entrenamiento en GPU NVIDIA H100, prueba de inferencia en RTX 3060
Entrenamiento: 100 épocas, tamaño de lote 80
VLM: Florence-2 Large
Hiperparámetros optimizados en LIBERO-10 aplicados a todas las tareas

Resultados Experimentales

Resultados Principales

Modelo	LIBERO Spatial	LIBERO Object	LIBERO Goal	LIBERO 10	LIBERO 90	Promedio
Diffusion (330M)	0.982	0.976	0.942	0.906	0.954	0.952
Diffusion (31M)	0.890	0.984	0.952	0.864	0.894	0.916
NinA Transformer (38M)	0.970	0.978	0.938	0.920	0.887	0.938
NinA MLP (2M)	0.878	0.982	0.902	0.928	0.856	0.909

Comparación de Eficiencia de Inferencia

Modelo	Cantidad de Parámetros	Tiempo de Inferencia H100	Tiempo de Inferencia RTX 3060
Diffusion (330M)	330M	0.110s	0.163s
Diffusion (31M)	31M	0.120s	0.181s
NinA Transformer (38M)	38M	0.021s	0.023s
NinA MLP (2M)	2M	0.015s	0.019s

Experimentos de Ablación

Impacto de Inyección de Ruido:

NinA Transformer: 0.938 → 0.896 (sin ruido)
NinA MLP: 0.909 → 0.880 (sin ruido)

Impacto de Capas PLU:

Mejora leve en Transformer (0.934 vs 0.938)
Impacto mixto en MLP

Análisis de Hiperparámetros:

Profundidad de flujo óptima: 18 para Transformer, 28 para MLP
Dimensión oculta óptima: 256 para Transformer, 64 para MLP
Desviación estándar de ruido óptima: 0.03 para ambos

Hallazgos Experimentales

Ventaja de Eficiencia Significativa: NinA logra aceleración de inferencia de 7-10 veces, reducción de parámetros de 8.7 veces
Rendimiento Estable: Solo 1.4% de degradación de rendimiento (0.938 vs 0.952)
Compensación de Arquitectura Clara: MLP más rápido pero rendimiento ligeramente inferior, Transformer equilibra rendimiento y eficiencia
Inyección de Ruido Crítica: Como técnica de regularización importante mejora significativamente el rendimiento

Trabajo Relacionado

Desarrollo de Modelos VLA

Trabajo Temprano: RT-1, RT-2 establecen el marco fundamental de visión-lenguaje-acción
Evolución de Arquitectura: π0, π0.5, FLOWER establecen la arquitectura de dos componentes de VLM + experto en acciones
Aplicación de Difusión: La tendencia actual adopta modelos de difusión como decodificadores de acciones

Investigación en Flujos Normalizadores

Fundamentos Teóricos: NICE, RealNVP establecen el marco teórico de transformaciones invertibles
Aplicaciones en Control: Trabajos recientes comienzan a explorar flujos normalizadores en aprendizaje por imitación y aprendizaje por refuerzo
Características de Ventaja: Estimación de verosimilitud exacta, muestreo de una sola pasada, soporte de inferencia variacional

Conclusiones y Discusión

Conclusiones Principales

Verificación de Viabilidad: Los flujos normalizadores pueden servir como alternativa efectiva a los modelos de difusión
Mejora de Eficiencia: Reducción significativa del tiempo de inferencia y requisitos de parámetros
Mantenimiento de Rendimiento: Mantiene rendimiento competitivo mientras mejora significativamente la eficiencia
Valor Práctico: Proporciona una nueva ruta tecnológica para control robótico en tiempo real

Limitaciones

Rango de Evaluación Limitado: Validación solo en benchmark LIBERO, falta de experimentos con robots reales
Ausencia de Preentrenamiento: Sin preentrenamiento completo de VLA, solo ajuste fino del decodificador de acciones
Complejidad de Tareas: Las tareas de LIBERO son relativamente simples, rendimiento en operaciones complejas desconocido
Análisis Teórico Insuficiente: Falta de explicación teórica de las ventajas de flujos normalizadores sobre modelos de difusión

Direcciones Futuras

Preentrenamiento a Gran Escala: Exploración del rendimiento de flujos normalizadores en preentrenamiento completo de VLA
Verificación de Implementación Real: Validación del efecto de control en tiempo real en sistemas robóticos reales
Profundización Teórica: Análisis de ventajas teóricas de flujos normalizadores comparado con modelos de difusión
Expansión de Aplicaciones: Exploración de aplicaciones en aprendizaje por refuerzo, estimación de incertidumbre

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera introducción de flujos normalizadores en modelos VLA, idea novedosa y práctica
Experimentos Suficientes: Proporciona experimentos de comparación integral y análisis de ablación
Alto Valor de Ingeniería: La mejora significativa de eficiencia tiene importancia crucial para implementación práctica
Método Universal: Puede integrarse fácilmente en arquitecturas VLA existentes

Deficiencias

Profundidad Teórica Limitada: Falta análisis teórico de la efectividad del método
Limitaciones de Evaluación: Solo pruebas en entorno de simulación, falta verificación con robots reales
Verificación Insuficiente de Tareas Complejas: Las tareas de LIBERO son relativamente simples, capacidad en operaciones complejas desconocida
Modelado de Dependencias a Largo Plazo: La capacidad de flujos normalizadores en modelado de acciones de secuencias largas requiere verificación adicional

Impacto

Contribución Técnica: Proporciona nueva solución eficiente para modelos VLA
Valor Práctico: La mejora significativa de eficiencia de inferencia tiene valor de ingeniería importante
Inspiración de Investigación: Abre nueva dirección de aplicación de flujos normalizadores en control robótico
Reproducibilidad: Código de código abierto, facilita reproducción y extensión

Escenarios Aplicables

Control en Tiempo Real: Tareas de control robótico que requieren respuesta de alta frecuencia
Entornos con Recursos Limitados: Escenarios de implementación en el borde con recursos computacionales limitados
Cuantificación de Incertidumbre: Aplicaciones que requieren estimación de probabilidad de acciones
Aprendizaje en Línea: Escenarios de adaptación en línea que requieren inferencia rápida

Referencias

Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl

Resumen: NinA propone una solución innovadora y práctica que mejora significativamente la eficiencia de inferencia de modelos VLA mediante flujos normalizadores, mientras mantiene rendimiento competitivo. Aunque aún requiere mejora en análisis teórico y verificación de tareas complejas, su potencial de aplicación en control robótico en tiempo real es enorme, proporcionando una contribución técnica valiosa para el campo.