NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic
NinA: Normalizing Flows in Action. 정규화 흐름을 이용한 VLA 모델 훈련
최근 시각-언어-동작(VLA) 모델의 발전으로 이원 구성 아키텍처가 확립되었습니다: 사전학습된 시각-언어 모델(VLM)이 시각적 관찰과 작업 설명을 인코딩하고, 동작 디코더가 이러한 표현을 연속 동작으로 매핑합니다. 확산 모델은 복잡한 다중 모드 동작 분포를 모델링하는 능력으로 인해 동작 디코더로 널리 채택되었습니다. 그러나 추론 시 여러 번의 반복적 노이즈 제거 단계가 필요하여 높은 빈도의 제어가 필요한 실제 환경에서의 실용성을 제한합니다. 본 논문은 NinA(Normalizing Flows in Action)를 제안하며, 이는 VLA 확산 디코더의 빠르고 표현력 있는 대안입니다. NinA는 확산 동작 디코더를 정규화 흐름(NF)으로 대체하여 가역 변환을 통해 일회성 샘플링을 실현하고 추론 시간을 크게 단축합니다. 실험 결과 NinA는 동일한 훈련 체계에서 확산 기반 대응 모델과 성능이 일치하면서도 훨씬 빠른 추론 속도를 달성합니다.
Black et al. π0: A vision-language-action flow model for general robot control
Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
Dinh et al. Density estimation using real nvp
Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
Ghugare & Eysenbach. Normalizing flows are capable models for rl
요약: NinA는 정규화 흐름을 통해 VLA 모델의 추론 효율을 현저히 향상시키면서 경쟁력 있는 성능을 유지하는 혁신적이고 실용적인 솔루션을 제안합니다. 이론 분석 및 복잡 작업 검증 측면에서 개선의 여지가 있지만, 실시간 로봇 제어에서의 응용 잠재력이 크며, 해당 분야에 가치 있는 기술 기여를 제공합니다.