2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

基本信息

  • 论文ID: 2508.16845
  • 标题: NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
  • 作者: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • 分类: cs.CV cs.AI cs.LG
  • 发表会议: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • 论文链接: https://arxiv.org/abs/2508.16845

摘要

近年来,视觉-语言-动作(VLA)模型的进展确立了一种双组件架构:预训练的视觉-语言模型(VLM)编码视觉观察和任务描述,动作解码器将这些表示映射为连续动作。扩散模型因其建模复杂多模态动作分布的能力而被广泛采用作为动作解码器。然而,它们在推理时需要多次迭代去噪步骤,限制了在需要高频控制的真实世界场景中的实用性。本文提出NinA(Normalizing Flows in Action),作为VLA扩散解码器的快速且富有表现力的替代方案。NinA用归一化流(NF)替换扩散动作解码器,通过可逆变换实现一次性采样,显著减少推理时间。实验表明,NinA在相同训练制度下与基于扩散的对应模型性能匹配,同时实现了显著更快的推理速度。

研究背景与动机

问题定义

当前VLA模型普遍采用扩散模型作为动作解码器,虽然能够建模复杂的多模态动作分布,但存在推理延迟问题:

  1. 推理效率瓶颈:扩散模型需要多次前向传播的自回归去噪过程
  2. 实时控制需求:机器人细粒度控制需要高频率响应,延迟是关键限制因素
  3. 计算资源消耗:多步采样增加了计算开销

研究动机

机器人控制对实时性要求极高,现有扩散模型的多步采样机制成为部署瓶颈。归一化流作为生成模型具有以下优势:

  • 单次前向传播即可生成样本
  • 提供精确似然估计
  • 支持变分推理和不确定性量化
  • 在模仿学习和强化学习中展现潜力

核心贡献

  1. 提出NinA框架:首次将归一化流应用于VLA模型的动作解码,实现高效的一次性动作生成
  2. 双架构设计:开发基于MLP和Transformer的两种归一化流变体,平衡效率与性能
  3. 性能验证:在LIBERO基准上证明NinA与扩散模型性能相当,同时实现7-10倍推理加速
  4. 全面分析:提供详细的消融实验和超参数分析,为归一化流在机器人控制中的应用提供指导

方法详解

任务定义

给定视觉观察 oto_t 和文本指令 gg,VLA模型需要生成相应的机器人动作 ata_t。目标是最大化专家动作的对数似然:

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

模型架构

整体框架

NinA采用模块化设计,保持FLOWER的VLM编码器不变,仅替换动作解码器:

  1. VLM编码器ht=VLM(ot,g)h_t = \text{VLM}(o_t, g) 生成多模态嵌入
  2. 归一化流解码器atπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) 生成动作序列

归一化流设计

基于RealNVP架构,实现可逆变换序列:

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

其中 z0N(0,I)z_0 \sim \mathcal{N}(0, I) 为基础分布,fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1 为可逆变换序列。

双变体架构

MLP变体

  • 动作向量按元素分割:(x1,x2)(x_1, x_2)
  • 条件网络:gϕk(x1,ht)g_{\phi_k}(x_1, h_t) 通过拼接实现条件化
  • 仿射变换:y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • 参数量:2M,推理速度最快

Transformer变体

  • 动作序列按序列分割
  • 条件网络:自注意力+交叉注意力机制
  • 更强的表达能力和扩展性
  • 参数量:38M,性能更优

技术创新点

  1. 噪声注入策略:训练时向动作添加高斯噪声 N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}),作为正则化技术
  2. PLU层集成:引入可训练的可逆线性层增强表达能力
  3. 条件化机制:MLP通过拼接、Transformer通过交叉注意力实现VLM特征条件化
  4. 稳定性优化:对尺度参数应用tanh激活函数防止训练不稳定

实验设置

数据集

使用LIBERO基准测试,包含5个子任务:

  • LIBERO Spatial:空间推理任务
  • LIBERO Object:物体操作任务
  • LIBERO Goal:目标导向任务
  • LIBERO 10:10任务组合
  • LIBERO 90:90任务组合

评价指标

采用任务成功率作为主要评价指标,报告各子任务及平均成功率。

对比方法

  • FLOWER (330M):原始扩散策略模型
  • FLOWER (31M):参数量匹配的缩减版扩散模型
  • 消融变体:移除PLU层、噪声注入、机器人预训练等

实现细节

  • 硬件:NVIDIA H100 GPU训练,RTX 3060测试推理
  • 训练:100轮,批大小80
  • VLM:Florence-2 Large
  • 超参数在LIBERO-10上调优后应用于所有任务

实验结果

主要结果

模型LIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90平均
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

推理效率对比

模型参数量H100推理时间RTX 3060推理时间
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

消融实验

噪声注入影响

  • NinA Transformer:0.938 → 0.896(移除噪声)
  • NinA MLP:0.909 → 0.880(移除噪声)

PLU层影响

  • 对Transformer有轻微提升(0.934 vs 0.938)
  • 对MLP影响混合

超参数分析

  • 最优流深度:Transformer为18,MLP为28
  • 最优隐藏维度:Transformer为256,MLP为64
  • 最优噪声标准差:均为0.03

实验发现

  1. 效率优势显著:NinA实现7-10倍推理加速,参数量减少8.7倍
  2. 性能保持稳定:仅有1.4%的性能下降(0.938 vs 0.952)
  3. 架构权衡清晰:MLP更快但性能略低,Transformer平衡性能与效率
  4. 噪声注入关键:作为重要正则化技术显著提升性能

相关工作

VLA模型发展

  • 早期工作:RT-1, RT-2建立了视觉-语言-动作的基础框架
  • 架构演进:π0, π0.5, FLOWER确立了VLM+动作专家的双组件架构
  • 扩散应用:当前主流采用扩散模型作为动作解码器

归一化流研究

  • 理论基础:NICE, RealNVP建立了可逆变换的理论框架
  • 控制应用:近期工作开始探索归一化流在模仿学习和强化学习中的应用
  • 优势特性:精确似然估计、单步采样、变分推理支持

结论与讨论

主要结论

  1. 可行性验证:归一化流可以作为扩散模型的有效替代方案
  2. 效率提升:显著减少推理时间和参数需求
  3. 性能保持:在效率大幅提升的同时保持竞争性能
  4. 实用价值:为实时机器人控制提供了新的技术路径

局限性

  1. 评估范围有限:仅在LIBERO基准上验证,缺乏真实机器人实验
  2. 预训练缺失:未进行完整的VLA预训练,仅微调动作解码器
  3. 任务复杂度:LIBERO任务相对简单,复杂操作的表现未知
  4. 理论分析不足:缺乏对归一化流在动作建模中优势的理论解释

未来方向

  1. 大规模预训练:探索归一化流在完整VLA预训练中的表现
  2. 真实部署验证:在真实机器人系统中验证实时控制效果
  3. 理论深入:分析归一化流相比扩散模型的理论优势
  4. 应用扩展:探索在强化学习、不确定性估计中的应用

深度评价

优点

  1. 创新性强:首次将归一化流引入VLA模型,思路新颖且实用
  2. 实验充分:提供了全面的对比实验和消融分析
  3. 工程价值高:显著的效率提升对实际部署具有重要意义
  4. 方法通用:可以轻松集成到现有VLA架构中

不足

  1. 理论深度有限:缺乏对方法有效性的理论分析
  2. 评估局限:仅在仿真环境中测试,缺乏真实机器人验证
  3. 复杂任务验证不足:LIBERO任务相对简单,复杂操作能力未知
  4. 长期依赖建模:归一化流在长序列动作建模中的能力需要进一步验证

影响力

  1. 技术贡献:为VLA模型提供了新的高效解决方案
  2. 实用价值:推理效率的显著提升具有重要的工程价值
  3. 研究启发:开辟了归一化流在机器人控制中的新应用方向
  4. 可复现性:代码开源,便于复现和扩展

适用场景

  1. 实时控制:需要高频响应的机器人控制任务
  2. 资源受限环境:计算资源有限的边缘部署场景
  3. 不确定性量化:需要动作概率估计的应用
  4. 在线学习:需要快速推理的在线适应场景

参考文献

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

总结:NinA提出了一个创新且实用的解决方案,通过归一化流显著提升了VLA模型的推理效率,同时保持了竞争性能。虽然在理论分析和复杂任务验证方面还有待完善,但其在实时机器人控制中的应用潜力巨大,为该领域提供了有价值的技术贡献。