2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA: 正規化フローの実践的応用。正規化フローを用いたVLAモデルの訓練

基本情報

  • 論文ID: 2508.16845
  • タイトル: NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
  • 著者: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • 分類: cs.CV cs.AI cs.LG
  • 発表会議: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • 論文リンク: https://arxiv.org/abs/2508.16845

要約

近年、視覚-言語-動作(VLA)モデルの進展により、二成分アーキテクチャが確立されました。事前学習済みの視覚-言語モデル(VLM)が視覚観察とタスク記述をエンコードし、動作デコーダがこれらの表現を連続動作にマッピングします。複雑な多峰性動作分布をモデル化する能力から、拡散モデルが動作デコーダとして広く採用されています。しかし、推論時に複数回の反復的なノイズ除去ステップが必要であり、高周波制御が必要な実世界シナリオでの実用性が制限されています。本論文では、NinA(Normalizing Flows in Action)を提案します。これはVLA拡散デコーダの高速で表現力豊かな代替案です。NinAは拡散動作デコーダを正規化フロー(NF)に置き換え、可逆変換を通じてワンショットサンプリングを実現し、推論時間を大幅に削減します。実験により、NinAは同じ訓練体制下で拡散ベースの対応モデルと同等の性能を達成しながら、著しく高速な推論を実現することが示されています。

研究背景と動機

問題定義

現在のVLAモデルは一般的に拡散モデルを動作デコーダとして採用していますが、複雑な多峰性動作分布をモデル化できる一方で、推論遅延の問題が存在します:

  1. 推論効率のボトルネック:拡散モデルは複数回の前向き伝播による自己回帰的なノイズ除去プロセスが必要
  2. リアルタイム制御の要件:ロボットの細粒度制御には高周波応答が必要であり、遅延は重要な制限要因
  3. 計算リソースの消費:多段階サンプリングは計算オーバーヘッドを増加させる

研究動機

ロボット制御はリアルタイム性に極めて高い要件があり、既存の拡散モデルの多段階サンプリング機構が展開のボトルネックになっています。正規化フローは生成モデルとして以下の利点を持ちます:

  • 単一の前向き伝播でサンプルを生成
  • 正確な尤度推定を提供
  • 変分推論と不確実性定量化をサポート
  • 模倣学習と強化学習で潜在力を示す

核心的貢献

  1. NinAフレームワークの提案:VLAモデルの動作デコーディングに正規化フローを初めて適用し、効率的なワンショット動作生成を実現
  2. 二重アーキテクチャ設計:MLPとTransformerベースの二つの正規化フロー変種を開発し、効率と性能のバランスを取る
  3. 性能検証:LIBEROベンチマークでNinAが拡散モデルと同等の性能を示しながら、7~10倍の推論加速を実現することを証明
  4. 包括的分析:詳細なアブレーション実験とハイパーパラメータ分析を提供し、ロボット制御における正規化フローの応用に指針を与える

方法の詳細

タスク定義

視覚観察 oto_t とテキスト指示 gg が与えられたとき、VLAモデルは対応するロボット動作 ata_t を生成する必要があります。目標は専門家動作の対数尤度を最大化することです:

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

モデルアーキテクチャ

全体フレームワーク

NinAはモジュール設計を採用し、FLOWERのVLMエンコーダを変更せず、動作デコーダのみを置き換えます:

  1. VLMエンコーダht=VLM(ot,g)h_t = \text{VLM}(o_t, g) が多峰性埋め込みを生成
  2. 正規化フロー デコーダatπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) が動作シーケンスを生成

正規化フロー設計

RealNVPアーキテクチャに基づき、可逆変換シーケンスを実装します:

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

ここで z0N(0,I)z_0 \sim \mathcal{N}(0, I) は基本分布、fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1 は可逆変換シーケンスです。

二重変種アーキテクチャ

MLP変種

  • 動作ベクトルを要素ごとに分割:(x1,x2)(x_1, x_2)
  • 条件ネットワーク:gϕk(x1,ht)g_{\phi_k}(x_1, h_t) は連結により条件化を実現
  • アフィン変換:y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • パラメータ数:2M、推論速度が最速

Transformer変種

  • 動作シーケンスをシーケンスごとに分割
  • 条件ネットワーク:自己注意機構+交差注意機構
  • より強い表現能力と拡張性
  • パラメータ数:38M、性能がより優れている

技術的革新点

  1. ノイズ注入戦略:訓練時に動作にガウスノイズ N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}) を追加し、正則化技術として機能
  2. PLU層の統合:訓練可能な可逆線形層を導入して表現能力を強化
  3. 条件化メカニズム:MLPは連結、Transformerは交差注意を通じてVLM特徴の条件化を実現
  4. 安定性最適化:スケールパラメータにtanh活性化関数を適用して訓練の不安定性を防止

実験設定

データセット

LIBEROベンチマークを使用し、5つのサブタスクを含みます:

  • LIBERO Spatial:空間推論タスク
  • LIBERO Object:物体操作タスク
  • LIBERO Goal:目標指向タスク
  • LIBERO 10:10タスク組み合わせ
  • LIBERO 90:90タスク組み合わせ

評価指標

タスク成功率を主要な評価指標として採用し、各サブタスクおよび平均成功率を報告します。

比較手法

  • FLOWER (330M):元の拡散ポリシーモデル
  • FLOWER (31M):パラメータ数が一致した縮小版拡散モデル
  • アブレーション変種:PLU層、ノイズ注入、ロボット事前学習などを除去

実装詳細

  • ハードウェア:NVIDIA H100 GPU訓練、RTX 3060推論テスト
  • 訓練:100エポック、バッチサイズ80
  • VLM:Florence-2 Large
  • ハイパーパラメータはLIBERO-10で調整後、すべてのタスクに適用

実験結果

主要結果

モデルLIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90平均
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

推論効率の比較

モデルパラメータ数H100推論時間RTX 3060推論時間
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

アブレーション実験

ノイズ注入の影響

  • NinA Transformer:0.938 → 0.896(ノイズ除去時)
  • NinA MLP:0.909 → 0.880(ノイズ除去時)

PLU層の影響

  • Transformerに軽微な改善(0.934 vs 0.938)
  • MLPへの影響は混合的

ハイパーパラメータ分析

  • 最適フロー深度:Transformerは18、MLPは28
  • 最適隠れ次元:Transformerは256、MLPは64
  • 最適ノイズ標準偏差:両者とも0.03

実験的発見

  1. 効率の利点が顕著:NinAは7~10倍の推論加速を実現し、パラメータ数を8.7倍削減
  2. 性能の安定性:わずか1.4%の性能低下(0.938 vs 0.952)
  3. アーキテクチャのトレードオフが明確:MLPはより高速だが性能がやや低く、Transformerは性能と効率のバランスが取れている
  4. ノイズ注入が重要:重要な正則化技術として性能を大幅に向上

関連研究

VLAモデルの発展

  • 初期の研究:RT-1、RT-2が視覚-言語-動作の基礎フレームワークを確立
  • アーキテクチャの進化:π0、π0.5、FLOWERがVLM+動作専門家の二成分アーキテクチャを確立
  • 拡散の応用:現在の主流は動作デコーダとして拡散モデルを採用

正規化フロー研究

  • 理論的基礎:NICE、RealNVPが可逆変換の理論フレームワークを確立
  • 制御応用:最近の研究は模倣学習と強化学習における正規化フローの探索を開始
  • 優位性特性:正確な尤度推定、単段階サンプリング、変分推論サポート

結論と議論

主要な結論

  1. 実現可能性の検証:正規化フローは拡散モデルの有効な代替案となり得る
  2. 効率の向上:推論時間とパラメータ要件を大幅に削減
  3. 性能の維持:効率が大幅に向上する一方で、競争力のある性能を保持
  4. 実用的価値:リアルタイムロボット制御のための新しい技術パスを提供

制限事項

  1. 評価範囲の限定:LIBEROベンチマークのみで検証、実ロボット実験の欠如
  2. 事前学習の欠如:完全なVLA事前学習を実施せず、動作デコーダのみを微調整
  3. タスク複雑度:LIBEROタスクは比較的単純で、複雑な操作の性能は未知
  4. 理論分析の不足:正規化フローが動作モデリングで拡散モデルより優れている理由の理論的説明が不足

今後の方向性

  1. 大規模事前学習:完全なVLA事前学習における正規化フローの性能を探索
  2. 実際の展開検証:実ロボットシステムでリアルタイム制御効果を検証
  3. 理論の深化:正規化フローと拡散モデルの理論的優位性を分析
  4. 応用の拡張:強化学習、不確実性推定での応用を探索

深層評価

利点

  1. 革新性が強い:正規化フローをVLAモデルに初めて導入し、アイデアが新規で実用的
  2. 実験が充分:包括的な比較実験とアブレーション分析を提供
  3. 工学的価値が高い:推論効率の大幅な向上は実際の展開に重要な意義を持つ
  4. 方法が汎用的:既存のVLAアーキテクチャに容易に統合可能

不足点

  1. 理論的深さが限定的:方法の有効性に関する理論分析が不足
  2. 評価の制限:シミュレーション環境でのみテスト、実ロボット検証が不足
  3. 複雑タスク検証の不足:LIBEROタスクは比較的単純で、複雑な操作能力は未知
  4. 長期依存のモデリング:正規化フローの長シーケンス動作モデリング能力は要検証

影響力

  1. 技術的貢献:VLAモデルに新しい高効率ソリューションを提供
  2. 実用的価値:推論効率の大幅な向上は重要な工学的価値を持つ
  3. 研究への示唆:ロボット制御における正規化フローの新しい応用方向を開拓
  4. 再現性:コードがオープンソース化され、再現と拡張が容易

適用シナリオ

  1. リアルタイム制御:高周波応答が必要なロボット制御タスク
  2. リソース制約環境:計算リソースが限定されたエッジ展開シナリオ
  3. 不確実性定量化:動作確率推定が必要なアプリケーション
  4. オンライン学習:高速推論が必要なオンライン適応シナリオ

参考文献

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

要約:NinAは革新的で実用的なソリューションを提案し、正規化フローを通じてVLAモデルの推論効率を大幅に向上させながら、競争力のある性能を保持しています。理論分析と複雑タスク検証の面でまだ改善の余地がありますが、リアルタイムロボット制御への応用の可能性は大きく、この分野に価値のある技術的貢献をもたらしています。