2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA: Normalizing Flows in Action. 정규화 흐름을 이용한 VLA 모델 훈련

기본 정보

  • 논문 ID: 2508.16845
  • 제목: NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
  • 저자: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • 분류: cs.CV cs.AI cs.LG
  • 발표 학회: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • 논문 링크: https://arxiv.org/abs/2508.16845

초록

최근 시각-언어-동작(VLA) 모델의 발전으로 이원 구성 아키텍처가 확립되었습니다: 사전학습된 시각-언어 모델(VLM)이 시각적 관찰과 작업 설명을 인코딩하고, 동작 디코더가 이러한 표현을 연속 동작으로 매핑합니다. 확산 모델은 복잡한 다중 모드 동작 분포를 모델링하는 능력으로 인해 동작 디코더로 널리 채택되었습니다. 그러나 추론 시 여러 번의 반복적 노이즈 제거 단계가 필요하여 높은 빈도의 제어가 필요한 실제 환경에서의 실용성을 제한합니다. 본 논문은 NinA(Normalizing Flows in Action)를 제안하며, 이는 VLA 확산 디코더의 빠르고 표현력 있는 대안입니다. NinA는 확산 동작 디코더를 정규화 흐름(NF)으로 대체하여 가역 변환을 통해 일회성 샘플링을 실현하고 추론 시간을 크게 단축합니다. 실험 결과 NinA는 동일한 훈련 체계에서 확산 기반 대응 모델과 성능이 일치하면서도 훨씬 빠른 추론 속도를 달성합니다.

연구 배경 및 동기

문제 정의

현재 VLA 모델은 일반적으로 확산 모델을 동작 디코더로 채택하고 있으며, 복잡한 다중 모드 동작 분포를 모델링할 수 있지만 추론 지연 문제가 존재합니다:

  1. 추론 효율 병목: 확산 모델은 여러 번의 전방향 전파 자회귀 노이즈 제거 과정 필요
  2. 실시간 제어 요구: 로봇의 세밀한 제어는 높은 빈도의 응답이 필요하며, 지연이 핵심 제한 요소
  3. 계산 자원 소비: 다단계 샘플링으로 인한 계산 오버헤드 증가

연구 동기

로봇 제어는 실시간성에 대한 요구가 매우 높으며, 기존 확산 모델의 다단계 샘플링 메커니즘이 배포 병목이 됩니다. 정규화 흐름은 생성 모델로서 다음과 같은 장점을 가집니다:

  • 단일 전방향 전파로 샘플 생성 가능
  • 정확한 우도 추정 제공
  • 변분 추론 및 불확실성 정량화 지원
  • 모방 학습 및 강화 학습에서 잠재력 입증

핵심 기여

  1. NinA 프레임워크 제안: VLA 모델의 동작 디코딩에 정규화 흐름을 처음 적용하여 효율적인 일회성 동작 생성 실현
  2. 이원 아키텍처 설계: MLP 및 Transformer 기반의 두 가지 정규화 흐름 변형 개발로 효율성과 성능의 균형 달성
  3. 성능 검증: LIBERO 벤치마크에서 NinA가 확산 모델과 동등한 성능을 보이면서 7-10배 추론 가속 달성
  4. 종합 분석: 상세한 소거 실험 및 초매개변수 분석 제공으로 로봇 제어에서 정규화 흐름 적용에 대한 지침 제시

방법론 상세 설명

작업 정의

시각적 관찰 oto_t와 텍스트 지시 gg가 주어질 때, VLA 모델은 해당하는 로봇 동작 ata_t를 생성해야 합니다. 목표는 전문가 동작의 로그 우도를 최대화하는 것입니다:

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

모델 아키텍처

전체 프레임워크

NinA는 모듈식 설계를 채택하여 FLOWER의 VLM 인코더를 유지하고 동작 디코더만 대체합니다:

  1. VLM 인코더: ht=VLM(ot,g)h_t = \text{VLM}(o_t, g) 다중 모드 임베딩 생성
  2. 정규화 흐름 디코더: atπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) 동작 시퀀스 생성

정규화 흐름 설계

RealNVP 아키텍처 기반으로 가역 변환 시퀀스 구현:

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

여기서 z0N(0,I)z_0 \sim \mathcal{N}(0, I)는 기본 분포이고, fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1은 가역 변환 시퀀스입니다.

이원 변형 아키텍처

MLP 변형:

  • 동작 벡터를 요소별로 분할: (x1,x2)(x_1, x_2)
  • 조건부 네트워크: gϕk(x1,ht)g_{\phi_k}(x_1, h_t) 연결을 통한 조건화 구현
  • 아핀 변환: y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • 매개변수 수: 2M, 추론 속도 최고

Transformer 변형:

  • 동작 시퀀스를 시퀀스별로 분할
  • 조건부 네트워크: 자기 주의 + 교차 주의 메커니즘
  • 더 강한 표현 능력 및 확장성
  • 매개변수 수: 38M, 성능 우수

기술 혁신 포인트

  1. 노이즈 주입 전략: 훈련 시 동작에 가우시안 노이즈 N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}) 추가로 정규화 기법 적용
  2. PLU 레이어 통합: 훈련 가능한 가역 선형 레이어 도입으로 표현 능력 강화
  3. 조건화 메커니즘: MLP는 연결을 통해, Transformer는 교차 주의를 통해 VLM 특징 조건화 구현
  4. 안정성 최적화: 스케일 매개변수에 tanh 활성화 함수 적용으로 훈련 불안정성 방지

실험 설정

데이터셋

LIBERO 벤치마크 사용으로 5개의 부작업 포함:

  • LIBERO Spatial: 공간 추론 작업
  • LIBERO Object: 물체 조작 작업
  • LIBERO Goal: 목표 지향 작업
  • LIBERO 10: 10개 작업 조합
  • LIBERO 90: 90개 작업 조합

평가 지표

작업 성공률을 주요 평가 지표로 채택하여 각 부작업 및 평균 성공률 보고

비교 방법

  • FLOWER (330M): 원본 확산 정책 모델
  • FLOWER (31M): 매개변수 수 일치 축소 확산 모델
  • 소거 변형: PLU 레이어 제거, 노이즈 주입 제거, 로봇 사전학습 제거 등

구현 세부사항

  • 하드웨어: NVIDIA H100 GPU 훈련, RTX 3060 추론 테스트
  • 훈련: 100 에포크, 배치 크기 80
  • VLM: Florence-2 Large
  • 초매개변수는 LIBERO-10에서 조정 후 모든 작업에 적용

실험 결과

주요 결과

모델LIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90평균
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

추론 효율 비교

모델매개변수 수H100 추론 시간RTX 3060 추론 시간
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

소거 실험

노이즈 주입 영향:

  • NinA Transformer: 0.938 → 0.896 (노이즈 제거)
  • NinA MLP: 0.909 → 0.880 (노이즈 제거)

PLU 레이어 영향:

  • Transformer에 경미한 향상 (0.934 vs 0.938)
  • MLP에 혼합 영향

초매개변수 분석:

  • 최적 흐름 깊이: Transformer 18, MLP 28
  • 최적 숨겨진 차원: Transformer 256, MLP 64
  • 최적 노이즈 표준편차: 모두 0.03

실험 발견

  1. 효율성 장점 현저: NinA는 7-10배 추론 가속 달성, 매개변수 수 8.7배 감소
  2. 성능 유지 안정적: 1.4% 성능 저하만 발생 (0.938 vs 0.952)
  3. 아키텍처 트레이드오프 명확: MLP는 더 빠르지만 성능 약간 낮음, Transformer는 성능과 효율의 균형
  4. 노이즈 주입 핵심: 중요한 정규화 기법으로 성능 크게 향상

관련 연구

VLA 모델 발전

  • 초기 연구: RT-1, RT-2가 시각-언어-동작의 기초 프레임워크 확립
  • 아키텍처 진화: π0, π0.5, FLOWER가 VLM + 동작 전문가의 이원 아키텍처 확립
  • 확산 적용: 현재 주류는 동작 디코더로 확산 모델 채택

정규화 흐름 연구

  • 이론 기초: NICE, RealNVP가 가역 변환의 이론 프레임워크 확립
  • 제어 적용: 최근 연구가 모방 학습 및 강화 학습에서 정규화 흐름 탐색 시작
  • 장점 특성: 정확한 우도 추정, 단일 단계 샘플링, 변분 추론 지원

결론 및 논의

주요 결론

  1. 실행 가능성 검증: 정규화 흐름이 확산 모델의 효과적인 대안이 될 수 있음
  2. 효율성 향상: 추론 시간 및 매개변수 요구사항 크게 감소
  3. 성능 유지: 효율성이 크게 향상되는 동안 경쟁력 있는 성능 유지
  4. 실용적 가치: 실시간 로봇 제어를 위한 새로운 기술 경로 제공

제한사항

  1. 평가 범위 제한: LIBERO 벤치마크에서만 검증, 실제 로봇 실험 부재
  2. 사전학습 부재: 완전한 VLA 사전학습 미실시, 동작 디코더만 미세조정
  3. 작업 복잡도: LIBERO 작업은 상대적으로 단순하며, 복잡한 조작의 성능 미지수
  4. 이론 분석 부족: 정규화 흐름이 동작 모델링에서 갖는 장점에 대한 이론 설명 부족

향후 방향

  1. 대규모 사전학습: 완전한 VLA 사전학습에서 정규화 흐름의 성능 탐색
  2. 실제 배포 검증: 실제 로봇 시스템에서 실시간 제어 효과 검증
  3. 이론 심화: 정규화 흐름과 확산 모델의 이론적 장점 분석
  4. 응용 확대: 강화 학습, 불확실성 추정에서의 응용 탐색

심층 평가

장점

  1. 혁신성 강함: 정규화 흐름을 VLA 모델에 처음 도입하여 사고 신선하고 실용적
  2. 실험 충분: 종합적인 비교 실험 및 소거 분석 제공
  3. 공학적 가치 높음: 추론 효율의 현저한 향상이 실제 배포에 중요한 의미
  4. 방법 범용성: 기존 VLA 아키텍처에 쉽게 통합 가능

부족점

  1. 이론 깊이 제한: 방법 유효성에 대한 이론 분석 부족
  2. 평가 제한: 시뮬레이션 환경에서만 테스트, 실제 로봇 검증 부재
  3. 복잡 작업 검증 부족: LIBERO 작업은 상대적으로 단순하며, 복잡한 조작 능력 미지수
  4. 장기 의존성 모델링: 정규화 흐름의 장시간 동작 모델링 능력 추가 검증 필요

영향력

  1. 기술 기여: VLA 모델을 위한 새로운 고효율 솔루션 제공
  2. 실용적 가치: 추론 효율의 현저한 향상이 공학적 가치 보유
  3. 연구 영감: 로봇 제어에서 정규화 흐름의 새로운 응용 방향 개척
  4. 재현성: 코드 오픈소스로 재현 및 확장 용이

적용 시나리오

  1. 실시간 제어: 높은 빈도 응답이 필요한 로봇 제어 작업
  2. 자원 제한 환경: 계산 자원이 제한된 엣지 배포 시나리오
  3. 불확실성 정량화: 동작 확률 추정이 필요한 응용
  4. 온라인 학습: 빠른 추론이 필요한 온라인 적응 시나리오

참고문헌

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

요약: NinA는 정규화 흐름을 통해 VLA 모델의 추론 효율을 현저히 향상시키면서 경쟁력 있는 성능을 유지하는 혁신적이고 실용적인 솔루션을 제안합니다. 이론 분석 및 복잡 작업 검증 측면에서 개선의 여지가 있지만, 실시간 로봇 제어에서의 응용 잠재력이 크며, 해당 분야에 가치 있는 기술 기여를 제공합니다.