2025-11-13T20:28:11.151929

NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Tarasov, Nikulin, Zisman et al.
Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techniques to speed up sampling, limiting their practicality in real-world settings where high-frequency control is crucial. In this work, we present NinA (Normalizing Flows in Action), a fast and expressive alternative to diffusion-based decoders for VLAs. NinA replaces the diffusion action decoder with a Normalizing Flow (NF) that enables one-shot sampling through an invertible transformation, significantly reducing inference time. We integrate NinA into the FLOWER VLA architecture and fine-tune on the LIBERO benchmark. Our experiments show that NinA matches the performance of its diffusion-based counterpart under the same training regime, while achieving substantially faster inference. These results suggest that NinA offers a promising path toward efficient, high-frequency VLA control without compromising performance.
academic

NinA: सामान्यीकरण प्रवाह कार्रवाई में। सामान्यीकरण प्रवाह के साथ VLA मॉडल प्रशिक्षण

मूल जानकारी

  • पेपर ID: 2508.16845
  • शीर्षक: NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows
  • लेखक: Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov
  • वर्गीकरण: cs.CV cs.AI cs.LG
  • प्रकाशन सम्मेलन: NeurIPS 2025 Workshop: Space in Vision, Language, and Embodied AI
  • पेपर लिंक: https://arxiv.org/abs/2508.16845

सारांश

हाल के वर्षों में, दृश्य-भाषा-क्रिया (VLA) मॉडल की प्रगति ने एक द्वि-घटक आर्किटेक्चर स्थापित किया है: पूर्व-प्रशिक्षित दृश्य-भाषा मॉडल (VLM) दृश्य अवलोकन और कार्य विवरण को एन्कोड करते हैं, जबकि क्रिया डिकोडर इन प्रतिनिधित्वों को सतत क्रियाओं में मैप करते हैं। विसरण मॉडल जटिल बहु-मोडल क्रिया वितरण को मॉडल करने की उनकी क्षमता के कारण क्रिया डिकोडर के रूप में व्यापक रूप से अपनाए गए हैं। हालांकि, उन्हें अनुमान समय पर कई पुनरावृत्ति विनोइसिंग चरणों की आवश्यकता होती है, जो उच्च-आवृत्ति नियंत्रण की आवश्यकता वाले वास्तविक दुनिया के परिदृश्यों में व्यावहारिकता को सीमित करता है। यह पेपर NinA (Normalizing Flows in Action) प्रस्तावित करता है, जो VLA विसरण डिकोडर के लिए एक तेज़ और अभिव्यक्तिपूर्ण विकल्प है। NinA विसरण क्रिया डिकोडर को सामान्यीकरण प्रवाह (NF) से प्रतिस्थापित करता है, जो प्रतिवर्ती परिवर्तनों के माध्यम से एक-शॉट नमूनाकरण को सक्षम करता है, जिससे अनुमान समय में काफी कमी आती है। प्रयोग दर्शाते हैं कि NinA समान प्रशिक्षण व्यवस्था के तहत विसरण-आधारित समकक्ष मॉडल के साथ प्रदर्शन से मेल खाता है, जबकि अनुमान गति में काफी तेजी प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वर्तमान VLA मॉडल आमतौर पर क्रिया डिकोडर के रूप में विसरण मॉडल को अपनाते हैं, जो जटिल बहु-मोडल क्रिया वितरण को मॉडल कर सकते हैं, लेकिन अनुमान विलंबता समस्या का सामना करते हैं:

  1. अनुमान दक्षता बाधा: विसरण मॉडल को कई आगे प्रसार के स्वचालित प्रतिगामी विनोइसिंग प्रक्रिया की आवश्यकता होती है
  2. वास्तविक समय नियंत्रण आवश्यकता: रोबोट सूक्ष्म-दानेदार नियंत्रण के लिए उच्च-आवृत्ति प्रतिक्रिया की आवश्यकता होती है, विलंबता एक महत्वपूर्ण सीमित कारक है
  3. कम्प्यूटेशनल संसाधन खपत: बहु-चरण नमूनाकरण कम्प्यूटेशनल ओवरहेड को बढ़ाता है

अनुसंधान प्रेरणा

रोबोट नियंत्रण को वास्तविक समय की आवश्यकता अत्यधिक है, और वर्तमान विसरण मॉडल की बहु-चरण नमूनाकरण तंत्र तैनाती की बाधा बन गई है। सामान्यीकरण प्रवाह एक जनरेटिव मॉडल के रूप में निम्नलिखित लाभ प्रदान करते हैं:

  • एकल आगे प्रसार से नमूने उत्पन्न करें
  • सटीक संभावना अनुमान प्रदान करें
  • परिवर्तनशील अनुमान और अनिश्चितता परिमाणीकरण का समर्थन करें
  • अनुकरण सीखने और सुदृढ़ीकरण सीखने में संभावना दिखाएं

मुख्य योगदान

  1. NinA फ्रेमवर्क प्रस्तावित करें: पहली बार VLA मॉडल की क्रिया डिकोडिंग के लिए सामान्यीकरण प्रवाह लागू करें, कुशल एक-शॉट क्रिया पीढ़ी को सक्षम करें
  2. द्वि-आर्किटेक्चर डिज़ाइन: MLP और Transformer-आधारित दो सामान्यीकरण प्रवाह वेरिएंट विकसित करें, दक्षता और प्रदर्शन को संतुलित करें
  3. प्रदर्शन सत्यापन: LIBERO बेंचमार्क पर साबित करें कि NinA विसरण मॉडल के प्रदर्शन के बराबर है, जबकि 7-10 गुना अनुमान त्वरण प्राप्त करें
  4. व्यापक विश्लेषण: विस्तृत विलोपन प्रयोग और हाइपरपैरामीटर विश्लेषण प्रदान करें, रोबोट नियंत्रण में सामान्यीकरण प्रवाह के अनुप्रयोग के लिए मार्गदर्शन प्रदान करें

विधि विवरण

कार्य परिभाषा

दृश्य अवलोकन oto_t और पाठ निर्देश gg दिए गए, VLA मॉडल को संबंधित रोबोट क्रिया ata_t उत्पन्न करने की आवश्यकता है। लक्ष्य विशेषज्ञ क्रिया की लॉग संभावना को अधिकतम करना है:

LVLA(θ)=E(ot,g,at)D[logπθ(atVLM(ot,g))]\mathcal{L}_{VLA}(\theta) = \mathbb{E}_{(o_t,g,a_t)\sim D} [\log \pi_\theta(a_t | \text{VLM}(o_t,g))]

मॉडल आर्किटेक्चर

समग्र ढांचा

NinA एक मॉड्यूलर डिज़ाइन अपनाता है, FLOWER के VLM एन्कोडर को अपरिवर्तित रखता है, केवल क्रिया डिकोडर को प्रतिस्थापित करता है:

  1. VLM एन्कोडर: ht=VLM(ot,g)h_t = \text{VLM}(o_t, g) बहु-मोडल एम्बेडिंग उत्पन्न करता है
  2. सामान्यीकरण प्रवाह डिकोडर: atπθ(ht)a_t \sim \pi_\theta(\cdot | h_t) क्रिया अनुक्रम उत्पन्न करता है

सामान्यीकरण प्रवाह डिज़ाइन

RealNVP आर्किटेक्चर के आधार पर, प्रतिवर्ती परिवर्तन अनुक्रम को लागू करें:

logpθ(zK)=logp0(z0)k=1Klogdetfkzk1\log p_\theta(z_K) = \log p_0(z_0) - \sum_{k=1}^K \log \left|\det \frac{\partial f_k}{\partial z_{k-1}}\right|

जहां z0N(0,I)z_0 \sim \mathcal{N}(0, I) आधार वितरण है, fθ=fKf1f_\theta = f_K \circ \cdots \circ f_1 प्रतिवर्ती परिवर्तन अनुक्रम है।

द्वि-वेरिएंट आर्किटेक्चर

MLP वेरिएंट:

  • क्रिया वेक्टर को तत्व-वार विभाजित करें: (x1,x2)(x_1, x_2)
  • सशर्त नेटवर्क: gϕk(x1,ht)g_{\phi_k}(x_1, h_t) संयोजन के माध्यम से सशर्त करण को लागू करता है
  • एफाइन परिवर्तन: y2=exp(s)x2+by_2 = \exp(s) \cdot x_2 + b
  • पैरामीटर संख्या: 2M, अनुमान गति सबसे तेज़

Transformer वेरिएंट:

  • क्रिया अनुक्रम को अनुक्रम-वार विभाजित करें
  • सशर्त नेटवर्क: स्व-ध्यान + क्रॉस-ध्यान तंत्र
  • मजबूत अभिव्यक्तिपूर्ण क्षमता और स्केलेबिलिटी
  • पैरामीटर संख्या: 38M, बेहतर प्रदर्शन

तकनीकी नवाचार बिंदु

  1. शोर इंजेक्शन रणनीति: प्रशिक्षण समय पर क्रिया में गाऊसी शोर N(0,σnoise2)\mathcal{N}(0, \sigma^2_{noise}) जोड़ें, नियमितकरण तकनीक के रूप में
  2. PLU परत एकीकरण: अभिव्यक्तिपूर्ण क्षमता को बढ़ाने के लिए प्रशिक्षित प्रतिवर्ती रैखिक परत का परिचय दें
  3. सशर्त करण तंत्र: MLP संयोजन के माध्यम से, Transformer क्रॉस-ध्यान के माध्यम से VLM विशेषता सशर्त करण को लागू करता है
  4. स्थिरता अनुकूलन: प्रशिक्षण अस्थिरता को रोकने के लिए स्केल पैरामीटर पर tanh सक्रियण फ़ंक्शन लागू करें

प्रयोगात्मक सेटअप

डेटासेट

LIBERO बेंचमार्क का उपयोग करें, जिसमें 5 उप-कार्य शामिल हैं:

  • LIBERO Spatial: स्थानिक तर्क कार्य
  • LIBERO Object: वस्तु हेरफेर कार्य
  • LIBERO Goal: लक्ष्य-निर्देशित कार्य
  • LIBERO 10: 10-कार्य संयोजन
  • LIBERO 90: 90-कार्य संयोजन

मूल्यांकन मेट्रिक्स

कार्य सफलता दर को मुख्य मूल्यांकन मेट्रिक के रूप में अपनाएं, प्रत्येक उप-कार्य और औसत सफलता दर की रिपोर्ट करें।

तुलना विधियां

  • FLOWER (330M): मूल विसरण नीति मॉडल
  • FLOWER (31M): पैरामीटर संख्या-मिलान किया गया कम विसरण मॉडल
  • विलोपन वेरिएंट: PLU परत, शोर इंजेक्शन, रोबोट पूर्व-प्रशिक्षण आदि को हटाएं

कार्यान्वयन विवरण

  • हार्डवेयर: NVIDIA H100 GPU प्रशिक्षण, RTX 3060 परीक्षण अनुमान
  • प्रशिक्षण: 100 एपोक, बैच आकार 80
  • VLM: Florence-2 Large
  • हाइपरपैरामीटर LIBERO-10 पर ट्यून किए गए, सभी कार्यों पर लागू किए गए

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडलLIBERO SpatialLIBERO ObjectLIBERO GoalLIBERO 10LIBERO 90औसत
Diffusion (330M)0.9820.9760.9420.9060.9540.952
Diffusion (31M)0.8900.9840.9520.8640.8940.916
NinA Transformer (38M)0.9700.9780.9380.9200.8870.938
NinA MLP (2M)0.8780.9820.9020.9280.8560.909

अनुमान दक्षता तुलना

मॉडलपैरामीटर संख्याH100 अनुमान समयRTX 3060 अनुमान समय
Diffusion (330M)330M0.110s0.163s
Diffusion (31M)31M0.120s0.181s
NinA Transformer (38M)38M0.021s0.023s
NinA MLP (2M)2M0.015s0.019s

विलोपन प्रयोग

शोर इंजेक्शन प्रभाव:

  • NinA Transformer: 0.938 → 0.896 (शोर हटाएं)
  • NinA MLP: 0.909 → 0.880 (शोर हटाएं)

PLU परत प्रभाव:

  • Transformer के लिए हल्का सुधार (0.934 vs 0.938)
  • MLP के लिए मिश्रित प्रभाव

हाइपरपैरामीटर विश्लेषण:

  • इष्टतम प्रवाह गहराई: Transformer के लिए 18, MLP के लिए 28
  • इष्टतम छिपी हुई आयाम: Transformer के लिए 256, MLP के लिए 64
  • इष्टतम शोर मानक विचलन: दोनों के लिए 0.03

प्रयोगात्मक निष्कर्ष

  1. दक्षता लाभ महत्वपूर्ण: NinA 7-10 गुना अनुमान त्वरण प्राप्त करता है, पैरामीटर संख्या में 8.7 गुना कमी
  2. प्रदर्शन स्थिर रहता है: केवल 1.4% प्रदर्शन में कमी (0.938 vs 0.952)
  3. आर्किटेक्चर ट्रेड-ऑफ स्पष्ट: MLP तेज़ लेकिन प्रदर्शन थोड़ा कम, Transformer प्रदर्शन और दक्षता को संतुलित करता है
  4. शोर इंजेक्शन महत्वपूर्ण: महत्वपूर्ण नियमितकरण तकनीक के रूप में प्रदर्शन में काफी सुधार करता है

संबंधित कार्य

VLA मॉडल विकास

  • प्रारंभिक कार्य: RT-1, RT-2 ने दृश्य-भाषा-क्रिया की मूलभूत रूपरेखा स्थापित की
  • आर्किटेक्चर विकास: π0, π0.5, FLOWER ने VLM + क्रिया विशेषज्ञ के द्वि-घटक आर्किटेक्चर को स्थापित किया
  • विसरण अनुप्रयोग: वर्तमान मुख्यधारा क्रिया डिकोडर के रूप में विसरण मॉडल को अपनाती है

सामान्यीकरण प्रवाह अनुसंधान

  • सैद्धांतिक आधार: NICE, RealNVP ने प्रतिवर्ती परिवर्तन की सैद्धांतिक रूपरेखा स्थापित की
  • नियंत्रण अनुप्रयोग: हाल के कार्य अनुकरण सीखने और सुदृढ़ीकरण सीखने में सामान्यीकरण प्रवाह के अनुप्रयोग की खोज करना शुरू करते हैं
  • लाभ विशेषताएं: सटीक संभावना अनुमान, एकल-चरण नमूनाकरण, परिवर्तनशील अनुमान समर्थन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. व्यवहार्यता सत्यापन: सामान्यीकरण प्रवाह विसरण मॉडल के लिए एक प्रभावी विकल्प हो सकते हैं
  2. दक्षता सुधार: अनुमान समय और पैरामीटर आवश्यकताओं में काफी कमी
  3. प्रदर्शन रखरखाव: दक्षता में बड़ी वृद्धि के साथ प्रतिस्पर्धी प्रदर्शन बनाए रखें
  4. व्यावहारिक मूल्य: वास्तविक समय रोबोट नियंत्रण के लिए नई तकनीकी पथ प्रदान करें

सीमाएं

  1. मूल्यांकन सीमा: केवल LIBERO बेंचमार्क पर सत्यापित, वास्तविक रोबोट प्रयोगों की कमी
  2. पूर्व-प्रशिक्षण अनुपस्थित: पूर्ण VLA पूर्व-प्रशिक्षण नहीं किया गया, केवल क्रिया डिकोडर सूक्ष्म-ट्यूनिंग
  3. कार्य जटिलता: LIBERO कार्य अपेक्षाकृत सरल हैं, जटिल संचालन का प्रदर्शन अज्ञात है
  4. सैद्धांतिक विश्लेषण अपर्याप्त: विसरण मॉडल की तुलना में सामान्यीकरण प्रवाह के सैद्धांतिक लाभों की व्याख्या की कमी

भविष्य की दिशा

  1. बड़े पैमाने पर पूर्व-प्रशिक्षण: पूर्ण VLA पूर्व-प्रशिक्षण में सामान्यीकरण प्रवाह के प्रदर्शन की खोज करें
  2. वास्तविक तैनाती सत्यापन: वास्तविक रोबोट प्रणालियों में वास्तविक समय नियंत्रण प्रभाव को सत्यापित करें
  3. सैद्धांतिक गहराई: सामान्यीकरण प्रवाह के विसरण मॉडल की तुलना में सैद्धांतिक लाभों का विश्लेषण करें
  4. अनुप्रयोग विस्तार: सुदृढ़ीकरण सीखने, अनिश्चितता अनुमान में अनुप्रयोग की खोज करें

गहन मूल्यांकन

मजबूत पहलू

  1. मजबूत नवाचार: पहली बार VLA मॉडल में सामान्यीकरण प्रवाह का परिचय, विचार नया और व्यावहारिक है
  2. पर्याप्त प्रयोग: व्यापक तुलनात्मक प्रयोग और विलोपन विश्लेषण प्रदान करता है
  3. उच्च इंजीनियरिंग मूल्य: दक्षता में महत्वपूर्ण सुधार वास्तविक तैनाती के लिए महत्वपूर्ण है
  4. विधि सार्वभौमिक: मौजूदा VLA आर्किटेक्चर में आसानी से एकीकृत किया जा सकता है

कमियां

  1. सीमित सैद्धांतिक गहराई: विधि प्रभावशीलता के सैद्धांतिक विश्लेषण की कमी
  2. मूल्यांकन सीमाएं: केवल सिमुलेशन वातावरण में परीक्षण किया गया, वास्तविक रोबोट सत्यापन की कमी
  3. जटिल कार्य सत्यापन अपर्याप्त: LIBERO कार्य अपेक्षाकृत सरल हैं, जटिल संचालन क्षमता अज्ञात है
  4. दीर्घकालीन निर्भरता मॉडलिंग: लंबे अनुक्रम क्रिया मॉडलिंग में सामान्यीकरण प्रवाह की क्षमता को आगे सत्यापन की आवश्यकता है

प्रभाव

  1. तकनीकी योगदान: VLA मॉडल के लिए नया कुशल समाधान प्रदान करता है
  2. व्यावहारिक मूल्य: अनुमान दक्षता में महत्वपूर्ण सुधार इंजीनियरिंग मूल्य रखता है
  3. अनुसंधान प्रेरणा: रोबोट नियंत्रण में सामान्यीकरण प्रवाह के नए अनुप्रयोग दिशा को खोलता है
  4. पुनरुत्पादनशीलता: कोड खुला स्रोत है, पुनरुत्पादन और विस्तार में सुविधा प्रदान करता है

लागू परिदृश्य

  1. वास्तविक समय नियंत्रण: उच्च-आवृत्ति प्रतिक्रिया की आवश्यकता वाले रोबोट नियंत्रण कार्य
  2. संसाधन-सीमित वातावरण: सीमित कम्प्यूटेशनल संसाधन वाले किनारे तैनाती परिदृश्य
  3. अनिश्चितता परिमाणीकरण: क्रिया संभावना अनुमान की आवश्यकता वाले अनुप्रयोग
  4. ऑनलाइन सीखना: तेजी से अनुमान की आवश्यकता वाले ऑनलाइन अनुकूलन परिदृश्य

संदर्भ

  1. Black et al. π0: A vision-language-action flow model for general robot control
  2. Reuss et al. FLOWER: Democratizing generalist robot policies with efficient vision-language-action flow policies
  3. Dinh et al. Density estimation using real nvp
  4. Liu et al. LIBERO: Benchmarking knowledge transfer for lifelong robot learning
  5. Ghugare & Eysenbach. Normalizing flows are capable models for rl

सारांश: NinA ने एक नवीन और व्यावहारिक समाधान प्रस्तावित किया है, जो सामान्यीकरण प्रवाह के माध्यम से VLA मॉडल की अनुमान दक्षता में काफी सुधार करता है, जबकि प्रतिस्पर्धी प्रदर्शन बनाए रखता है। हालांकि सैद्धांतिक विश्लेषण और जटिल कार्य सत्यापन के पहलुओं में सुधार की आवश्यकता है, लेकिन वास्तविक समय रोबोट नियंत्रण में इसके अनुप्रयोग की संभावना विशाल है, जो इस क्षेत्र को मूल्यवान तकनीकी योगदान प्रदान करता है।