This study investigates the developmental interaction between top-down (TD) and bottom-up (BU) visual attention in robotic learning. Our goal is to understand how structured, human-like attentional behavior emerges through the mutual adaptation of TD and BU mechanisms over time. To this end, we propose a novel attention model $A^3 RNN$ that integrates predictive TD signals and saliency-based BU cues through a bi-directional attention architecture.
We evaluate our model in robotic manipulation tasks using imitation learning. Experimental results show that attention behaviors evolve throughout training, from saliency-driven exploration to prediction-driven direction. Initially, BU attention highlights visually salient regions, which guide TD processes, while as learning progresses, TD attention stabilizes and begins to reshape what is perceived as salient. This trajectory reflects principles from cognitive science and the free-energy framework, suggesting the importance of self-organizing attention through interaction between perception and internal prediction. Although not explicitly optimized for stability, our model exhibits more coherent and interpretable attention patterns than baselines, supporting the idea that developmental mechanisms contribute to robust attention formation.
- पेपर ID: 2510.10221
- शीर्षक: A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots
- लेखक: Hyogo Hiruma, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata
- वर्गीकरण: cs.RO (रोबोटिक्स), cs.AI (कृत्रिम बुद्धिमत्ता)
- प्रकाशन समय: 25 अक्टूबर 11 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.10221
यह अनुसंधान रोबोटिक्स सीखने में ऊपर-से-नीचे (TD) और नीचे-से-ऊपर (BU) दृश्य ध्यान के विकासात्मक अंतःक्रिया की जांच करता है। अनुसंधान का लक्ष्य यह समझना है कि संरचित मानव-जैसा ध्यान व्यवहार TD और BU तंत्र के पारस्परिक अनुकूलन के माध्यम से कैसे उभरता है। इसके लिए, लेखकों ने एक नवीन ध्यान मॉडल A³RNN प्रस्तावित किया है, जो द्विदिशात्मक ध्यान आर्किटेक्चर के माध्यम से भविष्यसूचक TD संकेतों और प्रमुखता-आधारित BU संकेतों को एकीकृत करता है। रोबोटिक हेरफेर कार्यों में नकल सीखने का उपयोग करके मूल्यांकन किया गया, प्रायोगिक परिणाम दर्शाते हैं कि ध्यान व्यवहार प्रशिक्षण के दौरान प्रमुखता-संचालित अन्वेषण से भविष्यसूचक-संचालित अभिविन्यास में विकसित होता है। यह प्रक्षेपवक्र संज्ञानात्मक विज्ञान और मुक्त ऊर्जा ढांचे के सिद्धांतों को प्रतिबिंबित करता है, जो इस विचार का समर्थन करता है कि विकासात्मक तंत्र मजबूत ध्यान गठन में योगदान देते हैं।
यह अनुसंधान रोबोटिक दृश्य ध्यान प्रणालियों में दो मुख्य समस्याओं को संबोधित करने का लक्ष्य रखता है:
- ध्यान तंत्र की विकासात्मक अंतःक्रिया: मानव ध्यान प्रणाली में ऊपर-से-नीचे और नीचे-से-ऊपर तंत्र की गतिशील पारस्परिक क्रिया को कैसे अनुकरण किया जाए
- प्रशिक्षण स्थिरता समस्या: मौजूदा मॉडल (जैसे A2RNN) प्रशिक्षण के दौरान स्थानीय इष्टतम में फंस जाते हैं, जिससे "अंधेरे कमरे की समस्या" (dark room problem) उत्पन्न होती है
मानव संज्ञानात्मक प्रणाली की मुख्य क्षमता चयनात्मक ध्यान है, जो मनुष्य को जटिल वातावरण में जानकारी को फ़िल्टर करने, सार्थक उत्तेजनाओं को प्राथमिकता देने और व्यवहार को प्रभावी ढंग से निर्देशित करने में सक्षम बनाता है। इस क्षमता को समझना और प्रतिलिपि करना बुद्धिमान रोबोटिक प्रणालियों के विकास के लिए महत्वपूर्ण है।
- कार्य-विशिष्ट दृश्य प्रसंस्करण मॉडल: स्पष्ट लेबल एनोटेशन की आवश्यकता है, डिजाइनर पूर्वाग्रह को प्रतिबिंबित करते हैं, विकासात्मक प्रक्रिया के अनुसंधान के लिए अनुपयुक्त हैं
- Transformer-आधारित मॉडल: हालांकि अंत-से-अंत सीखने में सक्षम हैं, लेकिन BU और TD घटकों को स्पष्ट रूप से अलग नहीं कर सकते
- पिक्सेल-स्तरीय ध्यान मॉडल: जैसे A2RNN, हालांकि अंतःक्रिया कर सकते हैं, लेकिन प्रशिक्षण अस्थिर है, अर्थहीन ध्यान रणनीतियों में परिवर्तित होने की प्रवृत्ति है
मुक्त ऊर्जा सिद्धांत और संज्ञानात्मक विज्ञान सिद्धांत के आधार पर, लेखकों का मानना है कि ध्यान एक सक्रिय भविष्यसूचक अनुमान प्रक्रिया होनी चाहिए, जो संवेदन और आंतरिक भविष्यसूचना के अंतःक्रिया के माध्यम से आत्म-संगठन को प्राप्त करती है।
- A³RNN मॉडल का प्रस्ताव: BU और TD संकेतों को एकीकृत करने वाला एक नवीन ध्यान मॉडल, ध्यान आवंटन के गतिशील अनुकूलन को लागू करता है
- विकासात्मक ध्यान ढांचे का कार्यान्वयन: रोबोटिक सीखने के वातावरण में BU और TD अंतःक्रिया को कैसे समय के साथ विकसित होता है, इसे लागू और विश्लेषण किया
- भविष्यसूचक अनुमान की प्रभावकारिता का सत्यापन: प्रायोगिक मूल्यांकन के माध्यम से साबित किया कि भविष्यसूचक अनुमान को जोड़ने से ध्यान स्थिरता और कार्य प्रदर्शन में सुधार होता है
- संज्ञानात्मक विज्ञान अंतर्दृष्टि प्रदान करना: ध्यान को भविष्यसूचक सीखने के उभरते गुण के रूप में एक नया दृष्टिकोण प्रदर्शित किया
अनुसंधान रोबोटिक हेरफेर कार्य को परीक्षण मंच के रूप में अपनाता है, विशेष रूप से:
- इनपुट: संयुक्त कोण डेटा (i^joint) और कैमरा छवि (i^image)
- आउटपुट: अगले समय पर संयुक्त कोण की भविष्यसूचना (रोबोट गति निर्देश के रूप में)
- बाधा: सीमित प्रदर्शन डेटा के माध्यम से संवेदी-मोटर गतिशीलता सीखना
A³RNN मॉडल तीन मुख्य मॉड्यूल से बना है:
यह मॉडल का मुख्य नवाचार है, BU और TD ध्यान संकेतों के संलयन के लिए जिम्मेदार है:
कार्य प्रवाह:
- BU ध्यान मानचित्र पीढ़ी: CNN विशेषता मानचित्र f^BU_t ∈ R^(N_BU×H×W) से स्थानिक softmax के माध्यम से सामान्यीकृत BU ध्यान मानचित्र m^BU_t उत्पन्न करना
- BU छद्म-क्वेरी वेक्टर निष्कर्षण: m^BU_t को स्थानिक भार मुखौटे के रूप में उपयोग करके, उच्च-स्तरीय विशेषता मानचित्र के भारित औसत की गणना करके छद्म-क्वेरी वेक्टर q^BU_t ∈ R^(N_BU×D_TD) प्राप्त करना
- TD क्वेरी वेक्टर पीढ़ी: LSTM छिपी हुई स्थिति h_(t-1) को MLP रूपांतरण के माध्यम से TD क्वेरी वेक्टर q^TD_t ∈ R^(N_TD×D_TD) उत्पन्न करना
- Transformer ध्यान एकीकरण: BU छद्म-क्वेरी को कुंजी-मान जोड़ी के रूप में, TD क्वेरी को क्वेरी के रूप में, Transformer एन्कोडर-डिकोडर संरचना के माध्यम से एकीकृत ध्यान प्रतिनिधित्व q^A_t उत्पन्न करना
- ध्यान बिंदु अनुमान: एकीकृत वेक्टर q^A_t का उपयोग करके अंतिम TD ध्यान बिंदु pt^TD_t का अनुमान लगाना, साथ ही स्थानिक argmax के माध्यम से BU ध्यान बिंदु pt^BU_t निकालना
बहु-समय-पैमाने RNN संरचना को अपनाता है, जिसमें शामिल है:
- विभिन्न मोडल डेटा (छवि और संयुक्त कोण) को संभालने के लिए स्वतंत्र LSTM
- जानकारी एकीकरण और पुनर्वितरण के लिए साझा LSTM
- अनुमानित ध्यान बिंदु निर्देशांक और संयुक्त कोण आउटपुट करना
मानव दृश्य प्रणाली का अनुकरण करते हुए, दो दृश्य प्रतिनिधित्वों को पुनर्निर्मित करता है:
- परिधीय शाखा: वैश्विक निम्न-रिज़ॉल्यूशन छवि को पुनर्निर्मित करना (BU ध्यान के अनुरूप)
- केंद्रीय फोविया शाखा: स्थानीय उच्च-रिज़ॉल्यूशन छवि को पुनर्निर्मित करना (TD ध्यान के अनुरूप)
- द्विदिशात्मक ध्यान संलयन: Transformer आत्म-ध्यान तंत्र के माध्यम से BU और TD संकेतों के प्रभाव को गतिशील रूप से संतुलित करना
- विकासात्मक सीखने की रणनीति: प्रारंभिक अवधि में BU द्वारा TD का मार्गदर्शन, बाद की अवधि में TD द्वारा BU को पुनर्गठित करना, मानव ध्यान विकास प्रक्रिया का अनुकरण करना
- सटीकता नियंत्रण तंत्र: मुक्त ऊर्जा सिद्धांत के आधार पर, संवेदी भविष्यसूचना की विश्वसनीयता के अनुसार ध्यान को गतिशील रूप से समायोजित करना
- विघटित सीखने की तंत्र: CNN और RNN घटकों के अत्यधिक सहयोगी अनुकूलन से बचना जो उप-इष्टतम समाधान की ओर ले जाता है
- वातावरण: robosuite सिम्युलेटर वातावरण
- रोबोट: 7 स्वतंत्रता पांडा मैनिपुलेटर
- कार्य: वस्तु पकड़ने का कार्य (तीन निश्चित स्थानों में से एक पर रखे गए लकड़ी की बनावट वाले बॉक्स को पकड़ना)
- डेटा संग्रह: 3D माउस इंटरफेस का उपयोग करके प्रदर्शन डेटा एकत्र करना
- डेटा पैमाना: प्रत्येक स्थान के लिए 5 प्रदर्शन अनुक्रम, कुल 15 प्रशिक्षण अनुक्रम, प्रत्येक अनुक्रम 120 समय चरण
- सफलता दर: ध्यान को सही ढंग से लक्ष्य वस्तु की ओर निर्देशित करने का अनुपात
- ध्यान सुसंगतता: समय के साथ TD और BU ध्यान की स्थिरता
- क्वेरी समानता: BU छद्म-क्वेरी और संलयित क्वेरी के बीच समानता विकास
- A2RNN: आधारभूत मॉडल, केवल TD क्वेरी का उपयोग करता है
- विघटन प्रयोग वेरिएंट:
- वेरिएंट (1): BU-TD एकीकरण और BU परिधीय पुनर्निर्माण हानि जोड़ना
- वेरिएंट (2): वेरिएंट (1) + TD केंद्रीय फोविया पुनर्निर्माण हानि
- वेरिएंट (3): वेरिएंट (2) + सुसंगतता नियमितकरण हानि
- वेरिएंट (4): BU-TD क्वेरी एकीकरण के लिए Transformer के बजाय MLP का उपयोग करना
- ध्यान बिंदु संख्या: N_TD = 4, N_BU = 16
- हानि फ़ंक्शन भार: पुनर्निर्माण हानि और नियमितकरण हानि को संतुलित करने के लिए α और β
- प्रशिक्षण रणनीति: पूर्ण समय बैकप्रोपेगेशन (BPTT)
- नियमितकरण: स्थानिक वैधता बाधा, ध्यान बिंदुओं को छवि सीमा से बाहर या अत्यधिक गति से बचाना
सफलता दर तुलना:
- A³RNN (प्रस्तावित विधि): 100%
- A2RNN (आधारभूत): 66.7%
- विघटन प्रयोग वेरिएंट: 8.3%-91.6% भिन्न
प्रायोगिक परिणाम दर्शाते हैं कि प्रत्येक मॉड्यूल ध्यान गठन की मजबूती में सुधार करने में योगदान देता है:
- वेरिएंट (4) 100% सफलता दर प्राप्त करता है, लेकिन लगभग दोगुने प्रशिक्षण चक्र की आवश्यकता है
- BU-TD अंतःक्रिया विकास Transformer संस्करण में अधिक संरचित है
- Transformer तंत्र सीखने की दक्षता के लिए महत्वपूर्ण है
ध्यान विकास प्रक्रिया:
- प्रारंभिक चरण (epoch 10):
- BU ध्यान व्यापक रूप से वितरित, लगभग यादृच्छिक लेकिन प्रमुख क्षेत्रों को शामिल करता है
- TD ध्यान BU मार्गदर्शन का अनुसरण करता है, A2RNN की अस्थिरता से बचता है
- मध्य चरण (epoch 100):
- TD ध्यान लक्ष्य वस्तु और मैनिपुलेटर के चारों ओर स्थिर है
- BU ध्यान दृश्य गतिशील क्षेत्रों की ओर मुड़ता है (जैसे मैनिपुलेटर आधार)
- बाद का चरण (epoch 500):
- BU ध्यान लक्ष्य वस्तु और मैनिपुलेटर पर अधिक केंद्रित है
- TD और BU ध्यान क्षेत्र संरेखित होते हैं, पारस्परिक प्रभाव दिखाते हैं
क्वेरी समानता विश्लेषण:
- प्रशिक्षण प्रारंभ: संलयित क्वेरी BU छद्म-क्वेरी के साथ अत्यधिक समान है
- प्रशिक्षण के बाद: प्रत्येक ध्यान सिर स्वतंत्र अव्यक्त प्रतिनिधित्व विकसित करता है
- भविष्यसूचक कोडिंग सिद्धांत के अनुरूप: अप्रत्याशित उत्तेजना BU प्रसंस्करण को प्रेरित करती है
- कार्य-विशिष्ट मॉडल: वस्तु पहचान, छवि विभाजन आदि, प्रभावी लेकिन स्पष्ट पर्यवेक्षण की आवश्यकता है
- Transformer मॉडल: Vision Transformer आदि, अंत-से-अंत सीखने के लिए उपयुक्त लेकिन BU/TD को अलग करना कठिन है
- पिक्सेल-स्तरीय ध्यान मॉडल: SA-RNN, A2RNN आदि, मानव ध्यान का सीधे अनुकरण करते हैं लेकिन स्थिरता समस्याएं हैं
मौजूदा कार्य की तुलना में, A³RNN स्पष्ट विघटन और एकीकरण तंत्र के माध्यम से, तुच्छ भविष्यसूचना रणनीतियों में परिवर्तित होने की प्रवृत्ति को कम करता है, सार्थक ध्यान पैटर्न के उभरने को प्रोत्साहित करता है।
- द्विदिशात्मक संलयन प्रभावकारिता: BU और TD ध्यान का गतिशील एकीकरण प्रशिक्षण स्थिरता में महत्वपूर्ण सुधार करता है
- विकासात्मक प्रक्षेपवक्र: मॉडल प्रमुखता-संचालित से भविष्यसूचक-संचालित की प्राकृतिक विकास प्रक्रिया प्रदर्शित करता है
- जैविक तर्कसंगतता: ध्यान विकास प्रक्षेपवक्र मुक्त ऊर्जा सिद्धांत और संज्ञानात्मक विज्ञान सिद्धांत के अनुरूप है
- आर्किटेक्चर महत्व: Transformer आत्म-ध्यान तंत्र भविष्यसूचक TD मार्गदर्शन और संवेदी BU प्रमुखता को संतुलित करने के लिए महत्वपूर्ण है
- सरल कार्य वातावरण: वर्तमान प्रयोग केवल अपेक्षाकृत सरल पकड़ने के कार्य में सत्यापित हैं
- समान वस्तु भेदभाव: समान वस्तुओं के बीच स्थिर लक्ष्य चयन अभी भी चुनौतीपूर्ण है
- जटिल वातावरण अनुकूलन: जटिल और असंरचित वातावरण में मॉडल की भविष्यसूचना क्षमता और मजबूती की जांच की जानी बाकी है
- जटिल वातावरण मूल्यांकन: अधिक जटिल और असंरचित वातावरण में मॉडल प्रदर्शन का मूल्यांकन करना
- संज्ञानात्मक कार्य विस्तार: ढांचे को अनिश्चितता अनुमान या अपेक्षित नियंत्रण जैसे अन्य संज्ञानात्मक कार्यों तक विस्तारित करना
- बहु-मोडल सीखना: बहु-संवेदी मोडल में अनुप्रयोग की खोज करना
- ठोस सैद्धांतिक आधार: मुक्त ऊर्जा सिद्धांत और संज्ञानात्मक विज्ञान पर आधारित ठोस सैद्धांतिक आधार
- महत्वपूर्ण तकनीकी नवाचार: BU/TD संकेतों को संलयित करने के लिए Transformer डिजाइन नवीन है
- उचित प्रायोगिक डिजाइन: विकासात्मक दृष्टिकोण से ध्यान विकास प्रक्रिया का विश्लेषण, गहन अंतर्दृष्टि प्रदान करता है
- मजबूत परिणाम विश्वसनीयता: 100% सफलता दर और विस्तृत विघटन प्रयोग विधि की प्रभावकारिता साबित करते हैं
- जैविक प्रेरणा: मॉडल व्यवहार मानव ध्यान विकास प्रक्रिया के साथ अत्यधिक सुसंगत है
- सीमित प्रायोगिक पैमाना: केवल एकल सरल कार्य पर सत्यापित, सामान्यीकरण क्षमता की जांच की जानी बाकी है
- कम्प्यूटेशनल जटिलता: Transformer संरचना कम्प्यूटेशनल ओवरहेड बढ़ा सकती है, पेपर विस्तार से विश्लेषण नहीं करता है
- पैरामीटर संवेदनशीलता: हानि फ़ंक्शन भार α, β के चयन विधि पर पर्याप्त चर्चा नहीं की गई है
- दीर्घकालीन स्थिरता: हालांकि प्रशिक्षण स्थिरता में सुधार होता है, लेकिन दीर्घकालीन चलने की मजबूती की आगे जांच की आवश्यकता है
- क्षेत्र योगदान: रोबोटिक दृश्य ध्यान अनुसंधान के लिए नया विकासात्मक दृष्टिकोण प्रदान करता है
- व्यावहारिक मूल्य: मानव-जैसा ध्यान तंत्र की आवश्यकता वाली रोबोटिक प्रणालियों में लागू किया जा सकता है
- पुनरुत्पादनीयता: विधि विवरण विस्तृत है, लेकिन कोड और डेटासेट की खुलेपन की पुष्टि की आवश्यकता है
- सैद्धांतिक महत्व: कृत्रिम बुद्धिमत्ता प्रणालियों में मुक्त ऊर्जा सिद्धांत के अनुप्रयोग की संभावना को सत्यापित करता है
- रोबोटिक हेरफेर कार्य: गतिशील ध्यान आवंटन की आवश्यकता वाले पकड़, असेंबली आदि कार्य
- मानव-मशीन अंतःक्रिया प्रणाली: मानव ध्यान पैटर्न को समझने और अनुकरण करने की आवश्यकता वाले अनुप्रयोग
- स्वायत्त नेविगेशन: जटिल वातावरण में चयनात्मक संवेदन की आवश्यकता वाले मोबाइल रोबोट
- संज्ञानात्मक रोबोटिक्स अनुसंधान: मानव-जैसी संज्ञानात्मक तंत्र की खोज के लिए अनुसंधान मंच
पेपर में 27 संबंधित संदर्भ उद्धृत हैं, जो मुक्त ऊर्जा सिद्धांत, ध्यान तंत्र, रोबोटिक्स सीखना आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए ठोस सैद्धांतिक और तकनीकी आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला रोबोटिक्स सीखने का पेपर है, जो सैद्धांतिक नवाचार, तकनीकी कार्यान्वयन और प्रायोगिक सत्यापन के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है। हालांकि प्रायोगिक पैमाने और जटिलता के संदर्भ में सुधार की गुंजाइश है, लेकिन इसके द्वारा प्रस्तावित विकासात्मक ध्यान ढांचा इस क्षेत्र के लिए मूल्यवान योगदान प्रदान करता है।