Visual Affordance Prediction: Survey and Reproducibility
Apicella, Xompero, Cavallaro
Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
academic
विजुअल अफोर्डेंस प्रेडिक्शन: सर्वेक्षण और पुनरुत्पादनीयता
अफोर्डेंस वे संभावित क्रियाएं हैं जो एक एजेंट किसी वस्तु पर कैमरे द्वारा देखी गई परिस्थितियों में कर सकता है। विजुअल अफोर्डेंस प्रेडिक्शन को ग्रासिंग डिटेक्शन, अफोर्डेंस वर्गीकरण, अफोर्डेंस सेगमेंटेशन और हैंड पोज़ एस्टिमेशन जैसे कार्यों के लिए अलग-अलग तरीकों से तैयार किया जाता है। सूत्रीकरण में यह विविधता असंगत परिभाषाओं की ओर ले जाती है जो विधियों के बीच निष्पक्ष तुलना को रोकती है। इस पेपर में, हम विजुअल अफोर्डेंस प्रेडिक्शन का एक एकीकृत सूत्रीकरण प्रस्तावित करते हैं जो ब्याज की वस्तुओं पर संपूर्ण जानकारी और किसी कार्य को पूरा करने के लिए एजेंट के साथ वस्तुओं की परस्पर क्रिया को ध्यान में रखता है। यह एकीकृत सूत्रीकरण हमें विभिन्न विजुअल अफोर्डेंस कार्यों की व्यापक और व्यवस्थित समीक्षा करने की अनुमति देता है, विधियों और डेटासेट दोनों की शक्तियों और सीमाओं को उजागर करता है। हम पुनरुत्पादनीयता समस्याओं पर भी चर्चा करते हैं, जैसे विधि कार्यान्वयन और प्रायोगिक सेटअप विवरण की अनुपलब्धता, जो विजुअल अफोर्डेंस प्रेडिक्शन के लिए बेंचमार्क को अनुचित और अविश्वसनीय बनाती है। पारदर्शिता को बढ़ावा देने के लिए, हम Affordance Sheet प्रस्तुत करते हैं, एक दस्तावेज़ जो किसी विधि के समाधान, डेटासेट और सत्यापन को विस्तृत करता है, भविष्य की पुनरुत्पादनीयता और समुदाय में निष्पक्षता का समर्थन करता है।
विजुअल अफोर्डेंस प्रेडिक्शन कंप्यूटर विजन और रोबोटिक्स के अंतःविषय क्षेत्र में एक महत्वपूर्ण अनुसंधान दिशा है। अफोर्डेंस से तात्पर्य उन संभावित क्रियाओं से है जो एक बुद्धिमान एजेंट (मनुष्य या रोबोट) किसी दृश्य को देखते समय किसी वस्तु पर कर सकता है। हालांकि, वर्तमान अनुसंधान में निम्नलिखित मुख्य समस्याएं हैं:
परिभाषा में असंगतता: ग्रासिंग डिटेक्शन, अफोर्डेंस वर्गीकरण, अफोर्डेंस सेगमेंटेशन, हैंड पोज़ एस्टिमेशन जैसे विभिन्न कार्य विभिन्न समस्या सूत्रीकरण का उपयोग करते हैं, जिससे विधियों के बीच निष्पक्ष तुलना असंभव हो जाती है
अधूरी जानकारी: मौजूदा विधियां आमतौर पर केवल आंशिक जानकारी पर विचार करती हैं, संपूर्ण इंटरैक्शन प्रक्रिया के मॉडलिंग में कमी है
पुनरुत्पादनीयता संकट: विधि कार्यान्वयन, प्रायोगिक सेटअप विवरण की कमी, जिससे बेंचमार्क परीक्षण अनुचित और अविश्वसनीय हो जाते हैं
विजुअल अफोर्डेंस प्रेडिक्शन बुद्धिमान रोबोट के स्वायत्त संचालन को लागू करने के लिए महत्वपूर्ण है, विशेष रूप से मानव-मशीन सहयोग, सहायक रोबोट जैसे अनुप्रयोग परिदृश्यों में। वस्तु अफोर्डेंस की सटीक भविष्यवाणी निम्नलिखित को सक्षम कर सकती है:
विजुअल अफोर्डेंस प्रेडिक्शन के लिए एकीकृत ढांचा प्रस्तावित करना: "क्या करें (what)", "कहां करें (where)", "कैसे करें (how)" तीन आयामों की संपूर्ण जानकारी को एकीकृत करता है
व्यवस्थित सर्वेक्षण: एकीकृत ढांचे के आधार पर मौजूदा विधियों का व्यापक विश्लेषण, प्रत्येक की शक्तियों और सीमाओं को उजागर करता है
पुनरुत्पादनीयता विश्लेषण: क्षेत्र में पुनरुत्पादनीयता समस्याओं और उनके मूल कारणों की गहन चर्चा
Affordance Sheet प्रस्तावित करना: Model Cards के समान दस्तावेज़ मानक, अनुसंधान पारदर्शिता और पुनरुत्पादनीयता को बढ़ावा देता है
डेटासेट और विधियों की व्यवस्थित तुलना: विस्तृत विशेषता विश्लेषण और सीमाओं की चर्चा प्रदान करता है
पेपर 150+ संबंधित संदर्भों का हवाला देता है, जो विजुअल अफोर्डेंस प्रेडिक्शन के सभी पहलुओं को कवर करता है, जिसमें शामिल हैं:
Gibson के अफोर्डेंस सिद्धांत की नींव
कंप्यूटर विजन में गहन शिक्षण का अनुप्रयोग
रोबोट ग्रासिंग और हेरफेर संबंधित अनुसंधान
डेटासेट निर्माण और मूल्यांकन विधियां
पुनरुत्पादनीयता अनुसंधान के संबंधित कार्य
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला सर्वेक्षण पेपर है जो विजुअल अफोर्डेंस प्रेडिक्शन क्षेत्र की वर्तमान स्थिति और समस्याओं का व्यवस्थित विश्लेषण करता है। पेपर द्वारा प्रस्तावित एकीकृत ढांचा और Affordance Sheet में महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य है, और क्षेत्र के मानकीकृत विकास को बढ़ावा देने की संभावना है। यद्यपि प्रायोगिक सत्यापन की कमी है, लेकिन एक सर्वेक्षण कार्य के रूप में, इसके विश्लेषण की गहराई और व्यापकता बहुत अधिक स्तर तक पहुंची है।