Visual Affordance Prediction: Survey and Reproducibility
Apicella, Xompero, Cavallaro
Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
academic
Prédiction des Affordances Visuelles : Enquête et Reproductibilité
Les affordances sont les actions potentielles qu'un agent peut effectuer sur un objet, telles qu'observées par une caméra. La prédiction des affordances visuelles est formulée différemment pour des tâches telles que la détection de saisie, la classification des affordances, la segmentation des affordances et l'estimation de la pose de la main. Cette diversité dans les formulations conduit à des définitions incohérentes qui empêchent les comparaisons équitables entre les méthodes. Dans cet article, nous proposons une formulation unifiée de la prédiction des affordances visuelles en tenant compte des informations complètes sur les objets d'intérêt et de l'interaction de l'agent avec les objets pour accomplir une tâche. Cette formulation unifiée nous permet d'examiner de manière exhaustive et systématique les travaux disparates sur les affordances visuelles, en mettant en évidence les forces et les limitations des méthodes et des ensembles de données. Nous discutons également des problèmes de reproductibilité, tels que l'indisponibilité des implémentations de méthodes et des détails des configurations expérimentales, rendant les benchmarks pour la prédiction des affordances visuelles injustes et peu fiables. Pour favoriser la transparence, nous introduisons la Feuille d'Affordance, un document qui détaille la solution, les ensembles de données et la validation d'une méthode, soutenant la reproductibilité et l'équité futures dans la communauté.
La prédiction des affordances visuelles (Visual Affordance Prediction) est une direction de recherche importante à l'intersection de la vision par ordinateur et de la robotique. Les affordances désignent les actions potentielles qu'un agent intelligent (humain ou robot) peut effectuer sur des objets lors de l'observation d'une scène. Cependant, la recherche existante présente les problèmes clés suivants :
Incohérence des définitions : Différentes tâches telles que la détection de saisie, la classification des affordances, la segmentation des affordances et l'estimation de la pose de la main emploient des formulations de problèmes différentes, rendant les comparaisons entre méthodes impossibles
Information incomplète : Les méthodes existantes considèrent généralement seulement des informations partielles, manquant de modélisation du processus d'interaction complet
Crise de la reproductibilité : Absence de détails d'implémentation et de configuration expérimentale, rendant les benchmarks injustes et peu fiables
La prédiction des affordances visuelles est cruciale pour réaliser l'opération autonome de robots intelligents, particulièrement dans les scénarios d'application tels que la collaboration homme-machine et les robots d'assistance. La prédiction précise des affordances d'objets peut :
Améliorer la sécurité et l'efficacité des opérations robotiques
Permettre une interaction homme-machine plus naturelle
Soutenir la planification de tâches dans des environnements complexes
Proposition d'un cadre unifié pour la prédiction des affordances visuelles : Intégrant les informations complètes selon trois dimensions : « quoi faire (what) », « où le faire (where) » et « comment le faire (how) »
Enquête systématique : Analyse complète des méthodes existantes basée sur le cadre unifié, révélant les forces et limitations respectives
Analyse de la reproductibilité : Discussion approfondie des problèmes de reproductibilité dans le domaine et de leurs origines
Introduction de la Feuille d'Affordance : Norme documentaire similaire aux Model Cards, favorisant la transparence et la reproductibilité
Comparaison systématique des ensembles de données et des méthodes : Fournissant une analyse détaillée des caractéristiques et des limitations
L'article analyse systématiquement les principaux ensembles de données du domaine de la prédiction des affordances visuelles, classés par type de tâche :
L'article cite plus de 150 références pertinentes, couvrant tous les aspects de la prédiction des affordances visuelles, notamment :
Fondements théoriques des affordances selon Gibson
Applications de l'apprentissage profond en vision par ordinateur
Recherches connexes sur la saisie et la manipulation robotiques
Construction d'ensembles de données et méthodes d'évaluation
Travaux connexes sur la reproductibilité
Évaluation Globale : Ceci est un article d'enquête de haute qualité qui analyse systématiquement l'état actuel et les problèmes du domaine de la prédiction des affordances visuelles. Le cadre unifié proposé par l'article et la Feuille d'Affordance possèdent une valeur théorique et pratique importante, susceptibles de promouvoir le développement standardisé du domaine. Bien que manquant de validation expérimentale, en tant que travail d'enquête, la profondeur et l'ampleur de son analyse atteignent un niveau très élevé.