2025-11-15T06:16:11.966074

Visual Affordance Prediction: Survey and Reproducibility

Apicella, Xompero, Cavallaro

Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.

academic

Prédiction des Affordances Visuelles : Enquête et Reproductibilité

Informations Fondamentales

ID de l'article : 2505.05074
Titre : Visual Affordance Prediction: Survey and Reproducibility
Auteurs : Tommaso Apicella, Alessio Xompero, Andrea Cavallaro
Classification : cs.CV cs.RO
Date de publication/Conférence : Soumis à une revue IEEE (octobre 2025)
Lien de l'article : https://arxiv.org/abs/2505.05074

Résumé

Les affordances sont les actions potentielles qu'un agent peut effectuer sur un objet, telles qu'observées par une caméra. La prédiction des affordances visuelles est formulée différemment pour des tâches telles que la détection de saisie, la classification des affordances, la segmentation des affordances et l'estimation de la pose de la main. Cette diversité dans les formulations conduit à des définitions incohérentes qui empêchent les comparaisons équitables entre les méthodes. Dans cet article, nous proposons une formulation unifiée de la prédiction des affordances visuelles en tenant compte des informations complètes sur les objets d'intérêt et de l'interaction de l'agent avec les objets pour accomplir une tâche. Cette formulation unifiée nous permet d'examiner de manière exhaustive et systématique les travaux disparates sur les affordances visuelles, en mettant en évidence les forces et les limitations des méthodes et des ensembles de données. Nous discutons également des problèmes de reproductibilité, tels que l'indisponibilité des implémentations de méthodes et des détails des configurations expérimentales, rendant les benchmarks pour la prédiction des affordances visuelles injustes et peu fiables. Pour favoriser la transparence, nous introduisons la Feuille d'Affordance, un document qui détaille la solution, les ensembles de données et la validation d'une méthode, soutenant la reproductibilité et l'équité futures dans la communauté.

Contexte de Recherche et Motivation

Définition du Problème

La prédiction des affordances visuelles (Visual Affordance Prediction) est une direction de recherche importante à l'intersection de la vision par ordinateur et de la robotique. Les affordances désignent les actions potentielles qu'un agent intelligent (humain ou robot) peut effectuer sur des objets lors de l'observation d'une scène. Cependant, la recherche existante présente les problèmes clés suivants :

Incohérence des définitions : Différentes tâches telles que la détection de saisie, la classification des affordances, la segmentation des affordances et l'estimation de la pose de la main emploient des formulations de problèmes différentes, rendant les comparaisons entre méthodes impossibles
Information incomplète : Les méthodes existantes considèrent généralement seulement des informations partielles, manquant de modélisation du processus d'interaction complet
Crise de la reproductibilité : Absence de détails d'implémentation et de configuration expérimentale, rendant les benchmarks injustes et peu fiables

Importance de la Recherche

La prédiction des affordances visuelles est cruciale pour réaliser l'opération autonome de robots intelligents, particulièrement dans les scénarios d'application tels que la collaboration homme-machine et les robots d'assistance. La prédiction précise des affordances d'objets peut :

Améliorer la sécurité et l'efficacité des opérations robotiques
Permettre une interaction homme-machine plus naturelle
Soutenir la planification de tâches dans des environnements complexes

Limitations des Approches Existantes

Formulations dispersées : Chaque tâche possède sa propre définition indépendante, manquant d'un cadre unifié
Évaluation incohérente : Les différents ensembles de données et métriques d'évaluation rendent les comparaisons de méthodes difficiles
Reproductibilité faible : Détails de configuration expérimentale manquants, codes et poids de modèles indisponibles

Contributions Principales

Proposition d'un cadre unifié pour la prédiction des affordances visuelles : Intégrant les informations complètes selon trois dimensions : « quoi faire (what) », « où le faire (where) » et « comment le faire (how) »
Enquête systématique : Analyse complète des méthodes existantes basée sur le cadre unifié, révélant les forces et limitations respectives
Analyse de la reproductibilité : Discussion approfondie des problèmes de reproductibilité dans le domaine et de leurs origines
Introduction de la Feuille d'Affordance : Norme documentaire similaire aux Model Cards, favorisant la transparence et la reproductibilité
Comparaison systématique des ensembles de données et des méthodes : Fournissant une analyse détaillée des caractéristiques et des limitations

Détails de la Méthode

Définition de la Tâche

L'article propose une formulation unifiée de la prédiction des affordances visuelles :

f(xv, T, e) → {a, o, S, P}

Où :

Entrées :
- xv : Scène observée (image RGB)
- T : Description de la tâche (séquence textuelle)
- e : Caractéristiques de la main de l'agent (modèle paramétrisé)
Sorties :
- a : Actions potentielles
- o : Objets pertinents
- S : Régions d'interaction
- P : Pose de la main

Trois Dimensions du Cadre Unifié

What (Quoi) : Prédire les actions que l'agent peut effectuer sur les objets
Where (Où) : Déterminer les régions où la main de l'agent interagit avec l'objet
How (Comment) : Estimer la pose de la main la plus appropriée pour effectuer l'interaction

Décomposition en Sous-tâches

L'article décompose la prédiction des affordances visuelles en cinq sous-tâches :

Localisation d'objets : Identifier les objets pertinents dans la scène
Classification fonctionnelle : Prédire les actions possibles pour chaque objet
Segmentation fonctionnelle : Segmenter les régions de l'objet supportant des actions spécifiques
Estimation de la pose de la main : Estimer la pose de la main de l'agent sur l'objet
Rendu de la main : Rendre l'interaction de la main sur l'image RGB

Points d'Innovation Technique

Complétude : Première proposition d'un cadre unifié contenant des informations d'interaction complètes
Orientation vers la tâche : Établir explicitement la tâche comme condition d'entrée, limitant l'espace de solution
Perception de l'agent : Considérer l'impact des caractéristiques de la main de l'agent sur les affordances
Systématicité : Fournir des mappages clairs entre différentes sous-tâches

Configuration Expérimentale

Analyse des Ensembles de Données

L'article analyse systématiquement les principaux ensembles de données du domaine de la prédiction des affordances visuelles, classés par type de tâche :

Type de Tâche	Ensemble de Données Représentatif	Nombre d'Images	Catégories d'Objets	Catégories d'Affordances
Détection d'objets	COCO-Task	39,724	49	-
Classification des affordances	Pieropan et al.	~40,000	4	4
Segmentation des affordances	UMD	28,843	17	7
Détection de saisie	Cornell	1,035	-	1
Interaction main-objet	YCB-Affordance	133,936	58	1

Système de Métriques d'Évaluation

L'article recommande les métriques d'évaluation appropriées pour différentes sous-tâches :

Classification fonctionnelle : Précision, Rappel, Score F1
Segmentation fonctionnelle : Indice de Jaccard, Précision, Rappel
Estimation de la pose de la main : Volume de pénétration, Score de saisie analytique
Synthèse de la main : Fréchet Inception Distance (FID)

Résultats Expérimentaux

Analyse des Défis de Reproductibilité

L'article identifie cinq défis majeurs de reproductibilité (RC) :

RC1 - Disponibilité des données : Absence d'ensembles de données de benchmark spécialisés
RC2 - Implémentation de méthodes : Implémentations de code indisponibles
RC3 - Modèles entraînés : Poids de modèles pré-entraînés manquants
RC4 - Configuration expérimentale : Détails de configuration incomplètes
RC5 - Métriques d'évaluation : Méthodes de mesure de performance incohérentes

Exemples d'Incohérence de Configuration

En prenant l'exemple des méthodes de segmentation des affordances sur l'ensemble de données UMD :

Méthode	Résolution	Augmentation de Données	Prétraitement d'Image
AffordanceNet	1000×600	Aucune	Inconnu
CNN	320×240	Aucune	Recadrage central
GSE	400×400	Retournement + Mise à l'échelle	Recadrage

Ces différences de configuration rendent les comparaisons entre méthodes injustes.

Analyse des Limitations des Ensembles de Données

Limitation d'échelle : La plupart des ensembles de données contiennent moins de 20 catégories d'objets et 10 catégories d'affordances
Scènes simples : Principalement axées sur des objets uniques, manquant d'occlusion et de scènes désordonnées
Perspective unique : Majoritairement en vue à la troisième personne, manquant de données en première personne
Limitation des types d'objets : Principalement axées sur les outils et conteneurs, considération insuffisante des objets transparents

Travaux Connexes

Comparaison avec les Enquêtes Existantes

Par rapport aux enquêtes précédentes, cet article possède les caractéristiques suivantes :

Enquête	Cadre Unifié	Reproductibilité	Analyse des Ensembles de Données	Limitations des Méthodes
Hassanin et al.	✗	✗	✓	✓
Chen et al.	✗	✗	✓	✓
Cet article	✓	✓	✓	✓

Classification des Méthodes

L'article classe les méthodes existantes par sous-tâche :

Méthodes de localisation d'objets : De GGNN aux méthodes basées sur VLM
Méthodes de classification fonctionnelle : De SVM aux méthodes d'apprentissage profond
Méthodes de segmentation fonctionnelle : De la segmentation sémantique à l'adaptation de segmentation d'instances
Estimation de la pose de la main : De la détection de saisie à l'estimation de pose multi-doigts

Conclusions et Discussion

Conclusions Principales

Nécessité d'un cadre unifié : Les méthodes existantes manquent d'une formulation unifiée, nécessitant un cadre intégré
Crise de reproductibilité grave : Un grand nombre de méthodes manquent de détails d'implémentation et de code
Amélioration nécessaire des ensembles de données : Les ensembles de données existants sont de petite taille et présentent des scènes simples
Incohérence des normes d'évaluation : Nécessité de protocoles d'évaluation standardisés

Limitations

Validation insuffisante du cadre : L'article est principalement une analyse théorique, manquant de validation expérimentale
Détails d'implémentation manquants : Les méthodes d'implémentation spécifiques du cadre unifié ne sont pas claires
Complexité computationnelle : Le cadre complet pourrait entraîner une augmentation des frais de calcul

Directions Futures

Estimation des propriétés physiques des objets : Estimation des propriétés d'objets combinant des informations multimodales
Intégration d'agents IA : Combinaison avec des modèles de vision-langage de grande taille
Extension des ensembles de données : Construction d'ensembles de données plus volumineux et plus complexes
Standardisation des benchmarks : Établissement de protocoles d'évaluation standardisés

Évaluation Approfondie

Points Forts

Problème important et opportun : Résout le problème de confusion de définitions de longue date dans le domaine
Analyse complète et approfondie : Analyse systématique des méthodes, ensembles de données et problèmes de reproductibilité
Valeur pratique élevée : La Feuille d'Affordance fournit un outil précieux à la communauté
Rédaction claire : Structure complète, expression claire, tableaux et figures abondants

Insuffisances

Manque de validation expérimentale : Principalement un travail d'enquête, manquant de preuve expérimentale du cadre unifié
Implémentation de méthode abstraite : Les chemins d'implémentation spécifiques du cadre unifié ne sont pas suffisamment clairs
Subjectivité d'évaluation : Certaines analyses des problèmes de reproductibilité peuvent contenir des jugements subjectifs

Impact

Valeur académique : Fournit un cadre théorique important et des outils d'analyse au domaine
Signification pratique : La Feuille d'Affordance peut promouvoir la normalisation de la recherche
Effet de promotion : Peut promouvoir la standardisation des ensembles de données et des normes d'évaluation

Scénarios Applicables

Initiation des chercheurs : Fournit un aperçu complet du domaine aux nouveaux chercheurs
Développement de méthodes : Fournit un cadre théorique unifié pour le développement de nouvelles méthodes
Construction de benchmarks : Fournit des conseils pour les tests de benchmark standardisés
Applications industrielles : Fournit des références pour le développement de systèmes de vision robotique

Références

L'article cite plus de 150 références pertinentes, couvrant tous les aspects de la prédiction des affordances visuelles, notamment :

Fondements théoriques des affordances selon Gibson
Applications de l'apprentissage profond en vision par ordinateur
Recherches connexes sur la saisie et la manipulation robotiques
Construction d'ensembles de données et méthodes d'évaluation
Travaux connexes sur la reproductibilité

Évaluation Globale : Ceci est un article d'enquête de haute qualité qui analyse systématiquement l'état actuel et les problèmes du domaine de la prédiction des affordances visuelles. Le cadre unifié proposé par l'article et la Feuille d'Affordance possèdent une valeur théorique et pratique importante, susceptibles de promouvoir le développement standardisé du domaine. Bien que manquant de validation expérimentale, en tant que travail d'enquête, la profondeur et l'ampleur de son analyse atteignent un niveau très élevé.