2025-11-15T06:16:11.966074

Visual Affordance Prediction: Survey and Reproducibility

Apicella, Xompero, Cavallaro

Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.

academic

Predicción de Asequibilidad Visual: Encuesta y Reproducibilidad

Información Básica

ID del Artículo: 2505.05074
Título: Visual Affordance Prediction: Survey and Reproducibility
Autores: Tommaso Apicella, Alessio Xompero, Andrea Cavallaro
Clasificación: cs.CV cs.RO
Fecha de Publicación/Conferencia: Enviado a revista IEEE (octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2505.05074

Resumen

Las asequibilidades (affordances) son las acciones potenciales que un agente puede realizar sobre un objeto, observadas por una cámara. La predicción de asequibilidad visual se formula de manera diferente para tareas como detección de agarre, clasificación de asequibilidad, segmentación de asequibilidad y estimación de postura de mano. Esta diversidad en formulaciones conduce a definiciones inconsistentes que impiden comparaciones justas entre métodos. En este artículo, proponemos una formulación unificada de la predicción de asequibilidad visual considerando la información completa sobre los objetos de interés y la interacción del agente con los objetos para realizar una tarea. Esta formulación unificada nos permite revisar de manera exhaustiva y sistemática trabajos dispares sobre asequibilidad visual, destacando fortalezas y limitaciones tanto de métodos como de conjuntos de datos. También discutimos problemas de reproducibilidad, como la indisponibilidad de implementaciones de métodos y detalles de configuraciones experimentales, que hacen que los puntos de referencia para la predicción de asequibilidad visual sean injustos e infiables. Para favorecer la transparencia, introducimos la Hoja de Asequibilidad (Affordance Sheet), un documento que detalla la solución, conjuntos de datos y validación de un método, apoyando la reproducibilidad y equidad futuros en la comunidad.

Antecedentes de Investigación y Motivación

Definición del Problema

La predicción de asequibilidad visual (Visual Affordance Prediction) es una dirección de investigación importante en el campo interdisciplinario de la visión por computadora y la robótica. Las asequibilidades (Affordances) se refieren a las acciones potenciales que un agente inteligente (humano o robot) puede ejecutar sobre objetos al observar una escena. Sin embargo, la investigación existente presenta los siguientes problemas clave:

Inconsistencia en Definiciones: Diferentes tareas como detección de agarre, clasificación de asequibilidad, segmentación de asequibilidad y estimación de postura de mano emplean diferentes formulaciones de problemas, impidiendo comparaciones justas entre métodos
Información Incompleta: Los métodos existentes típicamente consideran solo información parcial, careciendo de modelado del proceso de interacción completo
Crisis de Reproducibilidad: Falta de detalles de implementación de métodos y configuraciones experimentales, haciendo que los puntos de referencia sean injustos e infiables

Importancia de la Investigación

La predicción de asequibilidad visual es crucial para lograr operaciones autónomas de robots inteligentes, particularmente en escenarios de aplicación como colaboración humano-máquina y robots de asistencia. La predicción precisa de asequibilidades de objetos puede:

Mejorar la seguridad y eficiencia de la manipulación robótica
Permitir interacciones humano-máquina más naturales
Apoyar la planificación de tareas en entornos complejos

Limitaciones de Métodos Existentes

Formulaciones de Problemas Dispersas: Cada tarea tiene definiciones independientes, careciendo de un marco unificado
Evaluación Inconsistente: Diferentes conjuntos de datos e indicadores de evaluación hacen que la comparación de métodos sea difícil
Reproducibilidad Deficiente: Faltan detalles de configuración experimental, código y pesos de modelos no disponibles

Contribuciones Principales

Propuesta de Marco Unificado para Predicción de Asequibilidad Visual: Integra información completa en tres dimensiones: "qué hacer (what)", "dónde hacerlo (where)" y "cómo hacerlo (how)"
Encuesta Sistemática: Análisis exhaustivo de métodos existentes basado en el marco unificado, revelando fortalezas y limitaciones de cada uno
Análisis de Reproducibilidad: Discusión profunda de problemas de reproducibilidad en el dominio y sus raíces
Propuesta de Hoja de Asequibilidad (Affordance Sheet): Norma de documentación similar a Model Cards, promoviendo transparencia y reproducibilidad
Comparación Sistemática de Conjuntos de Datos y Métodos: Proporciona análisis detallado de características y discusión de limitaciones

Explicación Detallada del Método

Definición de Tarea

El artículo propone una formulación unificada de predicción de asequibilidad visual:

f(xv, T, e) → {a, o, S, P}

Donde:

Entradas:
- xv: Escena observada (imagen RGB)
- T: Descripción de tarea (secuencia de texto)
- e: Características de mano del agente (modelo parametrizado)
Salidas:
- a: Acciones potenciales
- o: Objetos relevantes
- S: Regiones de interacción
- P: Postura de mano

Tres Dimensiones del Marco Unificado

What (Qué hacer): Predecir las acciones que el agente puede ejecutar sobre objetos
Where (Dónde hacerlo): Determinar las regiones donde la mano del agente interactúa con el objeto
How (Cómo hacerlo): Estimar la postura de mano más razonable para ejecutar la interacción

Descomposición de Subtareas

El artículo descompone la predicción de asequibilidad visual en cinco subtareas:

Localización de Objetos: Identificar objetos relevantes en la escena
Clasificación Funcional: Predecir acciones posibles para cada objeto
Segmentación Funcional: Segmentar regiones del objeto que soportan acciones específicas
Estimación de Postura de Mano: Estimar la postura de mano del agente sobre el objeto
Renderizado de Mano: Renderizar la interacción de mano en la imagen RGB

Puntos de Innovación Técnica

Completitud: Primera propuesta de marco unificado que contiene información de interacción completa
Orientación a Tareas: Incorpora explícitamente la tarea como entrada condicional, limitando el espacio de soluciones
Percepción del Agente: Considera características de mano del agente en la asequibilidad
Sistematicidad: Proporciona mapeos claros entre diferentes subtareas

Configuración Experimental

Análisis de Conjuntos de Datos

El artículo analiza sistemáticamente los principales conjuntos de datos en el campo de predicción de asequibilidad visual, clasificados por tipo de tarea:

Tipo de Tarea	Conjunto de Datos Representativo	Cantidad de Imágenes	Categorías de Objetos	Categorías de Asequibilidad
Detección de Objetos	COCO-Task	39,724	49	-
Clasificación de Asequibilidad	Pieropan et al.	~40,000	4	4
Segmentación de Asequibilidad	UMD	28,843	17	7
Detección de Agarre	Cornell	1,035	-	1
Interacción Mano-Objeto	YCB-Affordance	133,936	58	1

Sistema de Indicadores de Evaluación

El artículo recomienda indicadores de evaluación correspondientes para diferentes subtareas:

Clasificación Funcional: Precisión (Precision), Exhaustividad (Recall), Puntuación F1
Segmentación Funcional: Índice de Jaccard, Precisión, Exhaustividad
Estimación de Postura de Mano: Volumen de Penetración, Puntuación de Agarre Analítica
Síntesis de Mano: Distancia de Inicio de Fréchet (Fréchet Inception Distance - FID)

Resultados Experimentales

Análisis de Desafíos de Reproducibilidad

El artículo identifica cinco desafíos principales de reproducibilidad (RC):

RC1 - Disponibilidad de Datos: Falta de conjuntos de datos de punto de referencia especializados
RC2 - Implementación de Métodos: Implementaciones de código no disponibles
RC3 - Modelos Entrenados: Pesos de modelos preentrenados faltantes
RC4 - Configuración Experimental: Detalles de configuración incompletos
RC5 - Indicadores de Evaluación: Métodos de medición de rendimiento inconsistentes

Casos de Inconsistencia de Configuración

Tomando como ejemplo métodos de segmentación de asequibilidad en el conjunto de datos UMD:

Método	Resolución	Aumento de Datos	Preprocesamiento de Imagen
AffordanceNet	1000×600	No	Desconocido
CNN	320×240	No	Recorte Central
GSE	400×400	Volteo + Escalado	Recorte

Esta variabilidad en configuraciones impide comparaciones justas entre métodos.

Análisis de Limitaciones de Conjuntos de Datos

Limitaciones de Escala: La mayoría de conjuntos de datos tienen menos de 20 categorías de objetos y 10 categorías de asequibilidad
Escenas Simples: Se enfoca principalmente en objetos únicos, careciendo de escenas ocluidas y desordenadas
Perspectiva Única: La mayoría adopta perspectiva de tercera persona, careciendo de datos de primera persona
Limitaciones de Tipos de Objetos: Se enfoca principalmente en herramientas y contenedores, consideración insuficiente de objetos transparentes

Trabajos Relacionados

Comparación con Encuestas Existentes

En comparación con encuestas previas, este artículo tiene las siguientes características:

Encuesta	Marco Unificado	Reproducibilidad	Análisis de Conjuntos de Datos	Limitaciones de Métodos
Hassanin et al.	✗	✗	✓	✓
Chen et al.	✗	✗	✓	✓
Este Artículo	✓	✓	✓	✓

Clasificación de Métodos

El artículo clasifica métodos existentes por subtarea:

Métodos de Localización de Objetos: Desde GGNN hasta métodos basados en Modelos de Lenguaje Visual
Métodos de Clasificación Funcional: Desde SVM hasta métodos de aprendizaje profundo
Métodos de Segmentación Funcional: Desde segmentación semántica hasta adaptación de segmentación de instancias
Estimación de Postura de Mano: Desde detección de agarre hasta estimación de postura multidedo

Conclusiones y Discusión

Conclusiones Principales

Necesidad de Marco Unificado: Los métodos existentes carecen de formulación unificada, requiriendo un marco integrado
Crisis de Reproducibilidad Severa: Numerosos métodos carecen de detalles de implementación y código
Necesidad de Mejora de Conjuntos de Datos: Los conjuntos de datos existentes tienen escala pequeña y escenas simples
Inconsistencia en Estándares de Evaluación: Se requiere estandarización de protocolos de evaluación

Limitaciones

Validación Insuficiente del Marco: El artículo es principalmente análisis teórico, careciendo de validación experimental
Detalles de Implementación Faltantes: Los métodos de implementación específicos del marco unificado no están claros
Complejidad Computacional: El marco completo puede aumentar la carga computacional

Direcciones Futuras

Estimación de Propiedades Físicas de Objetos: Integración de información multimodal para estimar propiedades de objetos
Integración de Agentes de IA: Combinación con modelos grandes de visión-lenguaje
Expansión de Conjuntos de Datos: Construcción de conjuntos de datos más grandes y complejos
Estandarización de Puntos de Referencia: Establecimiento de protocolos de evaluación estandarizados

Evaluación Profunda

Fortalezas

Problema Importante y Oportuno: Aborda el problema de confusión de definiciones de larga data en el dominio
Análisis Exhaustivo y Profundo: Análisis sistemático de métodos, conjuntos de datos y problemas de reproducibilidad
Alto Valor Práctico: La Hoja de Asequibilidad proporciona una herramienta valiosa para la comunidad
Escritura Clara: Estructura completa, expresión clara, tablas y figuras abundantes

Insuficiencias

Falta de Validación Experimental: Principalmente trabajo de encuesta, careciendo de prueba experimental del marco unificado
Implementación de Métodos Abstracta: La ruta de implementación específica del marco unificado no está suficientemente clara
Subjetividad en Evaluación: Parte del análisis de problemas de reproducibilidad puede contener juicios subjetivos

Impacto

Valor Académico: Proporciona marco teórico importante y herramientas de análisis para el dominio
Significado Práctico: La Hoja de Asequibilidad puede promover la estandarización de investigación
Efecto Promotor: Puede impulsar la estandarización de conjuntos de datos y estándares de evaluación

Escenarios Aplicables

Introducción para Investigadores: Proporciona descripción general exhaustiva del dominio para nuevos investigadores
Desarrollo de Métodos: Proporciona marco teórico unificado para desarrollo de nuevos métodos
Construcción de Puntos de Referencia: Proporciona orientación para puntos de referencia estandarizados
Aplicaciones Industriales: Proporciona referencia para desarrollo de sistemas de visión robótica

Referencias

El artículo cita más de 150 referencias relacionadas, cubriendo todos los aspectos de la predicción de asequibilidad visual, incluyendo:

Fundamentos teóricos de asequibilidad de Gibson
Aplicaciones de aprendizaje profundo en visión por computadora
Investigación relacionada con agarre y manipulación robótica
Construcción de conjuntos de datos y métodos de evaluación
Trabajos relacionados en investigación de reproducibilidad

Evaluación General: Este es un artículo de encuesta de alta calidad que analiza sistemáticamente el estado actual y problemas del campo de predicción de asequibilidad visual. El marco unificado propuesto y la Hoja de Asequibilidad poseen valor teórico y práctico importante, con potencial para impulsar el desarrollo estandarizado del dominio. Aunque carece de validación experimental, como trabajo de encuesta, alcanza un nivel muy alto tanto en profundidad como en amplitud de análisis.