Visual Affordance Prediction: Survey and Reproducibility
Apicella, Xompero, Cavallaro
Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
academic
Predicción de Asequibilidad Visual: Encuesta y Reproducibilidad
Las asequibilidades (affordances) son las acciones potenciales que un agente puede realizar sobre un objeto, observadas por una cámara. La predicción de asequibilidad visual se formula de manera diferente para tareas como detección de agarre, clasificación de asequibilidad, segmentación de asequibilidad y estimación de postura de mano. Esta diversidad en formulaciones conduce a definiciones inconsistentes que impiden comparaciones justas entre métodos. En este artículo, proponemos una formulación unificada de la predicción de asequibilidad visual considerando la información completa sobre los objetos de interés y la interacción del agente con los objetos para realizar una tarea. Esta formulación unificada nos permite revisar de manera exhaustiva y sistemática trabajos dispares sobre asequibilidad visual, destacando fortalezas y limitaciones tanto de métodos como de conjuntos de datos. También discutimos problemas de reproducibilidad, como la indisponibilidad de implementaciones de métodos y detalles de configuraciones experimentales, que hacen que los puntos de referencia para la predicción de asequibilidad visual sean injustos e infiables. Para favorecer la transparencia, introducimos la Hoja de Asequibilidad (Affordance Sheet), un documento que detalla la solución, conjuntos de datos y validación de un método, apoyando la reproducibilidad y equidad futuros en la comunidad.
La predicción de asequibilidad visual (Visual Affordance Prediction) es una dirección de investigación importante en el campo interdisciplinario de la visión por computadora y la robótica. Las asequibilidades (Affordances) se refieren a las acciones potenciales que un agente inteligente (humano o robot) puede ejecutar sobre objetos al observar una escena. Sin embargo, la investigación existente presenta los siguientes problemas clave:
Inconsistencia en Definiciones: Diferentes tareas como detección de agarre, clasificación de asequibilidad, segmentación de asequibilidad y estimación de postura de mano emplean diferentes formulaciones de problemas, impidiendo comparaciones justas entre métodos
Información Incompleta: Los métodos existentes típicamente consideran solo información parcial, careciendo de modelado del proceso de interacción completo
Crisis de Reproducibilidad: Falta de detalles de implementación de métodos y configuraciones experimentales, haciendo que los puntos de referencia sean injustos e infiables
La predicción de asequibilidad visual es crucial para lograr operaciones autónomas de robots inteligentes, particularmente en escenarios de aplicación como colaboración humano-máquina y robots de asistencia. La predicción precisa de asequibilidades de objetos puede:
Mejorar la seguridad y eficiencia de la manipulación robótica
Permitir interacciones humano-máquina más naturales
Apoyar la planificación de tareas en entornos complejos
Propuesta de Marco Unificado para Predicción de Asequibilidad Visual: Integra información completa en tres dimensiones: "qué hacer (what)", "dónde hacerlo (where)" y "cómo hacerlo (how)"
Encuesta Sistemática: Análisis exhaustivo de métodos existentes basado en el marco unificado, revelando fortalezas y limitaciones de cada uno
Análisis de Reproducibilidad: Discusión profunda de problemas de reproducibilidad en el dominio y sus raíces
Propuesta de Hoja de Asequibilidad (Affordance Sheet): Norma de documentación similar a Model Cards, promoviendo transparencia y reproducibilidad
Comparación Sistemática de Conjuntos de Datos y Métodos: Proporciona análisis detallado de características y discusión de limitaciones
El artículo analiza sistemáticamente los principales conjuntos de datos en el campo de predicción de asequibilidad visual, clasificados por tipo de tarea:
El artículo cita más de 150 referencias relacionadas, cubriendo todos los aspectos de la predicción de asequibilidad visual, incluyendo:
Fundamentos teóricos de asequibilidad de Gibson
Aplicaciones de aprendizaje profundo en visión por computadora
Investigación relacionada con agarre y manipulación robótica
Construcción de conjuntos de datos y métodos de evaluación
Trabajos relacionados en investigación de reproducibilidad
Evaluación General: Este es un artículo de encuesta de alta calidad que analiza sistemáticamente el estado actual y problemas del campo de predicción de asequibilidad visual. El marco unificado propuesto y la Hoja de Asequibilidad poseen valor teórico y práctico importante, con potencial para impulsar el desarrollo estandarizado del dominio. Aunque carece de validación experimental, como trabajo de encuesta, alcanza un nivel muy alto tanto en profundidad como en amplitud de análisis.