2025-11-15T06:16:11.966074

Visual Affordance Prediction: Survey and Reproducibility

Apicella, Xompero, Cavallaro
Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
academic

Predicción de Asequibilidad Visual: Encuesta y Reproducibilidad

Información Básica

  • ID del Artículo: 2505.05074
  • Título: Visual Affordance Prediction: Survey and Reproducibility
  • Autores: Tommaso Apicella, Alessio Xompero, Andrea Cavallaro
  • Clasificación: cs.CV cs.RO
  • Fecha de Publicación/Conferencia: Enviado a revista IEEE (octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2505.05074

Resumen

Las asequibilidades (affordances) son las acciones potenciales que un agente puede realizar sobre un objeto, observadas por una cámara. La predicción de asequibilidad visual se formula de manera diferente para tareas como detección de agarre, clasificación de asequibilidad, segmentación de asequibilidad y estimación de postura de mano. Esta diversidad en formulaciones conduce a definiciones inconsistentes que impiden comparaciones justas entre métodos. En este artículo, proponemos una formulación unificada de la predicción de asequibilidad visual considerando la información completa sobre los objetos de interés y la interacción del agente con los objetos para realizar una tarea. Esta formulación unificada nos permite revisar de manera exhaustiva y sistemática trabajos dispares sobre asequibilidad visual, destacando fortalezas y limitaciones tanto de métodos como de conjuntos de datos. También discutimos problemas de reproducibilidad, como la indisponibilidad de implementaciones de métodos y detalles de configuraciones experimentales, que hacen que los puntos de referencia para la predicción de asequibilidad visual sean injustos e infiables. Para favorecer la transparencia, introducimos la Hoja de Asequibilidad (Affordance Sheet), un documento que detalla la solución, conjuntos de datos y validación de un método, apoyando la reproducibilidad y equidad futuros en la comunidad.

Antecedentes de Investigación y Motivación

Definición del Problema

La predicción de asequibilidad visual (Visual Affordance Prediction) es una dirección de investigación importante en el campo interdisciplinario de la visión por computadora y la robótica. Las asequibilidades (Affordances) se refieren a las acciones potenciales que un agente inteligente (humano o robot) puede ejecutar sobre objetos al observar una escena. Sin embargo, la investigación existente presenta los siguientes problemas clave:

  1. Inconsistencia en Definiciones: Diferentes tareas como detección de agarre, clasificación de asequibilidad, segmentación de asequibilidad y estimación de postura de mano emplean diferentes formulaciones de problemas, impidiendo comparaciones justas entre métodos
  2. Información Incompleta: Los métodos existentes típicamente consideran solo información parcial, careciendo de modelado del proceso de interacción completo
  3. Crisis de Reproducibilidad: Falta de detalles de implementación de métodos y configuraciones experimentales, haciendo que los puntos de referencia sean injustos e infiables

Importancia de la Investigación

La predicción de asequibilidad visual es crucial para lograr operaciones autónomas de robots inteligentes, particularmente en escenarios de aplicación como colaboración humano-máquina y robots de asistencia. La predicción precisa de asequibilidades de objetos puede:

  • Mejorar la seguridad y eficiencia de la manipulación robótica
  • Permitir interacciones humano-máquina más naturales
  • Apoyar la planificación de tareas en entornos complejos

Limitaciones de Métodos Existentes

  1. Formulaciones de Problemas Dispersas: Cada tarea tiene definiciones independientes, careciendo de un marco unificado
  2. Evaluación Inconsistente: Diferentes conjuntos de datos e indicadores de evaluación hacen que la comparación de métodos sea difícil
  3. Reproducibilidad Deficiente: Faltan detalles de configuración experimental, código y pesos de modelos no disponibles

Contribuciones Principales

  1. Propuesta de Marco Unificado para Predicción de Asequibilidad Visual: Integra información completa en tres dimensiones: "qué hacer (what)", "dónde hacerlo (where)" y "cómo hacerlo (how)"
  2. Encuesta Sistemática: Análisis exhaustivo de métodos existentes basado en el marco unificado, revelando fortalezas y limitaciones de cada uno
  3. Análisis de Reproducibilidad: Discusión profunda de problemas de reproducibilidad en el dominio y sus raíces
  4. Propuesta de Hoja de Asequibilidad (Affordance Sheet): Norma de documentación similar a Model Cards, promoviendo transparencia y reproducibilidad
  5. Comparación Sistemática de Conjuntos de Datos y Métodos: Proporciona análisis detallado de características y discusión de limitaciones

Explicación Detallada del Método

Definición de Tarea

El artículo propone una formulación unificada de predicción de asequibilidad visual:

f(xv, T, e) → {a, o, S, P}

Donde:

  • Entradas:
    • xv: Escena observada (imagen RGB)
    • T: Descripción de tarea (secuencia de texto)
    • e: Características de mano del agente (modelo parametrizado)
  • Salidas:
    • a: Acciones potenciales
    • o: Objetos relevantes
    • S: Regiones de interacción
    • P: Postura de mano

Tres Dimensiones del Marco Unificado

  1. What (Qué hacer): Predecir las acciones que el agente puede ejecutar sobre objetos
  2. Where (Dónde hacerlo): Determinar las regiones donde la mano del agente interactúa con el objeto
  3. How (Cómo hacerlo): Estimar la postura de mano más razonable para ejecutar la interacción

Descomposición de Subtareas

El artículo descompone la predicción de asequibilidad visual en cinco subtareas:

  1. Localización de Objetos: Identificar objetos relevantes en la escena
  2. Clasificación Funcional: Predecir acciones posibles para cada objeto
  3. Segmentación Funcional: Segmentar regiones del objeto que soportan acciones específicas
  4. Estimación de Postura de Mano: Estimar la postura de mano del agente sobre el objeto
  5. Renderizado de Mano: Renderizar la interacción de mano en la imagen RGB

Puntos de Innovación Técnica

  1. Completitud: Primera propuesta de marco unificado que contiene información de interacción completa
  2. Orientación a Tareas: Incorpora explícitamente la tarea como entrada condicional, limitando el espacio de soluciones
  3. Percepción del Agente: Considera características de mano del agente en la asequibilidad
  4. Sistematicidad: Proporciona mapeos claros entre diferentes subtareas

Configuración Experimental

Análisis de Conjuntos de Datos

El artículo analiza sistemáticamente los principales conjuntos de datos en el campo de predicción de asequibilidad visual, clasificados por tipo de tarea:

Tipo de TareaConjunto de Datos RepresentativoCantidad de ImágenesCategorías de ObjetosCategorías de Asequibilidad
Detección de ObjetosCOCO-Task39,72449-
Clasificación de AsequibilidadPieropan et al.~40,00044
Segmentación de AsequibilidadUMD28,843177
Detección de AgarreCornell1,035-1
Interacción Mano-ObjetoYCB-Affordance133,936581

Sistema de Indicadores de Evaluación

El artículo recomienda indicadores de evaluación correspondientes para diferentes subtareas:

  • Clasificación Funcional: Precisión (Precision), Exhaustividad (Recall), Puntuación F1
  • Segmentación Funcional: Índice de Jaccard, Precisión, Exhaustividad
  • Estimación de Postura de Mano: Volumen de Penetración, Puntuación de Agarre Analítica
  • Síntesis de Mano: Distancia de Inicio de Fréchet (Fréchet Inception Distance - FID)

Resultados Experimentales

Análisis de Desafíos de Reproducibilidad

El artículo identifica cinco desafíos principales de reproducibilidad (RC):

  1. RC1 - Disponibilidad de Datos: Falta de conjuntos de datos de punto de referencia especializados
  2. RC2 - Implementación de Métodos: Implementaciones de código no disponibles
  3. RC3 - Modelos Entrenados: Pesos de modelos preentrenados faltantes
  4. RC4 - Configuración Experimental: Detalles de configuración incompletos
  5. RC5 - Indicadores de Evaluación: Métodos de medición de rendimiento inconsistentes

Casos de Inconsistencia de Configuración

Tomando como ejemplo métodos de segmentación de asequibilidad en el conjunto de datos UMD:

MétodoResoluciónAumento de DatosPreprocesamiento de Imagen
AffordanceNet1000×600NoDesconocido
CNN320×240NoRecorte Central
GSE400×400Volteo + EscaladoRecorte

Esta variabilidad en configuraciones impide comparaciones justas entre métodos.

Análisis de Limitaciones de Conjuntos de Datos

  1. Limitaciones de Escala: La mayoría de conjuntos de datos tienen menos de 20 categorías de objetos y 10 categorías de asequibilidad
  2. Escenas Simples: Se enfoca principalmente en objetos únicos, careciendo de escenas ocluidas y desordenadas
  3. Perspectiva Única: La mayoría adopta perspectiva de tercera persona, careciendo de datos de primera persona
  4. Limitaciones de Tipos de Objetos: Se enfoca principalmente en herramientas y contenedores, consideración insuficiente de objetos transparentes

Trabajos Relacionados

Comparación con Encuestas Existentes

En comparación con encuestas previas, este artículo tiene las siguientes características:

EncuestaMarco UnificadoReproducibilidadAnálisis de Conjuntos de DatosLimitaciones de Métodos
Hassanin et al.
Chen et al.
Este Artículo

Clasificación de Métodos

El artículo clasifica métodos existentes por subtarea:

  1. Métodos de Localización de Objetos: Desde GGNN hasta métodos basados en Modelos de Lenguaje Visual
  2. Métodos de Clasificación Funcional: Desde SVM hasta métodos de aprendizaje profundo
  3. Métodos de Segmentación Funcional: Desde segmentación semántica hasta adaptación de segmentación de instancias
  4. Estimación de Postura de Mano: Desde detección de agarre hasta estimación de postura multidedo

Conclusiones y Discusión

Conclusiones Principales

  1. Necesidad de Marco Unificado: Los métodos existentes carecen de formulación unificada, requiriendo un marco integrado
  2. Crisis de Reproducibilidad Severa: Numerosos métodos carecen de detalles de implementación y código
  3. Necesidad de Mejora de Conjuntos de Datos: Los conjuntos de datos existentes tienen escala pequeña y escenas simples
  4. Inconsistencia en Estándares de Evaluación: Se requiere estandarización de protocolos de evaluación

Limitaciones

  1. Validación Insuficiente del Marco: El artículo es principalmente análisis teórico, careciendo de validación experimental
  2. Detalles de Implementación Faltantes: Los métodos de implementación específicos del marco unificado no están claros
  3. Complejidad Computacional: El marco completo puede aumentar la carga computacional

Direcciones Futuras

  1. Estimación de Propiedades Físicas de Objetos: Integración de información multimodal para estimar propiedades de objetos
  2. Integración de Agentes de IA: Combinación con modelos grandes de visión-lenguaje
  3. Expansión de Conjuntos de Datos: Construcción de conjuntos de datos más grandes y complejos
  4. Estandarización de Puntos de Referencia: Establecimiento de protocolos de evaluación estandarizados

Evaluación Profunda

Fortalezas

  1. Problema Importante y Oportuno: Aborda el problema de confusión de definiciones de larga data en el dominio
  2. Análisis Exhaustivo y Profundo: Análisis sistemático de métodos, conjuntos de datos y problemas de reproducibilidad
  3. Alto Valor Práctico: La Hoja de Asequibilidad proporciona una herramienta valiosa para la comunidad
  4. Escritura Clara: Estructura completa, expresión clara, tablas y figuras abundantes

Insuficiencias

  1. Falta de Validación Experimental: Principalmente trabajo de encuesta, careciendo de prueba experimental del marco unificado
  2. Implementación de Métodos Abstracta: La ruta de implementación específica del marco unificado no está suficientemente clara
  3. Subjetividad en Evaluación: Parte del análisis de problemas de reproducibilidad puede contener juicios subjetivos

Impacto

  1. Valor Académico: Proporciona marco teórico importante y herramientas de análisis para el dominio
  2. Significado Práctico: La Hoja de Asequibilidad puede promover la estandarización de investigación
  3. Efecto Promotor: Puede impulsar la estandarización de conjuntos de datos y estándares de evaluación

Escenarios Aplicables

  1. Introducción para Investigadores: Proporciona descripción general exhaustiva del dominio para nuevos investigadores
  2. Desarrollo de Métodos: Proporciona marco teórico unificado para desarrollo de nuevos métodos
  3. Construcción de Puntos de Referencia: Proporciona orientación para puntos de referencia estandarizados
  4. Aplicaciones Industriales: Proporciona referencia para desarrollo de sistemas de visión robótica

Referencias

El artículo cita más de 150 referencias relacionadas, cubriendo todos los aspectos de la predicción de asequibilidad visual, incluyendo:

  • Fundamentos teóricos de asequibilidad de Gibson
  • Aplicaciones de aprendizaje profundo en visión por computadora
  • Investigación relacionada con agarre y manipulación robótica
  • Construcción de conjuntos de datos y métodos de evaluación
  • Trabajos relacionados en investigación de reproducibilidad

Evaluación General: Este es un artículo de encuesta de alta calidad que analiza sistemáticamente el estado actual y problemas del campo de predicción de asequibilidad visual. El marco unificado propuesto y la Hoja de Asequibilidad poseen valor teórico y práctico importante, con potencial para impulsar el desarrollo estandarizado del dominio. Aunque carece de validación experimental, como trabajo de encuesta, alcanza un nivel muy alto tanto en profundidad como en amplitud de análisis.