2025-11-15T06:16:11.966074

Visual Affordance Prediction: Survey and Reproducibility

Apicella, Xompero, Cavallaro

Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.

academic

Предсказание визуальной доступности: Обзор и воспроизводимость

Основная информация

ID статьи: 2505.05074
Название: Visual Affordance Prediction: Survey and Reproducibility
Авторы: Tommaso Apicella, Alessio Xompero, Andrea Cavallaro
Классификация: cs.CV cs.RO
Время публикации/конференция: Подано в журнал IEEE (октябрь 2025)
Ссылка на статью: https://arxiv.org/abs/2505.05074

Аннотация

Доступность (affordances) — это потенциальные действия, которые агент может выполнить на объекте, наблюдаемые камерой. Предсказание визуальной доступности формулируется по-разному для таких задач, как обнаружение захвата, классификация доступности, сегментация доступности и оценка позы руки. Это разнообразие формулировок приводит к несогласованным определениям, препятствующим справедливому сравнению методов. В данной статье мы предлагаем унифицированную формулировку предсказания визуальной доступности, учитывающую полную информацию об интересующих объектах и взаимодействие агента с объектами для выполнения задачи. Эта унифицированная формулировка позволяет нам всесторонне и систематически рассмотреть разнородные работы по визуальной доступности, выявляя сильные стороны и ограничения как методов, так и наборов данных. Мы также обсуждаем проблемы воспроизводимости, такие как недоступность реализации методов и деталей экспериментальных установок, делающие эталоны для предсказания визуальной доступности несправедливыми и ненадежными. Для повышения прозрачности мы вводим Affordance Sheet — документ, детализирующий решение, наборы данных и валидацию метода, поддерживающий будущую воспроизводимость и справедливость в сообществе.

Исследовательский контекст и мотивация

Определение проблемы

Предсказание визуальной доступности (Visual Affordance Prediction) — это важное направление исследований на пересечении компьютерного зрения и робототехники. Доступность (Affordances) относится к потенциальным действиям, которые интеллектуальный агент (человек или робот) может выполнить на объекте при наблюдении сцены. Однако существующие исследования сталкиваются со следующими ключевыми проблемами:

Несогласованность определений: Различные задачи, такие как обнаружение захвата, классификация доступности, сегментация доступности, оценка позы руки, используют разные формулировки проблем, что препятствует справедливому сравнению методов
Неполнота информации: Существующие методы обычно рассматривают только частичную информацию, не хватает моделирования полного процесса взаимодействия
Кризис воспроизводимости: Отсутствие деталей реализации методов и экспериментальных установок делает эталонные тесты несправедливыми и ненадежными

Значимость исследования

Предсказание визуальной доступности имеет решающее значение для реализации автономных операций интеллектуальных роботов, особенно в сценариях применения, таких как сотрудничество человека и робота, вспомогательные роботы. Точное предсказание доступности объектов может:

Повысить безопасность и эффективность операций робота
Обеспечить более естественное взаимодействие человека и робота
Поддержать планирование задач в сложных окружающих средах

Ограничения существующих методов

Разрозненная формулировка проблем: Каждая задача имеет независимое определение, отсутствует унифицированная структура
Несогласованная оценка: Различные наборы данных и метрики оценки затрудняют сравнение методов
Плохая воспроизводимость: Отсутствие деталей экспериментальной установки, недоступность кода и весов моделей

Основные вклады

Предложение унифицированной структуры предсказания визуальной доступности: Интеграция полной информации по трем измерениям — "что делать (what)", "где делать (where)", "как делать (how)"
Систематический обзор: Всесторонний анализ существующих методов на основе унифицированной структуры, выявление их сильных сторон и ограничений
Анализ воспроизводимости: Углубленное обсуждение проблем воспроизводимости в области и их корней
Предложение Affordance Sheet: Стандарт документации, аналогичный Model Cards, для повышения прозрачности и воспроизводимости исследований
Систематическое сравнение наборов данных и методов: Предоставление подробного анализа характеристик и обсуждение ограничений

Подробное описание метода

Определение задачи

Статья предлагает унифицированную формулу предсказания визуальной доступности:

f(xv, T, e) → {a, o, S, P}

Где:

Входные данные:
- xv: наблюдаемая сцена (RGB-изображение)
- T: описание задачи (текстовая последовательность)
- e: характеристики руки агента (параметризованная модель)
Выходные данные:
- a: потенциальные действия
- o: соответствующие объекты
- S: области взаимодействия
- P: поза руки

Три измерения унифицированной структуры

What (Что делать): Предсказание действий, которые агент может выполнить на объекте
Where (Где делать): Определение области взаимодействия руки агента с объектом
How (Как делать): Оценка наиболее разумной позы руки для выполнения взаимодействия

Декомпозиция подзадач

Статья разбивает предсказание визуальной доступности на пять подзадач:

Локализация объектов: Идентификация соответствующих объектов в сцене
Классификация функциональности: Предсказание возможных действий для каждого объекта
Сегментация функциональности: Сегментация областей объекта, поддерживающих конкретные действия
Оценка позы руки: Оценка позы руки агента на объекте
Рендеринг руки: Рендеринг взаимодействия руки на RGB-изображении

Технические инновации

Полнота: Впервые предложена унифицированная структура с полной информацией о взаимодействии
Ориентация на задачу: Явное включение задачи в качестве входного условия для ограничения пространства решений
Восприятие агента: Учет влияния характеристик руки агента на доступность
Систематичность: Предоставление четких отображений между различными подзадачами

Экспериментальная установка

Анализ наборов данных

Статья систематически анализирует основные наборы данных в области предсказания визуальной доступности, классифицируя их по типам задач:

Тип задачи	Представительный набор данных	Количество изображений	Категории объектов	Категории доступности
Обнаружение объектов	COCO-Task	39,724	49	-
Классификация доступности	Pieropan et al.	~40,000	4	4
Сегментация доступности	UMD	28,843	17	7
Обнаружение захвата	Cornell	1,035	-	1
Взаимодействие рука-объект	YCB-Affordance	133,936	58	1

Система метрик оценки

Статья рекомендует соответствующие метрики оценки для различных подзадач:

Классификация функциональности: Точность (Precision), Полнота (Recall), F1-мера
Сегментация функциональности: Индекс Жаккара, Точность, Полнота
Оценка позы руки: Объем проникновения, Оценка аналитического захвата
Синтез руки: Fréchet Inception Distance (FID)

Результаты экспериментов

Анализ проблем воспроизводимости

Статья выявляет пять основных проблем воспроизводимости (RC):

RC1 - Доступность данных: Отсутствие специализированных эталонных наборов данных
RC2 - Реализация метода: Недоступность реализации кода
RC3 - Обученные модели: Отсутствие весов предварительно обученных моделей
RC4 - Экспериментальная установка: Неполные детали конфигурации экспериментов
RC5 - Метрики оценки: Несогласованность методов измерения производительности

Примеры несогласованности установок

На примере методов сегментации доступности на наборе данных UMD:

Метод	Разрешение	Увеличение данных	Предварительная обработка изображения
AffordanceNet	1000×600	Нет	Неизвестно
CNN	320×240	Нет	Центральное кадрирование
GSE	400×400	Отражение+масштабирование	Кадрирование

Такие различия в установках препятствуют справедливому сравнению методов.

Анализ ограничений наборов данных

Ограничения масштаба: Большинство наборов данных содержат менее 20 категорий объектов и 10 категорий доступности
Простые сцены: Основное внимание уделяется одиночным объектам, отсутствуют сцены с окклюзией и беспорядком
Единственная точка зрения: Большинство использует третье лицо, отсутствуют данные от первого лица
Ограничения типов объектов: Основное внимание инструментам и контейнерам, недостаточное рассмотрение прозрачных объектов

Связанные работы

Сравнение с существующими обзорами

По сравнению с предыдущими обзорами, данная статья имеет следующие особенности:

Обзор	Унифицированная структура	Воспроизводимость	Анализ наборов данных	Ограничения методов
Hassanin et al.	✗	✗	✓	✓
Chen et al.	✗	✗	✓	✓
Данная статья	✓	✓	✓	✓

Классификация методов

Статья классифицирует существующие методы по подзадачам:

Методы локализации объектов: От GGNN к методам на основе VLM
Методы классификации функциональности: От SVM к методам глубокого обучения
Методы сегментации функциональности: От семантической сегментации к адаптации сегментации экземпляров
Оценка позы руки: От обнаружения захвата к оценке позы многопальцевой руки

Выводы и обсуждение

Основные выводы

Необходимость унифицированной структуры: Существующие методы лишены унифицированного представления, требуется интегрированная структура
Серьезный кризис воспроизводимости: Большое количество методов лишено деталей реализации и кода
Необходимость улучшения наборов данных: Существующие наборы данных имеют малый масштаб и простые сцены
Несогласованность стандартов оценки: Требуется стандартизированный протокол оценки

Ограничения

Недостаточная валидация структуры: Статья в основном представляет теоретический анализ, не хватает экспериментальной валидации
Отсутствие деталей реализации: Конкретные методы реализации унифицированной структуры не ясны
Вычислительная сложность: Полная структура может привести к увеличению вычислительных затрат

Будущие направления

Оценка физических свойств объектов: Интеграция мультимодальной информации для оценки свойств объектов
Интеграция интеллектуальных агентов: Сочетание с крупномасштабными моделями зрения и языка
Расширение наборов данных: Создание более крупномасштабных и сложных наборов данных
Стандартизация эталонных тестов: Установление стандартизированного протокола оценки

Глубокая оценка

Преимущества

Важность и своевременность проблемы: Решение давней проблемы путаницы в определениях в области
Всесторонний и глубокий анализ: Систематический анализ методов, наборов данных и проблем воспроизводимости
Высокая практическая ценность: Affordance Sheet предоставляет ценный инструмент для сообщества
Ясное изложение: Полная структура, четкое выражение, богатые таблицы и графики

Недостатки

Отсутствие экспериментальной валидации: В основном это обзорная работа, не хватает экспериментального подтверждения унифицированной структуры
Абстрактная реализация методов: Конкретные пути реализации унифицированной структуры недостаточно ясны
Субъективность оценки: Анализ некоторых проблем воспроизводимости может содержать субъективные суждения

Влияние

Академическая ценность: Предоставление важной теоретической структуры и инструментов анализа для области
Практическое значение: Affordance Sheet может способствовать стандартизации исследований
Движущая сила: Может способствовать стандартизации наборов данных и стандартов оценки

Применимые сценарии

Введение для исследователей: Предоставление новым исследователям полного обзора области
Разработка методов: Предоставление унифицированной теоретической структуры для разработки новых методов
Построение эталонов: Руководство по стандартизированному построению эталонных тестов
Промышленное применение: Справочная информация для разработки систем робототехнического зрения

Библиография

Статья цитирует более 150 соответствующих работ, охватывающих все аспекты предсказания визуальной доступности, включая:

Теоретические основы доступности по Гибсону
Применение глубокого обучения в компьютерном зрении
Исследования робототехнического захвата и манипуляции
Построение наборов данных и методы оценки
Соответствующие работы по исследованию воспроизводимости

Общая оценка: Это высококачественная обзорная статья, систематически анализирующая текущее состояние и проблемы в области предсказания визуальной доступности. Предложенная унифицированная структура и Affordance Sheet имеют важную теоретическую и практическую ценность, способствуя стандартизированному развитию области. Хотя не хватает экспериментальной валидации, как обзорная работа, статья достигает высокого уровня глубины и широты анализа.