Visual Affordance Prediction: Survey and Reproducibility
Apicella, Xompero, Cavallaro
Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
academic
التنبؤ بالقدرات البصرية: مسح شامل وقابلية إعادة الإنتاج
القدرات هي الإجراءات المحتملة التي يمكن لعامل ما تنفيذها على جسم ما، كما يلاحظها الكاميرا. يتم صياغة التنبؤ بالقدرات البصرية بطرق مختلفة لمهام مثل كشف الإمساك وتصنيف القدرات وتقسيم القدرات وتقدير وضعية اليد. يؤدي هذا التنوع في الصيغ إلى تعريفات غير متسقة تمنع المقارنات العادلة بين الطرق. في هذه الورقة، نقترح صيغة موحدة للتنبؤ بالقدرات البصرية من خلال الأخذ في الاعتبار المعلومات الكاملة عن الأجسام المعنية وتفاعل العامل مع الأجسام لإنجاز مهمة. تسمح هذه الصيغة الموحدة بمراجعة شاملة ومنهجية للأعمال المختلفة في مجال القدرات البصرية، مع تسليط الضوء على نقاط القوة والضعف في كل من الطرق والمجموعات البيانية. نناقش أيضاً مشاكل قابلية إعادة الإنتاج، مثل عدم توفر تطبيقات الطرق وتفاصيل الإعدادات التجريبية، مما يجعل المعايير الخاصة بالتنبؤ بالقدرات البصرية غير عادلة وغير موثوقة. لتعزيز الشفافية، نقدم ورقة القدرات، وهي وثيقة توضح الحل والمجموعات البيانية والتحقق من صحة الطريقة، مما يدعم قابلية إعادة الإنتاج والعدالة في المستقبل في المجتمع العلمي.
التنبؤ بالقدرات البصرية هو اتجاه بحثي مهم في المجال المتقاطع بين رؤية الحاسوب والروبوتات. تشير القدرات إلى الإجراءات المحتملة التي يمكن لعامل ذكي (إنسان أو روبوت) تنفيذها على الأجسام عند مراقبة المشهد. ومع ذلك، يواجه البحث الحالي المشاكل الرئيسية التالية:
عدم اتساق التعريفات: تستخدم المهام المختلفة مثل كشف الإمساك وتصنيف القدرات وتقسيم القدرات وتقدير وضعية اليد صيغ مختلفة للمشكلة، مما يجعل المقارنة العادلة بين الطرق مستحيلة
عدم اكتمال المعلومات: عادة ما تأخذ الطرق الحالية في الاعتبار فقط جزء من المعلومات، وتفتقر إلى نمذجة عملية التفاعل الكاملة
أزمة قابلية إعادة الإنتاج: نقص تطبيقات الطرق وتفاصيل الإعدادات التجريبية يجعل الاختبارات المعيارية غير عادلة وغير موثوقة
يعتبر التنبؤ بالقدرات البصرية حاسماً لتحقيق العمليات المستقلة للروبوتات الذكية، خاصة في سيناريوهات التعاون بين الإنسان والآلة والروبوتات المساعدة. يمكن للتنبؤ الدقيق بقدرات الأجسام أن:
تستشهد الورقة بأكثر من 150 مرجع ذي صلة، تغطي جميع جوانب التنبؤ بالقدرات البصرية، بما في ذلك:
الأساس النظري لنظرية القدرات لـ Gibson
تطبيقات التعلم العميق في رؤية الحاسوب
الأبحاث المتعلقة بالإمساك والتلاعب الروبوتي
بناء المجموعات البيانية وطرق التقييم
الأعمال ذات الصلة بأبحاث قابلية إعادة الإنتاج
التقييم الشامل: هذه ورقة مسح عالية الجودة تحلل بشكل منهجي الحالة الحالية والمشاكل في مجال التنبؤ بالقدرات البصرية. يتمتع الإطار الموحد وورقة القدرات المقترحة بقيمة نظرية وعملية مهمة، وقد يدفعان نحو التطور الموحد للمجال. على الرغم من نقص التحقق التجريبي، إلا أن عمق وشمول التحليل كعمل مسح يصل إلى مستوى عالي جداً.