Visual Affordance Prediction: Survey and Reproducibility
Apicella, Xompero, Cavallaro
Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.
academic
ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন: সমীক্ষা এবং পুনরুৎপাদনযোগ্যতা
অ্যাফোর্ডেন্স হল সম্ভাব্য ক্রিয়াকলাপ যা একটি এজেন্ট ক্যামেরা দ্বারা পর্যবেক্ষণ করা একটি বস্তুর উপর সম্পাদন করতে পারে। ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন গ্রাসপিং ডিটেকশন, অ্যাফোর্ডেন্স ক্লাসিফিকেশন, অ্যাফোর্ডেন্স সেগমেন্টেশন এবং হ্যান্ড পোজ এস্টিমেশনের মতো কাজের জন্য বিভিন্নভাবে প্রণয়ন করা হয়। সূত্রগুলিতে এই বৈচিত্র্য অসামঞ্জস্যপূর্ণ সংজ্ঞার দিকে পরিচালিত করে যা পদ্ধতিগুলির মধ্যে ন্যায্য তুলনা প্রতিরোধ করে। এই পেপারে, আমরা আগ্রহের বস্তুগুলির সম্পূর্ণ তথ্য এবং একটি কাজ সম্পাদনের জন্য এজেন্টের বস্তুগুলির সাথে মিথস্ক্রিয়া বিবেচনা করে ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনের একটি একীভূত সূত্র প্রস্তাব করি। এই একীভূত সূত্র আমাদের বিভিন্ন ভিজ্যুয়াল অ্যাফোর্ডেন্স কাজগুলি ব্যাপকভাবে এবং পদ্ধতিগতভাবে পর্যালোচনা করতে দেয়, পদ্ধতি এবং ডেটাসেট উভয়ের শক্তি এবং সীমাবদ্ধতা তুলে ধরে। আমরা পুনরুৎপাদনযোগ্যতার সমস্যাগুলিও আলোচনা করি, যেমন পদ্ধতি বাস্তবায়ন এবং পরীক্ষামূলক সেটআপ বিবরণের অনুপলব্ধতা, যা ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনের জন্য বেঞ্চমার্কগুলিকে অন্যায্য এবং অনির্ভরযোগ্য করে তোলে। স্বচ্ছতা বৃদ্ধির জন্য, আমরা অ্যাফোর্ডেন্স শীট প্রবর্তন করি, একটি নথি যা একটি পদ্ধতির সমাধান, ডেটাসেট এবং যাচাইকরণের বিবরণ দেয়, ভবিষ্যতের পুনরুৎপাদনযোগ্যতা এবং সম্প্রদায়ে ন্যায্যতা সমর্থন করে।
ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন কম্পিউটার ভিশন এবং রোবোটিক্সের ছেদ ক্ষেত্রে একটি গুরুত্বপূর্ণ গবেষণা দিক। অ্যাফোর্ডেন্স বলতে বোঝায় একটি এজেন্ট (মানুষ বা রোবট) যখন একটি দৃশ্য পর্যবেক্ষণ করে তখন একটি বস্তুর উপর সম্পাদন করতে পারে এমন সম্ভাব্য ক্রিয়াকলাপ। তবে, বর্তমান গবেষণায় নিম্নলিখিত মূল সমস্যা রয়েছে:
সংজ্ঞার অসামঞ্জস্য: গ্রাসপিং ডিটেকশন, অ্যাফোর্ডেন্স ক্লাসিফিকেশন, অ্যাফোর্ডেন্স সেগমেন্টেশন, হ্যান্ড পোজ এস্টিমেশনের মতো বিভিন্ন কাজ বিভিন্ন সমস্যা প্রণয়ন ব্যবহার করে, যার ফলে পদ্ধতিগুলির মধ্যে ন্যায্য তুলনা অসম্ভব হয়ে ওঠে
অসম্পূর্ণ তথ্য: বর্তমান পদ্ধতিগুলি সাধারণত শুধুমাত্র আংশিক তথ্য বিবেচনা করে, সম্পূর্ণ মিথস্ক্রিয়া প্রক্রিয়ার মডেলিং অনুপস্থিত
পুনরুৎপাদনযোগ্যতার সংকট: পদ্ধতি বাস্তবায়ন, পরীক্ষামূলক সেটআপ বিবরণের অভাব, যা বেঞ্চমার্ক পরীক্ষাকে অন্যায্য এবং অনির্ভরযোগ্য করে তোলে
ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন স্বায়ত্তশাসিত রোবোটিক ম্যানিপুলেশন বাস্তবায়নের জন্য অত্যন্ত গুরুত্বপূর্ণ, বিশেষত মানব-রোবট সহযোগিতা এবং সহায়ক রোবটের মতো অ্যাপ্লিকেশন পরিস্থিতিতে। বস্তু অ্যাফোর্ডেন্স নির্ভুলভাবে পূর্বাভাস দেওয়া নিম্নলিখিত সক্ষম করতে পারে:
রোবোটিক ম্যানিপুলেশনের নিরাপত্তা এবং দক্ষতা বৃদ্ধি
একীভূত ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন ফ্রেমওয়ার্ক প্রস্তাব: "কী করতে হবে (what)", "কোথায় (where)", "কীভাবে করতে হবে (how)" তিনটি মাত্রার সম্পূর্ণ তথ্য একীভূত করে
পদ্ধতিগত সমীক্ষা: একীভূত ফ্রেমওয়ার্কের উপর ভিত্তি করে বিদ্যমান পদ্ধতিগুলির ব্যাপক বিশ্লেষণ, প্রতিটির শক্তি এবং সীমাবদ্ধতা প্রকাশ করে
পুনরুৎপাদনযোগ্যতা বিশ্লেষণ: ক্ষেত্রে পুনরুৎপাদনযোগ্যতা সমস্যা এবং তাদের মূল কারণ গভীরভাবে আলোচনা করে
অ্যাফোর্ডেন্স শীট প্রস্তাব: মডেল কার্ডের মতো নথি মান, গবেষণা স্বচ্ছতা এবং পুনরুৎপাদনযোগ্যতা প্রচার করে
ডেটাসেট এবং পদ্ধতির পদ্ধতিগত তুলনা: বিস্তারিত বৈশিষ্ট্য বিশ্লেষণ এবং সীমাবদ্ধতা আলোচনা প্রদান করে
পেপারটি ১৫০+ সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনের বিভিন্ন দিক কভার করে, যার মধ্যে রয়েছে:
Gibson এর অ্যাফোর্ডেন্স তত্ত্ব ভিত্তি
কম্পিউটার ভিশনে গভীর শিক্ষার প্রয়োগ
রোবোটিক গ্রাসপিং এবং ম্যানিপুলেশন সম্পর্কিত গবেষণা
ডেটাসেট নির্মাণ এবং মূল্যায়ন পদ্ধতি
পুনরুৎপাদনযোগ্যতা গবেষণার সম্পর্কিত কাজ
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের সমীক্ষা পেপার যা ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন ক্ষেত্রের বর্তমান অবস্থা এবং সমস্যাগুলি পদ্ধতিগতভাবে বিশ্লেষণ করে। পেপারটি প্রস্তাবিত একীভূত ফ্রেমওয়ার্ক এবং অ্যাফোর্ডেন্স শীট গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্য রাখে, ক্ষেত্রের মানসম্মতকরণ উন্নয়ন চালিত করার সম্ভাবনা রয়েছে। যদিও পরীক্ষামূলক যাচাইকরণের অভাব রয়েছে, তবে সমীক্ষা কাজ হিসাবে এর বিশ্লেষণের গভীরতা এবং প্রস্থ অত্যন্ত উচ্চ স্তরে পৌঁছেছে।