2025-11-15T06:16:11.966074

Visual Affordance Prediction: Survey and Reproducibility

Apicella, Xompero, Cavallaro

Affordances are the potential actions an agent can perform on an object, as observed by a camera. Visual affordance prediction is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand pose estimation. This diversity in formulations leads to inconsistent definitions that prevent fair comparisons between methods. In this paper, we propose a unified formulation of visual affordance prediction by accounting for the complete information on the objects of interest and the interaction of the agent with the objects to accomplish a task. This unified formulation allows us to comprehensively and systematically review disparate visual affordance works, highlighting strengths and limitations of both methods and datasets. We also discuss reproducibility issues, such as the unavailability of methods implementation and experimental setups details, making benchmarks for visual affordance prediction unfair and unreliable. To favour transparency, we introduce the Affordance Sheet, a document that details the solution, datasets, and validation of a method, supporting future reproducibility and fairness in the community.

academic

ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন: সমীক্ষা এবং পুনরুৎপাদনযোগ্যতা

মৌলিক তথ্য

পেপার আইডি: 2505.05074
শিরোনাম: Visual Affordance Prediction: Survey and Reproducibility
লেখক: Tommaso Apicella, Alessio Xompero, Andrea Cavallaro
শ্রেণীবিভাগ: cs.CV cs.RO
প্রকাশনার সময়/সম্মেলন: IEEE জার্নালে জমা দেওয়া (২০২৫ সালের অক্টোবর)
পেপার লিঙ্ক: https://arxiv.org/abs/2505.05074

সারসংক্ষেপ

অ্যাফোর্ডেন্স হল সম্ভাব্য ক্রিয়াকলাপ যা একটি এজেন্ট ক্যামেরা দ্বারা পর্যবেক্ষণ করা একটি বস্তুর উপর সম্পাদন করতে পারে। ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন গ্রাসপিং ডিটেকশন, অ্যাফোর্ডেন্স ক্লাসিফিকেশন, অ্যাফোর্ডেন্স সেগমেন্টেশন এবং হ্যান্ড পোজ এস্টিমেশনের মতো কাজের জন্য বিভিন্নভাবে প্রণয়ন করা হয়। সূত্রগুলিতে এই বৈচিত্র্য অসামঞ্জস্যপূর্ণ সংজ্ঞার দিকে পরিচালিত করে যা পদ্ধতিগুলির মধ্যে ন্যায্য তুলনা প্রতিরোধ করে। এই পেপারে, আমরা আগ্রহের বস্তুগুলির সম্পূর্ণ তথ্য এবং একটি কাজ সম্পাদনের জন্য এজেন্টের বস্তুগুলির সাথে মিথস্ক্রিয়া বিবেচনা করে ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনের একটি একীভূত সূত্র প্রস্তাব করি। এই একীভূত সূত্র আমাদের বিভিন্ন ভিজ্যুয়াল অ্যাফোর্ডেন্স কাজগুলি ব্যাপকভাবে এবং পদ্ধতিগতভাবে পর্যালোচনা করতে দেয়, পদ্ধতি এবং ডেটাসেট উভয়ের শক্তি এবং সীমাবদ্ধতা তুলে ধরে। আমরা পুনরুৎপাদনযোগ্যতার সমস্যাগুলিও আলোচনা করি, যেমন পদ্ধতি বাস্তবায়ন এবং পরীক্ষামূলক সেটআপ বিবরণের অনুপলব্ধতা, যা ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনের জন্য বেঞ্চমার্কগুলিকে অন্যায্য এবং অনির্ভরযোগ্য করে তোলে। স্বচ্ছতা বৃদ্ধির জন্য, আমরা অ্যাফোর্ডেন্স শীট প্রবর্তন করি, একটি নথি যা একটি পদ্ধতির সমাধান, ডেটাসেট এবং যাচাইকরণের বিবরণ দেয়, ভবিষ্যতের পুনরুৎপাদনযোগ্যতা এবং সম্প্রদায়ে ন্যায্যতা সমর্থন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন কম্পিউটার ভিশন এবং রোবোটিক্সের ছেদ ক্ষেত্রে একটি গুরুত্বপূর্ণ গবেষণা দিক। অ্যাফোর্ডেন্স বলতে বোঝায় একটি এজেন্ট (মানুষ বা রোবট) যখন একটি দৃশ্য পর্যবেক্ষণ করে তখন একটি বস্তুর উপর সম্পাদন করতে পারে এমন সম্ভাব্য ক্রিয়াকলাপ। তবে, বর্তমান গবেষণায় নিম্নলিখিত মূল সমস্যা রয়েছে:

সংজ্ঞার অসামঞ্জস্য: গ্রাসপিং ডিটেকশন, অ্যাফোর্ডেন্স ক্লাসিফিকেশন, অ্যাফোর্ডেন্স সেগমেন্টেশন, হ্যান্ড পোজ এস্টিমেশনের মতো বিভিন্ন কাজ বিভিন্ন সমস্যা প্রণয়ন ব্যবহার করে, যার ফলে পদ্ধতিগুলির মধ্যে ন্যায্য তুলনা অসম্ভব হয়ে ওঠে
অসম্পূর্ণ তথ্য: বর্তমান পদ্ধতিগুলি সাধারণত শুধুমাত্র আংশিক তথ্য বিবেচনা করে, সম্পূর্ণ মিথস্ক্রিয়া প্রক্রিয়ার মডেলিং অনুপস্থিত
পুনরুৎপাদনযোগ্যতার সংকট: পদ্ধতি বাস্তবায়ন, পরীক্ষামূলক সেটআপ বিবরণের অভাব, যা বেঞ্চমার্ক পরীক্ষাকে অন্যায্য এবং অনির্ভরযোগ্য করে তোলে

গবেষণার গুরুত্ব

ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন স্বায়ত্তশাসিত রোবোটিক ম্যানিপুলেশন বাস্তবায়নের জন্য অত্যন্ত গুরুত্বপূর্ণ, বিশেষত মানব-রোবট সহযোগিতা এবং সহায়ক রোবটের মতো অ্যাপ্লিকেশন পরিস্থিতিতে। বস্তু অ্যাফোর্ডেন্স নির্ভুলভাবে পূর্বাভাস দেওয়া নিম্নলিখিত সক্ষম করতে পারে:

রোবোটিক ম্যানিপুলেশনের নিরাপত্তা এবং দক্ষতা বৃদ্ধি
আরও প্রাকৃতিক মানব-রোবট মিথস্ক্রিয়া বাস্তবায়ন
জটিল পরিবেশে কাজের পরিকল্পনা সমর্থন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

সমস্যা প্রণয়ন বিক্ষিপ্ত: প্রতিটি কাজের নিজস্ব সংজ্ঞা রয়েছে, একীভূত কাঠামোর অভাব
মূল্যায়ন অসামঞ্জস্যপূর্ণ: বিভিন্ন ডেটাসেট এবং মূল্যায়ন মেট্রিক্স পদ্ধতি তুলনা কঠিন করে তোলে
দুর্বল পুনরুৎপাদনযোগ্যতা: পরীক্ষামূলক সেটআপ বিবরণ অনুপস্থিত, কোড এবং মডেল ওজন অ্যাক্সেসযোগ্য নয়

মূল অবদান

একীভূত ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন ফ্রেমওয়ার্ক প্রস্তাব: "কী করতে হবে (what)", "কোথায় (where)", "কীভাবে করতে হবে (how)" তিনটি মাত্রার সম্পূর্ণ তথ্য একীভূত করে
পদ্ধতিগত সমীক্ষা: একীভূত ফ্রেমওয়ার্কের উপর ভিত্তি করে বিদ্যমান পদ্ধতিগুলির ব্যাপক বিশ্লেষণ, প্রতিটির শক্তি এবং সীমাবদ্ধতা প্রকাশ করে
পুনরুৎপাদনযোগ্যতা বিশ্লেষণ: ক্ষেত্রে পুনরুৎপাদনযোগ্যতা সমস্যা এবং তাদের মূল কারণ গভীরভাবে আলোচনা করে
অ্যাফোর্ডেন্স শীট প্রস্তাব: মডেল কার্ডের মতো নথি মান, গবেষণা স্বচ্ছতা এবং পুনরুৎপাদনযোগ্যতা প্রচার করে
ডেটাসেট এবং পদ্ধতির পদ্ধতিগত তুলনা: বিস্তারিত বৈশিষ্ট্য বিশ্লেষণ এবং সীমাবদ্ধতা আলোচনা প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

পেপারটি একীভূত ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন সূত্র প্রস্তাব করে:

f(xv, T, e) → {a, o, S, P}

যেখানে:

ইনপুট:
- xv: পর্যবেক্ষিত দৃশ্য (RGB ইমেজ)
- T: কাজের বর্ণনা (পাঠ্য ক্রম)
- e: এজেন্ট হাতের বৈশিষ্ট্য (প্যারামিটারাইজড মডেল)
আউটপুট:
- a: সম্ভাব্য ক্রিয়াকলাপ
- o: সম্পর্কিত বস্তু
- S: মিথস্ক্রিয়া অঞ্চল
- P: হাতের ভঙ্গি

একীভূত ফ্রেমওয়ার্কের তিনটি মাত্রা

What (কী করতে হবে): এজেন্ট বস্তুর উপর সম্পাদন করতে পারে এমন ক্রিয়াকলাপ পূর্বাভাস দেওয়া
Where (কোথায়): এজেন্টের হাত এবং বস্তুর মিথস্ক্রিয়া অঞ্চল নির্ধারণ করা
How (কীভাবে): মিথস্ক্রিয়া সম্পাদনের জন্য সবচেয়ে যুক্তিসঙ্গত হাতের ভঙ্গি অনুমান করা

উপকাজ বিভাজন

পেপারটি ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনকে পাঁচটি উপকাজে বিভক্ত করে:

বস্তু স্থানীয়করণ: দৃশ্যে প্রাসঙ্গিক বস্তু চিহ্নিত করা
কার্যকারিতা শ্রেণীবিভাগ: প্রতিটি বস্তুর সম্ভাব্য ক্রিয়াকলাপ পূর্বাভাস দেওয়া
কার্যকারিতা বিভাজন: বস্তুর উপর নির্দিষ্ট ক্রিয়াকলাপ সমর্থনকারী অঞ্চল বিভক্ত করা
হাতের ভঙ্গি অনুমান: এজেন্টের হাতের ভঙ্গি অনুমান করা
হাত রেন্ডারিং: RGB ইমেজে হাত মিথস্ক্রিয়া রেন্ডার করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

সম্পূর্ণতা: প্রথমবারের মতো সম্পূর্ণ মিথস্ক্রিয়া তথ্য সহ একীভূত ফ্রেমওয়ার্ক প্রস্তাব করা
কাজ-ভিত্তিক: কাজকে ইনপুট শর্ত হিসাবে স্পষ্টভাবে সংজ্ঞায়িত করা, সমাধান স্থান সীমাবদ্ধ করা
এজেন্ট উপলব্ধি: এজেন্টের হাতের বৈশিষ্ট্য অ্যাফোর্ডেন্সের উপর প্রভাব বিবেচনা করা
পদ্ধতিগত: বিভিন্ন উপকাজের মধ্যে স্পষ্ট ম্যাপিং সম্পর্ক প্রদান করা

পরীক্ষামূলক সেটআপ

ডেটাসেট বিশ্লেষণ

পেপারটি ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন ক্ষেত্রের প্রধান ডেটাসেটগুলি পদ্ধতিগতভাবে বিশ্লেষণ করে, কাজের ধরন অনুযায়ী শ্রেণীবদ্ধ করে:

কাজের ধরন	প্রতিনিধি ডেটাসেট	ইমেজ সংখ্যা	বস্তু বিভাগ	অ্যাফোর্ডেন্স বিভাগ
বস্তু সনাক্তকরণ	COCO-Task	39,724	49	-
অ্যাফোর্ডেন্স শ্রেণীবিভাগ	Pieropan et al.	~40,000	4	4
অ্যাফোর্ডেন্স বিভাজন	UMD	28,843	17	7
গ্রাসপিং সনাক্তকরণ	Cornell	1,035	-	1
হাত-বস্তু মিথস্ক্রিয়া	YCB-Affordance	133,936	58	1

মূল্যায়ন মেট্রিক্স সিস্টেম

পেপারটি বিভিন্ন উপকাজের জন্য সংশ্লিষ্ট মূল্যায়ন মেট্রিক্স সুপারিশ করে:

কার্যকারিতা শ্রেণীবিভাগ: নির্ভুলতা (Precision), প্রত্যাহার (Recall), F1 স্কোর
কার্যকারিতা বিভাজন: Jaccard সূচক, নির্ভুলতা, প্রত্যাহার
হাতের ভঙ্গি অনুমান: অনুপ্রবেশ ভলিউম, বিশ্লেষণ গ্রাসপিং স্কোর
হাত সংশ্লেষণ: Fréchet Inception Distance (FID)

পরীক্ষামূলক ফলাফল

পুনরুৎপাদনযোগ্যতা চ্যালেঞ্জ বিশ্লেষণ

পেপারটি পাঁচটি প্রধান পুনরুৎপাদনযোগ্যতা চ্যালেঞ্জ (RC) চিহ্নিত করে:

RC1 - ডেটা উপলব্ধতা: বিশেষায়িত বেঞ্চমার্ক ডেটাসেটের অভাব
RC2 - পদ্ধতি বাস্তবায়ন: কোড বাস্তবায়ন অ্যাক্সেসযোগ্য নয়
RC3 - প্রশিক্ষণ মডেল: প্রাক-প্রশিক্ষিত মডেল ওজন অনুপস্থিত
RC4 - পরীক্ষামূলক সেটআপ: পরীক্ষামূলক কনফিগারেশন বিবরণ অসম্পূর্ণ
RC5 - মূল্যায়ন মেট্রিক্স: কর্মক্ষমতা পরিমাপ পদ্ধতি অসামঞ্জস্যপূর্ণ

সেটআপ অসামঞ্জস্য কেস

UMD ডেটাসেটে অ্যাফোর্ডেন্স বিভাজন পদ্ধতির উদাহরণ:

পদ্ধতি	রেজোলিউশন	ডেটা বর্ধন	ইমেজ প্রি-প্রসেসিং
AffordanceNet	1000×600	নেই	অজানা
CNN	320×240	নেই	কেন্দ্র ক্রপিং
GSE	400×400	ফ্লিপ+স্কেলিং	ক্রপিং

এই সেটআপ পার্থক্য পদ্ধতিগুলির মধ্যে ন্যায্য তুলনা অসম্ভব করে তোলে।

ডেটাসেট সীমাবদ্ধতা বিশ্লেষণ

স্কেল সীমাবদ্ধতা: বেশিরভাগ ডেটাসেটে ২০টিরও কম বস্তু বিভাগ এবং ১০টি অ্যাফোর্ডেন্স বিভাগ রয়েছে
সহজ দৃশ্য: প্রধানত একক বস্তুতে ফোকাস করে, অবরোধ এবং বিশৃঙ্খল দৃশ্যের অভাব
একক দৃষ্টিভঙ্গি: বেশিরভাগ তৃতীয় ব্যক্তির দৃষ্টিভঙ্গি ব্যবহার করে, প্রথম ব্যক্তির ডেটার অভাব
বস্তু ধরনের সীমাবদ্ধতা: প্রধানত সরঞ্জাম এবং পাত্রে ফোকাস করে, স্বচ্ছ বস্তু বিবেচনা অপর্যাপ্ত

সমীক্ষা	একীভূত ফ্রেমওয়ার্ক	পুনরুৎপাদনযোগ্যতা	ডেটাসেট বিশ্লেষণ	পদ্ধতি সীমাবদ্ধতা
Hassanin et al.	✗	✗	✓	✓
Chen et al.	✗	✗	✓	✓
এই পেপার	✓	✓	✓	✓

উপসংহার এবং আলোচনা

প্রধান উপসংহার

একীভূত ফ্রেমওয়ার্কের প্রয়োজনীয়তা: বিদ্যমান পদ্ধতিগুলি একীভূত প্রকাশের অভাব, একটি সমন্বিত ফ্রেমওয়ার্ক প্রয়োজন
গুরুতর পুনরুৎপাদনযোগ্যতা সংকট: অনেক পদ্ধতি বাস্তবায়ন বিবরণ এবং কোড অনুপস্থিত
ডেটাসেট উন্নতির প্রয়োজন: বিদ্যমান ডেটাসেটগুলি ছোট স্কেল, সহজ দৃশ্য
মূল্যায়ন মান অসামঞ্জস্যপূর্ণ: মানসম্মত মূল্যায়ন প্রোটোকল প্রয়োজন

সীমাবদ্ধতা

ফ্রেমওয়ার্ক যাচাইকরণ অপর্যাপ্ত: পেপারটি প্রধানত তাত্ত্বিক বিশ্লেষণ, একীভূত ফ্রেমওয়ার্কের পরীক্ষামূলক যাচাইকরণের অভাব
বাস্তবায়ন বিবরণ অনুপস্থিত: একীভূত ফ্রেমওয়ার্কের নির্দিষ্ট বাস্তবায়ন পদ্ধতি স্পষ্ট নয়
গণনামূলক জটিলতা: সম্পূর্ণ ফ্রেমওয়ার্ক গণনামূলক ওভারহেড বৃদ্ধি করতে পারে

ভবিষ্যত দিকনির্দেশনা

বস্তু ভৌত বৈশিষ্ট্য অনুমান: বহু-মোডাল তথ্য একত্রিত করে বস্তু বৈশিষ্ট্য অনুমান করা
AI এজেন্ট একীকরণ: বড় ভিজ্যুয়াল-ভাষা মডেলের সাথে সংমিশ্রণ
ডেটাসেট সম্প্রসারণ: বৃহত্তর স্কেল, আরও জটিল ডেটাসেট নির্মাণ
বেঞ্চমার্ক পরীক্ষা মানসম্মতকরণ: মানসম্মত মূল্যায়ন প্রোটোকল প্রতিষ্ঠা করা

গভীর মূল্যায়ন

সুবিধা

গুরুত্বপূর্ণ এবং সময়োপযোগী সমস্যা: ক্ষেত্রে দীর্ঘস্থায়ী সংজ্ঞা বিভ্রান্তি সমস্যা সমাধান করে
ব্যাপক এবং গভীর বিশ্লেষণ: পদ্ধতি, ডেটাসেট এবং পুনরুৎপাদনযোগ্যতা সমস্যা পদ্ধতিগতভাবে বিশ্লেষণ করে
উচ্চ ব্যবহারিক মূল্য: অ্যাফোর্ডেন্স শীট সম্প্রদায়ের জন্য মূল্যবান সরঞ্জাম প্রদান করে
স্পষ্ট লেখা: সম্পূর্ণ কাঠামো, স্পষ্ট অভিব্যক্তি, সমৃদ্ধ টেবিল এবং চিত্র

অসুবিধা

পরীক্ষামূলক যাচাইকরণের অভাব: প্রধানত সমীক্ষা কাজ, একীভূত ফ্রেমওয়ার্কের পরীক্ষামূলক প্রমাণের অভাব
পদ্ধতি বাস্তবায়ন বিমূর্ত: একীভূত ফ্রেমওয়ার্কের নির্দিষ্ট বাস্তবায়ন পথ যথেষ্ট স্পষ্ট নয়
মূল্যায়ন বিষয়গত: পুনরুৎপাদনযোগ্যতা সমস্যার কিছু বিশ্লেষণ বিষয়গত বিচার থাকতে পারে

প্রভাব

একাডেমিক মূল্য: ক্ষেত্রের জন্য গুরুত্বপূর্ণ তাত্ত্বিক ফ্রেমওয়ার্ক এবং বিশ্লেষণ সরঞ্জাম প্রদান করে
ব্যবহারিক তাৎপর্য: অ্যাফোর্ডেন্স শীট গবেষণা নিয়মকানুন প্রচার করতে পারে
প্রচারমূলক প্রভাব: ডেটাসেট এবং মূল্যায়ন মান মানসম্মতকরণ চালিত করতে পারে

প্রযোজ্য পরিস্থিতি

গবেষকদের প্রবেশ: নতুন গবেষকদের জন্য ব্যাপক ক্ষেত্র সংক্ষিপ্ত বিবরণ প্রদান করে
পদ্ধতি উন্নয়ন: নতুন পদ্ধতি উন্নয়নের জন্য একীভূত তাত্ত্বিক ফ্রেমওয়ার্ক প্রদান করে
বেঞ্চমার্ক নির্মাণ: মানসম্মত বেঞ্চমার্ক পরীক্ষার জন্য নির্দেশনা প্রদান করে
শিল্প প্রয়োগ: রোবোটিক ভিজ্যুয়াল সিস্টেম উন্নয়নের জন্য রেফারেন্স প্রদান করে

তথ্যসূত্র

পেপারটি ১৫০+ সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশনের বিভিন্ন দিক কভার করে, যার মধ্যে রয়েছে:

Gibson এর অ্যাফোর্ডেন্স তত্ত্ব ভিত্তি
কম্পিউটার ভিশনে গভীর শিক্ষার প্রয়োগ
রোবোটিক গ্রাসপিং এবং ম্যানিপুলেশন সম্পর্কিত গবেষণা
ডেটাসেট নির্মাণ এবং মূল্যায়ন পদ্ধতি
পুনরুৎপাদনযোগ্যতা গবেষণার সম্পর্কিত কাজ

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের সমীক্ষা পেপার যা ভিজ্যুয়াল অ্যাফোর্ডেন্স প্রেডিকশন ক্ষেত্রের বর্তমান অবস্থা এবং সমস্যাগুলি পদ্ধতিগতভাবে বিশ্লেষণ করে। পেপারটি প্রস্তাবিত একীভূত ফ্রেমওয়ার্ক এবং অ্যাফোর্ডেন্স শীট গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্য রাখে, ক্ষেত্রের মানসম্মতকরণ উন্নয়ন চালিত করার সম্ভাবনা রয়েছে। যদিও পরীক্ষামূলক যাচাইকরণের অভাব রয়েছে, তবে সমীক্ষা কাজ হিসাবে এর বিশ্লেষণের গভীরতা এবং প্রস্থ অত্যন্ত উচ্চ স্তরে পৌঁছেছে।