এই পেপারটি শীতকালীন ক্রীড়া দৃশ্যের জন্য একটি নতুন ইন্টারেক্টিভ বিভাজন স্থাপত্য SkipClick প্রস্তাব করে। ইন্টারেক্টিভ বিভাজন ব্যবহারকারী-নির্দেশিত তথ্যের মাধ্যমে উচ্চ মানের বিভাজন মুখোশ পূর্বাভাস দেয়, এই পেপারটি ক্লিক প্রম্পট ব্যবহার করে নির্দেশনা প্রদান করে। লেখকরা প্রথমে ক্লিকের পরে দ্রুত প্রতিক্রিয়ার জন্য একটি বেসলাইন স্থাপত্য প্রস্তাব করেন, তারপর WSESeg ডেটাসেটে শীতকালীন ক্রীড়া সরঞ্জাম বিভাজনের কর্মক্ষমতা উন্নত করার জন্য একাধিক স্থাপত্য উন্নতি বর্ণনা করেন। WSESeg বিভাগে গড় NoC@85 মেট্রিকে, এই পদ্ধতি যথাক্রমে SAM এবং HQ-SAM থেকে ২.৩৩৬ এবং ৭.৯৪৬ ক্লিক হ্রাস করে। HQSeg-44k ডেটাসেটে, সিস্টেমটি অত্যাধুনিক ফলাফল অর্জন করে, NoC@90 ৬.০০ এবং NoC@95 ৯.৮৯। অতিরিক্তভাবে, লেখকরা নতুন প্রস্তাবিত স্কি ব্যক্তি বিভাজন ডেটাসেটে মডেলটি পরীক্ষা করেছেন।
১. মূল সমস্যা: শীতকালীন ক্রীড়া দৃশ্যে, ক্রীড়াবিদ এবং সম্পর্কিত সরঞ্জাম নির্ভুলভাবে সনাক্ত করা প্রয়োজন, বিশেষত ক্রীড়া সরঞ্জাম বিভাজন কাজ ক্রমবর্ধমান গুরুত্বপূর্ণ ২. মন্তব্য চ্যালেঞ্জ: বিভাজন মুখোশ মন্তব্য সময়সাপেক্ষ এবং কঠিন, বিশেষত সূক্ষ্ম কাঠামোর মন্তব্যের জন্য ३. ডোমেইন বিশেষত্ব: শীতকালীন ক্রীড়া সরঞ্জাম সাধারণ ডেটাসেটে কম উপস্থিত, ডোমেইন অভিযোজন সমস্যা বিদ্যমান
১. SAM এর সমস্যা: SA-1B ডেটাসেটে (১.১ বিলিয়ন মুখোশ) প্রশিক্ষিত হওয়া সত্ত্বেও, শীতকালীন ক্রীড়া সরঞ্জাম ডোমেইনে সাধারণীকরণ ক্ষমতা অপর্যাপ্ত २. প্রতিক্রিয়া সময়: প্রাথমিক সংমিশ্রণ পদ্ধতি সম্পূর্ণ নেটওয়ার্ক পুনরায় চালাতে প্রয়োজন, প্রতিক্রিয়া ধীর ३. বিবরণ প্রক্রিয়াকরণ: বিদ্যমান পদ্ধতি শীতকালীন ক্রীড়া সরঞ্জামের সূক্ষ্ম কাঠামো পরিচালনা করতে অসুবিধা
१. রিয়েল-টাইম ইন্টারেক্টিভ বিভাজন মডেল: শীতকালীন ক্রীড়া সহ বিশেষ ডোমেইনে বিভাজন করতে সক্ষম রিয়েল-টাইম মডেল প্রস্তাব করে, বিশেষত ছবিতে সূক্ষ্ম কাঠামো প্রক্রিয়াকরণে ফোকাস করে २. স্থাপত্য উদ্ভাবন: WSESeg ডেটাসেটে মডেল কর্মক্ষমতা যাচাই করা হয়েছে অ্যাবলেশন পরীক্ষার মাধ্যমে, এমনকি বৃহত্তর ডেটাসেটে প্রশিক্ষিত SAM অতিক্রম করে ३. সাধারণীকরণ ক্ষমতা: প্রমাণ করে যে মডেল শীতকালীন ক্রীড়া ডোমেইনে অতিফিট নয়, সাধারণ ভোক্তা ছবি ডেটাসেটে প্রতিযোগিতামূলক কর্মক্ষমতা রয়েছে ४. নতুন ডেটাসেট: SHSeg (স্কি ব্যক্তি বিভাজন) ডেটাসেট প্রস্তাব করে, যাতে ৫৩৪টি বিভাজন মুখোশ এবং ৪৯৬টি ছবি রয়েছে
ইন্টারেক্টিভ বিভাজন কাজ সংজ্ঞায়িত করা হয়: ছবি দেওয়া, লক্ষ্য হল উচ্চ মানের বিভাজন মুখোশ তৈরি করা, যেখানে ১ লক্ষ্য বস্তু নির্দেশ করে, ০ পটভূমি নির্দেশ করে।
ব্যবহারকারী পুনরাবৃত্তিমূলক মিথস্ক্রিয়ার মাধ্যমে নির্দেশনা প্রদান করে: १. ব্যবহারকারী বর্তমান মুখোশ পরীক্ষা করে २. ক্লিক স্থাপন করে, যেখানে স্থানাঙ্ক, অগ্রভাগ/পটভূমি লেবেল ३. নেটওয়ার্ক , এবং সংগৃহীত ক্লিক এর উপর ভিত্তি করে উন্নত মুখোশ তৈরি করে
१. মেরুদণ্ড নেটওয়ার্ক: DINOv2 প্রাক-প্রশিক্ষিত ViT-B ব্যবহার করে, মন্তব্য ডেটার পক্ষপাত এড়াতে २. ছবি বৈশিষ্ট্য নিষ্কাশন:
३. প্রম্পট এনকোডিং: ইতিবাচক এবং নেতিবাচক ক্লিক ৫ পিক্সেল ব্যাসার্ধের ডিস্ক হিসাবে এনকোড করে, ক্লিক ম্যাপ তৈরি করে
४. বৈশিষ্ট্য সংমিশ্রণ:
५. মুখোশ ডিকোডিং: চূড়ান্ত মুখোশ তৈরি করতে FPN এবং SegFormer ডিকোডার ব্যবহার করে
१. হিমায়িত মেরুদণ্ড নেটওয়ার্ক: অতিফিটিং প্রতিরোধ করে, সাধারণীকরণ ক্ষমতা বজায় রাখে २. বহু-স্তর বৈশিষ্ট্য সংমিশ্রণ: ViT এর ৩য়, ৬ষ্ঠ, ৯ম, ১२তম স্তর বৈশিষ্ট্য ব্যবহার করে
३. স্কিপ সংযোগ: U-Net এর মতো ডিজাইন
१. দেরী সংমিশ্রণ কৌশল: ছবি এনকোডিং শুধুমাত্র একবার সম্পাদিত হয়, মিথস্ক্রিয়ার পরে শুধুমাত্র হালকা মুখোশ পূর্বাভাসকারী চালায় २. বহু-স্কেল বৈশিষ্ট্য একীকরণ: সূক্ষ্ম-দানাদার তথ্য সংরক্ষণের জন্য বিভিন্ন স্তরের বৈশিষ্ট্য একত্রিত করে ३. স্কিপ সংযোগ ডিজাইন: প্রম্পট একীকরণের পরেও মধ্যবর্তী বৈশিষ্ট্যে অ্যাক্সেস করে, সূক্ষ্ম কাঠামো পরিচালনা করে ४. হিমায়িত কৌশল: প্রাক-প্রশিক্ষিত মডেলের সাধারণীকরণ ক্ষমতা বজায় রাখতে মেরুদণ্ড নেটওয়ার্ক হিমায়িত করে
१. প্রশিক্ষণ ডেটা: COCO+LVIS সমন্বিত ডেটাসেট (৯৯k ছবি, ১.৫ মিলিয়ন মুখোশ) २. মূল্যায়ন ডেটাসেট:
| পদ্ধতি | NoC@85 | NoC@90 |
|---|---|---|
| SAM | 8.83 | 11.86 |
| HQ-SAM | 14.44 | 16.31 |
| SkipClick | 6.49 | 9.16 |
| পদ্ধতি | NoC@90 | NoC@95 |
|---|---|---|
| HQ-SAM | 6.49 | 10.79 |
| SkipClick | 6.00 | 9.89 |
| কনফিগারেশন | WSESeg গড় NoC@85 | WSESeg গড় NoC@90 |
|---|---|---|
| বেসলাইন | 9.463 | 12.031 |
| +হিমায়িত মেরুদণ্ড | 9.416 | 11.951 |
| +মধ্যবর্তী বৈশিষ্ট্য | 7.285 | 10.344 |
| +স্কিপ সংযোগ | 6.494 | 9.163 |
মূল আবিষ্কার: १. হিমায়িত মেরুদণ্ড নেটওয়ার্ক: সামান্য উন্নতি (९.४६३→९.४१६) २. মধ্যবর্তী বৈশিষ্ট্য সংমিশ্রণ: উল্লেখযোগ্য উন্নতি (९.४१६→७.२८५) ३. স্কিপ সংযোগ: আরও উন্নতি (७.२८५→६.४९४)
সাধারণ ডেটাসেটে কর্মক্ষমতা প্রমাণ করে যে মডেল শীতকালীন ক্রীড়া ডোমেইনে অতিফিট নয়:
| ডেটাসেট | সম্পূর্ণ SkipClick NoC@90 |
|---|---|
| GrabCut | 1.44 |
| Berkeley | 2.45 |
| DAVIS | 4.94 |
| SBD | 6.18 |
१. প্রাথমিক সংমিশ্রণ পদ্ধতি: RITM४४, FocalClick२, SimpleClick२८ - গুণমান ভাল কিন্তু প্রতিক্রিয়া ধীর २. দেরী সংমিশ্রণ পদ্ধতি: SAM२०, InterFormer१५ - প্রতিক্রিয়া দ্রুত কিন্তু গুণমান ত্যাগ করতে পারে ३. ডোমেইন অভিযোজন: অনলাইন অভিযোজন পদ্ধতি२२,२३,४१,४२
१. SkipClick শীতকালীন ক্রীড়া সরঞ্জাম বিভাজন কাজে SAM এবং HQ-SAM এর চেয়ে উল্লেখযোগ্যভাবে উন্নত २. বহু-স্তর বৈশিষ্ট্য সংমিশ্রণ এবং স্কিপ সংযোগ সূক্ষ্ম কাঠামো প্রক্রিয়াকরণের জন্য গুরুত্বপূর্ণ ३. প্রাক-প্রশিক্ষিত মেরুদণ্ড নেটওয়ার্ক হিমায়িত করা সাধারণীকরণ ক্ষমতা বজায় রাখতে সাহায্য করে ४. মডেল সাধারণ ডেটাসেটে প্রতিযোগিতামূলক কর্মক্ষমতা প্রদর্শন করে, ভাল সাধারণীকরণ প্রমাণ করে
१. ডেটাসেট আকার: প্রশিক্ষণ ডেটা SAM এর SA-1B ডেটাসেটের তুলনায় ছোট २. ডোমেইন বিশেষত্ব: যদিও সাধারণীকরণ ক্ষমতা প্রমাণিত, কিন্তু প্রধানত শীতকালীন ক্রীড়া দৃশ্যের জন্য অপ্টিমাইজ করা ३. গণনা সম্পদ: ViT-B মেরুদণ্ড নেটওয়ার্ক প্রয়োজন, গণনা সম্পদের জন্য নির্দিষ্ট প্রয়োজন
१. আরও ক্রীড়া ডোমেইনে বিভাজন কাজে সম্প্রসারণ २. আরও হালকা স্থাপত্য ডিজাইন অন্বেষণ ३. আরও দক্ষ ব্যবহারকারী মিথস্ক্রিয়া পদ্ধতি গবেষণা
१. উচ্চ ব্যবহারিক মূল্য: বাস্তব প্রয়োগে প্রতিক্রিয়া গতি এবং বিভাজন গুণমান ভারসাম্য সমস্যা সমাধান করে २. প্রযুক্তিগত উদ্ভাবন: বহু-স্তর বৈশিষ্ট্য এবং স্কিপ সংযোগ চতুরভাবে একত্রিত করে, সূক্ষ্ম কাঠামো কার্যকরভাবে পরিচালনা করে ३. পর্যাপ্ত পরীক্ষা: বিস্তারিত অ্যাবলেশন পরীক্ষা এবং বহু-ডেটাসেট যাচাইকরণ অন্তর্ভুক্ত ४. অবদান ডেটাসেট: SHSeg ডেটাসেট স্কি ব্যক্তি বিভাজনের শূন্যতা পূরণ করে ५. সাধারণীকরণ যাচাইকরণ: একাধিক সাধারণ ডেটাসেটে পদ্ধতির সর্বজনীনতা যাচাই করে
१. তাত্ত্বিক বিশ্লেষণ: কেন বহু-স্তর বৈশিষ্ট্য সংমিশ্রণ কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত २. ব্যবহারকারী গবেষণা: বাস্তব ব্যবহারকারী ব্যবহার অভিজ্ঞতার মূল্যায়ন অনুপস্থিত ३. সীমান্ত ক্ষেত্রে: চরম আবহাওয়া বা আলোর অবস্থায় কর্মক্ষমতা বিশ্লেষণ অপর্যাপ্ত ४. তুলনা সীমাবদ্ধতা: প্রধানত SAM সিরিজের সাথে তুলনা, অন্যান্য দেরী সংমিশ্রণ পদ্ধতির সাথে তুলনা অনুপস্থিত
१. একাডেমিক মূল্য: নির্দিষ্ট ডোমেইনের ইন্টারেক্টিভ বিভাজনের জন্য কার্যকর সমাধান প্রদান করে २. ব্যবহারিক মূল্য: ক্রীড়া বিশ্লেষণ, ভিডিও মন্তব্য ইত্যাদি প্রয়োগে সরাসরি মূল্য রয়েছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং কোড প্রতিশ্রুতি প্রদান করে
१. ক্রীড়া ভিডিও বিশ্লেষণ: বিশেষত শীতকালীন ক্রীড়া সরঞ্জাম এবং ব্যক্তির নির্ভুল বিভাজনের জন্য উপযুক্ত २. ভিডিও মন্তব্য সরঞ্জাম: ভিডিও মন্তব্য সিস্টেমে একীভূত করে দক্ষতা বৃদ্ধি করতে পারে ३. সূক্ষ্ম কাঠামো বিভাজন: জটিল সীমানা প্রক্রিয়াকরণের প্রয়োজন এমন বিভাজন কাজের জন্য উপযুক্ত ४. রিয়েল-টাইম প্রয়োগ: দ্রুত প্রতিক্রিয়া বৈশিষ্ট্য এটিকে ইন্টারেক্টিভ প্রয়োগের জন্য উপযুক্ত করে
পেপারটি ४६টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের কম্পিউটার ভিশন পেপার, শীতকালীন ক্রীড়া একটি নির্দিষ্ট কিন্তু গুরুত্বপূর্ণ প্রয়োগ দৃশ্যের জন্য, কার্যকর ইন্টারেক্টিভ বিভাজন সমাধান প্রস্তাব করে। প্রযুক্তিগত পরিকল্পনা যুক্তিসঙ্গত, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, ভাল ব্যবহারিক মূল্য এবং একাডেমিক অবদান রয়েছে।