2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick: শীতকালীন ক্রীড়া প্রসঙ্গে দ্রুত প্রতিক্রিয়া এবং নিম্ন-স্তরের বৈশিষ্ট্য একত্রিত করে ইন্টারেক্টিভ বিভাজন

মৌলিক তথ্য

  • পেপার আইডি: 2501.07960
  • শিরোনাম: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • লেখক: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • অনুষদ: University of Augsburg, Germany
  • শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
  • প্রকাশনা সময়: ২০২৫ সালের জানুয়ারি
  • পেপার লিঙ্ক: https://arxiv.org/abs/2501.07960

সারসংক্ষেপ

এই পেপারটি শীতকালীন ক্রীড়া দৃশ্যের জন্য একটি নতুন ইন্টারেক্টিভ বিভাজন স্থাপত্য SkipClick প্রস্তাব করে। ইন্টারেক্টিভ বিভাজন ব্যবহারকারী-নির্দেশিত তথ্যের মাধ্যমে উচ্চ মানের বিভাজন মুখোশ পূর্বাভাস দেয়, এই পেপারটি ক্লিক প্রম্পট ব্যবহার করে নির্দেশনা প্রদান করে। লেখকরা প্রথমে ক্লিকের পরে দ্রুত প্রতিক্রিয়ার জন্য একটি বেসলাইন স্থাপত্য প্রস্তাব করেন, তারপর WSESeg ডেটাসেটে শীতকালীন ক্রীড়া সরঞ্জাম বিভাজনের কর্মক্ষমতা উন্নত করার জন্য একাধিক স্থাপত্য উন্নতি বর্ণনা করেন। WSESeg বিভাগে গড় NoC@85 মেট্রিকে, এই পদ্ধতি যথাক্রমে SAM এবং HQ-SAM থেকে ২.৩৩৬ এবং ৭.৯৪৬ ক্লিক হ্রাস করে। HQSeg-44k ডেটাসেটে, সিস্টেমটি অত্যাধুনিক ফলাফল অর্জন করে, NoC@90 ৬.০০ এবং NoC@95 ৯.৮৯। অতিরিক্তভাবে, লেখকরা নতুন প্রস্তাবিত স্কি ব্যক্তি বিভাজন ডেটাসেটে মডেলটি পরীক্ষা করেছেন।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: শীতকালীন ক্রীড়া দৃশ্যে, ক্রীড়াবিদ এবং সম্পর্কিত সরঞ্জাম নির্ভুলভাবে সনাক্ত করা প্রয়োজন, বিশেষত ক্রীড়া সরঞ্জাম বিভাজন কাজ ক্রমবর্ধমান গুরুত্বপূর্ণ ২. মন্তব্য চ্যালেঞ্জ: বিভাজন মুখোশ মন্তব্য সময়সাপেক্ষ এবং কঠিন, বিশেষত সূক্ষ্ম কাঠামোর মন্তব্যের জন্য ३. ডোমেইন বিশেষত্ব: শীতকালীন ক্রীড়া সরঞ্জাম সাধারণ ডেটাসেটে কম উপস্থিত, ডোমেইন অভিযোজন সমস্যা বিদ্যমান

গুরুত্ব

  • ক্রীড়া বিশ্লেষণে সরঞ্জাম নির্ভুল অবস্থানের চাহিদা বৃদ্ধি
  • ইন্টারেক্টিভ বিভাজন মানব মন্তব্য সময় উল্লেখযোগ্যভাবে হ্রাস করতে পারে
  • শীতকালীন ক্রীড়া দৃশ্য অনন্য ভিজ্যুয়াল বৈশিষ্ট্য রয়েছে (তুষার দৃশ্য, সূক্ষ্ম সরঞ্জাম কাঠামো)

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

১. SAM এর সমস্যা: SA-1B ডেটাসেটে (১.১ বিলিয়ন মুখোশ) প্রশিক্ষিত হওয়া সত্ত্বেও, শীতকালীন ক্রীড়া সরঞ্জাম ডোমেইনে সাধারণীকরণ ক্ষমতা অপর্যাপ্ত २. প্রতিক্রিয়া সময়: প্রাথমিক সংমিশ্রণ পদ্ধতি সম্পূর্ণ নেটওয়ার্ক পুনরায় চালাতে প্রয়োজন, প্রতিক্রিয়া ধীর ३. বিবরণ প্রক্রিয়াকরণ: বিদ্যমান পদ্ধতি শীতকালীন ক্রীড়া সরঞ্জামের সূক্ষ্ম কাঠামো পরিচালনা করতে অসুবিধা

মূল অবদান

१. রিয়েল-টাইম ইন্টারেক্টিভ বিভাজন মডেল: শীতকালীন ক্রীড়া সহ বিশেষ ডোমেইনে বিভাজন করতে সক্ষম রিয়েল-টাইম মডেল প্রস্তাব করে, বিশেষত ছবিতে সূক্ষ্ম কাঠামো প্রক্রিয়াকরণে ফোকাস করে २. স্থাপত্য উদ্ভাবন: WSESeg ডেটাসেটে মডেল কর্মক্ষমতা যাচাই করা হয়েছে অ্যাবলেশন পরীক্ষার মাধ্যমে, এমনকি বৃহত্তর ডেটাসেটে প্রশিক্ষিত SAM অতিক্রম করে ३. সাধারণীকরণ ক্ষমতা: প্রমাণ করে যে মডেল শীতকালীন ক্রীড়া ডোমেইনে অতিফিট নয়, সাধারণ ভোক্তা ছবি ডেটাসেটে প্রতিযোগিতামূলক কর্মক্ষমতা রয়েছে ४. নতুন ডেটাসেট: SHSeg (স্কি ব্যক্তি বিভাজন) ডেটাসেট প্রস্তাব করে, যাতে ৫৩৪টি বিভাজন মুখোশ এবং ৪৯৬টি ছবি রয়েছে

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা

ইন্টারেক্টিভ বিভাজন কাজ সংজ্ঞায়িত করা হয়: ছবি ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3} দেওয়া, লক্ষ্য হল উচ্চ মানের বিভাজন মুখোশ m{0,1}H×Wm \in \{0,1\}^{H×W} তৈরি করা, যেখানে ১ লক্ষ্য বস্তু নির্দেশ করে, ০ পটভূমি নির্দেশ করে।

ব্যবহারকারী পুনরাবৃত্তিমূলক মিথস্ক্রিয়ার মাধ্যমে নির্দেশনা প্রদান করে: १. ব্যবহারকারী বর্তমান মুখোশ mτm_τ পরীক্ষা করে २. ক্লিক pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ) স্থাপন করে, যেখানে (iτ,jτ)(i_τ, j_τ) স্থানাঙ্ক, lτ{+,}l_τ \in \{+,-\} অগ্রভাগ/পটভূমি লেবেল ३. নেটওয়ার্ক ximgx_{img}, mτm_τ এবং সংগৃহীত ক্লিক p0:τp_{0:τ} এর উপর ভিত্তি করে উন্নত মুখোশ mτ+1m_{τ+1} তৈরি করে

মডেল স্থাপত্য

বেসলাইন স্থাপত্য

१. মেরুদণ্ড নেটওয়ার্ক: DINOv2 প্রাক-প্রশিক্ষিত ViT-B ব্যবহার করে, মন্তব্য ডেটার পক্ষপাত এড়াতে २. ছবি বৈশিষ্ট্য নিষ্কাশন: fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}

३. প্রম্পট এনকোডিং: ইতিবাচক এবং নেতিবাচক ক্লিক ৫ পিক্সেল ব্যাসার্ধের ডিস্ক হিসাবে এনকোড করে, ক্লিক ম্যাপ m+,mm^+, m^- তৈরি করে fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))

४. বৈশিষ্ট্য সংমিশ্রণ: fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})

५. মুখোশ ডিকোডিং: চূড়ান্ত মুখোশ তৈরি করতে FPN এবং SegFormer ডিকোডার ব্যবহার করে

SkipClick সম্পূর্ণ স্থাপত্য

१. হিমায়িত মেরুদণ্ড নেটওয়ার্ক: অতিফিটিং প্রতিরোধ করে, সাধারণীকরণ ক্ষমতা বজায় রাখে २. বহু-স্তর বৈশিষ্ট্য সংমিশ্রণ: ViT এর ৩য়, ৬ষ্ঠ, ৯ম, ১२তম স্তর বৈশিষ্ট্য ব্যবহার করে f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))

३. স্কিপ সংযোগ: U-Net এর মতো ডিজাইন f^i=Concat(f^mix,fi) for i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ for } i = 1,2,3,4

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. দেরী সংমিশ্রণ কৌশল: ছবি এনকোডিং শুধুমাত্র একবার সম্পাদিত হয়, মিথস্ক্রিয়ার পরে শুধুমাত্র হালকা মুখোশ পূর্বাভাসকারী চালায় २. বহু-স্কেল বৈশিষ্ট্য একীকরণ: সূক্ষ্ম-দানাদার তথ্য সংরক্ষণের জন্য বিভিন্ন স্তরের বৈশিষ্ট্য একত্রিত করে ३. স্কিপ সংযোগ ডিজাইন: প্রম্পট একীকরণের পরেও মধ্যবর্তী বৈশিষ্ট্যে অ্যাক্সেস করে, সূক্ষ্ম কাঠামো পরিচালনা করে ४. হিমায়িত কৌশল: প্রাক-প্রশিক্ষিত মডেলের সাধারণীকরণ ক্ষমতা বজায় রাখতে মেরুদণ্ড নেটওয়ার্ক হিমায়িত করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. প্রশিক্ষণ ডেটা: COCO+LVIS সমন্বিত ডেটাসেট (৯৯k ছবি, ১.৫ মিলিয়ন মুখোশ) २. মূল্যায়ন ডেটাসেট:

  • WSESeg: ৭,৪५२ মুখোশ, ১০টি শীতকালীন ক্রীড়া সরঞ্জাম বিভাগ
  • SHSeg: ৫३४ স্কি ব্যক্তি মুখোশ, ৪९६ ছবি (নতুন প্রস্তাবিত)
  • HQSeg-44k: উচ্চ মানের মন্তব্য ডেটাসেট
  • সাধারণ ডেটাসেট: GrabCut, Berkeley, DAVIS, SBD

মূল্যায়ন মেট্রিক্স

  • NoC@θ: IoU থ্রেশহোল্ড θ অর্জনের জন্য প্রয়োজনীয় ক্লিক সংখ্যা
  • প্রধান মেট্রিক্স: NoC@85, NoC@90, NoC@95
  • সীমা: সর্বোচ্চ ২০ ক্লিক

বাস্তবায়ন বিবরণ

  • অপ্টিমাইজার: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • ক্ষতি ফাংশন: Focal Loss
  • প্রশিক্ষণ: ৫५ এপোক, প্রতি এপোক ३०,००० ছবি
  • রেজোলিউশন: WSESeg/SHSeg/HQSeg-44k ৮९६×८९६ ব্যবহার করে, DAVIS ६७२×६७२ ব্যবহার করে
  • র‍্যান্ডম স্যাম্পলিং: প্রাথমিক সর্বোচ্চ २४ র‍্যান্ডম পয়েন্ট, পুনরাবৃত্তিমূলক প্রশিক্ষণ ३ রাউন্ড

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

WSESeg ডেটাসেট কর্মক্ষমতা

পদ্ধতিNoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • SAM থেকে २.३३६ ক্লিক হ্রাস (NoC@85)
  • HQ-SAM থেকে ७.९४६ ক্লিক হ্রাস (NoC@85)

HQSeg-44k SOTA অর্জন

পদ্ধতিNoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

প্রতিক্রিয়া সময় তুলনা

  • SkipClick: ६.६१ms (দ্রুততম)
  • SAM: १५.०१ms
  • HQ-SAM: १८.८३ms
  • SAM + Schön et al.: ४१.३८ms

অ্যাবলেশন পরীক্ষা

কনফিগারেশনWSESeg গড় NoC@85WSESeg গড় NoC@90
বেসলাইন9.46312.031
+হিমায়িত মেরুদণ্ড9.41611.951
+মধ্যবর্তী বৈশিষ্ট্য7.28510.344
+স্কিপ সংযোগ6.4949.163

মূল আবিষ্কার: १. হিমায়িত মেরুদণ্ড নেটওয়ার্ক: সামান্য উন্নতি (९.४६३→९.४१६) २. মধ্যবর্তী বৈশিষ্ট্য সংমিশ্রণ: উল্লেখযোগ্য উন্নতি (९.४१६→७.२८५) ३. স্কিপ সংযোগ: আরও উন্নতি (७.२८५→६.४९४)

সাধারণীকরণ ক্ষমতা যাচাইকরণ

সাধারণ ডেটাসেটে কর্মক্ষমতা প্রমাণ করে যে মডেল শীতকালীন ক্রীড়া ডোমেইনে অতিফিট নয়:

ডেটাসেটসম্পূর্ণ SkipClick NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

সম্পর্কিত কাজ

ক্রীড়া বিভাজন প্রয়োগ

  • ফুটবল, বাস্কেটবল ক্রীড়াবিদ বিভাজন३,९
  • ফেন্সিং তরোয়াল টিপ ট্র্যাকিং এবং বিভাজন४०
  • স্কি সরঞ্জাম মূল পয়েন্ট সনাক্তকরণ३१,३२

ইন্টারেক্টিভ বিভাজন উন্নয়ন

१. প্রাথমিক সংমিশ্রণ পদ্ধতি: RITM४४, FocalClick, SimpleClick२८ - গুণমান ভাল কিন্তু প্রতিক্রিয়া ধীর २. দেরী সংমিশ্রণ পদ্ধতি: SAM२०, InterFormer१५ - প্রতিক্রিয়া দ্রুত কিন্তু গুণমান ত্যাগ করতে পারে ३. ডোমেইন অভিযোজন: অনলাইন অভিযোজন পদ্ধতি२२,२३,४१,४२

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. SkipClick শীতকালীন ক্রীড়া সরঞ্জাম বিভাজন কাজে SAM এবং HQ-SAM এর চেয়ে উল্লেখযোগ্যভাবে উন্নত २. বহু-স্তর বৈশিষ্ট্য সংমিশ্রণ এবং স্কিপ সংযোগ সূক্ষ্ম কাঠামো প্রক্রিয়াকরণের জন্য গুরুত্বপূর্ণ ३. প্রাক-প্রশিক্ষিত মেরুদণ্ড নেটওয়ার্ক হিমায়িত করা সাধারণীকরণ ক্ষমতা বজায় রাখতে সাহায্য করে ४. মডেল সাধারণ ডেটাসেটে প্রতিযোগিতামূলক কর্মক্ষমতা প্রদর্শন করে, ভাল সাধারণীকরণ প্রমাণ করে

সীমাবদ্ধতা

१. ডেটাসেট আকার: প্রশিক্ষণ ডেটা SAM এর SA-1B ডেটাসেটের তুলনায় ছোট २. ডোমেইন বিশেষত্ব: যদিও সাধারণীকরণ ক্ষমতা প্রমাণিত, কিন্তু প্রধানত শীতকালীন ক্রীড়া দৃশ্যের জন্য অপ্টিমাইজ করা ३. গণনা সম্পদ: ViT-B মেরুদণ্ড নেটওয়ার্ক প্রয়োজন, গণনা সম্পদের জন্য নির্দিষ্ট প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. আরও ক্রীড়া ডোমেইনে বিভাজন কাজে সম্প্রসারণ २. আরও হালকা স্থাপত্য ডিজাইন অন্বেষণ ३. আরও দক্ষ ব্যবহারকারী মিথস্ক্রিয়া পদ্ধতি গবেষণা

গভীর মূল্যায়ন

সুবিধা

१. উচ্চ ব্যবহারিক মূল্য: বাস্তব প্রয়োগে প্রতিক্রিয়া গতি এবং বিভাজন গুণমান ভারসাম্য সমস্যা সমাধান করে २. প্রযুক্তিগত উদ্ভাবন: বহু-স্তর বৈশিষ্ট্য এবং স্কিপ সংযোগ চতুরভাবে একত্রিত করে, সূক্ষ্ম কাঠামো কার্যকরভাবে পরিচালনা করে ३. পর্যাপ্ত পরীক্ষা: বিস্তারিত অ্যাবলেশন পরীক্ষা এবং বহু-ডেটাসেট যাচাইকরণ অন্তর্ভুক্ত ४. অবদান ডেটাসেট: SHSeg ডেটাসেট স্কি ব্যক্তি বিভাজনের শূন্যতা পূরণ করে ५. সাধারণীকরণ যাচাইকরণ: একাধিক সাধারণ ডেটাসেটে পদ্ধতির সর্বজনীনতা যাচাই করে

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ: কেন বহু-স্তর বৈশিষ্ট্য সংমিশ্রণ কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত २. ব্যবহারকারী গবেষণা: বাস্তব ব্যবহারকারী ব্যবহার অভিজ্ঞতার মূল্যায়ন অনুপস্থিত ३. সীমান্ত ক্ষেত্রে: চরম আবহাওয়া বা আলোর অবস্থায় কর্মক্ষমতা বিশ্লেষণ অপর্যাপ্ত ४. তুলনা সীমাবদ্ধতা: প্রধানত SAM সিরিজের সাথে তুলনা, অন্যান্য দেরী সংমিশ্রণ পদ্ধতির সাথে তুলনা অনুপস্থিত

প্রভাব

१. একাডেমিক মূল্য: নির্দিষ্ট ডোমেইনের ইন্টারেক্টিভ বিভাজনের জন্য কার্যকর সমাধান প্রদান করে २. ব্যবহারিক মূল্য: ক্রীড়া বিশ্লেষণ, ভিডিও মন্তব্য ইত্যাদি প্রয়োগে সরাসরি মূল্য রয়েছে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং কোড প্রতিশ্রুতি প্রদান করে

প্রযোজ্য দৃশ্য

१. ক্রীড়া ভিডিও বিশ্লেষণ: বিশেষত শীতকালীন ক্রীড়া সরঞ্জাম এবং ব্যক্তির নির্ভুল বিভাজনের জন্য উপযুক্ত २. ভিডিও মন্তব্য সরঞ্জাম: ভিডিও মন্তব্য সিস্টেমে একীভূত করে দক্ষতা বৃদ্ধি করতে পারে ३. সূক্ষ্ম কাঠামো বিভাজন: জটিল সীমানা প্রক্রিয়াকরণের প্রয়োজন এমন বিভাজন কাজের জন্য উপযুক্ত ४. রিয়েল-টাইম প্রয়োগ: দ্রুত প্রতিক্রিয়া বৈশিষ্ট্য এটিকে ইন্টারেক্টিভ প্রয়োগের জন্য উপযুক্ত করে

সংদর্ভ

পেপারটি ४६টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

  • २० SAM: Segment Anything Model
  • १८ HQ-SAM: Segment Anything in High Quality
  • २८ SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
  • ४१ WSESeg ডেটাসেট সম্পর্কিত কাজ
  • ४४ RITM: Reviving Iterative Training with Mask Guidance

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের কম্পিউটার ভিশন পেপার, শীতকালীন ক্রীড়া একটি নির্দিষ্ট কিন্তু গুরুত্বপূর্ণ প্রয়োগ দৃশ্যের জন্য, কার্যকর ইন্টারেক্টিভ বিভাজন সমাধান প্রস্তাব করে। প্রযুক্তিগত পরিকল্পনা যুক্তিসঙ্গত, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, ভাল ব্যবহারিক মূল্য এবং একাডেমিক অবদান রয়েছে।