এই পেপারটি ভিডিও-উদ্ভূত ফ্রেম ডেটাসেটে তথ্য ফাঁসের সমস্যা প্রশমনের জন্য একটি ক্লাস্টার-ভিত্তিক ফ্রেম নির্বাচন কৌশল প্রস্তাব করে। প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষা সেট বিভাজনের আগে দৃশ্যত সমরূপ ফ্রেমগুলিকে গোষ্ঠীভুক্ত করে, এই পদ্ধতিটি আরও প্রতিনিধিত্বমূলক, ভারসাম্যপূর্ণ এবং নির্ভরযোগ্য ডেটাসেট বিভাজন তৈরি করতে পারে।
গভীর শিক্ষা গবেষণায়, ভিডিও ডেটা থেকে ফ্রেম নিষ্কাশন করে ডেটাসেট তৈরি করা একটি সাধারণ অনুশীলন। তবে, ঐতিহ্যবাহী র্যান্ডম বিভাজন পদ্ধতি গুরুতর তথ্য ফাঁস সমস্যার দিকে পরিচালিত করে: ভিডিওতে ক্রমাগত ফ্রেমগুলির মধ্যে উচ্চ স্থানিক-সময়িক সম্পর্ক থাকার কারণে (উদাহরণস্বরূপ একই পটভূমি, একই বস্তু কিন্তু সামান্য ভিন্ন অবস্থান), যদি এই সম্পর্কিত ফ্রেমগুলি প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষা সেটে ছড়িয়ে থাকে, তাহলে মডেলটি প্রশিক্ষণ সেটে দৃশ্যের বৈশিষ্ট্যগুলি "মনে রাখতে" পারে, যার ফলে যাচাইকরণ এবং পরীক্ষা সেটে কৃত্রিমভাবে উচ্চ কর্মক্ষমতা মূল্যায়ন পাওয়া যায়।
১. মডেল মূল্যায়ন বিকৃতি: তথ্য ফাঁস মডেলের পরীক্ষা সেটে কর্মক্ষমতা তার সাধারণীকরণ ক্ষমতা প্রতিফলিত করতে পারে না ২. অতিফিটিং ঝুঁকি: মডেল সাধারণ বৈশিষ্ট্য শেখার পরিবর্তে নির্দিষ্ট দৃশ্যে অত্যধিক ফিট হতে পারে ३. গবেষণা নির্ভরযোগ্যতা: বস্তু সনাক্তকরণের মতো কম্পিউটার ভিশন কাজের গবেষণা সিদ্ধান্তের বিশ্বাসযোগ্যতা প্রভাবিত করে ४. ব্যবহারিক প্রয়োগ ব্যবধান: পরীক্ষাগার কর্মক্ষমতা এবং প্রকৃত স্থাপনা কর্মক্ষমতার মধ্যে বিশাল পার্থক্য
এই পেপারটির লক্ষ্য একটি সহজ, স্কেলেবল এবং বিদ্যমান ডেটাসেট প্রস্তুতি প্রবাহে একীভূত করা যায় এমন সমাধান প্রদান করা, দৃশ্যত সমরূপ ফ্রেমগুলিকে বুদ্ধিমানের সাথে গোষ্ঠীভুক্ত করে যাতে সম্পর্কিত চিত্রগুলি একই ডেটা বিভাজনে থাকে, যার ফলে ডেটাসেট বিভাজনের ন্যায্যতা এবং মডেল মূল্যায়নের শক্তিশালীতা বৃদ্ধি পায়।
১. ক্লাস্টার-চালিত ডেটাসেট বিভাজন পদ্ধতি প্রস্তাব: প্রথমবারের মতো ভিডিও-উদ্ভূত ডেটাসেট বিভাজনে ক্লাস্টারিং প্রযুক্তি প্রয়োগ করা হয়েছে, দৃশ্যত সমরূপ ফ্রেমগুলিকে একই বিভাজনে গোষ্ঠীভুক্ত করে তথ্য ফাঁস প্রতিরোধ করে
२. ব্যাপক বৈশিষ্ট্য নিষ্কাশক মূল্যায়ন: ৭টি বিভিন্ন বৈশিষ্ট্য নিষ্কাশন পদ্ধতি (ঐতিহ্যবাহী SIFT, HOG থেকে আধুনিক CLIP, DINO-V3 পর্যন্ত) সিস্টেমেটিকভাবে তুলনা করা হয়েছে, অনুশীলনকারীদের পদ্ধতি নির্বাচনের নির্দেশনা প্রদান করে
३. প্লাগ-এন্ড-প্লে সমাধান: প্রশিক্ষণ প্রক্রিয়া সংশোধন ছাড়াই একটি ডেটাসেট প্রাক-প্রক্রিয়াকরণ পাইপলাইন প্রদান করা হয়েছে, যা ভাল স্কেলেবিলিটি এবং ব্যবহারযোগ্যতা সহ
४. অভিজ্ঞতামূলক যাচাইকরণ: ImageNet-VID এবং UCF101 দুটি বেঞ্চমার্ক ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে, DINO-V3 ০.৯৬ V-measure এবং AMI স্কোর অর্জন করেছে
ইনপুট: একটি অলেবেলড ভিডিও সংগ্রহ , যেখানে K হল ভিডিওর মোট সংখ্যা
আউটপুট: সমস্ত নিষ্কাশিত ফ্রেমগুলিকে প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষা সেটে বরাদ্দ করা, নিশ্চিত করে যে দৃশ্যত সমরূপ ফ্রেমগুলি (বিশেষত একই ভিডিও থেকে) একই বিভাজনে বরাদ্দ করা হয়
সীমাবদ্ধতা:
সামগ্রিক প্রবাহে তিনটি প্রধান পর্যায় রয়েছে (চিত্র ১ দেখুন):
প্রতিটি ভিডিও ফ্রেম ক্রম এ বিয়োজিত হয়, যেখানে হল ভিডিও থেকে নিষ্কাশিত ফ্রেমের সংখ্যা।
প্রতিটি ফ্রেম এর জন্য বৈশিষ্ট্য ভেক্টর নিষ্কাশন করা হয়:
যেখানে হল d-মাত্রিক বৈশিষ্ট্য ভেক্টর, হল বৈশিষ্ট্য নিষ্কাশন ফাংশন।
সমর্থিত বৈশিষ্ট্য নিষ্কাশন পদ্ধতি:
মাত্রা হ্রাস: PaCMAP (Pairwise Controlled Manifold Approximation Projection) ६ ব্যবহার করে উচ্চ-মাত্রিক বৈশিষ্ট্যগুলিকে নিম্ন-মাত্রিক এমবেডিং স্থানে প্রজেক্ট করা হয়:
যেখানে হল m-মাত্রিক এমবেডিং প্রতিনিধিত্ব (এই পেপারে m=२५६ সেট করা হয়েছে), হল PaCMAP প্রজেকশন অপারেটর।
ক্লাস্টারিং: এমবেডিং প্রতিনিধিত্বের জন্য HDBSCAN (Hierarchy of Density-Based Spatial Clustering) ७ অ্যালগরিদম ব্যবহার করা হয়।
HDBSCAN নির্বাচনের কারণ:
ক্লাস্টারিং ফলাফল (ফ্রেম এর সংশ্লিষ্ট বৈশিষ্ট্য ধারণ করে) বিভাজনের মৌলিক একক হিসাবে ব্যবহার করা হয়। প্রতিটি ক্লাস্টার দৃশ্যত সম্পর্কিত ফ্রেমগুলি প্রতিনিধিত্ব করে, সম্পূর্ণ ক্লাস্টার একই ডেটা বিভাজনে (প্রশিক্ষণ/যাচাইকরণ/পরীক্ষা) বরাদ্দ করা হয়, যার ফলে ডেটা ফাঁস প্রতিরোধ করা হয়।
१. ঘনত্ব ক্লাস্টারিংয়ের প্রয়োগ: ঐতিহ্যবাহী ভিডিও-স্তরের বিভাজন বা র্যান্ডম বিভাজনের তুলনায়, ঘনত্ব-ভিত্তিক ক্লাস্টারিং ফ্রেমগুলির মধ্যে দৃশ্যমান সাদৃশ্যকে আরও সূক্ষ্মভাবে ক্যাপচার করতে পারে, একই সাথে গোলাকার ক্লাস্টারের জোরপূর্বক অনুমান এড়ায়
२. বৈশিষ্ট্য নিষ্কাশন পদ্ধতির সিস্টেমেটিক মূল্যায়ন: একক বৈশিষ্ট্য নিষ্কাশন পদ্ধতির উপর নির্ভর না করে, ঐতিহ্যবাহী থেকে আধুনিক পর্যন্ত ব্যাপক তুলনা প্রদান করা হয়েছে, পদ্ধতিটিকে আরও ভাল অভিযোজনযোগ্যতা প্রদান করে
३. দুই-পর্যায়ের মাত্রা হ্রাস কৌশল: প্রথমে নির্দিষ্ট পদ্ধতি দিয়ে উচ্চ-মাত্রিক বৈশিষ্ট্য নিষ্কাশন করা হয়, তারপর PaCMAP দিয়ে ২५६-মাত্রায় একীভূত মাত্রা হ্রাস করা হয়, যা শব্দার্থগত তথ্য সংরক্ষণ করে এবং ক্লাস্টারিং দক্ষতা উন্নত করে
४. প্লাগ-এন্ড-প্লে ডিজাইন: ডেটা প্রাক-প্রক্রিয়াকরণ পদক্ষেপ হিসাবে, মডেল প্রশিক্ষণ প্রক্রিয়া সংশোধনের প্রয়োজন নেই, ভাল প্রকৌশল ব্যবহারযোগ্যতা রয়েছে
এই পেপারটি ७টি বৈশিষ্ট্য নিষ্কাশন পদ্ধতির ক্লাস্টারিং কর্মক্ষমতা তুলনা করে: १. SIFT + VLAD २. HOG (२२४×२२४) ३. HOG (१२८×१२८) ४. XFeat + VLAD ५. CLIP (ViT-B/३२) ६. SigLIP (ViT-B/१६) ७. DINO-V३ (ViT-B/१६)
চিত্র প্রাক-প্রক্রিয়াকরণ:
বৈশিষ্ট্য মাত্রা:
ক্লাস্টারিং অ্যালগরিদম: HDBSCAN (নির্দিষ্ট হাইপারপ্যারামিটার পেপারে বিস্তারিতভাবে ব্যাখ্যা করা হয়নি)
সারণী I ImageNet-VID এবং UCF१०१ যাচাইকরণ সেটে বিভিন্ন বৈশিষ্ট্য নিষ্কাশন পদ্ধতি ব্যবহার করে ক্লাস্টারিং কর্মক্ষমতা প্রদর্শন করে:
| বৈশিষ্ট্য নিষ্কাশন পদ্ধতি | ডেটাসেট | V-পরিমাপ | AMI |
|---|---|---|---|
| SIFT + VLAD | ImageNet-VID | ०.८१ | ०.८० |
| UCF१०१ | ०.५७ | ०.३८ | |
| HOG (२२४×२२४) | ImageNet-VID | ०.८२ | ०.८१ |
| UCF१०१ | ०.६१ | ०.४८ | |
| HOG (१२८×१२८) | ImageNet-VID | ०.८७ | ०.८६ |
| UCF१०१ | ०.६७ | ०.५४ | |
| XFeat + VLAD | ImageNet-VID | ०.९० | ०.८९ |
| UCF१०१ | ०.७२ | ०.५८ | |
| CLIP (ViT-B/३२) | ImageNet-VID | ०.९२ | ०.९१ |
| UCF१०१ | ०.७५ | ०.६६ | |
| SigLIP (ViT-B/१६) | ImageNet-VID | ०.९३ | ०.९२ |
| UCF१०१ | ०.७५ | ०.६७ | |
| DINO-V३ (ViT-B/१६) | ImageNet-VID | ०.९६ | ०.९६ |
| UCF१०१ | ०.८७ | ०.८० |
१. গভীর প্রশিক্ষিত মডেল ঐতিহ্যবাহী পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল:
२. ডেটাসেট কঠিনতা পার্থক্য:
३. বৈশিষ্ট্য নিষ্কাশন পদ্ধতির কর্মক্ষমতা গ্রেডিয়েন্ট:
४. হালকা-ওজন পদ্ধতির সম্ভাবনা:
५. চিত্র রেজোলিউশনের প্রভাব:
१. শব্দার্থগত প্রতিনিধিত্বের সুবিধা: গভীর প্রশিক্ষিত মডেল (বিশেষত DINO-V३) উচ্চ-স্তরের শব্দার্থগত তথ্য ক্যাপচার করতে পারে, দৃশ্যমান সাদৃশ্য আরও ভালভাবে চিহ্নিত করে, যা তথ্য ফাঁস সনাক্তকরণের জন্য গুরুত্বপূর্ণ
२. স্ব-তদারকিত শিক্ষার কার্যকারিতা: DINO-V३ স্ব-তদারকিত পদ্ধতি হিসাবে সর্বোত্তম কর্মক্ষমতা প্রদর্শন করে, নির্দেশ করে যে স্পষ্ট তদারকি ছাড়াই ক্লাস্টারিং কাজের জন্য উপযুক্ত প্রতিনিধিত্ব শেখা যায়
३. বৈশিষ্ট্য সমন্বয়ের গুরুত্ব: স্থানীয় বর্ণনাকারীর (SIFT, XFeat) জন্য VLAD সমন্বয় কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
४. পদ্ধতির সার্বজনীনতা: এই ফ্রেমওয়ার্ক দুটি ভিন্ন বৈশিষ্ট্যের ডেটাসেটে ভাল কর্মক্ষমতা প্রদর্শন করে, এর সাধারণীকরণ ক্ষমতা প্রমাণ করে
বিদ্যমান কাজের তুলনায়, এই পেপারটি: १. আরও সিস্টেমেটিক বৈশিষ্ট্য নিষ্কাশন পদ্ধতি তুলনা প্রদান করে २. ভিডিও ডেটার বৈশিষ্ট্যের জন্য আরও উপযুক্ত ঘনত্ব ক্লাস্টারিং গ্রহণ করে ३. একটি সম্পূর্ণ এন্ড-টু-এন্ড সমাধান প্রস্তাব করে ४. একাধিক বেঞ্চমার্ক ডেটাসেটে যাচাইকরণ প্রদান করে
१. পদ্ধতির কার্যকারিতা: ক্লাস্টার-ভিত্তিক ফ্রেম নির্বাচন কৌশল দৃশ্যত সমরূপ ফ্রেমগুলি কার্যকরভাবে চিহ্নিত এবং গোষ্ঠীভুক্ত করতে পারে, যার ফলে তথ্য ফাঁস প্রতিরোধ করা যায়
२. সর্বোত্তম অনুশীলন: DINO-V३ এমবেডিং উভয় ডেটাসেটে সর্বোত্তম ক্লাস্টারিং কর্মক্ষমতা অর্জন করে, ব্যবহারিক অনুপ্রয়োগে প্রথম পছন্দ
३. ব্যবহারিক মূল্য: পদ্ধতিটি সহজ, স্কেলেবল, বিদ্যমান ডেটাসেট প্রস্তুতি প্রবাহে নির্বিঘ্নে একীভূত করা যায়
४. উন্নতি প্রভাব: ডেটাসেট বিভাজনের আগে ফ্রেমগুলিকে গোষ্ঠীভুক্ত করে, এই পদ্ধতিটি বৈচিত্র্য বৃদ্ধি করতে পারে এবং একটি ন্যায্য মূল্যায়ন পরিবেশ প্রদান করে, যার ফলে ভিডিও ডেটাসেট প্রশিক্ষণের বস্তু সনাক্তকরণ মডেলের অতিফিটিং প্রশমিত হয়
१. হাইপারপ্যারামিটার নির্ভরতা: পদ্ধতিটি HDBSCAN এর হাইপারপ্যারামিটার নির্বাচনের উপর নির্ভর করে, বিভিন্ন সেটিং ক্লাস্টারিং ফলাফল প্রভাবিত করতে পারে
२. গণনামূলক খরচ: গভীর প্রশিক্ষিত মডেল (যেমন DINO-V३) এর বৈশিষ্ট্য নিষ্কাশন উচ্চ গণনামূলক সম্পদ প্রয়োজন
३. ডাউনস্ট্রিম কাজ যাচাইকরণ অনুপস্থিত: পেপারটি প্রকৃত বস্তু সনাক্তকরণ কাজে কর্মক্ষমতা তুলনা প্রদান করে না (পদ্ধতি ব্যবহার করা বনাম না করা)
४. ক্লাস্টারিং গুণমান মূল্যায়ন: শুধুমাত্র AMI এবং V-পরিমাপ ব্যবহার করে মূল্যায়ন করা হয়, প্রকৃত তথ্য ফাঁসের মাত্রার পরিমাণগত বিশ্লেষণ অনুপস্থিত
५. ডেটাসেট স্কেল: অতি-বড় আকারের ডেটাসেটে পদ্ধতির স্কেলেবিলিটি যাচাই করা হয়নি
লেখকরা স্পষ্টভাবে নিম্নলিখিত গবেষণা দিকনির্দেশনা প্রস্তাব করেছেন:
१. অভিযোজনযোগ্য ক্লাস্টারিং কৌশল: HDBSCAN হাইপারপ্যারামিটারের উপর নির্ভরতা কমাতে স্বয়ংক্রিয়ভাবে হাইপারপ্যারামিটার সামঞ্জস্য করতে পারে এমন ক্লাস্টারিং পদ্ধতি অন্বেষণ করা
२. কর্মক্ষমতা ব্যবধান পরিমাণীকরণ: এই পদ্ধতি সহ/ছাড়াই চিত্র বস্তু সনাক্তকরণ মডেল প্রশিক্ষণ করে, তথ্য ফাঁসের প্রকৃত প্রভাব পরিমাণ করে
३. ক্রস-ডেটাসেট মূল্যায়ন: আরও বিভিন্ন বৈশিষ্ট্যের ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করা
४. এন্ড-টু-এন্ড অপ্টিমাইজেশন: ক্লাস্টারিং এবং মডেল প্রশিক্ষণকে যৌথভাবে অপ্টিমাইজ করার পদ্ধতি অন্বেষণ করা সম্ভব
१. ভিডিও বস্তু সনাক্তকরণ: পেপারের প্রধান লক্ষ্য পরিস্থিতি २. ক্রিয়া স্বীকৃতি: ভিডিও থেকে ফ্রেম নিষ্কাশন করে শ্রেণীবিভাগ সম্পাদন করা ३. ভিডিও উদাহরণ বিভাজন: ফ্রেম-স্তরের লেবেল প্রয়োজন এমন কাজ ४. নজরদারি ভিডিও বিশ্লেষণ: সাধারণত অনেক সমরূপ ফ্রেম ধারণ করে
१. ভিডিও বোঝার কাজ: সময় তথ্য সংরক্ষণ প্রয়োজন এমন কাজ উপযুক্ত নাও হতে পারে २. ছোট আকারের ডেটাসেট: ক্লাস্টারিং অস্থির হতে পারে ३. অত্যন্ত বৈচিত্র্যময় ভিডিও: ভিডিও বিষয়বস্তু পার্থক্য চরম হলে, ক্লাস্টারিং অত্যন্ত সূক্ষ্ম-দানাদার হতে পারে
१. মূল চিত্র ডেটাসেট: তথ্য ফাঁস সমস্যা বিদ্যমান নেই २. সময় মডেলিং প্রয়োজন এমন কাজ: যেমন ভিডিও পূর্বাভাস, অপটিক্যাল প্রবাহ অনুমান ३. রিয়েল-টাইম অ্যাপ্লিকেশন: গভীর বৈশিষ্ট্য নিষ্কাশন খুব ধীর হতে পারে
१. १ Botache et al., २०२३ - ক্রমাগত ডেটা বিভাজনের জটিলতা গবেষণা २. २ Figueiredo & Mendes, २०२४ - ভিডিও বস্তু সনাক্তকরণ ডেটাসেটে তথ্য ফাঁস বিশ্লেষণ (IEEE Access) ३. ३ Radford et al., २०२१ - CLIP: প্রাকৃতিক ভাষা তদারকি থেকে স্থানান্তরযোগ্য ভিশন মডেল শিখুন (ICML) ४. ७ McInnes et al., २०१७ - HDBSCAN: শ্রেণীবিন্যাস ঘনত্ব ক্লাস্টারিং অ্যালগরিদম ५. ११ Siméoni et al., २०२५ - DINO-V३: স্ব-তদারকিত ভিশন ট্রান্সফর্মার (arXiv প্রাক-প্রিন্ট) ६. १४ Russakovsky et al., २०१५ - ImageNet বড় আকারের ভিশন স্বীকৃতি চ্যালেঞ্জ (IJCV)
এই পেপারটি ভিডিও-উদ্ভূত ডেটাসেটে তথ্য ফাঁস সমস্যার জন্য একটি ব্যবহারিক সমাধান প্রস্তাব করে। মূল সুবিধা পদ্ধতির সরলতা এবং ব্যবহারযোগ্যতায় নিহিত — ক্লাস্টারিংয়ের মাধ্যমে নিশ্চিত করে যে দৃশ্যত সমরূপ ফ্রেমগুলি একই ডেটা বিভাজনে বরাদ্দ করা হয়, এটি একটি স্বজ্ঞাত এবং কার্যকর কৌশল। পরীক্ষামূলক ফলাফল নির্দেশ করে যে আধুনিক গভীর প্রশিক্ষিত মডেল (বিশেষত DINO-V३) ফ্রেম-মধ্যে সাদৃশ্য চিহ্নিত করতে ঐতিহ্যবাহী পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল।
তবে, পেপারের প্রধান ত্রুটি ডাউনস্ট্রিম কাজ যাচাইকরণের অভাবে নিহিত। যদিও ক্লাস্টারিং গুণমান উচ্চ (AMI এবং V-পরিমাপ ०.९६ পৌঁছায়), এটি সত্যিই আরও ভাল মডেল সাধারণীকরণ কর্মক্ষমতায় অনুবাদ করে কিনা তা এখনও প্রমাণিত হয়নি। এটি একটি গুরুত্বপূর্ণ অনুপস্থিতি, কারণ ক্লাস্টারিং গুণমান শুধুমাত্র একটি মাধ্যম, মডেল মূল্যায়ন উন্নত করা চূড়ান্ত লক্ষ্য।
তবুও, এই কাজ ভিডিও ডেটাসেট নির্মাণে একটি গুরুত্বপূর্ণ পদ্ধতিগত অবদান প্রদান করে, উচ্চ ব্যবহারিক মূল্য রয়েছে। ভবিষ্যত কাজের সুপারিশ: १. সর্বোচ্চ অগ্রাধিকার: প্রকৃত বস্তু সনাক্তকরণ কাজে পদ্ধতির কার্যকারিতা যাচাই করা २. অভিযোজনযোগ্য হাইপারপ্যারামিটার নির্বাচন কৌশল অন্বেষণ করা ३. বৃহত্তর স্কেল এবং আরও বৈচিত্র্যময় ডেটাসেটে সম্প্রসারণ করা ४. সম্প্রদায়ের গ্রহণ প্রচার করতে ওপেন-সোর্স বাস্তবায়ন প্রদান করা
সুপারিশ সূচক: ★★★★☆ (४/५)