সম্প্রতি, মাল্টিমোডাল বৃহৎ ভাষা মডেল (MLLMs) বিভিন্ন ভিডিও বোঝার কাজে উৎকর্ষতা প্রদর্শন করেছে। তবে, পরিচালিত ভিডিও সামগ্রীর মুখোমুখি হওয়ার সময় তাদের শক্তিশালীতা এখনও পর্যাপ্তভাবে অন্বেষণ করা হয়নি। এই পেপারটি RO-Bench উপস্থাপন করে, যা গতিশীল বিতরণ-বাইরে (OOD) পাল্টা-বাস্তব ভিডিও পরীক্ষা সেটে MLLMs এর কর্মক্ষমতা মূল্যায়নের জন্য প্রথম মানদণ্ড। RO-Bench সম্পাদনা শৈলী, বস্তু, পটভূমি এবং তাদের সমন্বয়ের মাধ্যমে উচ্চ-মানের, বৈচিত্র্যময় এবং সময়ানুক্রমিক-সম্পর্কিত ভিডিও ডেটা একীভূত করে। লেখকরা ৮টি সর্বশেষ ভিডিও MLLMs মূল্যায়ন করেছেন এবং দেখেছেন যে বর্তমান মডেলগুলি পাল্টা-বাস্তব ভিডিও সামগ্রীর মুখোমুখি হলে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে। অধিকন্তু, গবেষণা দেখায় যে পাল্টা-বাস্তব ডেটা দিয়ে MLLMs সূক্ষ্ম-সুর করা শক্তিশালীতা বৃদ্ধি করতে পারে, RO-Bench এ ২১.৭৩% কর্মক্ষমতা উন্নতি এবং MVBench ডেটাসেটের ২০টি কাজে গড়ে ১২.৭৮% উন্নতি অর্জন করে।
মাল্টিমোডাল বৃহৎ ভাষা মডেলগুলির ভিডিও বোঝার কাজে ব্যাপক প্রয়োগের সাথে, বিশেষত ভিডিও সামগ্রী পর্যবেক্ষণ, স্বয়ংক্রিয় চালনা এবং রিয়েল-টাইম পর্যবেক্ষণের মতো উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রে স্থাপনার সাথে, মডেলের শক্তিশালীতা নিশ্চিত করা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। বিদ্যমান মডেলগুলি নিয়ন্ত্রিত পরিবেশে ভাল পারফর্ম করে, কিন্তু জালিয়াতি বা পরিচালিত ইনপুটের মুখোমুখি হলে তারা কর্মক্ষমতা বজায় রাখতে পারে কিনা তা অজানা।
১. ব্যবহারিক প্রয়োগের চাহিদা: উচ্চ-ঝুঁকিপূর্ণ প্রয়োগ পরিস্থিতিতে, মডেলগুলিকে বিভিন্ন ভিজ্যুয়াল পরিবর্তনের জন্য স্থিতিশীল কর্মক্ষমতা বজায় রাখতে হবে ২. নিরাপত্তা বিবেচনা: দূষ্ট আক্রমণকারীরা মডেলকে প্রতারিত করতে এবং নিরাপত্তা ঝুঁকি তৈরি করতে ভিডিও সম্পাদনার মাধ্যমে পারে ३. মূল্যায়ন ফাঁক: বিদ্যমান শক্তিশালীতা মূল্যায়ন প্রধানত স্থির চিত্রে কেন্দ্রীভূত, ভিডিও ডোমেনে সিস্টেমেটিক মূল্যায়নের অভাব রয়েছে
১. স্থির চিত্রের সীমাবদ্ধতা: LANCE এর মতো মানদণ্ডগুলি প্রধানত স্থির চিত্রের পাল্টা-বাস্তব প্রজন্মে ফোকাস করে २. সহজ বিঘ্ন: বিদ্যমান ভিডিও শক্তিশালীতা মূল্যায়ন প্রধানত শব্দ বা ক্ষতি পরীক্ষা ব্যবহার করে, বাস্তব-বিশ্বের ভিডিওর সমৃদ্ধ সময়ানুক্রমিক গতিশীলতা উপেক্ষা করে ३. সিস্টেমেটিক অভাব: ভিডিও MLLMs এর জন্য ব্যাপক শক্তিশালীতা মূল্যায়ন কাঠামোর অভাব রয়েছে
এই পেপারটি দুটি মূল গবেষণা প্রশ্নের উত্তর দিতে লক্ষ্য রাখে:
१. প্রথম ভিডিও শক্তিশালীতা মানদণ্ড: RO-Bench প্রস্তাব করে, যা ভিডিও MLLMs এর শক্তিশালীতা মূল্যায়নের জন্য বিশেষভাবে ডিজাইন করা প্রথম পাল্টা-বাস্তব ভিডিও পরীক্ষা সেট মানদণ্ড २. উদ্ভাবনী মূল্যায়ন মেট্রিক্স: পাঠ্য প্রম্পট এবং মূল ভিডিওর সম্পাদিত ফলাফলের উপর প্রভাব মূল্যায়ন করতে চারটি উদ্ভাবনী মূল্যায়ন মেট্রিক্স প্রবর্তন করে, উচ্চ-মানের ডেটা নিশ্চিত করে ३. ব্যাপক শক্তিশালীতা মূল্যায়ন: প্রধান ভিডিও MLLMs এর ব্যাপক মূল্যায়ন পরিচালনা করে, ভিডিও বোঝার ক্ষেত্রে তাদের শক্তিশালীতার অভাব প্রকাশ করে ४. প্রশিক্ষণ কৌশল যাচাইকরণ: প্রমাণ করে যে পাল্টা-বাস্তব ডেটা প্রশিক্ষণ RO-Bench কর্মক্ষমতা এবং অন্যান্য মানদণ্ড কাজের সাধারণ কর্মক্ষমতা উন্নত করতে পারে
RO-Bench পাল্টা-বাস্তব ভিডিও সামগ্রীর মুখোমুখি হওয়ার সময় ভিডিও MLLMs এর শক্তিশালীতা মূল্যায়ন করতে লক্ষ্য রাখে। কাজগুলি অন্তর্ভুক্ত করে:
ক্যাপশন সম্পাদনা কৌশল:
ভিডিও সম্পাদনা প্রক্রিয়া:
স্বয়ংক্রিয় প্রশ্ন প্রজন্ম:
বিকল্প প্রজন্ম কৌশল:
१. বহু-মাত্রিক সম্পাদনা কৌশল: শৈলী, বস্তু, পটভূমি তিনটি মাত্রা থেকে সিস্টেমেটিকভাবে ভিডিও সম্পাদনা করা २. গুণমান মূল্যায়ন সিস্টেম: সম্পাদনা গুণমান মূল্যায়ন করতে চারটি পরিমাণগত মেট্রিক্স প্রস্তাব করা, উচ্চ-মানের পাল্টা-বাস্তব ভিডিও প্রজন্ম নিশ্চিত করা ३. কাজের বৈচিত্র্য: চারটি মূল ভিডিও বোঝার কাজ অন্তর্ভুক্ত করা, মডেল ক্ষমতা ব্যাপকভাবে মূল্যায়ন করা ४. স্বয়ংক্রিয় পাইপলাইন: শেষ থেকে শেষ পর্যন্ত স্বয়ংক্রিয় ডেটা প্রজন্ন এবং মূল্যায়ন পাইপলাইন তৈরি করা
৮টি প্রধান ভিডিও MLLMs মূল্যায়ন করা হয়েছে:
টেবিল १ থেকে দেখা যায় যে সমস্ত মডেল পাল্টা-বাস্তব ভিডিওতে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে:
१. কাজ সংবেদনশীলতা পার্থক্য: ক্রিয়া স্বীকৃতি কাজ সবচেয়ে বেশি প্রভাবিত হয় (२३.९९% হ্রাস), বস্তু অস্তিত্ব কাজ সবচেয়ে কম প্রভাবিত হয় (११.५४% হ্রাস) २. সম্পাদনা ফ্যাক্টর প্রভাব: বস্তু পরিবর্তন শৈলী এবং পটভূমি পরিবর্তনের চেয়ে মডেলকে আরও বেশি প্রভাবিত করে ३. স্থাপত্য প্রভাব: বড় বা সূক্ষ্ম-সুর ভিডিও এনকোডার ব্যবহারকারী মডেলগুলি হিমায়িত CLIP ViT/L-14 ব্যবহারকারী মডেলগুলির চেয়ে ভাল পারফর্ম করে
MVBench এর २०টি ডাউনস্ট্রিম কাজে:
१. সম্পাদনা ফ্যাক্টর বিশ্লেষণ: বস্তু সম্পাদনা মডেল কর্মক্ষমতায় সবচেয়ে বেশি প্রভাব ফেলে, তারপর শৈলী এবং পটভূমি २. স্থাপত্য তুলনা: আরও শক্তিশালী ভিডিও এনকোডার শক্তিশালীতা উন্নত করতে অত্যন্ত গুরুত্বপূর্ণ ३. কাজ বিশেষত্ব: সময়ানুক্রমিক অনুমান কাজ (যেমন ক্রিয়া স্বীকৃতি) ভিজ্যুয়াল বিঘ্ন দ্বারা আরও সহজে প্রভাবিত হয়
সম্প্রতি, MLLMs ভিডিও বোঝার কাজে উল্লেখযোগ্য অগ্রগতি অর্জন করেছে, কিন্তু শক্তিশালীতা মূল্যায়ন তুলনামূলকভাবে পিছিয়ে আছে।
পাল্টা-বাস্তব ডেটা মডেল সাধারণীকরণ ক্ষমতা উন্নত করতে সম্ভাবনা প্রদর্শন করে, কিন্তু ভিডিও MLLMs এ এর প্রয়োগ এখনও অন্বেষণ করা বাকি রয়েছে।
१. শক্তিশালীতার অভাব: বর্তমান ভিডিও MLLMs পাল্টা-বাস্তব ভিডিও সামগ্রীর মুখোমুখি হলে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে २. কাজ পার্থক্য: বিভিন্ন কাজ ভিজ্যুয়াল পরিবর্তনের প্রতি সংবেদনশীলতায় পার্থক্য রয়েছে, সময়ানুক্রমিক সম্পর্কিত কাজ আরও সহজে প্রভাবিত হয় ३. স্থাপত্য গুরুত্ব: আরও শক্তিশালী ভিডিও এনকোডার শক্তিশালীতা উন্নত করতে অত্যন্ত গুরুত্বপূর্ণ ४. প্রশিক্ষণ কার্যকারিতা: পাল্টা-বাস্তব ডেটা দিয়ে সূক্ষ্ম-সুর করা মডেল শক্তিশালীতা এবং সাধারণ কর্মক্ষমতা কার্যকরভাবে উন্নত করতে পারে
१. ডেটা স্কেল সীমাবদ্ধতা: বর্তমান ডেটাসেট স্কেল তুলনামূলকভাবে ছোট, যা মূল্যায়নের সম্পূর্ণতা সীমিত করতে পারে २. সম্পাদনা গুণমান: গুণমান নিয়ন্ত্রণ সত্ত্বেও, উৎপন্ন পাল্টা-বাস্তব ভিডিও এখনও যথেষ্ট প্রাকৃতিক নাও হতে পারে ३. মূল্যায়ন পরিসীমা: প্রধানত ভিজ্যুয়াল সম্পাদনায় ফোকাস করে, অন্যান্য ধরনের বিঘ্ন (যেমন অডিও, সময়ানুক্রমিক বিঘ্ন) অন্তর্ভুক্ত করে না ४. মডেল কভারেজ: মূল্যায়ন করা মডেলের সংখ্যা সীমিত, যা বর্তমান প্রযুক্তি স্তর সম্পূর্ণভাবে প্রতিনিধিত্ব করতে পারে না
१. সম্পাদনা ধরন সম্প্রসারণ: আরও ধরনের ভিডিও সম্পাদনা এবং বিঘ্ন পদ্ধতি অন্বেষণ করা २. বড় আকারের ডেটাসেট: আরও বড় স্কেল, আরও বৈচিত্র্যময় পাল্টা-বাস্তব ভিডিও ডেটাসেট তৈরি করা ३. তাত্ত্বিক বিশ্লেষণ: MLLMs শক্তিশালীতার অভাবের মূল কারণ গভীরভাবে বিশ্লেষণ করা ४. প্রতিরক্ষা প্রক্রিয়া: মডেল শক্তিশালীতা উন্নত করতে বিশেষ প্রতিরক্ষা কৌশল বিকাশ করা
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সিস্টেমেটিকভাবে ভিডিও MLLMs শক্তিশালীতা মূল্যায়ন মানদণ্ড প্রস্তাব করে, গুরুত্বপূর্ণ গবেষণা ফাঁক পূরণ করে २. সম্পূর্ণ পদ্ধতি: ডেটা প্রজন্ন, গুণমান নিয়ন্ত্রণ থেকে মূল্যায়ন মেট্রিক্স পর্যন্ত, সম্পূর্ণ মূল্যায়ন কাঠামো তৈরি করে ३. পর্যাপ্ত পরীক্ষা: একাধিক প্রধান মডেল মূল্যায়ন করে, ব্যাপক কর্মক্ষমতা তুলনা বিশ্লেষণ প্রদান করে ४. উচ্চ ব্যবহারিক মূল্য: শুধুমাত্র মূল্যায়ন মানদণ্ড প্রদান করে না, বরং পাল্টা-বাস্তব ডেটা মডেল কর্মক্ষমতা উন্নতিতে কার্যকারিতা প্রমাণ করে ५. দৃঢ় প্রযুক্তি: অত্যাধুনিক ভিডিও সম্পাদনা প্রযুক্তি ব্যবহার করে, উচ্চ-মানের পাল্টা-বাস্তব ভিডিও প্রজন্ন নিশ্চিত করে
१. ডেটা স্কেল সীমাবদ্ধতা: অন্যান্য বড় আকারের মানদণ্ডের তুলনায়, RO-Bench এর ডেটা স্কেল তুলনামূলকভাবে ছোট २. সম্পাদনা মাত্রা সীমাবদ্ধতা: প্রধানত শৈলী, বস্তু, পটভূমি তিনটি মাত্রায় ফোকাস করে, অন্যান্য গুরুত্বপূর্ণ বিঘ্ন ধরন মিস করতে পারে ३. একক মূল্যায়ন মেট্রিক্স: প্রধানত নির্ভুলতা মূল্যায়ন মেট্রিক হিসাবে ব্যবহার করে, আরও সূক্ষ্ম-দানাদার বিশ্লেষণ মেট্রিক্সের অভাব রয়েছে ४. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: মডেল শক্তিশালীতার অভাবের মূল কারণের গভীর তাত্ত্বিক বিশ্লেষণের অভাব রয়েছে
१. একাডেমিক অবদান: ভিডিও MLLMs শক্তিশালীতা মূল্যায়নের জন্য গুরুত্বপূর্ণ মানদণ্ড এবং গবেষণা কাঠামো প্রদান করে २. ব্যবহারিক মূল্য: ভিডিও MLLMs শিল্প স্থাপনার জন্য গুরুত্বপূর্ণ নির্দেশনা প্রদান করে ३. গবেষণা অনুপ্রেরণা: পরবর্তী সম্পর্কিত গবেষণার জন্য গুরুত্বপূর্ণ ভিত্তি এবং রেফারেন্স প্রদান করে ४. পুনরুৎপাদনযোগ্যতা: কোড এবং ডেটা ওপেন-সোর্স করার প্রতিশ্রুতি, গবেষণা সম্প্রদায়ের উন্নয়নে অবদান রাখে
१. মডেল মূল্যায়ন: বিভিন্ন ভিডিও MLLMs এর শক্তিশালীতা মূল্যায়নের জন্য প্রযোজ্য २. মডেল উন্নতি: মডেল স্থাপত্য ডিজাইন এবং প্রশিক্ষণ কৌশল অপ্টিমাইজেশন নির্দেশনা দিতে ব্যবহার করা যায় ३. প্রয়োগ স্থাপনা: উচ্চ-ঝুঁকিপূর্ণ প্রয়োগ পরিস্থিতিতে মডেল স্থাপনার জন্য নিরাপত্তা মূল্যায়ন প্রদান করে ४. গবেষণা মানদণ্ড: ভবিষ্যত সম্পর্কিত গবেষণার জন্য মান মূল্যায়ন মানদণ্ড হিসাবে কাজ করতে পারে
এই পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা প্রথমবারের মতো সিস্টেমেটিকভাবে ভিডিও MLLMs শক্তিশালীতা মূল্যায়নের এই গুরুত্বপূর্ণ সমস্যা সমাধান করে। পেপারটি প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক ডিজাইন এবং ব্যবহারিক মূল্যের দিক থেকে চমৎকার পারফরম্যান্স প্রদর্শন করে, এই ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ অবদান রাখে। যদিও ডেটা স্কেল এবং তাত্ত্বিক বিশ্লেষণের দিক থেকে উন্নতির অবকাশ রয়েছে, তবে সামগ্রিকভাবে এটি একটি অত্যন্ত মূল্যবান গবেষণা কাজ।