Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
حققت نماذج الرؤية واللغة المدربة مسبقاً (VLMs) تقدماً ملحوظاً في مهام الرؤية الحاسوبية بمفردات مفتوحة، مثل تصنيف الصور والكشف عن الأجسام وتقسيم الصور. ركزت بعض الأعمال الحديثة على توسيع نماذج VLMs إلى تصنيف الإجراءات بتسمية واحدة بمفردات مفتوحة في الفيديو. ومع ذلك، تفتقر الطرق السابقة إلى فهم شامل للفيديو، وغير قادرة على التعرف على إجراءات وكيانات متعددة (مثل الأجسام) في نفس الوقت في إعدادات المفردات المفتوحة. تحدد هذه الورقة هذه المشكلة كتصنيف فيديو متعدد التسميات بمفردات مفتوحة، وتقترح طريقة لتكييف نماذج VLM المدربة مسبقاً (مثل CLIP) لحل هذه المهمة. نستفيد من نماذج اللغة الكبيرة (LLMs) لتوفير إرشادات دلالية لـ VLM حول تسميات الفئات، مما يعزز أداء المفردات المفتوحة من خلال مساهمتين رئيسيتين. أولاً، نقترح معمارية قابلة للتدريب من طرف إلى طرف تتعلم كيفية توجيه نموذج اللغة الكبيرة لإنشاء خصائص ناعمة لمشفر نص CLIP، مما يمكنه من التعرف على فئات جديدة. ثانياً، ندمج وحدة نمذجة زمنية في مشفر الرؤية CLIP، مما يوفر نمذجة فعالة للديناميكيات الزمانية المكانية لمفاهيم الفيديو، ونقترح تقنية تنظيم تدقيق جديدة تضمن الحفاظ على أداء تصنيف قوية بمفردات مفتوحة في مجال الفيديو.
تعاني طرق تصنيف الفيديو التقليدية من القيود التالية:
قيود المفردات: تتطلب الطرق الكلاسيكية معرفة مسبقة بجميع الفئات الممكنة، ويمكن للنموذج التدريب الخاضع للإشراف فقط على مجموعات البيانات المسماة
تكاليف التعليق عالية: تكون عملية التعليق اليدوي كثيفة العمالة، مما يؤدي إلى أن تقتصر مجموعات بيانات الفيديو عادة على مجالات محددة (مثل رياضات معينة أو أنشطة بسيطة)
التعرف على مفهوم واحد: تركز طرق المفردات المفتوحة الحالية بشكل أساسي على التصنيف أحادي التسمية، وغير قادرة على التعرف على مفاهيم متعددة في الفيديو
مشفر تسميات قابل للتدريب من طرف إلى طرف: نقترح طريقة لتعلم كيفية توجيه نموذج اللغة الكبيرة لإنشاء خصائص ناعمة لمشفر نص VLM، مما يحقق تصنيف فيديو متعدد التسميات بمفردات مفتوحة
مشفر رؤية معزز زمنياً: دمج القدرة على النمذجة الزمنية في مشفر الصور المدرب مسبقاً لـ VLM مع الحفاظ على أداء قوية بمفردات مفتوحة
مجموعة بيانات معيارية جديدة: تحديد معايير تصنيف فيديو متعدد التسميات بمفردات مفتوحة على 5 مجموعات بيانات ومقارنة مع 6 خطوط أساس قوية
تحسينات أداء كبيرة: تتفوق بشكل كبير على طرق الخط الأساس على مجموعات بيانات معيارية متعددة
الإدخال: سلسلة فيديو ومجموعة تسميات فئات من مفردات مفتوحة
الإخراج: احتمالية وجود كل تسمية في الفيديو
القيود: يجب أن يكون النموذج قادراً على معالجة فئات جديدة لم يرها أثناء التدريب عند الاستدلال
تصميم قالب توجيه يسأل نموذج اللغة الكبيرة عن إنشاء ميزات مفيدة للتمييز بين الفئات بصرياً
يتم تحليل إخراج نموذج اللغة الكبيرة كقائمة خصائص، والتي يتم توجيهها إلى مشفر نص CLIP مع اسم الفئة
يتم إنشاء تضمينات نصية معززة بالخصائص من خلال تجميع المتوسط
توجيه نموذج اللغة الكبيرة القابل للتعلم من طرف إلى طرف:
لحل مشكلة عدم قابلية التدريب في طريقة التوجيه الثابتة، نقترح المعمارية التالية:
بادئة قابلة للتعلم: N متجهات d-بعدية قابلة للتعلم كبادئة لتوجيه نموذج اللغة الكبيرة
محول التوجيه: تعيين إخراج نموذج اللغة الكبيرة من الفضاء الدلالي إلى فضاء إدخال CLIP الدلالي
إنشاء خصائص ناعمة: تشغيل KL تكرار فك تشفير لكل بادئة، مما ينتج K من L-token متتاليات فرعية كخصائص ناعمة
التمثيل الرياضي:
سلسلة الإدخال: I ∈ R^(M×d)
دمج البادئة Pi مع قالب التوجيه: [Pi; I] ∈ R^((1+M)×d)
تضمين التسمية النهائي: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))
تستشهد الورقة بـ 68 مرجعاً ذا صلة، تغطي تعلم الرؤية واللغة والتصنيف بمفردات مفتوحة وتطبيقات نماذج اللغة الكبيرة وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً لهذا البحث.