2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.
Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic

تصنيف الفيديو متعدد التسميات بمفردات مفتوحة

المعلومات الأساسية

  • معرّف الورقة: 2407.09073
  • العنوان: تصنيف الفيديو متعدد التسميات بمفردات مفتوحة
  • المؤلفون: روهيت جوبتا، مامشاد نايم ريزفي، جايكريشنان أونيكريشنان، أشيش تاواري، سون تران، مبارك شاه، بنجامين ياو، تريشول تشيليمبي
  • التصنيف: cs.CV
  • تاريخ النشر: arXiv:2407.09073v2 cs.CV 13 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2407.09073

الملخص

حققت نماذج الرؤية واللغة المدربة مسبقاً (VLMs) تقدماً ملحوظاً في مهام الرؤية الحاسوبية بمفردات مفتوحة، مثل تصنيف الصور والكشف عن الأجسام وتقسيم الصور. ركزت بعض الأعمال الحديثة على توسيع نماذج VLMs إلى تصنيف الإجراءات بتسمية واحدة بمفردات مفتوحة في الفيديو. ومع ذلك، تفتقر الطرق السابقة إلى فهم شامل للفيديو، وغير قادرة على التعرف على إجراءات وكيانات متعددة (مثل الأجسام) في نفس الوقت في إعدادات المفردات المفتوحة. تحدد هذه الورقة هذه المشكلة كتصنيف فيديو متعدد التسميات بمفردات مفتوحة، وتقترح طريقة لتكييف نماذج VLM المدربة مسبقاً (مثل CLIP) لحل هذه المهمة. نستفيد من نماذج اللغة الكبيرة (LLMs) لتوفير إرشادات دلالية لـ VLM حول تسميات الفئات، مما يعزز أداء المفردات المفتوحة من خلال مساهمتين رئيسيتين. أولاً، نقترح معمارية قابلة للتدريب من طرف إلى طرف تتعلم كيفية توجيه نموذج اللغة الكبيرة لإنشاء خصائص ناعمة لمشفر نص CLIP، مما يمكنه من التعرف على فئات جديدة. ثانياً، ندمج وحدة نمذجة زمنية في مشفر الرؤية CLIP، مما يوفر نمذجة فعالة للديناميكيات الزمانية المكانية لمفاهيم الفيديو، ونقترح تقنية تنظيم تدقيق جديدة تضمن الحفاظ على أداء تصنيف قوية بمفردات مفتوحة في مجال الفيديو.

خلفية البحث والدافع

تعريف المشكلة

تعاني طرق تصنيف الفيديو التقليدية من القيود التالية:

  1. قيود المفردات: تتطلب الطرق الكلاسيكية معرفة مسبقة بجميع الفئات الممكنة، ويمكن للنموذج التدريب الخاضع للإشراف فقط على مجموعات البيانات المسماة
  2. تكاليف التعليق عالية: تكون عملية التعليق اليدوي كثيفة العمالة، مما يؤدي إلى أن تقتصر مجموعات بيانات الفيديو عادة على مجالات محددة (مثل رياضات معينة أو أنشطة بسيطة)
  3. التعرف على مفهوم واحد: تركز طرق المفردات المفتوحة الحالية بشكل أساسي على التصنيف أحادي التسمية، وغير قادرة على التعرف على مفاهيم متعددة في الفيديو

دافع البحث

مع الانتشار الواسع لتطبيقات الفيديو، هناك حاجة لتطوير نماذج فيديو قادرة على التعرف على نطاق واسع من المفاهيم. الدافع الأساسي لهذه الورقة هو:

  1. الاستفادة من مزايا التدريب المسبق لـ VLMs على أزواج صور-نصوص واسعة النطاق
  2. دمج المعرفة العالمية الغنية لنماذج اللغة الكبيرة لتعزيز الفهم الدلالي
  3. تحقيق التعرف على مفاهيم فيديو متعددة (إجراءات وأجسام ومشاهد وغيرها) في نفس الوقت في إعدادات المفردات المفتوحة

التحديات التقنية

  1. مشكلة درجات التشابه في إعدادات متعددة التسميات: تختلف نطاقات درجات تشابه VLM لأنواع مفاهيم مختلفة (مثل الإجراءات والأجسام)
  2. النمذجة الزمنية: تفتقر نماذج الصور-اللغة المدربة مسبقاً إلى القدرة على نمذجة الديناميكيات الزمنية للفيديو
  3. الحفاظ على أداء المفردات المفتوحة: يؤدي التدقيق على بيانات الفيديو بسهولة إلى الإفراط في التدريب وفقدان القدرة على التعميم

المساهمات الأساسية

  1. مشفر تسميات قابل للتدريب من طرف إلى طرف: نقترح طريقة لتعلم كيفية توجيه نموذج اللغة الكبيرة لإنشاء خصائص ناعمة لمشفر نص VLM، مما يحقق تصنيف فيديو متعدد التسميات بمفردات مفتوحة
  2. مشفر رؤية معزز زمنياً: دمج القدرة على النمذجة الزمنية في مشفر الصور المدرب مسبقاً لـ VLM مع الحفاظ على أداء قوية بمفردات مفتوحة
  3. مجموعة بيانات معيارية جديدة: تحديد معايير تصنيف فيديو متعدد التسميات بمفردات مفتوحة على 5 مجموعات بيانات ومقارنة مع 6 خطوط أساس قوية
  4. تحسينات أداء كبيرة: تتفوق بشكل كبير على طرق الخط الأساس على مجموعات بيانات معيارية متعددة

شرح الطريقة

تعريف المهمة

الإدخال: سلسلة فيديو ومجموعة تسميات فئات من مفردات مفتوحة الإخراج: احتمالية وجود كل تسمية في الفيديو القيود: يجب أن يكون النموذج قادراً على معالجة فئات جديدة لم يرها أثناء التدريب عند الاستدلال

معمارية النموذج

الإطار العام

يتضمن النموذج ثلاث مراحل رئيسية:

  1. مرحلة التدريب: تدريب مشفر التسميات ومشفر الفيديو معاً على تسميات التدريب في المجموعة المغلقة
  2. مرحلة توسيع مفردات المصنف: حساب التضمينات للتسميات الجديدة وحفظها في قاعدة بيانات تضمينات التسميات
  3. مرحلة الاستدلال: حساب ميزات الفيديو ومطابقتها مع قاعدة بيانات تضمينات التسميات

1. تضمينات التسميات المعززة دلالياً بـ LLM

طريقة التوجيه الثابتة:

  • تصميم قالب توجيه يسأل نموذج اللغة الكبيرة عن إنشاء ميزات مفيدة للتمييز بين الفئات بصرياً
  • يتم تحليل إخراج نموذج اللغة الكبيرة كقائمة خصائص، والتي يتم توجيهها إلى مشفر نص CLIP مع اسم الفئة
  • يتم إنشاء تضمينات نصية معززة بالخصائص من خلال تجميع المتوسط

توجيه نموذج اللغة الكبيرة القابل للتعلم من طرف إلى طرف: لحل مشكلة عدم قابلية التدريب في طريقة التوجيه الثابتة، نقترح المعمارية التالية:

  • بادئة قابلة للتعلم: N متجهات d-بعدية قابلة للتعلم كبادئة لتوجيه نموذج اللغة الكبيرة
  • محول التوجيه: تعيين إخراج نموذج اللغة الكبيرة من الفضاء الدلالي إلى فضاء إدخال CLIP الدلالي
  • إنشاء خصائص ناعمة: تشغيل KL تكرار فك تشفير لكل بادئة، مما ينتج K من L-token متتاليات فرعية كخصائص ناعمة

التمثيل الرياضي:

سلسلة الإدخال: I ∈ R^(M×d)
دمج البادئة Pi مع قالب التوجيه: [Pi; I] ∈ R^((1+M)×d)
تضمين التسمية النهائي: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. النمذجة الزمنية المتوازية المنظمة

فرع النمذجة الزمنية:

  • إضافة فرع نمذجة زمنية متوازي في آخر T طبقة من مشفر رؤية CLIP
  • تجميد فرع رؤية CLIP، وتدريب الطبقات الزمنية الجديدة فقط
  • يتضمن كل كتلة زمنية:
    • طبقة انتباه مكانية مهيأة من أوزان CLIP
    • طبقة انتباه زمنية مهيأة عشوائياً

استراتيجية تنظيم الأوزان: للحفاظ على الأداء بدون عينات، استخدم تنظيم الأوزان العشوائي لطبقات الانتباه المكاني:

θ = αθ_ft + (1-α)θ_frozen، حيث α ~ U(0, λ)

إنشاء تضمينات الفيديو: يتم إنشاء تضمينات الفيديو الشاملة من خلال تجميع المتوسط لرمز الوقت الزمني النهائي (TMP) ورموز CLS لكل إطار.

أهداف التدريب

استخدام خسارة الإنتروبيا الثنائية المرجحة:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

حيث:

  • p(ℓ,v) = σ(s(ℓ,v)/τ)
  • s(ℓ,v) = (ft(ℓ))^T fv(v)
  • τ معامل درجة الحرارة، w معامل فائق الوزن

إعداد التجارب

مجموعات البيانات

مجموعات بيانات التدريب:

  • YouTube-8M: معلقة بشكل أساسي على الكيانات، مع الاحتفاظ بـ 2429 فئة بعد إزالة عناوين الألعاب
  • Kinetics-400: تسميات إجراءات عالية الجودة تم التحقق منها يدوياً، 400 فئة

مجموعات بيانات التقييم:

  • TAO (Tracking Any Object): مجموعة بيانات بمفردات مفتوحة تركز على الأجسام
  • ActivityNet: مجموعة بيانات تركز على الإجراءات
  • RareAct: تتضمن أجسام وإجراءات وتركيبات نادرة منها

مقاييس التقييم

  • AUPR (المساحة تحت منحنى الدقة-الاستدعاء): تلخص أداء التصنيف عبر المقايضة بين الدقة والاستدعاء
  • أفضل درجة F1: درجة F1 المحققة عند الحد الأمثل

طرق المقارنة

  1. CoOp: طريقة تكيف خفيفة الوزن تتعلم توجيه مشفر نص CLIP
  2. DualCoOp: توسيع متعدد التسميات لـ CoOp، يتعلم التوجيهات الإيجابية والسلبية
  3. LLM + CLIP (مجمد): خط أساس توجيه LLM ثابت
  4. ViFi-CLIP: تدقيق مشفرات الصور والنصوص CLIP على مجموعة بيانات التدريب

نتائج التجارب

النتائج الرئيسية

مقارنة أداء AUPR:

الطريقةYouTube-8MKineticsTAOActivityNetRareAct
CLIP (توجيه اسم الفئة)6.326.243.844.29.5
توجيه LLM الثابت6.930.650.246.811.5
DualCoOp8.323.947.133.07.6
طريقتنا16.743.265.550.213.2

مقارنة أداء أفضل درجة F1:

الطريقةYouTube-8MKineticsTAOActivityNetRareAct
CLIP (توجيه اسم الفئة)14.934.244.647.117.6
توجيه LLM الثابت21.637.350.251.419.8
DualCoOp16.233.249.040.515.0
طريقتنا32.746.656.653.825.1

تجارب الاستئصال

تحليل مكون النمذجة الزمنية:

  • عدد كتل النمذجة الزمنية: 4 كتل تحقق أفضل أداء
  • تنظيم الأوزان: يمنع بشكل كبير الإفراط في التدريب، ويحافظ على أداء المفردات المفتوحة
  • تجميد جذع CLIP الرئيسي: يتجنب الإفراط في التدريب الشديد

تحليل مكون مشفر التسميات:

  • يحقق مزيج LLM + توجيه قابل للتعلم + محول التوجيه أفضل أداء
  • إزالة مشفر نص CLIP يؤدي إلى انخفاض كبير في الأداء
  • التوجيه القابل للتعلم يتفوق على التوجيه الثابت

تحليل معايرة الدرجات

تحقق طريقتنا معايرة درجات أفضل بين أنواع المفاهيم المختلفة، مما يسمح بحد واحد بتحقيق أداء جيدة على مفاهيم متعددة، وهو أمر حاسم للتطبيقات العملية.

الأعمال ذات الصلة

تعلم تمثيلات الرؤية واللغة

  • نجاح نماذج الصور-اللغة واسعة النطاق مثل CLIP
  • يعتمد التدريب المسبق للفيديو-اللغة عادة على التكيف من نماذج الصور-اللغة المدربة مسبقاً

التصنيف بمفردات مفتوحة

  • التدقيق المنظم وتعلم التوجيه هما الطرق الرئيسية
  • تركز الأعمال الحالية بشكل أساسي على المهام أحادية التسمية أو التعرف على الصور

تطبيقات نماذج اللغة الكبيرة في الرؤية

  • استخدام نماذج اللغة الكبيرة لإنشاء واصفات الفئات لتحسين التصنيف
  • محاذاة النماذج متعددة الأنماط لتمثيلات الرؤية مع فضاء إدخال نموذج اللغة الكبيرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نقترح أول طريقة لتصنيف الفيديو متعدد التسميات بمفردات مفتوحة
  2. معمارية موجهة بـ LLM قابلة للتدريب من طرف إلى طرف تحسن الأداء بشكل كبير
  3. تقنيات النمذجة الزمنية والتنظيم توازن بنجاح بين أداء التدقيق وقدرة المفردات المفتوحة

القيود

  1. تعتمد على جودة نماذج VLM و LLM المدربة مسبقاً
  2. نطاق تغطية المفاهيم في مجموعة بيانات التدريب لا يزال محدوداً
  3. الحمل الحسابي يزيد مقارنة بنموذج CLIP الأساسي

الاتجاهات المستقبلية

  1. استكشاف معماريات نمذجة زمنية أكثر كفاءة
  2. البحث عن طرق محاذاة أفضل بين LLM و VLM
  3. التوسع إلى مهام فهم فيديو أخرى

التقييم المتعمق

المميزات

  1. تعريف المشكلة مبتكر: أول تعريف منهجي وحل لمشكلة تصنيف الفيديو متعدد التسميات بمفردات مفتوحة
  2. حل تقني شامل: يعالج التحديات الأساسية لتشفير التسميات والنمذجة الزمنية للفيديو في نفس الوقت
  3. تجارب شاملة: تقييم شامل على مجموعات بيانات متعددة، مع تجارب استئصال مفصلة
  4. قيمة عملية عالية: الطريقة قابلة للتوسع بشكل جيد وتدعم إضافة فئات جديدة ديناميكياً عند الاستدلال

أوجه القصور

  1. التعقيد الحسابي: يضيف بعض الحمل الحسابي مقارنة بالطرق الأساسية
  2. الاعتماد على البيانات: الأداء لا تزال تعتمد على جودة وتنوع بيانات التدريب
  3. القدرة على التعميم: يحتاج التحقق من الأداء على بيانات خارج المجال بشكل أكبر

التأثير

  1. المساهمة الأكاديمية: توفر اتجاهاً بحثياً جديداً ومعايير قياسية لمجال فهم الفيديو
  2. القيمة العملية: توفر حلاً تقنياً قابلاً للتطبيق للتطبيقات الفيديوية الفعلية
  3. قابلية التكرار: توفر تفاصيل تنفيذ شاملة وإعدادات تجريبية

السيناريوهات المناسبة

  • تحليل وتعليق محتوى الفيديو
  • أنظمة البحث والتوصية للفيديو
  • التعرف على أهداف متعددة في مراقبة الأمان
  • التصنيف التلقائي لمقاطع الفيديو التعليمية

المراجع

تستشهد الورقة بـ 68 مرجعاً ذا صلة، تغطي تعلم الرؤية واللغة والتصنيف بمفردات مفتوحة وتطبيقات نماذج اللغة الكبيرة وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً لهذا البحث.