2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

تصنيف الفيديو متعدد التسميات بمفردات مفتوحة

المعلومات الأساسية

معرّف الورقة: 2407.09073
العنوان: تصنيف الفيديو متعدد التسميات بمفردات مفتوحة
المؤلفون: روهيت جوبتا، مامشاد نايم ريزفي، جايكريشنان أونيكريشنان، أشيش تاواري، سون تران، مبارك شاه، بنجامين ياو، تريشول تشيليمبي
التصنيف: cs.CV
تاريخ النشر: arXiv:2407.09073v2 cs.CV 13 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2407.09073

الملخص

حققت نماذج الرؤية واللغة المدربة مسبقاً (VLMs) تقدماً ملحوظاً في مهام الرؤية الحاسوبية بمفردات مفتوحة، مثل تصنيف الصور والكشف عن الأجسام وتقسيم الصور. ركزت بعض الأعمال الحديثة على توسيع نماذج VLMs إلى تصنيف الإجراءات بتسمية واحدة بمفردات مفتوحة في الفيديو. ومع ذلك، تفتقر الطرق السابقة إلى فهم شامل للفيديو، وغير قادرة على التعرف على إجراءات وكيانات متعددة (مثل الأجسام) في نفس الوقت في إعدادات المفردات المفتوحة. تحدد هذه الورقة هذه المشكلة كتصنيف فيديو متعدد التسميات بمفردات مفتوحة، وتقترح طريقة لتكييف نماذج VLM المدربة مسبقاً (مثل CLIP) لحل هذه المهمة. نستفيد من نماذج اللغة الكبيرة (LLMs) لتوفير إرشادات دلالية لـ VLM حول تسميات الفئات، مما يعزز أداء المفردات المفتوحة من خلال مساهمتين رئيسيتين. أولاً، نقترح معمارية قابلة للتدريب من طرف إلى طرف تتعلم كيفية توجيه نموذج اللغة الكبيرة لإنشاء خصائص ناعمة لمشفر نص CLIP، مما يمكنه من التعرف على فئات جديدة. ثانياً، ندمج وحدة نمذجة زمنية في مشفر الرؤية CLIP، مما يوفر نمذجة فعالة للديناميكيات الزمانية المكانية لمفاهيم الفيديو، ونقترح تقنية تنظيم تدقيق جديدة تضمن الحفاظ على أداء تصنيف قوية بمفردات مفتوحة في مجال الفيديو.

خلفية البحث والدافع

تعريف المشكلة

تعاني طرق تصنيف الفيديو التقليدية من القيود التالية:

قيود المفردات: تتطلب الطرق الكلاسيكية معرفة مسبقة بجميع الفئات الممكنة، ويمكن للنموذج التدريب الخاضع للإشراف فقط على مجموعات البيانات المسماة
تكاليف التعليق عالية: تكون عملية التعليق اليدوي كثيفة العمالة، مما يؤدي إلى أن تقتصر مجموعات بيانات الفيديو عادة على مجالات محددة (مثل رياضات معينة أو أنشطة بسيطة)
التعرف على مفهوم واحد: تركز طرق المفردات المفتوحة الحالية بشكل أساسي على التصنيف أحادي التسمية، وغير قادرة على التعرف على مفاهيم متعددة في الفيديو

دافع البحث

مع الانتشار الواسع لتطبيقات الفيديو، هناك حاجة لتطوير نماذج فيديو قادرة على التعرف على نطاق واسع من المفاهيم. الدافع الأساسي لهذه الورقة هو:

الاستفادة من مزايا التدريب المسبق لـ VLMs على أزواج صور-نصوص واسعة النطاق
دمج المعرفة العالمية الغنية لنماذج اللغة الكبيرة لتعزيز الفهم الدلالي
تحقيق التعرف على مفاهيم فيديو متعددة (إجراءات وأجسام ومشاهد وغيرها) في نفس الوقت في إعدادات المفردات المفتوحة

التحديات التقنية

مشكلة درجات التشابه في إعدادات متعددة التسميات: تختلف نطاقات درجات تشابه VLM لأنواع مفاهيم مختلفة (مثل الإجراءات والأجسام)
النمذجة الزمنية: تفتقر نماذج الصور-اللغة المدربة مسبقاً إلى القدرة على نمذجة الديناميكيات الزمنية للفيديو
الحفاظ على أداء المفردات المفتوحة: يؤدي التدقيق على بيانات الفيديو بسهولة إلى الإفراط في التدريب وفقدان القدرة على التعميم

المساهمات الأساسية

مشفر تسميات قابل للتدريب من طرف إلى طرف: نقترح طريقة لتعلم كيفية توجيه نموذج اللغة الكبيرة لإنشاء خصائص ناعمة لمشفر نص VLM، مما يحقق تصنيف فيديو متعدد التسميات بمفردات مفتوحة
مشفر رؤية معزز زمنياً: دمج القدرة على النمذجة الزمنية في مشفر الصور المدرب مسبقاً لـ VLM مع الحفاظ على أداء قوية بمفردات مفتوحة
مجموعة بيانات معيارية جديدة: تحديد معايير تصنيف فيديو متعدد التسميات بمفردات مفتوحة على 5 مجموعات بيانات ومقارنة مع 6 خطوط أساس قوية
تحسينات أداء كبيرة: تتفوق بشكل كبير على طرق الخط الأساس على مجموعات بيانات معيارية متعددة

شرح الطريقة

تعريف المهمة

الإدخال: سلسلة فيديو ومجموعة تسميات فئات من مفردات مفتوحة الإخراج: احتمالية وجود كل تسمية في الفيديو القيود: يجب أن يكون النموذج قادراً على معالجة فئات جديدة لم يرها أثناء التدريب عند الاستدلال

معمارية النموذج

الإطار العام

يتضمن النموذج ثلاث مراحل رئيسية:

مرحلة التدريب: تدريب مشفر التسميات ومشفر الفيديو معاً على تسميات التدريب في المجموعة المغلقة
مرحلة توسيع مفردات المصنف: حساب التضمينات للتسميات الجديدة وحفظها في قاعدة بيانات تضمينات التسميات
مرحلة الاستدلال: حساب ميزات الفيديو ومطابقتها مع قاعدة بيانات تضمينات التسميات

1. تضمينات التسميات المعززة دلالياً بـ LLM

طريقة التوجيه الثابتة:

تصميم قالب توجيه يسأل نموذج اللغة الكبيرة عن إنشاء ميزات مفيدة للتمييز بين الفئات بصرياً
يتم تحليل إخراج نموذج اللغة الكبيرة كقائمة خصائص، والتي يتم توجيهها إلى مشفر نص CLIP مع اسم الفئة
يتم إنشاء تضمينات نصية معززة بالخصائص من خلال تجميع المتوسط

توجيه نموذج اللغة الكبيرة القابل للتعلم من طرف إلى طرف: لحل مشكلة عدم قابلية التدريب في طريقة التوجيه الثابتة، نقترح المعمارية التالية:

بادئة قابلة للتعلم: N متجهات d-بعدية قابلة للتعلم كبادئة لتوجيه نموذج اللغة الكبيرة
محول التوجيه: تعيين إخراج نموذج اللغة الكبيرة من الفضاء الدلالي إلى فضاء إدخال CLIP الدلالي
إنشاء خصائص ناعمة: تشغيل KL تكرار فك تشفير لكل بادئة، مما ينتج K من L-token متتاليات فرعية كخصائص ناعمة

التمثيل الرياضي:

سلسلة الإدخال: I ∈ R^(M×d)
دمج البادئة Pi مع قالب التوجيه: [Pi; I] ∈ R^((1+M)×d)
تضمين التسمية النهائي: ft(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. النمذجة الزمنية المتوازية المنظمة

فرع النمذجة الزمنية:

إضافة فرع نمذجة زمنية متوازي في آخر T طبقة من مشفر رؤية CLIP
تجميد فرع رؤية CLIP، وتدريب الطبقات الزمنية الجديدة فقط
يتضمن كل كتلة زمنية:
- طبقة انتباه مكانية مهيأة من أوزان CLIP
- طبقة انتباه زمنية مهيأة عشوائياً

استراتيجية تنظيم الأوزان: للحفاظ على الأداء بدون عينات، استخدم تنظيم الأوزان العشوائي لطبقات الانتباه المكاني:

θ = αθ_ft + (1-α)θ_frozen، حيث α ~ U(0, λ)

إنشاء تضمينات الفيديو: يتم إنشاء تضمينات الفيديو الشاملة من خلال تجميع المتوسط لرمز الوقت الزمني النهائي (TMP) ورموز CLS لكل إطار.

أهداف التدريب

استخدام خسارة الإنتروبيا الثنائية المرجحة:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

حيث:

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (ft(ℓ))^T fv(v)
τ معامل درجة الحرارة، w معامل فائق الوزن

إعداد التجارب

مجموعات البيانات

مجموعات بيانات التدريب:

YouTube-8M: معلقة بشكل أساسي على الكيانات، مع الاحتفاظ بـ 2429 فئة بعد إزالة عناوين الألعاب
Kinetics-400: تسميات إجراءات عالية الجودة تم التحقق منها يدوياً، 400 فئة

مجموعات بيانات التقييم:

TAO (Tracking Any Object): مجموعة بيانات بمفردات مفتوحة تركز على الأجسام
ActivityNet: مجموعة بيانات تركز على الإجراءات
RareAct: تتضمن أجسام وإجراءات وتركيبات نادرة منها

مقاييس التقييم

AUPR (المساحة تحت منحنى الدقة-الاستدعاء): تلخص أداء التصنيف عبر المقايضة بين الدقة والاستدعاء
أفضل درجة F1: درجة F1 المحققة عند الحد الأمثل

طرق المقارنة

CoOp: طريقة تكيف خفيفة الوزن تتعلم توجيه مشفر نص CLIP
DualCoOp: توسيع متعدد التسميات لـ CoOp، يتعلم التوجيهات الإيجابية والسلبية
LLM + CLIP (مجمد): خط أساس توجيه LLM ثابت
ViFi-CLIP: تدقيق مشفرات الصور والنصوص CLIP على مجموعة بيانات التدريب

نتائج التجارب

النتائج الرئيسية

مقارنة أداء AUPR:

الطريقة	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (توجيه اسم الفئة)	6.3	26.2	43.8	44.2	9.5
توجيه LLM الثابت	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
طريقتنا	16.7	43.2	65.5	50.2	13.2

مقارنة أداء أفضل درجة F1:

الطريقة	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (توجيه اسم الفئة)	14.9	34.2	44.6	47.1	17.6
توجيه LLM الثابت	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
طريقتنا	32.7	46.6	56.6	53.8	25.1

تجارب الاستئصال

تحليل مكون النمذجة الزمنية:

عدد كتل النمذجة الزمنية: 4 كتل تحقق أفضل أداء
تنظيم الأوزان: يمنع بشكل كبير الإفراط في التدريب، ويحافظ على أداء المفردات المفتوحة
تجميد جذع CLIP الرئيسي: يتجنب الإفراط في التدريب الشديد

تحليل مكون مشفر التسميات:

يحقق مزيج LLM + توجيه قابل للتعلم + محول التوجيه أفضل أداء
إزالة مشفر نص CLIP يؤدي إلى انخفاض كبير في الأداء
التوجيه القابل للتعلم يتفوق على التوجيه الثابت

تحليل معايرة الدرجات

تحقق طريقتنا معايرة درجات أفضل بين أنواع المفاهيم المختلفة، مما يسمح بحد واحد بتحقيق أداء جيدة على مفاهيم متعددة، وهو أمر حاسم للتطبيقات العملية.

الأعمال ذات الصلة

تعلم تمثيلات الرؤية واللغة

نجاح نماذج الصور-اللغة واسعة النطاق مثل CLIP
يعتمد التدريب المسبق للفيديو-اللغة عادة على التكيف من نماذج الصور-اللغة المدربة مسبقاً

التصنيف بمفردات مفتوحة

التدقيق المنظم وتعلم التوجيه هما الطرق الرئيسية
تركز الأعمال الحالية بشكل أساسي على المهام أحادية التسمية أو التعرف على الصور

تطبيقات نماذج اللغة الكبيرة في الرؤية

استخدام نماذج اللغة الكبيرة لإنشاء واصفات الفئات لتحسين التصنيف
محاذاة النماذج متعددة الأنماط لتمثيلات الرؤية مع فضاء إدخال نموذج اللغة الكبيرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نقترح أول طريقة لتصنيف الفيديو متعدد التسميات بمفردات مفتوحة
معمارية موجهة بـ LLM قابلة للتدريب من طرف إلى طرف تحسن الأداء بشكل كبير
تقنيات النمذجة الزمنية والتنظيم توازن بنجاح بين أداء التدقيق وقدرة المفردات المفتوحة

القيود

تعتمد على جودة نماذج VLM و LLM المدربة مسبقاً
نطاق تغطية المفاهيم في مجموعة بيانات التدريب لا يزال محدوداً
الحمل الحسابي يزيد مقارنة بنموذج CLIP الأساسي

الاتجاهات المستقبلية

استكشاف معماريات نمذجة زمنية أكثر كفاءة
البحث عن طرق محاذاة أفضل بين LLM و VLM
التوسع إلى مهام فهم فيديو أخرى

التقييم المتعمق

المميزات

تعريف المشكلة مبتكر: أول تعريف منهجي وحل لمشكلة تصنيف الفيديو متعدد التسميات بمفردات مفتوحة
حل تقني شامل: يعالج التحديات الأساسية لتشفير التسميات والنمذجة الزمنية للفيديو في نفس الوقت
تجارب شاملة: تقييم شامل على مجموعات بيانات متعددة، مع تجارب استئصال مفصلة
قيمة عملية عالية: الطريقة قابلة للتوسع بشكل جيد وتدعم إضافة فئات جديدة ديناميكياً عند الاستدلال

أوجه القصور

التعقيد الحسابي: يضيف بعض الحمل الحسابي مقارنة بالطرق الأساسية
الاعتماد على البيانات: الأداء لا تزال تعتمد على جودة وتنوع بيانات التدريب
القدرة على التعميم: يحتاج التحقق من الأداء على بيانات خارج المجال بشكل أكبر

التأثير

المساهمة الأكاديمية: توفر اتجاهاً بحثياً جديداً ومعايير قياسية لمجال فهم الفيديو
القيمة العملية: توفر حلاً تقنياً قابلاً للتطبيق للتطبيقات الفيديوية الفعلية
قابلية التكرار: توفر تفاصيل تنفيذ شاملة وإعدادات تجريبية

السيناريوهات المناسبة

تحليل وتعليق محتوى الفيديو
أنظمة البحث والتوصية للفيديو
التعرف على أهداف متعددة في مراقبة الأمان
التصنيف التلقائي لمقاطع الفيديو التعليمية

المراجع

تستشهد الورقة بـ 68 مرجعاً ذا صلة، تغطي تعلم الرؤية واللغة والتصنيف بمفردات مفتوحة وتطبيقات نماذج اللغة الكبيرة وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً لهذا البحث.