2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.

Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.

academic

MEGC2025: تحدي التعبيرات الدقيقة الكبير حول الكشف ثم التعرف والإجابة على الأسئلة البصرية

المعلومات الأساسية

معرّف الورقة: 2506.15298
العنوان: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
المؤلفون: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
التصنيف: cs.CV cs.MM
وقت النشر/المؤتمر: MM '25، 27-31 أكتوبر 2025، دبلن، أيرلندا (مؤتمر ACM الدولي للوسائط المتعددة)
رابط الورقة: https://arxiv.org/abs/2506.15298

الملخص

التعبيرات الدقيقة للوجه (MEs) هي حركات لا إرادية تظهر على الوجه بشكل عفوي عندما يحاول الأشخاص قمع أو كبح التعبيرات الوجهية، وتحدث عادة في بيئات عالية المخاطر. حققت الأبحاث الحديثة تقدماً كبيراً في مجالات التعرف على التعبيرات الدقيقة وتحديد موقعها وتوليدها. ومع ذلك، فإن الطرق التقليدية التي تعتبر التحديد والتعرف مهام منفصلة ليست مثالية، خاصة عند تحليل مقاطع فيديو طويلة في بيئات واقعية. في الوقت نفسه، يوفر ظهور نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) ونماذج الرؤية واللغة الكبيرة (LVLMs) طرقاً جديدة واعدة لتعزيز تحليل التعبيرات الدقيقة من خلال قدراتها القوية على الاستدلال متعدد الأنماط. يقدم MEGC 2025 مهمتين تعكسان هذه الاتجاهات البحثية: (1) التعبيرات الدقيقة - الكشف ثم التعرف (ME-STR)، والذي يدمج تحديد موقع التعبيرات الدقيقة والتعرف اللاحق في خط أنابيب متسلسل موحد؛ (2) الإجابة على الأسئلة البصرية للتعبيرات الدقيقة (ME-VQA)، والذي يستكشف فهم التعبيرات الدقيقة من خلال الإجابة على الأسئلة البصرية، مستفيداً من MLLMs أو LVLMs للتعامل مع أنواع مختلفة من الأسئلة المتعلقة بالتعبيرات الدقيقة.

الخلفية البحثية والدافع

تعريف المشكلة

المشاكل الأساسية التي تعالجها هذه الورقة هي قيود طرق تحليل التعبيرات الدقيقة التقليدية:

دون الأمثلية في فصل المهام: تعتبر الطرق التقليدية تحديد موقع التعبيرات الدقيقة (الكشف) والتعرف عليها مهام مستقلة، وهذا غير عملي في التطبيقات الواقعية
ضعف التكيف مع السيناريوهات الفعلية: تواجه الطرق الموجودة صعوبة في التعامل بفعالية مع تحليل التعبيرات الدقيقة في مقاطع الفيديو الطويلة
نقص القدرة على الاستدلال متعدد الأنماط: لم تستفد الطرق التقليدية بشكل كامل من قدرات الاستدلال في النماذج الكبيرة الناشئة متعددة الأنماط

أهمية البحث

يتمتع تحليل التعبيرات الدقيقة بقيمة مهمة في السيناريوهات التالية:

مراقبة البيئات عالية المخاطر: مثل فحوصات الأمان والاستجوابات القضائية
تقييم الصحة العقلية: الكشف عن الحالة العاطفية الحقيقية للأشخاص
تحسين التفاعل بين الإنسان والآلة: تحسين قدرة أنظمة الذكاء الاصطناعي على فهم المشاعر البشرية

قيود الطرق الموجودة

مهمة التعرف على التعبيرات الدقيقة: تفترض أن تسلسلات التعبيرات الدقيقة قد تم تحديد موقعها بالفعل، وهذا نادراً ما يحدث في الواقع
مهمة تحديد موقع التعبيرات الدقيقة: يمكنها فقط تحديد موقع حدوث التعبيرات الدقيقة، دون توفير تفسير ذي معنى لمحتوى المشاعر
غياب الحلول الشاملة: يؤدي تصميم المهام المنفصلة إلى أداء إجمالية دون الأمثلية

المساهمات الأساسية

اقتراح نموذج مهمة ME-STR: دمج تحديد موقع التعبيرات الدقيقة والتعرف عليها في خط أنابيب متسلسل موحد، وهو أكثر توافقاً مع احتياجات التطبيقات الفعلية
إدخال مهمة ME-VQA الجديدة: تطبيق نموذج الإجابة على الأسئلة البصرية على تحليل التعبيرات الدقيقة لأول مرة، مستفيداً من قدرات الاستدلال في النماذج الكبيرة متعددة الأنماط
بناء منصة تقييم شاملة: توفير مجموعات اختبار موحدة ومقاييس تقييم لتعزيز تطور المجال
إنشاء طرق أساسية: توفير طرق baseline لكلا المهمتين، مما يضع الأساس للأبحاث اللاحقة

شرح الطريقة

المهمة 1: ME-STR (كشف التعبيرات الدقيقة ثم التعرف عليها)

تعريف المهمة

تتطلب مهمة ME-STR في تسلسلات الفيديو الطويلة:

المرحلة الأولى: تحديد الفترة الزمنية التي تحدث فيها التعبيرات الدقيقة
المرحلة الثانية: تصنيف المشاعر للمقاطع المحددة بشكل صحيح من التعبيرات الدقيقة

يتم نقل العينات المحددة بشكل صحيح في المرحلة الأولى فقط إلى المرحلة الثانية للتعرف على المشاعر.

طريقة Baseline: شبكة MEAN

استخدام شبكة تحليل التعبيرات الدقيقة (MEAN) كخط أساس:

البنية الموحدة: شبكة عصبية شاملة تحتوي على طبقات مشتركة وفرعين متخصصين
فرع التحديد: فرع الانحدار، يُخرج درجة ثقة لكل إطار، مما يشير إلى احتمالية فترة التعبيرات الدقيقة
فرع التعرف: يتنبأ بفئة المشاعر للفترات المرشحة المحددة بواسطة فرع التحديد

مقاييس التقييم

مرحلة التحديد: TP و FP و FN والدقة والاستدعاء ودرجة F1 مرحلة التعرف: TP و FP و FN والدقة والاستدعاء و F1 و UF1 و UAR التقييم المدمج: STRS = F1-score_s × F1-score_a

المهمة 2: ME-VQA (الإجابة على الأسئلة البصرية للتعبيرات الدقيقة)

تعريف المهمة

بالنظر إلى تسلسل فيديو التعبيرات الدقيقة وسؤال باللغة الطبيعية، يجب على النموذج توليد إجابة باللغة الطبيعية تصف التعبيرات الدقيقة المرصودة وخصائصها.

تتضمن أنواع الأسئلة:

أسئلة ثنائية التصنيف: مثل "هل يظهر الوجه حركة وحدة عمل انضغاط الشفاه؟"
أسئلة متعددة التصنيف: مثل "ما فئة التعبير؟"
أسئلة مركبة: مثل "ما وحدات العمل الموجودة، وبناءً على هذه الوحدات، ما فئة التعبير؟"

طريقة Baseline: Qwen2.5VL-3B

استخدام Qwen2.5VL-3B كخط أساس:

بنية النموذج: تتضمن مشفر الرؤية والعمود الفقري لنموذج اللغة ووحدة الدمج عبر الأنماط
استراتيجية التدريب: إعدادات بدون عينات (ZS) والضبط الدقيق (FT)
أنواع الإدخال:
1. إطارات الفيديو المأخوذة بفترات متساوية
2. إطارات البداية والقمة والنهاية (OAO)
3. التدفق البصري بين إطارات البداية والقمة (OF)

مقاييس التقييم

تصنيف المشاعر: UF1 و UAR للمشاعر الخشنة والدقيقة

الخشنة: إيجابي وسلبي ومفاجأة
الدقيقة: سعادة ومفاجأة وخوف واشمئزاز وغضب وحزن

جودة النص: درجات BLEU و ROUGE-1 لتقييم جودة النص المولد

إعداد التجارب

مجموعات البيانات

بيانات التدريب

يُنصح باستخدام مجموعات البيانات التالية:

SAMM-LV و CAS(ME)³ و 4DME و CAS(ME)² و SMIC-E-long

بيانات الاختبار

مجموعة اختبار ME-STR: 30 مقطع فيديو طويل

مجموعة بيانات SAMM Challenge: 10 مقاطع فيديو (200fps)
CAS(ME)³: 20 مقطع فيديو (30fps)

مجموعة اختبار ME-VQA: 24 مقطع تعبير دقيق

مجموعة بيانات SAMM Challenge: 7 مقاطع (200fps)
CAS(ME)³: 17 مقطع (30fps)

تفاصيل التنفيذ

ME-STR: استخدام شبكة MEAN المدربة على CAS(ME)²
ME-VQA: استخدام LoRA للضبط الدقيق الفعال للمعاملات على Qwen2.5VL-3B

نتائج التجارب

نتائج مهمة ME-STR

نتائج الخط الأساسي

تظهر نتائج baseline باستخدام شبكة MEAN:

مجموعة بيانات SAMM: STRS = 0.0062
مجموعة بيانات CAS(ME)³: STRS = 0.0086

تشير النتائج إلى أن مرحلة التحديد هي الاختناق الرئيسي، حيث يؤدي ارتفاع FP و FN إلى أداء إجمالية منخفضة.

نتائج التحدي

47 مشارك مسجل، 8 فرق قدمت النتائج:

المشارك	SAMM (F1)	CAS(ME)³ (F1)	إجمالي STRS
Guo et al.	تحديد:0.086، تعرف:0.667	تحديد:0.099، تعرف:0.645	0.09
ustc-iat	تحديد:0.118، تعرف:0.471	تحديد:0.067، تعرف:0.645	0.06
gormanv	تحديد:0.067، تعرف:0.622	تحديد:0.061، تعرف:0.278	0.047

نتائج مهمة ME-VQA

نتائج الخط الأساسي

أداء Qwen2.5VL-3B تحت أنواع إدخال مختلفة:

إدخال OAO و OF: أداء أفضل في التعرف على المشاعر
إدخال الفيديو: أداء أفضل في مقاييس BLEU و ROUGE-1
الضبط الدقيق مقابل بدون عينات: يحسن الضبط الدقيق معظم المقاييس، لكن التحسن محدود

نتائج التحدي

28 مشارك، 10 فرق قدمت النتائج:

المشارك	خشن	دقيق	BLEU	ROUGE	المتوسط
Wang et al.	UF1:0.733، UAR:0.722	UF1:0.368، UAR:0.408	0.615	0.607	0.575
Zhu et al.	UF1:0.594، UAR:0.650	UF1:0.316، UAR:0.375	0.595	0.509	0.506
IIM, HFIPS, CAS	UF1:0.560، UAR:0.528	UF1:0.281، UAR:0.283	0.396	0.489	0.423

الأعمال ذات الصلة

استعراض تاريخ MEGC

هذه الورقة هي الدورة الثامنة من تحدي MEGC، حيث ركزت الدورات السابقة على:

FG'18: التعرف على التعبيرات الدقيقة
FG'19: التحديد والتعرف
FG'20: تحديد موقع التعبيرات الدقيقة
MM'21-MM'23: التحديد والتوليد
MM'24: نموذج الكشف ثم التعرف والتحديد عبر الثقافات

اتجاهات التطور التكنولوجي

من الفصل إلى التوحيد: التطور من مهام التحديد والتعرف المستقلة نحو الأطر الموحدة
الدمج متعدد الأنماط: الاستفادة من قدرات الاستدلال متعدد الأنماط في MLLMs و LVLMs
التوجه نحو الاستخدام العملي: التركيز أكثر على احتياجات السيناريوهات التطبيقية الفعلية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

مهمة ME-STR تتمتع بتحديات عالية: يبلغ أفضل STRS للفريق 0.09 فقط، مما يشير إلى الحاجة إلى مزيد من الابتكار في هذا المجال
ME-VQA تظهر إمكانات: يبلغ أفضل متوسط درجة للفريق 0.575، مما يدل على فعالية الطرق متعددة الأنماط
التحديد هو الاختناق الرئيسي: تنبع الأداء المنخفضة لـ ME-STR بشكل أساسي من صعوبة مرحلة التحديد

القيود

حجم مجموعة الاختبار محدود: مجموعة اختبار ME-VQA صغيرة نسبياً، قد تؤثر على تقييم القدرة على التعميم
مقاييس التقييم أحادية البعد: قد تحتاج إلى معايير تقييم أكثر شمولاً
التعميم عبر المجالات لم يتم التحقق منه بشكل كامل: لا تزال قدرة التكيف بين مجموعات البيانات المختلفة بحاجة إلى مزيد من البحث

الاتجاهات المستقبلية

توسيع حجم مجموعة الاختبار: بناء مجموعات بيانات اختبار أكبر وأكثر تنوعاً
تحسين خوارزميات التحديد: التركيز على اختراق الاختناقات التقنية في تحديد موقع التعبيرات الدقيقة
تحسين الطرق متعددة الأنماط: استكشاف تطبيقات MLLMs بشكل أعمق في تحليل التعبيرات الدقيقة

التقييم المتعمق

المميزات

تصميم المهام مبتكر: مهمة ME-STR أقرب إلى التطبيقات الفعلية، وتقدم ME-VQA نموذج بحث جديد
نظام التقييم شامل: توفير مجموعات بيانات موحدة ومقاييس تقييم وطرق أساسية
الرؤية التكنولوجية متقدمة: إدخال النماذج الكبيرة متعددة الأنماط في الوقت المناسب، والاستفادة من اتجاهات التطور التكنولوجي
تصميم التجارب صارم: تحليل تفصيلي لتجارب baseline ونتائج التحدي

أوجه القصور

المساهمات النظرية محدودة: يركز بشكل أساسي على تنظيم التحديات، يفتقر إلى تحليل نظري عميق
الابتكار في الطرق غير كافٍ: طرق baseline بسيطة نسبياً، لم تقدم تقنيات اختراقية
قيود حجم مجموعة البيانات: حجم مجموعة الاختبار صغير نسبياً، قد يؤثر على عمومية الاستنتاجات
الدمج عبر الأنماط سطحي: يحتاج الدمج متعدد الأنماط في مهمة ME-VQA إلى مزيد من التعمق

التأثير

دور دفع المجال: كتحدٍ موثوق، يمكنه دفع تطور مجال تحليل التعبيرات الدقيقة بفعالية
مساهمة التوحيد: إنشاء معايير تقييم للمهام الجديدة، توفير أساس للأبحاث اللاحقة
قيمة تحويل التكنولوجيا: مهمة ME-STR أقرب إلى احتياجات التطبيقات الفعلية
التأثير الأكاديمي: إدخال الطرق متعددة الأنماط يفتح اتجاهات جديدة للمجال

السيناريوهات القابلة للتطبيق

المراقبة الأمنية: مراقبة المشاعر في بيئات عالية المخاطر مثل المطارات والجمارك
التقييم النفسي: تحليل الحالة العاطفية في الأبحاث النفسية السريرية
التفاعل بين الإنسان والآلة: تحسين قدرة أنظمة الذكاء الاصطناعي على فهم المشاعر
التطبيقات القضائية: المساعدة في الحكم على صحة الشهادات

المراجع

تستشهد الورقة بـ 24 مرجعاً ذا صلة، تتضمن بشكل أساسي:

الأعمال المتعلقة ببناء مجموعات بيانات التعبيرات الدقيقة (SAMM و CASME II و CAS(ME)³ وغيرها)
أوراق تحديات MEGC السابقة
الأعمال المتعلقة بالنماذج الكبيرة متعددة الأنماط (Qwen2.5VL وغيرها)
الأدبيات المتعلقة بمقاييس التقييم (BLEU و ROUGE وغيرها)

التقييم الإجمالي: هذه ورقة عالية الجودة لتنظيم التحديات، تعزز تطور مجال تحليل التعبيرات الدقيقة بفعالية من خلال إدخال مهمتين مبتكرتين: ME-STR و ME-VQA. تكمن القيمة الرئيسية للورقة في إنشاء معايير تقييم جديدة ونماذج بحث، وعلى الرغم من أن المساهمات النظرية محدودة نسبياً، إلا أن لها أهمية توجيهية كبيرة لتطور المجال.