Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
- معرّف الورقة: 2506.15298
- العنوان: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- المؤلفون: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
- التصنيف: cs.CV cs.MM
- وقت النشر/المؤتمر: MM '25، 27-31 أكتوبر 2025، دبلن، أيرلندا (مؤتمر ACM الدولي للوسائط المتعددة)
- رابط الورقة: https://arxiv.org/abs/2506.15298
التعبيرات الدقيقة للوجه (MEs) هي حركات لا إرادية تظهر على الوجه بشكل عفوي عندما يحاول الأشخاص قمع أو كبح التعبيرات الوجهية، وتحدث عادة في بيئات عالية المخاطر. حققت الأبحاث الحديثة تقدماً كبيراً في مجالات التعرف على التعبيرات الدقيقة وتحديد موقعها وتوليدها. ومع ذلك، فإن الطرق التقليدية التي تعتبر التحديد والتعرف مهام منفصلة ليست مثالية، خاصة عند تحليل مقاطع فيديو طويلة في بيئات واقعية. في الوقت نفسه، يوفر ظهور نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) ونماذج الرؤية واللغة الكبيرة (LVLMs) طرقاً جديدة واعدة لتعزيز تحليل التعبيرات الدقيقة من خلال قدراتها القوية على الاستدلال متعدد الأنماط. يقدم MEGC 2025 مهمتين تعكسان هذه الاتجاهات البحثية: (1) التعبيرات الدقيقة - الكشف ثم التعرف (ME-STR)، والذي يدمج تحديد موقع التعبيرات الدقيقة والتعرف اللاحق في خط أنابيب متسلسل موحد؛ (2) الإجابة على الأسئلة البصرية للتعبيرات الدقيقة (ME-VQA)، والذي يستكشف فهم التعبيرات الدقيقة من خلال الإجابة على الأسئلة البصرية، مستفيداً من MLLMs أو LVLMs للتعامل مع أنواع مختلفة من الأسئلة المتعلقة بالتعبيرات الدقيقة.
المشاكل الأساسية التي تعالجها هذه الورقة هي قيود طرق تحليل التعبيرات الدقيقة التقليدية:
- دون الأمثلية في فصل المهام: تعتبر الطرق التقليدية تحديد موقع التعبيرات الدقيقة (الكشف) والتعرف عليها مهام مستقلة، وهذا غير عملي في التطبيقات الواقعية
- ضعف التكيف مع السيناريوهات الفعلية: تواجه الطرق الموجودة صعوبة في التعامل بفعالية مع تحليل التعبيرات الدقيقة في مقاطع الفيديو الطويلة
- نقص القدرة على الاستدلال متعدد الأنماط: لم تستفد الطرق التقليدية بشكل كامل من قدرات الاستدلال في النماذج الكبيرة الناشئة متعددة الأنماط
يتمتع تحليل التعبيرات الدقيقة بقيمة مهمة في السيناريوهات التالية:
- مراقبة البيئات عالية المخاطر: مثل فحوصات الأمان والاستجوابات القضائية
- تقييم الصحة العقلية: الكشف عن الحالة العاطفية الحقيقية للأشخاص
- تحسين التفاعل بين الإنسان والآلة: تحسين قدرة أنظمة الذكاء الاصطناعي على فهم المشاعر البشرية
- مهمة التعرف على التعبيرات الدقيقة: تفترض أن تسلسلات التعبيرات الدقيقة قد تم تحديد موقعها بالفعل، وهذا نادراً ما يحدث في الواقع
- مهمة تحديد موقع التعبيرات الدقيقة: يمكنها فقط تحديد موقع حدوث التعبيرات الدقيقة، دون توفير تفسير ذي معنى لمحتوى المشاعر
- غياب الحلول الشاملة: يؤدي تصميم المهام المنفصلة إلى أداء إجمالية دون الأمثلية
- اقتراح نموذج مهمة ME-STR: دمج تحديد موقع التعبيرات الدقيقة والتعرف عليها في خط أنابيب متسلسل موحد، وهو أكثر توافقاً مع احتياجات التطبيقات الفعلية
- إدخال مهمة ME-VQA الجديدة: تطبيق نموذج الإجابة على الأسئلة البصرية على تحليل التعبيرات الدقيقة لأول مرة، مستفيداً من قدرات الاستدلال في النماذج الكبيرة متعددة الأنماط
- بناء منصة تقييم شاملة: توفير مجموعات اختبار موحدة ومقاييس تقييم لتعزيز تطور المجال
- إنشاء طرق أساسية: توفير طرق baseline لكلا المهمتين، مما يضع الأساس للأبحاث اللاحقة
تتطلب مهمة ME-STR في تسلسلات الفيديو الطويلة:
- المرحلة الأولى: تحديد الفترة الزمنية التي تحدث فيها التعبيرات الدقيقة
- المرحلة الثانية: تصنيف المشاعر للمقاطع المحددة بشكل صحيح من التعبيرات الدقيقة
يتم نقل العينات المحددة بشكل صحيح في المرحلة الأولى فقط إلى المرحلة الثانية للتعرف على المشاعر.
استخدام شبكة تحليل التعبيرات الدقيقة (MEAN) كخط أساس:
- البنية الموحدة: شبكة عصبية شاملة تحتوي على طبقات مشتركة وفرعين متخصصين
- فرع التحديد: فرع الانحدار، يُخرج درجة ثقة لكل إطار، مما يشير إلى احتمالية فترة التعبيرات الدقيقة
- فرع التعرف: يتنبأ بفئة المشاعر للفترات المرشحة المحددة بواسطة فرع التحديد
مرحلة التحديد: TP و FP و FN والدقة والاستدعاء ودرجة F1
مرحلة التعرف: TP و FP و FN والدقة والاستدعاء و F1 و UF1 و UAR
التقييم المدمج: STRS = F1-score_s × F1-score_a
بالنظر إلى تسلسل فيديو التعبيرات الدقيقة وسؤال باللغة الطبيعية، يجب على النموذج توليد إجابة باللغة الطبيعية تصف التعبيرات الدقيقة المرصودة وخصائصها.
تتضمن أنواع الأسئلة:
- أسئلة ثنائية التصنيف: مثل "هل يظهر الوجه حركة وحدة عمل انضغاط الشفاه؟"
- أسئلة متعددة التصنيف: مثل "ما فئة التعبير؟"
- أسئلة مركبة: مثل "ما وحدات العمل الموجودة، وبناءً على هذه الوحدات، ما فئة التعبير؟"
استخدام Qwen2.5VL-3B كخط أساس:
- بنية النموذج: تتضمن مشفر الرؤية والعمود الفقري لنموذج اللغة ووحدة الدمج عبر الأنماط
- استراتيجية التدريب: إعدادات بدون عينات (ZS) والضبط الدقيق (FT)
- أنواع الإدخال:
- إطارات الفيديو المأخوذة بفترات متساوية
- إطارات البداية والقمة والنهاية (OAO)
- التدفق البصري بين إطارات البداية والقمة (OF)
تصنيف المشاعر: UF1 و UAR للمشاعر الخشنة والدقيقة
- الخشنة: إيجابي وسلبي ومفاجأة
- الدقيقة: سعادة ومفاجأة وخوف واشمئزاز وغضب وحزن
جودة النص: درجات BLEU و ROUGE-1 لتقييم جودة النص المولد
يُنصح باستخدام مجموعات البيانات التالية:
- SAMM-LV و CAS(ME)³ و 4DME و CAS(ME)² و SMIC-E-long
مجموعة اختبار ME-STR: 30 مقطع فيديو طويل
- مجموعة بيانات SAMM Challenge: 10 مقاطع فيديو (200fps)
- CAS(ME)³: 20 مقطع فيديو (30fps)
مجموعة اختبار ME-VQA: 24 مقطع تعبير دقيق
- مجموعة بيانات SAMM Challenge: 7 مقاطع (200fps)
- CAS(ME)³: 17 مقطع (30fps)
- ME-STR: استخدام شبكة MEAN المدربة على CAS(ME)²
- ME-VQA: استخدام LoRA للضبط الدقيق الفعال للمعاملات على Qwen2.5VL-3B
تظهر نتائج baseline باستخدام شبكة MEAN:
- مجموعة بيانات SAMM: STRS = 0.0062
- مجموعة بيانات CAS(ME)³: STRS = 0.0086
تشير النتائج إلى أن مرحلة التحديد هي الاختناق الرئيسي، حيث يؤدي ارتفاع FP و FN إلى أداء إجمالية منخفضة.
47 مشارك مسجل، 8 فرق قدمت النتائج:
| المشارك | SAMM (F1) | CAS(ME)³ (F1) | إجمالي STRS |
|---|
| Guo et al. | تحديد:0.086، تعرف:0.667 | تحديد:0.099، تعرف:0.645 | 0.09 |
| ustc-iat | تحديد:0.118، تعرف:0.471 | تحديد:0.067، تعرف:0.645 | 0.06 |
| gormanv | تحديد:0.067، تعرف:0.622 | تحديد:0.061، تعرف:0.278 | 0.047 |
أداء Qwen2.5VL-3B تحت أنواع إدخال مختلفة:
- إدخال OAO و OF: أداء أفضل في التعرف على المشاعر
- إدخال الفيديو: أداء أفضل في مقاييس BLEU و ROUGE-1
- الضبط الدقيق مقابل بدون عينات: يحسن الضبط الدقيق معظم المقاييس، لكن التحسن محدود
28 مشارك، 10 فرق قدمت النتائج:
| المشارك | خشن | دقيق | BLEU | ROUGE | المتوسط |
|---|
| Wang et al. | UF1:0.733، UAR:0.722 | UF1:0.368، UAR:0.408 | 0.615 | 0.607 | 0.575 |
| Zhu et al. | UF1:0.594، UAR:0.650 | UF1:0.316، UAR:0.375 | 0.595 | 0.509 | 0.506 |
| IIM, HFIPS, CAS | UF1:0.560، UAR:0.528 | UF1:0.281، UAR:0.283 | 0.396 | 0.489 | 0.423 |
هذه الورقة هي الدورة الثامنة من تحدي MEGC، حيث ركزت الدورات السابقة على:
- FG'18: التعرف على التعبيرات الدقيقة
- FG'19: التحديد والتعرف
- FG'20: تحديد موقع التعبيرات الدقيقة
- MM'21-MM'23: التحديد والتوليد
- MM'24: نموذج الكشف ثم التعرف والتحديد عبر الثقافات
- من الفصل إلى التوحيد: التطور من مهام التحديد والتعرف المستقلة نحو الأطر الموحدة
- الدمج متعدد الأنماط: الاستفادة من قدرات الاستدلال متعدد الأنماط في MLLMs و LVLMs
- التوجه نحو الاستخدام العملي: التركيز أكثر على احتياجات السيناريوهات التطبيقية الفعلية
- مهمة ME-STR تتمتع بتحديات عالية: يبلغ أفضل STRS للفريق 0.09 فقط، مما يشير إلى الحاجة إلى مزيد من الابتكار في هذا المجال
- ME-VQA تظهر إمكانات: يبلغ أفضل متوسط درجة للفريق 0.575، مما يدل على فعالية الطرق متعددة الأنماط
- التحديد هو الاختناق الرئيسي: تنبع الأداء المنخفضة لـ ME-STR بشكل أساسي من صعوبة مرحلة التحديد
- حجم مجموعة الاختبار محدود: مجموعة اختبار ME-VQA صغيرة نسبياً، قد تؤثر على تقييم القدرة على التعميم
- مقاييس التقييم أحادية البعد: قد تحتاج إلى معايير تقييم أكثر شمولاً
- التعميم عبر المجالات لم يتم التحقق منه بشكل كامل: لا تزال قدرة التكيف بين مجموعات البيانات المختلفة بحاجة إلى مزيد من البحث
- توسيع حجم مجموعة الاختبار: بناء مجموعات بيانات اختبار أكبر وأكثر تنوعاً
- تحسين خوارزميات التحديد: التركيز على اختراق الاختناقات التقنية في تحديد موقع التعبيرات الدقيقة
- تحسين الطرق متعددة الأنماط: استكشاف تطبيقات MLLMs بشكل أعمق في تحليل التعبيرات الدقيقة
- تصميم المهام مبتكر: مهمة ME-STR أقرب إلى التطبيقات الفعلية، وتقدم ME-VQA نموذج بحث جديد
- نظام التقييم شامل: توفير مجموعات بيانات موحدة ومقاييس تقييم وطرق أساسية
- الرؤية التكنولوجية متقدمة: إدخال النماذج الكبيرة متعددة الأنماط في الوقت المناسب، والاستفادة من اتجاهات التطور التكنولوجي
- تصميم التجارب صارم: تحليل تفصيلي لتجارب baseline ونتائج التحدي
- المساهمات النظرية محدودة: يركز بشكل أساسي على تنظيم التحديات، يفتقر إلى تحليل نظري عميق
- الابتكار في الطرق غير كافٍ: طرق baseline بسيطة نسبياً، لم تقدم تقنيات اختراقية
- قيود حجم مجموعة البيانات: حجم مجموعة الاختبار صغير نسبياً، قد يؤثر على عمومية الاستنتاجات
- الدمج عبر الأنماط سطحي: يحتاج الدمج متعدد الأنماط في مهمة ME-VQA إلى مزيد من التعمق
- دور دفع المجال: كتحدٍ موثوق، يمكنه دفع تطور مجال تحليل التعبيرات الدقيقة بفعالية
- مساهمة التوحيد: إنشاء معايير تقييم للمهام الجديدة، توفير أساس للأبحاث اللاحقة
- قيمة تحويل التكنولوجيا: مهمة ME-STR أقرب إلى احتياجات التطبيقات الفعلية
- التأثير الأكاديمي: إدخال الطرق متعددة الأنماط يفتح اتجاهات جديدة للمجال
- المراقبة الأمنية: مراقبة المشاعر في بيئات عالية المخاطر مثل المطارات والجمارك
- التقييم النفسي: تحليل الحالة العاطفية في الأبحاث النفسية السريرية
- التفاعل بين الإنسان والآلة: تحسين قدرة أنظمة الذكاء الاصطناعي على فهم المشاعر
- التطبيقات القضائية: المساعدة في الحكم على صحة الشهادات
تستشهد الورقة بـ 24 مرجعاً ذا صلة، تتضمن بشكل أساسي:
- الأعمال المتعلقة ببناء مجموعات بيانات التعبيرات الدقيقة (SAMM و CASME II و CAS(ME)³ وغيرها)
- أوراق تحديات MEGC السابقة
- الأعمال المتعلقة بالنماذج الكبيرة متعددة الأنماط (Qwen2.5VL وغيرها)
- الأدبيات المتعلقة بمقاييس التقييم (BLEU و ROUGE وغيرها)
التقييم الإجمالي: هذه ورقة عالية الجودة لتنظيم التحديات، تعزز تطور مجال تحليل التعبيرات الدقيقة بفعالية من خلال إدخال مهمتين مبتكرتين: ME-STR و ME-VQA. تكمن القيمة الرئيسية للورقة في إنشاء معايير تقييم جديدة ونماذج بحث، وعلى الرغم من أن المساهمات النظرية محدودة نسبياً، إلا أن لها أهمية توجيهية كبيرة لتطور المجال.