2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.

Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.

academic

MEGC2025 : Grand Défi de Micro-Expression sur la Détection puis la Reconnaissance et la Réponse à des Questions Visuelles

Informations Fondamentales

ID de l'article : 2506.15298
Titre : MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
Auteurs : Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
Classification : cs.CV cs.MM
Date de publication/Conférence : MM '25, 27-31 octobre 2025, Dublin, Irlande (Conférence Internationale ACM sur le Multimédia)
Lien de l'article : https://arxiv.org/abs/2506.15298

Résumé

Les micro-expressions faciales (MEs) sont des mouvements involontaires qui apparaissent spontanément sur le visage lorsque les individus tentent de supprimer ou de réprimer leurs expressions faciales, survenant généralement dans des environnements à haut risque. Des progrès significatifs ont été réalisés récemment dans les domaines de la reconnaissance, de la localisation et de la génération de micro-expressions. Cependant, les approches traditionnelles qui considèrent la localisation et la reconnaissance comme des tâches séparées ne sont pas optimales, particulièrement lors de l'analyse de vidéos longues dans des environnements réels. Parallèlement, l'émergence de modèles de langage multimodaux de grande taille (MLLMs) et de modèles vision-langage de grande taille (LVLMs) offre de nouvelles voies prometteuses pour améliorer l'analyse des micro-expressions grâce à leurs puissantes capacités de raisonnement multimodal. MEGC 2025 introduit deux tâches reflétant ces orientations de développement de la recherche : (1) Détection puis Reconnaissance de Micro-Expression (ME-STR), qui intègre la localisation et la reconnaissance ultérieure des micro-expressions dans un pipeline séquentiel unifié ; (2) Réponse à des Questions Visuelles sur les Micro-Expressions (ME-VQA), qui explore la compréhension des micro-expressions par le biais de questions visuelles, en exploitant les MLLMs ou LVLMs pour traiter diverses catégories de questions liées aux micro-expressions.

Contexte et Motivation de la Recherche

Définition du Problème

Les problèmes fondamentaux abordés par cet article sont les limitations des méthodes traditionnelles d'analyse des micro-expressions :

Sous-optimalité de la séparation des tâches : Les méthodes traditionnelles considèrent la détection (spotting) et la reconnaissance des micro-expressions comme des tâches indépendantes, ce qui n'est pas pratique dans les applications réelles
Mauvaise adaptation aux scénarios pratiques : Les méthodes existantes ont du mal à traiter efficacement l'analyse des micro-expressions dans les vidéos longues
Manque de capacités de raisonnement multimodal : Les méthodes traditionnelles n'exploitent pas pleinement les capacités de raisonnement des nouveaux modèles multimodaux de grande taille

Importance de la Recherche

L'analyse des micro-expressions présente une valeur importante dans les scénarios suivants :

Surveillance en environnements à haut risque : Tels que les contrôles de sécurité, les interrogatoires judiciaires, etc.
Évaluation de la santé mentale : Détection de l'état émotionnel réel des sujets
Optimisation de l'interaction homme-machine : Amélioration de la capacité des systèmes d'IA à comprendre les émotions humaines

Limitations des Méthodes Existantes

Tâche de reconnaissance des MEs : Suppose que les séquences de micro-expressions ont déjà été localisées, ce qui est rarement le cas dans la réalité
Tâche de localisation des MEs : Peut uniquement identifier le lieu d'occurrence des micro-expressions, sans fournir d'interprétation significative du contenu émotionnel
Absence de solution bout en bout : La conception de tâches séparées conduit à des performances globales sous-optimales

Contributions Principales

Proposition du paradigme de tâche ME-STR : Intègre la localisation et la reconnaissance des micro-expressions dans un pipeline séquentiel unifié, mieux adapté aux besoins des applications pratiques
Introduction de la nouvelle tâche ME-VQA : Première application du paradigme de réponse à des questions visuelles à l'analyse des micro-expressions, exploitant les capacités de raisonnement des modèles multimodaux de grande taille
Construction d'une plateforme d'évaluation complète : Fournit des ensembles de test standardisés et des métriques d'évaluation, promouvant le développement du domaine
Établissement de méthodes de référence : Fournit des méthodes de base pour les deux tâches, posant les fondations pour les recherches futures

Explication Détaillée des Méthodes

Tâche 1 : ME-STR (Détection puis Reconnaissance de Micro-Expression)

Définition de la Tâche

La tâche ME-STR exige dans les séquences vidéo longues :

Première phase : Localisation des périodes temporelles d'occurrence des micro-expressions
Deuxième phase : Classification émotionnelle des segments de micro-expressions correctement localisés

Seuls les échantillons correctement localisés dans la première phase sont transmis à la deuxième phase pour la reconnaissance émotionnelle.

Méthode de Référence : Réseau MEAN

Utilise le réseau d'analyse des micro-expressions (MEAN) comme base de référence :

Architecture unifiée : Réseau neuronal bout en bout, comprenant des couches partagées et deux branches spécialisées
Branche de localisation : Branche de régression, produisant pour chaque image un score de confiance indiquant la probabilité d'un intervalle de micro-expression
Branche de reconnaissance : Prédit la catégorie émotionnelle pour les intervalles candidats identifiés par la branche de localisation

Métriques d'Évaluation

Phase de localisation : TP, FP, FN, précision, rappel, score F1 Phase de reconnaissance : TP, FP, FN, précision, rappel, F1, UF1, UAR Évaluation globale : STRS = F1-score_s × F1-score_a

Tâche 2 : ME-VQA (Réponse à des Questions Visuelles sur les Micro-Expressions)

Définition de la Tâche

Étant donné une séquence vidéo de micro-expression et une question en langage naturel, le modèle doit générer une réponse en langage naturel décrivant les micro-expressions observées et leurs attributs.

Les types de questions incluent :

Questions binaires : Telles que « Le visage affiche-t-il une action d'abaissement des commissures des lèvres ? »
Questions multi-classes : Telles que « Quelle est la catégorie d'expression ? »
Questions composites : Telles que « Quelles unités d'action sont présentes, et sur la base de ces unités, quelle est la catégorie d'expression ? »

Méthode de Référence : Qwen2.5VL-3B

Utilise Qwen2.5VL-3B comme base de référence :

Architecture du modèle : Comprend un encodeur visuel, un backbone de modèle de langage et un module de fusion multimodale
Stratégie d'entraînement : Deux configurations, zéro-shot (ZS) et fine-tuning (FT)
Types d'entrée :
1. Images vidéo échantillonnées à intervalles réguliers
2. Images de début-apex-fin (OAO)
3. Flux optique entre les images de début et d'apex (OF)

Métriques d'Évaluation

Classification émotionnelle : UF1 et UAR pour les émotions à granularité grossière et fine

Granularité grossière : Positif, négatif, surpris
Granularité fine : Joie, surprise, peur, dégoût, colère, tristesse

Qualité du texte : Scores BLEU et ROUGE-1 pour évaluer la qualité du texte généré

Configuration Expérimentale

Ensembles de Données

Données d'Entraînement

Il est recommandé d'utiliser les ensembles de données suivants :

SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long

Données de Test

Ensemble de test ME-STR : 30 vidéos longues

Ensemble de données SAMM Challenge : 10 vidéos (200fps)
CAS(ME)³ : 20 segments vidéo (30fps)

Ensemble de test ME-VQA : 24 segments de micro-expression

Ensemble de données SAMM Challenge : 7 segments (200fps)
CAS(ME)³ : 17 segments (30fps)

Détails d'Implémentation

ME-STR : Utilise le réseau MEAN entraîné sur CAS(ME)²
ME-VQA : Utilise LoRA pour le fine-tuning paramétrique efficace de Qwen2.5VL-3B

Résultats Expérimentaux

Résultats de la Tâche ME-STR

Résultats de Référence

Les résultats de base utilisant le réseau MEAN montrent :

Ensemble de données SAMM : STRS = 0,0062
Ensemble de données CAS(ME)³ : STRS = 0,0086

Les résultats indiquent que la phase de localisation est le goulot d'étranglement principal, avec des FP et FN élevés conduisant à des performances globales faibles.

Résultats du Défi

47 participants inscrits, 8 équipes ayant soumis des résultats :

Participant	SAMM (F1)	CAS(ME)³ (F1)	STRS Global
Guo et al.	Localisation:0,086, Reconnaissance:0,667	Localisation:0,099, Reconnaissance:0,645	0,09
ustc-iat	Localisation:0,118, Reconnaissance:0,471	Localisation:0,067, Reconnaissance:0,645	0,06
gormanv	Localisation:0,067, Reconnaissance:0,622	Localisation:0,061, Reconnaissance:0,278	0,047

Résultats de la Tâche ME-VQA

Résultats de Référence

Performance de Qwen2.5VL-3B sous différents types d'entrée :

Entrées OAO et OF : Meilleure performance en reconnaissance d'expressions
Entrée vidéo : Meilleure performance sur les métriques BLEU et ROUGE-1
Fine-tuning vs zéro-shot : Le fine-tuning améliore la plupart des métriques, mais les améliorations sont limitées

Résultats du Défi

28 participants, 10 équipes ayant soumis des résultats :

Participant	Granularité Grossière	Granularité Fine	BLEU	ROUGE	Score Moyen
Wang et al.	UF1:0,733, UAR:0,722	UF1:0,368, UAR:0,408	0,615	0,607	0,575
Zhu et al.	UF1:0,594, UAR:0,650	UF1:0,316, UAR:0,375	0,595	0,509	0,506
IIM, HFIPS, CAS	UF1:0,560, UAR:0,528	UF1:0,281, UAR:0,283	0,396	0,489	0,423

Travaux Connexes

Historique du MEGC

Cet article est le 8e défi MEGC, avec les focus des éditions précédentes :

FG'18 : Reconnaissance de micro-expressions
FG'19 : Localisation et reconnaissance
FG'20 : Localisation de micro-expressions
MM'21-MM'23 : Localisation et génération
MM'24 : Paradigme de détection puis reconnaissance et localisation transculturelle

Tendances du Développement Technologique

De la séparation à l'unification : Évolution des tâches indépendantes de localisation et reconnaissance vers des cadres unifiés
Fusion multimodale : Exploitation des capacités de raisonnement multimodal des MLLMs et LVLMs
Orientation pratique : Attention accrue aux besoins des scénarios d'application réels

Conclusions et Discussion

Conclusions Principales

Défi élevé de la tâche ME-STR : Le meilleur STRS d'équipe est seulement 0,09, indiquant que ce domaine nécessite une innovation supplémentaire
Potentiel de ME-VQA : Le score moyen de la meilleure équipe est 0,575, démontrant l'efficacité des approches multimodales
Localisation comme goulot d'étranglement clé : La faible performance de ME-STR provient principalement des difficultés de la phase de localisation

Limitations

Taille limitée de l'ensemble de test : L'ensemble de test ME-VQA est relativement petit, pouvant affecter l'évaluation de la capacité de généralisation
Métriques d'évaluation uniques : Des critères d'évaluation multidimensionnels supplémentaires pourraient être nécessaires
Généralisation inter-domaines insuffisamment vérifiée : La capacité d'adaptation de domaine entre différents ensembles de données nécessite une investigation supplémentaire

Directions Futures

Expansion de la taille de l'ensemble de test : Construction d'ensembles de données de test plus grands et plus diversifiés
Amélioration des algorithmes de localisation : Percée des goulots d'étranglement technologiques de la localisation des micro-expressions
Optimisation des méthodes multimodales : Exploration supplémentaire de l'application des MLLMs à l'analyse des micro-expressions

Évaluation Approfondie

Points Forts

Conception innovante des tâches : La tâche ME-STR est plus proche des applications pratiques, ME-VQA introduit un nouveau paradigme de recherche
Système d'évaluation complet : Fournit des ensembles de données standardisés, des métriques d'évaluation et des méthodes de référence
Prospective technologique : Introduction opportune de modèles multimodaux de grande taille, saisissant les tendances du développement technologique
Conception expérimentale rigoureuse : Expériences de base détaillées et analyse des résultats du défi

Insuffisances

Contributions théoriques limitées : Principalement l'organisation d'un défi, manquant d'analyse théorique approfondie
Innovation méthodologique insuffisante : Les méthodes de base sont relativement simples, sans proposer de technologies révolutionnaires
Limitation de la taille de l'ensemble de données : La taille de l'ensemble de test est relativement petite, pouvant affecter la généralité des conclusions
Fusion multimodale superficielle : La fusion multimodale de la tâche ME-VQA nécessite une investigation plus approfondie

Impact

Effet de promotion du domaine : En tant que défi faisant autorité, capable de promouvoir efficacement le développement du domaine de l'analyse des micro-expressions
Contribution à la standardisation : Établit des normes d'évaluation pour les nouvelles tâches, fournissant des références pour les recherches futures
Valeur de conversion technologique : La tâche ME-STR est plus proche des besoins des applications pratiques
Impact académique : L'introduction de méthodes multimodales ouvre de nouvelles directions pour ce domaine

Scénarios d'Application

Surveillance de sécurité : Surveillance émotionnelle dans les environnements à haut risque tels que les aéroports et les douanes
Évaluation psychologique : Analyse de l'état émotionnel dans la recherche en psychologie clinique
Interaction homme-machine : Amélioration de la capacité de compréhension émotionnelle des systèmes intelligents
Application judiciaire : Assistance dans l'évaluation de l'authenticité des témoignages

Références

L'article cite 24 références connexes, incluant principalement :

Travaux connexes sur la construction d'ensembles de données de micro-expressions (SAMM, CASME II, CAS(ME)³, etc.)
Articles des défis MEGC précédents
Travaux connexes sur les modèles multimodaux de grande taille (Qwen2.5VL, etc.)
Littérature connexe sur les métriques d'évaluation (BLEU, ROUGE, etc.)

Évaluation Globale : Ceci est un article de haute qualité sur l'organisation d'un défi qui, en introduisant les deux tâches innovantes ME-STR et ME-VQA, promeut efficacement le développement du domaine de l'analyse des micro-expressions. La valeur principale de l'article réside dans l'établissement de nouvelles normes d'évaluation et de nouveaux paradigmes de recherche. Bien que les contributions théoriques soient relativement limitées, il possède une importance directrice significative pour le développement du domaine.