Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
MEGC2025 : Grand Défi de Micro-Expression sur la Détection puis la Reconnaissance et la Réponse à des Questions Visuelles
- ID de l'article : 2506.15298
- Titre : MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- Auteurs : Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
- Classification : cs.CV cs.MM
- Date de publication/Conférence : MM '25, 27-31 octobre 2025, Dublin, Irlande (Conférence Internationale ACM sur le Multimédia)
- Lien de l'article : https://arxiv.org/abs/2506.15298
Les micro-expressions faciales (MEs) sont des mouvements involontaires qui apparaissent spontanément sur le visage lorsque les individus tentent de supprimer ou de réprimer leurs expressions faciales, survenant généralement dans des environnements à haut risque. Des progrès significatifs ont été réalisés récemment dans les domaines de la reconnaissance, de la localisation et de la génération de micro-expressions. Cependant, les approches traditionnelles qui considèrent la localisation et la reconnaissance comme des tâches séparées ne sont pas optimales, particulièrement lors de l'analyse de vidéos longues dans des environnements réels. Parallèlement, l'émergence de modèles de langage multimodaux de grande taille (MLLMs) et de modèles vision-langage de grande taille (LVLMs) offre de nouvelles voies prometteuses pour améliorer l'analyse des micro-expressions grâce à leurs puissantes capacités de raisonnement multimodal. MEGC 2025 introduit deux tâches reflétant ces orientations de développement de la recherche : (1) Détection puis Reconnaissance de Micro-Expression (ME-STR), qui intègre la localisation et la reconnaissance ultérieure des micro-expressions dans un pipeline séquentiel unifié ; (2) Réponse à des Questions Visuelles sur les Micro-Expressions (ME-VQA), qui explore la compréhension des micro-expressions par le biais de questions visuelles, en exploitant les MLLMs ou LVLMs pour traiter diverses catégories de questions liées aux micro-expressions.
Les problèmes fondamentaux abordés par cet article sont les limitations des méthodes traditionnelles d'analyse des micro-expressions :
- Sous-optimalité de la séparation des tâches : Les méthodes traditionnelles considèrent la détection (spotting) et la reconnaissance des micro-expressions comme des tâches indépendantes, ce qui n'est pas pratique dans les applications réelles
- Mauvaise adaptation aux scénarios pratiques : Les méthodes existantes ont du mal à traiter efficacement l'analyse des micro-expressions dans les vidéos longues
- Manque de capacités de raisonnement multimodal : Les méthodes traditionnelles n'exploitent pas pleinement les capacités de raisonnement des nouveaux modèles multimodaux de grande taille
L'analyse des micro-expressions présente une valeur importante dans les scénarios suivants :
- Surveillance en environnements à haut risque : Tels que les contrôles de sécurité, les interrogatoires judiciaires, etc.
- Évaluation de la santé mentale : Détection de l'état émotionnel réel des sujets
- Optimisation de l'interaction homme-machine : Amélioration de la capacité des systèmes d'IA à comprendre les émotions humaines
- Tâche de reconnaissance des MEs : Suppose que les séquences de micro-expressions ont déjà été localisées, ce qui est rarement le cas dans la réalité
- Tâche de localisation des MEs : Peut uniquement identifier le lieu d'occurrence des micro-expressions, sans fournir d'interprétation significative du contenu émotionnel
- Absence de solution bout en bout : La conception de tâches séparées conduit à des performances globales sous-optimales
- Proposition du paradigme de tâche ME-STR : Intègre la localisation et la reconnaissance des micro-expressions dans un pipeline séquentiel unifié, mieux adapté aux besoins des applications pratiques
- Introduction de la nouvelle tâche ME-VQA : Première application du paradigme de réponse à des questions visuelles à l'analyse des micro-expressions, exploitant les capacités de raisonnement des modèles multimodaux de grande taille
- Construction d'une plateforme d'évaluation complète : Fournit des ensembles de test standardisés et des métriques d'évaluation, promouvant le développement du domaine
- Établissement de méthodes de référence : Fournit des méthodes de base pour les deux tâches, posant les fondations pour les recherches futures
La tâche ME-STR exige dans les séquences vidéo longues :
- Première phase : Localisation des périodes temporelles d'occurrence des micro-expressions
- Deuxième phase : Classification émotionnelle des segments de micro-expressions correctement localisés
Seuls les échantillons correctement localisés dans la première phase sont transmis à la deuxième phase pour la reconnaissance émotionnelle.
Utilise le réseau d'analyse des micro-expressions (MEAN) comme base de référence :
- Architecture unifiée : Réseau neuronal bout en bout, comprenant des couches partagées et deux branches spécialisées
- Branche de localisation : Branche de régression, produisant pour chaque image un score de confiance indiquant la probabilité d'un intervalle de micro-expression
- Branche de reconnaissance : Prédit la catégorie émotionnelle pour les intervalles candidats identifiés par la branche de localisation
Phase de localisation : TP, FP, FN, précision, rappel, score F1
Phase de reconnaissance : TP, FP, FN, précision, rappel, F1, UF1, UAR
Évaluation globale : STRS = F1-score_s × F1-score_a
Étant donné une séquence vidéo de micro-expression et une question en langage naturel, le modèle doit générer une réponse en langage naturel décrivant les micro-expressions observées et leurs attributs.
Les types de questions incluent :
- Questions binaires : Telles que « Le visage affiche-t-il une action d'abaissement des commissures des lèvres ? »
- Questions multi-classes : Telles que « Quelle est la catégorie d'expression ? »
- Questions composites : Telles que « Quelles unités d'action sont présentes, et sur la base de ces unités, quelle est la catégorie d'expression ? »
Utilise Qwen2.5VL-3B comme base de référence :
- Architecture du modèle : Comprend un encodeur visuel, un backbone de modèle de langage et un module de fusion multimodale
- Stratégie d'entraînement : Deux configurations, zéro-shot (ZS) et fine-tuning (FT)
- Types d'entrée :
- Images vidéo échantillonnées à intervalles réguliers
- Images de début-apex-fin (OAO)
- Flux optique entre les images de début et d'apex (OF)
Classification émotionnelle : UF1 et UAR pour les émotions à granularité grossière et fine
- Granularité grossière : Positif, négatif, surpris
- Granularité fine : Joie, surprise, peur, dégoût, colère, tristesse
Qualité du texte : Scores BLEU et ROUGE-1 pour évaluer la qualité du texte généré
Il est recommandé d'utiliser les ensembles de données suivants :
- SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long
Ensemble de test ME-STR : 30 vidéos longues
- Ensemble de données SAMM Challenge : 10 vidéos (200fps)
- CAS(ME)³ : 20 segments vidéo (30fps)
Ensemble de test ME-VQA : 24 segments de micro-expression
- Ensemble de données SAMM Challenge : 7 segments (200fps)
- CAS(ME)³ : 17 segments (30fps)
- ME-STR : Utilise le réseau MEAN entraîné sur CAS(ME)²
- ME-VQA : Utilise LoRA pour le fine-tuning paramétrique efficace de Qwen2.5VL-3B
Les résultats de base utilisant le réseau MEAN montrent :
- Ensemble de données SAMM : STRS = 0,0062
- Ensemble de données CAS(ME)³ : STRS = 0,0086
Les résultats indiquent que la phase de localisation est le goulot d'étranglement principal, avec des FP et FN élevés conduisant à des performances globales faibles.
47 participants inscrits, 8 équipes ayant soumis des résultats :
| Participant | SAMM (F1) | CAS(ME)³ (F1) | STRS Global |
|---|
| Guo et al. | Localisation:0,086, Reconnaissance:0,667 | Localisation:0,099, Reconnaissance:0,645 | 0,09 |
| ustc-iat | Localisation:0,118, Reconnaissance:0,471 | Localisation:0,067, Reconnaissance:0,645 | 0,06 |
| gormanv | Localisation:0,067, Reconnaissance:0,622 | Localisation:0,061, Reconnaissance:0,278 | 0,047 |
Performance de Qwen2.5VL-3B sous différents types d'entrée :
- Entrées OAO et OF : Meilleure performance en reconnaissance d'expressions
- Entrée vidéo : Meilleure performance sur les métriques BLEU et ROUGE-1
- Fine-tuning vs zéro-shot : Le fine-tuning améliore la plupart des métriques, mais les améliorations sont limitées
28 participants, 10 équipes ayant soumis des résultats :
| Participant | Granularité Grossière | Granularité Fine | BLEU | ROUGE | Score Moyen |
|---|
| Wang et al. | UF1:0,733, UAR:0,722 | UF1:0,368, UAR:0,408 | 0,615 | 0,607 | 0,575 |
| Zhu et al. | UF1:0,594, UAR:0,650 | UF1:0,316, UAR:0,375 | 0,595 | 0,509 | 0,506 |
| IIM, HFIPS, CAS | UF1:0,560, UAR:0,528 | UF1:0,281, UAR:0,283 | 0,396 | 0,489 | 0,423 |
Cet article est le 8e défi MEGC, avec les focus des éditions précédentes :
- FG'18 : Reconnaissance de micro-expressions
- FG'19 : Localisation et reconnaissance
- FG'20 : Localisation de micro-expressions
- MM'21-MM'23 : Localisation et génération
- MM'24 : Paradigme de détection puis reconnaissance et localisation transculturelle
- De la séparation à l'unification : Évolution des tâches indépendantes de localisation et reconnaissance vers des cadres unifiés
- Fusion multimodale : Exploitation des capacités de raisonnement multimodal des MLLMs et LVLMs
- Orientation pratique : Attention accrue aux besoins des scénarios d'application réels
- Défi élevé de la tâche ME-STR : Le meilleur STRS d'équipe est seulement 0,09, indiquant que ce domaine nécessite une innovation supplémentaire
- Potentiel de ME-VQA : Le score moyen de la meilleure équipe est 0,575, démontrant l'efficacité des approches multimodales
- Localisation comme goulot d'étranglement clé : La faible performance de ME-STR provient principalement des difficultés de la phase de localisation
- Taille limitée de l'ensemble de test : L'ensemble de test ME-VQA est relativement petit, pouvant affecter l'évaluation de la capacité de généralisation
- Métriques d'évaluation uniques : Des critères d'évaluation multidimensionnels supplémentaires pourraient être nécessaires
- Généralisation inter-domaines insuffisamment vérifiée : La capacité d'adaptation de domaine entre différents ensembles de données nécessite une investigation supplémentaire
- Expansion de la taille de l'ensemble de test : Construction d'ensembles de données de test plus grands et plus diversifiés
- Amélioration des algorithmes de localisation : Percée des goulots d'étranglement technologiques de la localisation des micro-expressions
- Optimisation des méthodes multimodales : Exploration supplémentaire de l'application des MLLMs à l'analyse des micro-expressions
- Conception innovante des tâches : La tâche ME-STR est plus proche des applications pratiques, ME-VQA introduit un nouveau paradigme de recherche
- Système d'évaluation complet : Fournit des ensembles de données standardisés, des métriques d'évaluation et des méthodes de référence
- Prospective technologique : Introduction opportune de modèles multimodaux de grande taille, saisissant les tendances du développement technologique
- Conception expérimentale rigoureuse : Expériences de base détaillées et analyse des résultats du défi
- Contributions théoriques limitées : Principalement l'organisation d'un défi, manquant d'analyse théorique approfondie
- Innovation méthodologique insuffisante : Les méthodes de base sont relativement simples, sans proposer de technologies révolutionnaires
- Limitation de la taille de l'ensemble de données : La taille de l'ensemble de test est relativement petite, pouvant affecter la généralité des conclusions
- Fusion multimodale superficielle : La fusion multimodale de la tâche ME-VQA nécessite une investigation plus approfondie
- Effet de promotion du domaine : En tant que défi faisant autorité, capable de promouvoir efficacement le développement du domaine de l'analyse des micro-expressions
- Contribution à la standardisation : Établit des normes d'évaluation pour les nouvelles tâches, fournissant des références pour les recherches futures
- Valeur de conversion technologique : La tâche ME-STR est plus proche des besoins des applications pratiques
- Impact académique : L'introduction de méthodes multimodales ouvre de nouvelles directions pour ce domaine
- Surveillance de sécurité : Surveillance émotionnelle dans les environnements à haut risque tels que les aéroports et les douanes
- Évaluation psychologique : Analyse de l'état émotionnel dans la recherche en psychologie clinique
- Interaction homme-machine : Amélioration de la capacité de compréhension émotionnelle des systèmes intelligents
- Application judiciaire : Assistance dans l'évaluation de l'authenticité des témoignages
L'article cite 24 références connexes, incluant principalement :
- Travaux connexes sur la construction d'ensembles de données de micro-expressions (SAMM, CASME II, CAS(ME)³, etc.)
- Articles des défis MEGC précédents
- Travaux connexes sur les modèles multimodaux de grande taille (Qwen2.5VL, etc.)
- Littérature connexe sur les métriques d'évaluation (BLEU, ROUGE, etc.)
Évaluation Globale : Ceci est un article de haute qualité sur l'organisation d'un défi qui, en introduisant les deux tâches innovantes ME-STR et ME-VQA, promeut efficacement le développement du domaine de l'analyse des micro-expressions. La valeur principale de l'article réside dans l'établissement de nouvelles normes d'évaluation et de nouveaux paradigmes de recherche. Bien que les contributions théoriques soient relativement limitées, il possède une importance directrice significative pour le développement du domaine.