2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.
Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
academic

MEGC2025: Desafío Grand de Microexpresiones en Detección Seguida de Reconocimiento y Respuesta a Preguntas Visuales

Información Básica

  • ID del Artículo: 2506.15298
  • Título: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
  • Autores: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
  • Clasificación: cs.CV cs.MM
  • Fecha de Publicación/Conferencia: MM '25, 27–31 de octubre de 2025, Dublín, Irlanda (Conferencia Internacional ACM sobre Multimedia)
  • Enlace del Artículo: https://arxiv.org/abs/2506.15298

Resumen

Las microexpresiones faciales (MEs) son movimientos involuntarios que aparecen espontáneamente en el rostro cuando las personas intentan suprimir o reprimir expresiones faciales, típicamente en entornos de alto riesgo. En años recientes, se han logrado avances significativos en reconocimiento, localización y generación de microexpresiones. Sin embargo, los enfoques tradicionales que consideran la localización y el reconocimiento como tareas separadas no son óptimos, especialmente al analizar videos de larga duración en entornos realistas. Simultáneamente, la emergencia de modelos de lenguaje multimodales grandes (MLLMs) y modelos de visión-lenguaje grandes (LVLMs) ofrece nuevas vías prometedoras para mejorar el análisis de microexpresiones mediante sus potentes capacidades de razonamiento multimodal. MEGC 2025 introduce dos tareas que reflejan estas direcciones de desarrollo investigativo: (1) Detección Seguida de Reconocimiento de Microexpresiones (ME-STR), que integra la localización y el reconocimiento posterior de microexpresiones en un pipeline secuencial unificado; (2) Respuesta a Preguntas Visuales sobre Microexpresiones (ME-VQA), que explora la comprensión de microexpresiones mediante respuesta a preguntas visuales, utilizando MLLMs o LVLMs para procesar diversos tipos de preguntas relacionadas con microexpresiones.

Contexto de Investigación y Motivación

Definición del Problema

Los problemas centrales que aborda este artículo son las limitaciones de los métodos tradicionales de análisis de microexpresiones:

  1. Suboptimalidad de la separación de tareas: Los métodos tradicionales consideran la detección (spotting) y el reconocimiento de microexpresiones como tareas independientes, lo cual no es práctico en aplicaciones reales
  2. Pobre adaptabilidad a escenarios reales: Los métodos existentes tienen dificultades para procesar efectivamente el análisis de microexpresiones en videos de larga duración
  3. Falta de capacidades de razonamiento multimodal: Los métodos tradicionales no aprovechan plenamente las capacidades de razonamiento de los nuevos modelos multimodales grandes

Importancia de la Investigación

El análisis de microexpresiones tiene valor significativo en los siguientes escenarios:

  • Monitoreo en entornos de alto riesgo: Como inspecciones de seguridad, interrogatorios judiciales, etc.
  • Evaluación de salud mental: Detección del estado emocional real de los sujetos
  • Optimización de interacción humano-máquina: Mejora de la capacidad de los sistemas de IA para comprender las emociones humanas

Limitaciones de los Métodos Existentes

  1. Tarea de reconocimiento de ME: Asume que las secuencias de microexpresiones ya han sido localizadas, lo cual rara vez ocurre en la práctica
  2. Tarea de localización de ME: Solo puede identificar dónde ocurren las microexpresiones, sin proporcionar interpretaciones significativas del contenido emocional
  3. Falta de soluciones end-to-end: El diseño de tareas separadas resulta en un rendimiento general subóptimo

Contribuciones Principales

  1. Propuesta del paradigma de tarea ME-STR: Integra la localización y el reconocimiento de microexpresiones en un pipeline secuencial unificado, más alineado con las necesidades de aplicaciones reales
  2. Introducción de la nueva tarea ME-VQA: Primera aplicación del paradigma de respuesta a preguntas visuales al análisis de microexpresiones, aprovechando las capacidades de razonamiento de modelos multimodales grandes
  3. Construcción de una plataforma de evaluación integral: Proporciona conjuntos de prueba estandarizados e indicadores de evaluación para impulsar el desarrollo del campo
  4. Establecimiento de métodos de referencia: Proporciona métodos baseline para ambas tareas, sentando las bases para investigaciones posteriores

Explicación Detallada de Métodos

Tarea 1: ME-STR (Detección Seguida de Reconocimiento de Microexpresiones)

Definición de la Tarea

La tarea ME-STR requiere en secuencias de video largo:

  1. Primera fase: Localizar los segmentos de tiempo donde ocurren las microexpresiones
  2. Segunda fase: Realizar clasificación emocional en los segmentos de microexpresiones correctamente localizados

Solo las muestras correctamente localizadas en la primera fase se transmiten a la segunda fase para el reconocimiento emocional.

Método de Referencia: Red MEAN

Se adopta la Red de Análisis de Microexpresiones (MEAN) como baseline:

  • Arquitectura unificada: Red neuronal end-to-end que contiene capas compartidas y dos ramas especializadas
  • Rama de localización: Rama de regresión que genera puntuaciones de confianza para cada fotograma, indicando la probabilidad de intervalos de microexpresiones
  • Rama de reconocimiento: Predice categorías emocionales para intervalos candidatos identificados por la rama de localización

Indicadores de Evaluación

Fase de localización: TP, FP, FN, precisión, recuperación, puntuación F1 Fase de reconocimiento: TP, FP, FN, precisión, recuperación, F1, UF1, UAR Evaluación integral: STRS = F1-score_s × F1-score_a

Tarea 2: ME-VQA (Respuesta a Preguntas Visuales sobre Microexpresiones)

Definición de la Tarea

Dada una secuencia de video de microexpresiones y una pregunta en lenguaje natural, el modelo debe generar una respuesta en lenguaje natural que describa la microexpresión observada y sus atributos.

Los tipos de preguntas incluyen:

  • Preguntas binarias: Como "¿Muestra el rostro una acción de depresión de las comisuras de los labios?"
  • Preguntas multiclase: Como "¿Cuál es la categoría de expresión?"
  • Preguntas compuestas: Como "¿Qué unidades de acción están presentes y, basándose en estas unidades, cuál es la categoría de expresión?"

Método de Referencia: Qwen2.5VL-3B

Se adopta Qwen2.5VL-3B como baseline:

  • Arquitectura del modelo: Incluye codificador visual, núcleo del modelo de lenguaje y módulo de fusión multimodal
  • Estrategia de entrenamiento: Dos configuraciones: cero ejemplos (ZS) y ajuste fino (FT)
  • Tipos de entrada:
    1. Fotogramas de video muestreados a intervalos equidistantes
    2. Fotogramas de inicio-ápice-fin (OAO)
    3. Flujo óptico entre fotogramas de inicio y ápice (OF)

Indicadores de Evaluación

Clasificación emocional: UF1 y UAR para emociones de granularidad gruesa y fina

  • Granularidad gruesa: Positivo, Negativo, Sorpresa
  • Granularidad fina: Alegría, Sorpresa, Miedo, Disgusto, Ira, Tristeza

Calidad del texto: Puntuaciones BLEU y ROUGE-1 para evaluar la calidad del texto generado

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento

Se recomienda utilizar los siguientes conjuntos de datos:

  • SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long

Datos de Prueba

Conjunto de prueba ME-STR: 30 videos largos

  • Conjunto de datos SAMM Challenge: 10 videos (200fps)
  • CAS(ME)³: 20 segmentos de video (30fps)

Conjunto de prueba ME-VQA: 24 segmentos de microexpresiones

  • Conjunto de datos SAMM Challenge: 7 segmentos (200fps)
  • CAS(ME)³: 17 segmentos (30fps)

Detalles de Implementación

  • ME-STR: Entrenamiento de la red MEAN en CAS(ME)²
  • ME-VQA: Ajuste fino eficiente en parámetros de Qwen2.5VL-3B mediante LoRA

Resultados Experimentales

Resultados de la Tarea ME-STR

Resultados de Referencia

Los resultados del baseline utilizando la red MEAN muestran:

  • Conjunto de datos SAMM: STRS = 0.0062
  • Conjunto de datos CAS(ME)³: STRS = 0.0086

Los resultados indican que la fase de localización es el principal cuello de botella, con altos FP y FN resultando en un rendimiento general bajo.

Resultados del Desafío

47 participantes registrados, 8 equipos presentaron resultados:

ParticipanteSAMM (F1)CAS(ME)³ (F1)STRS General
Guo et al.Localización:0.086, Reconocimiento:0.667Localización:0.099, Reconocimiento:0.6450.09
ustc-iatLocalización:0.118, Reconocimiento:0.471Localización:0.067, Reconocimiento:0.6450.06
gormanvLocalización:0.067, Reconocimiento:0.622Localización:0.061, Reconocimiento:0.2780.047

Resultados de la Tarea ME-VQA

Resultados de Referencia

Desempeño de Qwen2.5VL-3B bajo diferentes tipos de entrada:

  • Entrada OAO y OF: Mejor desempeño en reconocimiento de expresiones
  • Entrada de video: Mejor desempeño en indicadores BLEU y ROUGE-1
  • Ajuste fino vs. cero ejemplos: El ajuste fino muestra mejoras en la mayoría de indicadores, pero con mejoras limitadas

Resultados del Desafío

28 participantes, 10 equipos presentaron resultados:

ParticipanteGranularidad GruesaGranularidad FinaBLEUROUGEPuntuación Promedio
Wang et al.UF1:0.733, UAR:0.722UF1:0.368, UAR:0.4080.6150.6070.575
Zhu et al.UF1:0.594, UAR:0.650UF1:0.316, UAR:0.3750.5950.5090.506
IIM, HFIPS, CASUF1:0.560, UAR:0.528UF1:0.281, UAR:0.2830.3960.4890.423

Trabajo Relacionado

Revisión Histórica de MEGC

Este artículo es la octava edición del desafío MEGC, con enfoque en ediciones anteriores:

  • FG'18: Reconocimiento de microexpresiones
  • FG'19: Localización y reconocimiento
  • FG'20: Localización de microexpresiones
  • MM'21-MM'23: Localización y generación
  • MM'24: Paradigma de detección seguida de reconocimiento y localización transcultural

Tendencias de Desarrollo Tecnológico

  1. De lo separado a lo unificado: Evolución desde tareas independientes de localización y reconocimiento hacia marcos unificados
  2. Fusión multimodal: Aprovechamiento de las capacidades de razonamiento multimodal de MLLMs y LVLMs
  3. Orientación hacia la practicidad: Mayor enfoque en las necesidades de escenarios de aplicación real

Conclusiones y Discusión

Conclusiones Principales

  1. Alta complejidad de la tarea ME-STR: El mejor equipo logró STRS de solo 0.09, indicando que el campo requiere innovación adicional
  2. Potencial demostrado de ME-VQA: La puntuación promedio del mejor equipo de 0.575 muestra la efectividad de los métodos multimodales
  3. Localización como cuello de botella clave: El bajo rendimiento de ME-STR proviene principalmente de la dificultad en la fase de localización

Limitaciones

  1. Tamaño limitado del conjunto de prueba: El conjunto de prueba ME-VQA es relativamente pequeño, lo que puede afectar la evaluación de capacidades de generalización
  2. Indicadores de evaluación únicos: Puede ser necesario contar con estándares de evaluación más multidimensionales
  3. Validación insuficiente de generalización entre dominios: La capacidad de adaptación de dominio entre diferentes conjuntos de datos requiere investigación adicional

Direcciones Futuras

  1. Expansión del tamaño del conjunto de prueba: Construcción de conjuntos de datos de prueba más grandes y diversos
  2. Mejora de algoritmos de localización: Enfoque en superar los cuellos de botella tecnológicos en la localización de microexpresiones
  3. Optimización de métodos multimodales: Exploración adicional de la aplicación de MLLMs en análisis de microexpresiones

Evaluación Profunda

Fortalezas

  1. Diseño innovador de tareas: La tarea ME-STR es más cercana a aplicaciones reales, ME-VQA introduce un nuevo paradigma de investigación
  2. Sistema de evaluación completo: Proporciona conjuntos de datos estandarizados, indicadores de evaluación y métodos de referencia
  3. Prospectiva tecnológica: Introducción oportuna de modelos multimodales grandes, capturando tendencias de desarrollo tecnológico
  4. Diseño experimental riguroso: Análisis detallado de experimentos baseline y resultados del desafío

Deficiencias

  1. Contribuciones teóricas limitadas: Principalmente organización de desafíos, falta de análisis teórico profundo
  2. Innovación metodológica insuficiente: Los métodos baseline son relativamente simples, sin proponer tecnologías revolucionarias
  3. Limitaciones de escala de conjuntos de datos: El tamaño relativamente pequeño del conjunto de prueba puede afectar la generalidad de las conclusiones
  4. Fusión multimodal superficial: La fusión multimodal en la tarea ME-VQA requiere profundización adicional

Impacto

  1. Efecto impulsor en el campo: Como desafío autorizado, puede impulsar efectivamente el desarrollo del campo de análisis de microexpresiones
  2. Contribución a la estandarización: Establece estándares de evaluación para nuevas tareas, proporcionando referencias para investigaciones posteriores
  3. Valor de transferencia tecnológica: La tarea ME-STR es más cercana a las necesidades de aplicaciones reales
  4. Impacto académico: La introducción de métodos multimodales abre nuevas direcciones para el campo

Escenarios Aplicables

  1. Vigilancia de seguridad: Monitoreo emocional en entornos de alto riesgo como aeropuertos y aduanas
  2. Evaluación psicológica: Análisis del estado emocional en investigación de psicología clínica
  3. Interacción humano-máquina: Mejora de la capacidad de comprensión emocional de sistemas inteligentes
  4. Aplicaciones judiciales: Asistencia en la determinación de la veracidad del testimonio

Referencias

El artículo cita 24 referencias relacionadas, que incluyen principalmente:

  • Trabajos relacionados con la construcción de conjuntos de datos de microexpresiones (SAMM, CASME II, CAS(ME)³, etc.)
  • Artículos de desafíos MEGC anteriores
  • Trabajos relacionados con modelos multimodales grandes (Qwen2.5VL, etc.)
  • Literatura relacionada con indicadores de evaluación (BLEU, ROUGE, etc.)

Evaluación General: Este es un artículo de alta calidad sobre la organización de desafíos que impulsa efectivamente el desarrollo del campo de análisis de microexpresiones mediante la introducción de dos tareas innovadoras: ME-STR y ME-VQA. El valor principal del artículo radica en el establecimiento de nuevos estándares de evaluación y paradigmas de investigación. Aunque las contribuciones teóricas son relativamente limitadas, tiene un significado orientador importante para el desarrollo del campo.