2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.

Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.

academic

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

基本信息

论文ID: 2506.15298
标题: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
作者: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
分类: cs.CV cs.MM
发表时间/会议: MM '25, October 27–31, 2025, Dublin, Ireland (ACM International Conference on Multimedia)
论文链接: https://arxiv.org/abs/2506.15298

摘要

面部微表情(MEs)是指当人们试图抑制或压制面部表情时，在面部自发出现的非自主运动，通常出现在高风险环境中。近年来，在微表情识别、定位和生成等领域取得了重大进展。然而，将定位和识别视为分离任务的传统方法并非最优，特别是在现实环境中分析长时长视频时。同时，多模态大语言模型(MLLMs)和大型视觉-语言模型(LVLMs)的出现，通过其强大的多模态推理能力为增强微表情分析提供了新的有前景的途径。MEGC 2025引入了两个反映这些研究发展方向的任务：(1) 微表情先定位后识别(ME-STR)，将微表情定位和后续识别整合在统一的顺序流水线中；(2) 微表情视觉问答(ME-VQA)，通过视觉问答探索微表情理解，利用MLLMs或LVLMs处理与微表情相关的各种问题类型。

研究背景与动机

问题定义

本文要解决的核心问题是传统微表情分析方法的局限性：

任务分离的次优性：传统方法将微表情定位(spotting)和识别(recognition)视为独立任务，这在现实应用中并不实用
实际场景适应性差：现有方法难以有效处理长时长视频中的微表情分析
缺乏多模态推理能力：传统方法未能充分利用新兴的多模态大模型的推理能力

研究重要性

微表情分析在以下场景具有重要价值：

高风险环境监测：如安全检查、司法审讯等
心理健康评估：检测被试的真实情感状态
人机交互优化：提升AI系统对人类情感的理解能力

现有方法局限性

ME识别任务：假设微表情序列已被定位，在现实中很少成立
ME定位任务：仅能识别微表情发生位置，无法提供情感内容的有意义解释
缺乏端到端解决方案：分离的任务设计导致整体性能次优

核心贡献

提出ME-STR任务范式：将微表情定位和识别整合为统一的顺序流水线，更符合实际应用需求
引入ME-VQA新任务：首次将视觉问答范式应用于微表情分析，利用多模态大模型的推理能力
构建综合评测平台：提供标准化的测试集和评价指标，推动领域发展
建立基准方法：为两个任务提供baseline方法，为后续研究奠定基础

方法详解

任务1：ME-STR (Micro-Expression Spot-Then-Recognize)

任务定义

ME-STR任务要求在长视频序列中：

第一阶段：定位微表情发生的时间段
第二阶段：对正确定位的微表情片段进行情感分类

只有在第一阶段正确定位的样本才会传递到第二阶段进行情感识别。

基准方法：MEAN网络

采用微表情分析网络(MEAN)作为baseline：

统一架构：端到端神经网络，包含共享层和两个专门分支
定位分支：回归分支，为每帧输出置信度分数，指示微表情区间的可能性
识别分支：对定位分支识别的候选区间预测情感类别

评价指标

定位阶段：TP、FP、FN、精确率、召回率、F1分数 识别阶段：TP、FP、FN、精确率、召回率、F1、UF1、UAR 综合评价：STRS = F1-score_s × F1-score_a

任务2：ME-VQA (Micro-Expression Visual Question Answering)

任务定义

给定微表情视频序列和自然语言问题，模型需要生成描述观察到的微表情及其属性的自然语言答案。

问题类型包括：

二分类问题：如"面部是否显示唇角下压动作单元？"
多分类问题：如"表情类别是什么？"
复合问题：如"存在哪些动作单元，基于这些单元，表情类别是什么？"

基准方法：Qwen2.5VL-3B

采用Qwen2.5VL-3B作为baseline：

模型架构：包含视觉编码器、语言模型主干和跨模态融合模块
训练策略：零样本(ZS)和微调(FT)两种设置
输入类型：
1. 等间隔采样的视频帧
2. 起始-顶点-结束帧(OAO)
3. 起始和顶点间的光流(OF)

评价指标

情感分类：粗粒度和细粒度情感的UF1和UAR

粗粒度：积极、消极、惊讶
细粒度：快乐、惊讶、恐惧、厌恶、愤怒、悲伤

文本质量：BLEU和ROUGE-1分数评估生成文本质量

实验设置

数据集

训练数据

推荐使用以下数据集：

SAMM-LV、CAS(ME)³、4DME、CAS(ME)²、SMIC-E-long

测试数据

ME-STR测试集：30个长视频

SAMM Challenge数据集：10个视频(200fps)
CAS(ME)³：20个视频片段(30fps)

ME-VQA测试集：24个微表情片段

SAMM Challenge数据集：7个片段(200fps)
CAS(ME)³：17个片段(30fps)

实现细节

ME-STR：使用MEAN网络在CAS(ME)²上训练
ME-VQA：使用LoRA对Qwen2.5VL-3B进行参数高效微调

实验结果

ME-STR任务结果

基准结果

使用MEAN网络的baseline结果显示：

SAMM数据集：STRS = 0.0062
CAS(ME)³数据集：STRS = 0.0086

结果表明定位阶段是主要瓶颈，高FP和FN导致整体性能较低。

挑战赛结果

47名注册参与者，8个团队提交结果：

参与者	SAMM (F1)	CAS(ME)³ (F1)	总体STRS
Guo et al.	定位:0.086, 识别:0.667	定位:0.099, 识别:0.645	0.09
ustc-iat	定位:0.118, 识别:0.471	定位:0.067, 识别:0.645	0.06
gormanv	定位:0.067, 识别:0.622	定位:0.061, 识别:0.278	0.047

ME-VQA任务结果

基准结果

Qwen2.5VL-3B在不同输入类型下的表现：

OAO和OF输入：在表情识别上表现更好
视频输入：在BLEU和ROUGE-1指标上表现更好
微调vs零样本：微调在大多数指标上有改善，但提升有限

挑战赛结果

28名参与者，10个团队提交结果：

参与者	粗粒度	细粒度	BLEU	ROUGE	平均分
Wang et al.	UF1:0.733, UAR:0.722	UF1:0.368, UAR:0.408	0.615	0.607	0.575
Zhu et al.	UF1:0.594, UAR:0.650	UF1:0.316, UAR:0.375	0.595	0.509	0.506
IIM, HFIPS, CAS	UF1:0.560, UAR:0.528	UF1:0.281, UAR:0.283	0.396	0.489	0.423