2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.
Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
academic

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

基本信息

  • 论文ID: 2506.15298
  • 标题: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
  • 作者: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
  • 分类: cs.CV cs.MM
  • 发表时间/会议: MM '25, October 27–31, 2025, Dublin, Ireland (ACM International Conference on Multimedia)
  • 论文链接: https://arxiv.org/abs/2506.15298

摘要

面部微表情(MEs)是指当人们试图抑制或压制面部表情时,在面部自发出现的非自主运动,通常出现在高风险环境中。近年来,在微表情识别、定位和生成等领域取得了重大进展。然而,将定位和识别视为分离任务的传统方法并非最优,特别是在现实环境中分析长时长视频时。同时,多模态大语言模型(MLLMs)和大型视觉-语言模型(LVLMs)的出现,通过其强大的多模态推理能力为增强微表情分析提供了新的有前景的途径。MEGC 2025引入了两个反映这些研究发展方向的任务:(1) 微表情先定位后识别(ME-STR),将微表情定位和后续识别整合在统一的顺序流水线中;(2) 微表情视觉问答(ME-VQA),通过视觉问答探索微表情理解,利用MLLMs或LVLMs处理与微表情相关的各种问题类型。

研究背景与动机

问题定义

本文要解决的核心问题是传统微表情分析方法的局限性:

  1. 任务分离的次优性:传统方法将微表情定位(spotting)和识别(recognition)视为独立任务,这在现实应用中并不实用
  2. 实际场景适应性差:现有方法难以有效处理长时长视频中的微表情分析
  3. 缺乏多模态推理能力:传统方法未能充分利用新兴的多模态大模型的推理能力

研究重要性

微表情分析在以下场景具有重要价值:

  • 高风险环境监测:如安全检查、司法审讯等
  • 心理健康评估:检测被试的真实情感状态
  • 人机交互优化:提升AI系统对人类情感的理解能力

现有方法局限性

  1. ME识别任务:假设微表情序列已被定位,在现实中很少成立
  2. ME定位任务:仅能识别微表情发生位置,无法提供情感内容的有意义解释
  3. 缺乏端到端解决方案:分离的任务设计导致整体性能次优

核心贡献

  1. 提出ME-STR任务范式:将微表情定位和识别整合为统一的顺序流水线,更符合实际应用需求
  2. 引入ME-VQA新任务:首次将视觉问答范式应用于微表情分析,利用多模态大模型的推理能力
  3. 构建综合评测平台:提供标准化的测试集和评价指标,推动领域发展
  4. 建立基准方法:为两个任务提供baseline方法,为后续研究奠定基础

方法详解

任务1:ME-STR (Micro-Expression Spot-Then-Recognize)

任务定义

ME-STR任务要求在长视频序列中:

  1. 第一阶段:定位微表情发生的时间段
  2. 第二阶段:对正确定位的微表情片段进行情感分类

只有在第一阶段正确定位的样本才会传递到第二阶段进行情感识别。

基准方法:MEAN网络

采用微表情分析网络(MEAN)作为baseline:

  • 统一架构:端到端神经网络,包含共享层和两个专门分支
  • 定位分支:回归分支,为每帧输出置信度分数,指示微表情区间的可能性
  • 识别分支:对定位分支识别的候选区间预测情感类别

评价指标

定位阶段:TP、FP、FN、精确率、召回率、F1分数 识别阶段:TP、FP、FN、精确率、召回率、F1、UF1、UAR 综合评价:STRS = F1-score_s × F1-score_a

任务2:ME-VQA (Micro-Expression Visual Question Answering)

任务定义

给定微表情视频序列和自然语言问题,模型需要生成描述观察到的微表情及其属性的自然语言答案。

问题类型包括:

  • 二分类问题:如"面部是否显示唇角下压动作单元?"
  • 多分类问题:如"表情类别是什么?"
  • 复合问题:如"存在哪些动作单元,基于这些单元,表情类别是什么?"

基准方法:Qwen2.5VL-3B

采用Qwen2.5VL-3B作为baseline:

  • 模型架构:包含视觉编码器、语言模型主干和跨模态融合模块
  • 训练策略:零样本(ZS)和微调(FT)两种设置
  • 输入类型
    1. 等间隔采样的视频帧
    2. 起始-顶点-结束帧(OAO)
    3. 起始和顶点间的光流(OF)

评价指标

情感分类:粗粒度和细粒度情感的UF1和UAR

  • 粗粒度:积极、消极、惊讶
  • 细粒度:快乐、惊讶、恐惧、厌恶、愤怒、悲伤

文本质量:BLEU和ROUGE-1分数评估生成文本质量

实验设置

数据集

训练数据

推荐使用以下数据集:

  • SAMM-LV、CAS(ME)³、4DME、CAS(ME)²、SMIC-E-long

测试数据

ME-STR测试集:30个长视频

  • SAMM Challenge数据集:10个视频(200fps)
  • CAS(ME)³:20个视频片段(30fps)

ME-VQA测试集:24个微表情片段

  • SAMM Challenge数据集:7个片段(200fps)
  • CAS(ME)³:17个片段(30fps)

实现细节

  • ME-STR:使用MEAN网络在CAS(ME)²上训练
  • ME-VQA:使用LoRA对Qwen2.5VL-3B进行参数高效微调

实验结果

ME-STR任务结果

基准结果

使用MEAN网络的baseline结果显示:

  • SAMM数据集:STRS = 0.0062
  • CAS(ME)³数据集:STRS = 0.0086

结果表明定位阶段是主要瓶颈,高FP和FN导致整体性能较低。

挑战赛结果

47名注册参与者,8个团队提交结果:

参与者SAMM (F1)CAS(ME)³ (F1)总体STRS
Guo et al.定位:0.086, 识别:0.667定位:0.099, 识别:0.6450.09
ustc-iat定位:0.118, 识别:0.471定位:0.067, 识别:0.6450.06
gormanv定位:0.067, 识别:0.622定位:0.061, 识别:0.2780.047

ME-VQA任务结果

基准结果

Qwen2.5VL-3B在不同输入类型下的表现:

  • OAO和OF输入:在表情识别上表现更好
  • 视频输入:在BLEU和ROUGE-1指标上表现更好
  • 微调vs零样本:微调在大多数指标上有改善,但提升有限

挑战赛结果

28名参与者,10个团队提交结果:

参与者粗粒度细粒度BLEUROUGE平均分
Wang et al.UF1:0.733, UAR:0.722UF1:0.368, UAR:0.4080.6150.6070.575
Zhu et al.UF1:0.594, UAR:0.650UF1:0.316, UAR:0.3750.5950.5090.506
IIM, HFIPS, CASUF1:0.560, UAR:0.528UF1:0.281, UAR:0.2830.3960.4890.423

相关工作

MEGC历史回顾

本文是第8届MEGC挑战赛,历届focus:

  • FG'18:微表情识别
  • FG'19:定位和识别
  • FG'20:微表情定位
  • MM'21-MM'23:定位和生成
  • MM'24:先定位后识别范式和跨文化定位

技术发展趋势

  1. 从分离到统一:从独立的定位和识别任务向统一框架发展
  2. 多模态融合:利用MLLMs和LVLMs的多模态推理能力
  3. 实用性导向:更关注实际应用场景的需求

结论与讨论

主要结论

  1. ME-STR任务挑战性高:最佳团队STRS仅为0.09,表明该领域需要进一步创新
  2. ME-VQA展现潜力:最佳团队平均分0.575,显示多模态方法的有效性
  3. 定位是关键瓶颈:ME-STR的低性能主要源于定位阶段的困难

局限性

  1. 测试集规模有限:ME-VQA测试集相对较小,可能影响泛化能力评估
  2. 评价指标单一:可能需要更多维度的评价标准
  3. 跨域泛化未充分验证:不同数据集间的域适应能力有待进一步研究

未来方向

  1. 扩大测试集规模:构建更大、更多样化的测试数据集
  2. 改进定位算法:重点突破微表情定位的技术瓶颈
  3. 多模态方法优化:进一步探索MLLMs在微表情分析中的应用

深度评价

优点

  1. 任务设计创新:ME-STR任务更贴近实际应用,ME-VQA引入新的研究范式
  2. 评测体系完备:提供标准化的数据集、评价指标和基准方法
  3. 技术前瞻性:及时引入多模态大模型,把握技术发展趋势
  4. 实验设计严谨:详细的baseline实验和挑战赛结果分析

不足

  1. 理论贡献有限:主要是挑战赛组织,缺乏深入的理论分析
  2. 方法创新不足:baseline方法相对简单,未提出突破性技术
  3. 数据集规模限制:测试集规模相对较小,可能影响结论的普遍性
  4. 跨模态融合浅层:ME-VQA任务的多模态融合还有待深入

影响力

  1. 领域推动作用:作为权威挑战赛,能有效推动微表情分析领域发展
  2. 标准化贡献:建立了新任务的评测标准,为后续研究提供基准
  3. 技术转化价值:ME-STR任务更贴近实际应用需求
  4. 学术影响:引入多模态方法为该领域开辟新方向

适用场景

  1. 安全监控:机场、海关等高风险环境的情感监测
  2. 心理评估:临床心理学研究中的情感状态分析
  3. 人机交互:智能系统的情感理解能力提升
  4. 司法应用:辅助判断证词真实性

参考文献

论文引用了24篇相关文献,主要包括:

  • 微表情数据集构建相关工作(SAMM, CASME II, CAS(ME)³等)
  • 历届MEGC挑战赛论文
  • 多模态大模型相关工作(Qwen2.5VL等)
  • 评价指标相关文献(BLEU, ROUGE等)

总体评价:这是一篇高质量的挑战赛组织论文,通过引入ME-STR和ME-VQA两个创新任务,有效推动了微表情分析领域的发展。论文的主要价值在于建立了新的评测标准和研究范式,虽然在理论贡献上相对有限,但对领域发展具有重要的指导意义。