2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.

Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.

academic

MEGC2025: Микровыражение Grand Challenge по обнаружению и распознаванию с визуальным ответом на вопросы

Основная информация

ID статьи: 2506.15298
Название: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
Авторы: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
Классификация: cs.CV cs.MM
Дата публикации/Конференция: MM '25, 27–31 октября 2025 г., Дублин, Ирландия (Международная конференция ACM по мультимедиа)
Ссылка на статью: https://arxiv.org/abs/2506.15298

Аннотация

Микровыражения лица (МВ) — это непроизвольные движения, спонтанно появляющиеся на лице, когда люди пытаются подавить или скрыть выражение лица, обычно возникающие в высокорисковых ситуациях. В последние годы достигнут значительный прогресс в распознавании, локализации и генерации микровыражений. Однако традиционные подходы, рассматривающие локализацию и распознавание как отдельные задачи, не являются оптимальными, особенно при анализе длительных видеопоследовательностей в реальных условиях. Одновременно появление многомодальных больших языковых моделей (MLLM) и крупных визуально-языковых моделей (LVLM) открывает новые перспективные возможности для улучшения анализа микровыражений благодаря их мощным многомодальным способностям рассуждения. MEGC 2025 представляет две задачи, отражающие эти направления развития исследований: (1) микровыражение сначала обнаружить, затем распознать (МВ-СТР), интегрирующее локализацию микровыражений и последующее распознавание в единый последовательный конвейер; (2) визуальный вопрос-ответ по микровыражениям (МВ-ВВО), исследующее понимание микровыражений через визуальный вопрос-ответ с использованием MLLM или LVLM для обработки различных типов вопросов, связанных с микровыражениями.

Исследовательский контекст и мотивация

Определение проблемы

Основные проблемы, которые решает данная работа:

Субоптимальность разделения задач: традиционные методы рассматривают локализацию (обнаружение) и распознавание микровыражений как независимые задачи, что непрактично в реальных приложениях
Плохая адаптация к реальным сценариям: существующие методы испытывают трудности при эффективной обработке микровыражений в длительных видеопоследовательностях
Отсутствие многомодальных способностей рассуждения: традиционные методы не полностью используют возможности рассуждения новых многомодальных больших моделей

Значимость исследования

Анализ микровыражений имеет важное значение в следующих сценариях:

Мониторинг в высокорисковых условиях: например, проверка безопасности в аэропортах, судебные допросы
Оценка психического здоровья: выявление истинного эмоционального состояния испытуемых
Оптимизация взаимодействия человека и машины: повышение способности систем ИИ понимать человеческие эмоции

Ограничения существующих методов

Задача распознавания МВ: предполагает, что последовательности микровыражений уже локализованы, что редко происходит на практике
Задача локализации МВ: может только определить местоположение возникновения микровыражения, не предоставляя значимой интерпретации эмоционального содержания
Отсутствие сквозного решения: разделённая конструкция задач приводит к субоптимальной общей производительности

Основной вклад

Предложение парадигмы задачи МВ-СТР: интеграция локализации и распознавания микровыражений в единый последовательный конвейер, более соответствующий практическим требованиям приложений
Введение новой задачи МВ-ВВО: впервые применение парадигмы визуального вопроса-ответа к анализу микровыражений с использованием способностей рассуждения многомодальных больших моделей
Построение комплексной платформы оценки: предоставление стандартизированного набора тестов и метрик оценки для продвижения развития области
Установление базовых методов: предоставление методов базовой линии для обеих задач, создание основы для последующих исследований

Подробное описание методов

Задача 1: МВ-СТР (Микровыражение Spot-Then-Recognize)

Определение задачи

Задача МВ-СТР требует в длительной видеопоследовательности:

Первый этап: локализация временного интервала возникновения микровыражения
Второй этап: классификация эмоций для правильно локализованных фрагментов микровыражений

Только образцы, правильно локализованные на первом этапе, передаются на второй этап для распознавания эмоций.

Базовый метод: сеть MEAN

Использование сети анализа микровыражений (MEAN) в качестве базовой линии:

Единая архитектура: сквозная нейронная сеть с общими слоями и двумя специализированными ветвями
Ветвь локализации: регрессионная ветвь, выводящая оценку уверенности для каждого кадра, указывающую вероятность интервала микровыражения
Ветвь распознавания: предсказание категории эмоции для кандидатских интервалов, определённых ветвью локализации

Метрики оценки

Этап локализации: TP, FP, FN, точность, полнота, F1-оценка Этап распознавания: TP, FP, FN, точность, полнота, F1, UF1, UAR Комплексная оценка: STRS = F1-score_s × F1-score_a

Задача 2: МВ-ВВО (Микровыражение Visual Question Answering)

Определение задачи

Учитывая видеопоследовательность микровыражения и вопрос на естественном языке, модель должна генерировать ответ на естественном языке, описывающий наблюдаемое микровыражение и его атрибуты.

Типы вопросов включают:

Бинарные вопросы: например, "показывает ли лицо движение единицы действия с опущенным углом рта?"
Многоклассовые вопросы: например, "какова категория выражения?"
Составные вопросы: например, "какие единицы действия присутствуют, и на основе этих единиц, какова категория выражения?"

Базовый метод: Qwen2.5VL-3B

Использование Qwen2.5VL-3B в качестве базовой линии:

Архитектура модели: включает кодировщик видения, основной языковой модуль и модуль кросс-модального слияния
Стратегия обучения: два параметра — нулевой выстрел (ZS) и тонкая настройка (FT)
Типы входных данных:
1. Равномерно дискретизированные видеокадры
2. Кадры начала-вершины-конца (OAO)
3. Оптический поток между кадрами начала и вершины (OF)

Метрики оценки

Классификация эмоций: UF1 и UAR для грубозернистых и мелкозернистых эмоций

Грубозернистые: позитивные, негативные, удивление
Мелкозернистые: счастье, удивление, страх, отвращение, гнев, грусть

Качество текста: оценка качества генерируемого текста с использованием оценок BLEU и ROUGE-1

Экспериментальная установка

Наборы данных

Данные обучения

Рекомендуется использование следующих наборов данных:

SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long

Данные тестирования

Набор тестов МВ-СТР: 30 длительных видео

Набор данных SAMM Challenge: 10 видео (200 кадров/сек)
CAS(ME)³: 20 видеофрагментов (30 кадров/сек)

Набор тестов МВ-ВВО: 24 фрагмента микровыражений

Набор данных SAMM Challenge: 7 фрагментов (200 кадров/сек)
CAS(ME)³: 17 фрагментов (30 кадров/сек)

Детали реализации

МВ-СТР: использование сети MEAN, обученной на CAS(ME)²
МВ-ВВО: параметрически эффективная тонкая настройка Qwen2.5VL-3B с использованием LoRA

Результаты экспериментов

Результаты задачи МВ-СТР

Результаты базовой линии

Результаты базовой линии с использованием сети MEAN показывают:

Набор данных SAMM: STRS = 0.0062
Набор данных CAS(ME)³: STRS = 0.0086

Результаты показывают, что этап локализации является основным узким местом, высокие FP и FN приводят к низкой общей производительности.

Результаты конкурса

47 зарегистрированных участников, 8 команд представили результаты:

Участник	SAMM (F1)	CAS(ME)³ (F1)	Общее STRS
Guo et al.	Локализация: 0.086, Распознавание: 0.667	Локализация: 0.099, Распознавание: 0.645	0.09
ustc-iat	Локализация: 0.118, Распознавание: 0.471	Локализация: 0.067, Распознавание: 0.645	0.06
gormanv	Локализация: 0.067, Распознавание: 0.622	Локализация: 0.061, Распознавание: 0.278	0.047

Результаты задачи МВ-ВВО

Результаты базовой линии

Производительность Qwen2.5VL-3B при различных типах входных данных:

Входные данные OAO и OF: лучшая производительность при распознавании выражений
Видеовход: лучшая производительность по метрикам BLEU и ROUGE-1
Тонкая настройка vs нулевой выстрел: тонкая настройка показывает улучшение по большинству метрик, но улучшение ограничено

Результаты конкурса

28 участников, 10 команд представили результаты:

Участник	Грубозернистые	Мелкозернистые	BLEU	ROUGE	Средний балл
Wang et al.	UF1: 0.733, UAR: 0.722	UF1: 0.368, UAR: 0.408	0.615	0.607	0.575
Zhu et al.	UF1: 0.594, UAR: 0.650	UF1: 0.316, UAR: 0.375	0.595	0.509	0.506
IIM, HFIPS, CAS	UF1: 0.560, UAR: 0.528	UF1: 0.281, UAR: 0.283	0.396	0.489	0.423

Связанные работы

Исторический обзор MEGC

Данная статья является восьмым конкурсом MEGC, предыдущие издания сосредоточены на:

FG'18: распознавание микровыражений
FG'19: локализация и распознавание
FG'20: локализация микровыражений
MM'21-MM'23: локализация и генерация
MM'24: парадигма сначала локализовать затем распознать и кросс-культурная локализация

Тенденции технического развития

От разделения к единству: развитие от независимых задач локализации и распознавания к единой структуре
Многомодальное слияние: использование способностей многомодального рассуждения MLLM и LVLM
Ориентация на практичность: большее внимание к требованиям реальных сценариев приложений

Заключение и обсуждение

Основные выводы

Высокая сложность задачи МВ-СТР: лучшая команда достигла STRS только 0.09, что указывает на необходимость дальнейших инноваций в этой области
Потенциал МВ-ВВО: средний балл лучшей команды 0.575 демонстрирует эффективность многомодальных методов
Локализация — ключевое узкое место: низкая производительность МВ-СТР в основном обусловлена трудностями на этапе локализации

Ограничения

Ограниченный размер набора тестов: набор тестов МВ-ВВО относительно небольшой, что может повлиять на оценку способности обобщения
Единственность метрик оценки: может потребоваться более многомерный стандарт оценки
Недостаточная проверка кросс-доменного обобщения: способность адаптации к доменам между различными наборами данных требует дальнейшего исследования

Будущие направления

Расширение размера набора тестов: построение более крупных и разнообразных наборов тестовых данных
Улучшение алгоритмов локализации: преодоление технических узких мест в локализации микровыражений
Оптимизация многомодальных методов: дальнейшее исследование применения MLLM в анализе микровыражений

Глубокая оценка

Преимущества

Инновационный дизайн задач: задача МВ-СТР более соответствует практическим приложениям, МВ-ВВО вводит новую парадигму исследований
Полная система оценки: предоставление стандартизированных наборов данных, метрик оценки и методов базовой линии
Технологическая дальновидность: своевременное введение многомодальных больших моделей, соответствие тенденциям технического развития
Строгий дизайн экспериментов: подробные эксперименты базовой линии и анализ результатов конкурса

Недостатки

Ограниченный теоретический вклад: в основном организация конкурса, отсутствие глубокого теоретического анализа
Недостаточная инновация методов: методы базовой линии относительно просты, отсутствуют прорывные технологии
Ограничение размера набора данных: относительно небольшой размер набора тестов может повлиять на универсальность выводов
Поверхностное кросс-модальное слияние: многомодальное слияние в задаче МВ-ВВО требует дальнейшего углубления

Влияние

Роль в продвижении области: как авторитетный конкурс, может эффективно продвигать развитие области анализа микровыражений
Вклад в стандартизацию: установление стандартов оценки новых задач, предоставление базовой линии для последующих исследований
Ценность технологической трансформации: задача МВ-СТР более соответствует требованиям практических приложений
Академическое влияние: введение многомодальных методов открывает новые направления для этой области

Применимые сценарии

Безопасный мониторинг: мониторинг эмоций в высокорисковых условиях, таких как аэропорты и таможни
Оценка психического здоровья: анализ эмоционального состояния в клинических психологических исследованиях
Взаимодействие человека и машины: повышение способности интеллектуальных систем понимать эмоции
Судебное применение: вспомогательное определение подлинности показаний

Библиография

Статья цитирует 24 связанные работы, включая в основном:

Работы по построению наборов данных микровыражений (SAMM, CASME II, CAS(ME)³ и т.д.)
Статьи предыдущих конкурсов MEGC
Работы по многомодальным большим моделям (Qwen2.5VL и т.д.)
Литературу по метрикам оценки (BLEU, ROUGE и т.д.)

Общая оценка: Это высококачественная статья об организации конкурса, которая эффективно продвигает развитие области анализа микровыражений путём введения двух инновационных задач МВ-СТР и МВ-ВВО. Основная ценность статьи заключается в установлении новых стандартов оценки и парадигм исследований. Хотя теоретический вклад относительно ограничен, работа имеет важное руководящее значение для развития области.