2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.

Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.

academic

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Grundinformationen

Paper-ID: 2506.15298
Titel: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
Autoren: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
Klassifizierung: cs.CV cs.MM
Veröffentlichungszeitpunkt/Konferenz: MM '25, 27.–31. Oktober 2025, Dublin, Irland (ACM International Conference on Multimedia)
Paper-Link: https://arxiv.org/abs/2506.15298

Zusammenfassung

Gesichtsmikroexpressionen (MEs) sind unwillkürliche Bewegungen, die spontan im Gesicht auftreten, wenn Menschen versuchen, ihre Gesichtsausdrücke zu unterdrücken oder zu kontrollieren, und treten typischerweise in Hochrisikosituationen auf. In den letzten Jahren wurden bedeutende Fortschritte in den Bereichen Mikroexpressionserkennungs-, Lokalisierungs- und Generierungstechniken erzielt. Allerdings sind traditionelle Ansätze, die Lokalisierung und Erkennung als separate Aufgaben behandeln, nicht optimal, besonders bei der Analyse von Langzeitvideos in realen Umgebungen. Gleichzeitig bieten multimodale große Sprachmodelle (MLLMs) und große Vision-Language-Modelle (LVLMs) durch ihre starken multimodalen Reasoning-Fähigkeiten neue vielversprechende Wege zur Verbesserung der Mikroexpressionsanalyse. MEGC 2025 führt zwei Aufgaben ein, die diese Forschungstrends widerspiegeln: (1) Mikroexpression Spot-Then-Recognize (ME-STR), das Mikroexpressionslokalisierung und nachfolgende Erkennung in einer einheitlichen sequenziellen Pipeline integriert; (2) Mikroexpression Visual Question Answering (ME-VQA), das Mikroexpressionsverständnis durch visuelles Frage-Beantworten erforscht und MLLMs oder LVLMs zur Verarbeitung verschiedener Fragetypen im Zusammenhang mit Mikroexpressionen nutzt.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme, die dieser Artikel adressiert, sind die Einschränkungen traditioneller Mikroexpressionsanalysemethoden:

Suboptimalität der Aufgabentrennung: Traditionelle Methoden behandeln Mikroexpressionslokalisierung (Spotting) und Erkennung (Recognition) als unabhängige Aufgaben, was in praktischen Anwendungen nicht praktikabel ist
Schlechte Anpassung an reale Szenarien: Bestehende Methoden können Mikroexpressionen in Langzeitvideos nicht effektiv analysieren
Mangel an multimodalen Reasoning-Fähigkeiten: Traditionelle Methoden nutzen die Reasoning-Fähigkeiten neuer multimodaler Großmodelle nicht vollständig

Forschungsbedeutung

Die Mikroexpressionsanalyse hat in folgenden Szenarien wichtige Anwendungswerte:

Überwachung in Hochrisikosituationen: wie Sicherheitsprüfungen, gerichtliche Befragungen usw.
Psychische Gesundheitsbewertung: Erkennung des echten emotionalen Zustands von Versuchspersonen
Optimierung der Mensch-Computer-Interaktion: Verbesserung der Fähigkeit von KI-Systemen, menschliche Emotionen zu verstehen

Einschränkungen bestehender Methoden

ME-Erkennungsaufgabe: Setzt voraus, dass Mikroexpressionssequenzen bereits lokalisiert wurden, was in der Praxis selten der Fall ist
ME-Lokalisierungsaufgabe: Kann nur den Ort des Auftretens von Mikroexpressionen identifizieren, bietet aber keine aussagekräftige Interpretation des emotionalen Inhalts
Mangel an End-to-End-Lösungen: Das Design separater Aufgaben führt zu suboptimaler Gesamtleistung

Kernbeiträge

Vorschlag des ME-STR-Aufgabenparadigmas: Integration von Mikroexpressionslokalisierung und Erkennung in eine einheitliche sequenzielle Pipeline, die praktischen Anforderungen besser entspricht
Einführung der neuen ME-VQA-Aufgabe: Erstmalige Anwendung des Visual-Question-Answering-Paradigmas auf die Mikroexpressionsanalyse unter Nutzung der Reasoning-Fähigkeiten multimodaler Großmodelle
Aufbau einer umfassenden Evaluierungsplattform: Bereitstellung standardisierter Testsets und Bewertungsmetriken zur Förderung der Entwicklung des Feldes
Etablierung von Baseline-Methoden: Bereitstellung von Baseline-Methoden für beide Aufgaben als Grundlage für zukünftige Forschung

Methodische Details

Aufgabe 1: ME-STR (Micro-Expression Spot-Then-Recognize)

Aufgabendefinition

Die ME-STR-Aufgabe erfordert in langen Videosequenzen:

Erste Phase: Lokalisierung des Zeitraums, in dem Mikroexpressionen auftreten
Zweite Phase: Emotionale Klassifizierung der korrekt lokalisierten Mikroexpressionsfragmente

Nur Samples, die in der ersten Phase korrekt lokalisiert wurden, werden an die zweite Phase zur emotionalen Erkennung weitergeleitet.

Baseline-Methode: MEAN-Netzwerk

Verwendung eines Mikroexpressionsanalysenetzes (MEAN) als Baseline:

Einheitliche Architektur: End-to-End-Neuronalnetzwerk mit gemeinsamen Schichten und zwei spezialisierten Branches
Lokalisierungs-Branch: Regressions-Branch, der für jeden Frame einen Konfidenzwert ausgibt, der die Wahrscheinlichkeit eines Mikroexpressionsintervalls anzeigt
Erkennungs-Branch: Vorhersage der Emotionskategorie für vom Lokalisierungs-Branch identifizierte Kandidatenintervalle

Bewertungsmetriken

Lokalisierungsphase: TP, FP, FN, Präzision, Recall, F1-Score Erkennungsphase: TP, FP, FN, Präzision, Recall, F1, UF1, UAR Gesamtbewertung: STRS = F1-score_s × F1-score_a

Aufgabe 2: ME-VQA (Micro-Expression Visual Question Answering)

Aufgabendefinition

Gegeben eine Mikroexpressionsvideosequenz und eine Frage in natürlicher Sprache muss das Modell eine Antwort in natürlicher Sprache generieren, die die beobachteten Mikroexpressionen und ihre Attribute beschreibt.

Fragetypen umfassen:

Binäre Klassifizierungsfragen: wie „Zeigt das Gesicht eine Lippenwinkel-Abwärts-Aktionseinheit?"
Mehrklassen-Klassifizierungsfragen: wie „Was ist die Ausdruckskategorie?"
Zusammengesetzte Fragen: wie „Welche Aktionseinheiten sind vorhanden, und basierend auf diesen Einheiten, was ist die Ausdruckskategorie?"

Baseline-Methode: Qwen2.5VL-3B

Verwendung von Qwen2.5VL-3B als Baseline:

Modellarchitektur: Umfasst visuellen Encoder, Language-Model-Backbone und Cross-Modal-Fusionsmodul
Trainingstrategie: Zwei Einstellungen – Zero-Shot (ZS) und Fine-Tuning (FT)
Eingabetypen:
1. Gleichmäßig abgetastete Videoframes
2. Start-Apex-End-Frames (OAO)
3. Optischer Fluss zwischen Start- und Apex-Frames (OF)

Bewertungsmetriken

Emotionale Klassifizierung: UF1 und UAR für grobe und feine Emotionsgranularität

Grobe Granularität: Positiv, Negativ, Überraschung
Feine Granularität: Freude, Überraschung, Angst, Ekel, Wut, Traurigkeit

Textqualität: BLEU- und ROUGE-1-Scores zur Bewertung der Qualität des generierten Textes

Experimentelle Einrichtung

Datensätze

Trainingsdaten

Empfohlene Datensätze:

SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long

Testdaten

ME-STR-Testset: 30 Langvideos

SAMM Challenge-Datensatz: 10 Videos (200fps)
CAS(ME)³: 20 Videofragmente (30fps)

ME-VQA-Testset: 24 Mikroexpressionsfragmente

SAMM Challenge-Datensatz: 7 Fragmente (200fps)
CAS(ME)³: 17 Fragmente (30fps)

Implementierungsdetails

ME-STR: Verwendung des MEAN-Netzwerks trainiert auf CAS(ME)²
ME-VQA: Verwendung von LoRA für parametereffizientes Fine-Tuning von Qwen2.5VL-3B

Experimentelle Ergebnisse

ME-STR-Aufgabenergebnisse

Baseline-Ergebnisse

Baseline-Ergebnisse mit dem MEAN-Netzwerk zeigen:

SAMM-Datensatz: STRS = 0,0062
CAS(ME)³-Datensatz: STRS = 0,0086

Die Ergebnisse zeigen, dass die Lokalisierungsphase der Hauptengpass ist, wobei hohe FP- und FN-Raten zu niedriger Gesamtleistung führen.

Challenge-Ergebnisse

47 registrierte Teilnehmer, 8 Teams reichten Ergebnisse ein:

Teilnehmer	SAMM (F1)	CAS(ME)³ (F1)	Gesamt-STRS
Guo et al.	Lokalisierung: 0,086, Erkennung: 0,667	Lokalisierung: 0,099, Erkennung: 0,645	0,09
ustc-iat	Lokalisierung: 0,118, Erkennung: 0,471	Lokalisierung: 0,067, Erkennung: 0,645	0,06
gormanv	Lokalisierung: 0,067, Erkennung: 0,622	Lokalisierung: 0,061, Erkennung: 0,278	0,047

ME-VQA-Aufgabenergebnisse

Baseline-Ergebnisse

Leistung von Qwen2.5VL-3B bei verschiedenen Eingabetypen:

OAO- und OF-Eingaben: Bessere Leistung bei der Ausdruckserkennung
Videoeingaben: Bessere Leistung bei BLEU- und ROUGE-1-Metriken
Fine-Tuning vs. Zero-Shot: Fine-Tuning zeigt Verbesserungen bei den meisten Metriken, aber mit begrenztem Anstieg

Challenge-Ergebnisse

28 Teilnehmer, 10 Teams reichten Ergebnisse ein:

Teilnehmer	Grobe Granularität	Feine Granularität	BLEU	ROUGE	Durchschnittliche Punktzahl
Wang et al.	UF1: 0,733, UAR: 0,722	UF1: 0,368, UAR: 0,408	0,615	0,607	0,575
Zhu et al.	UF1: 0,594, UAR: 0,650	UF1: 0,316, UAR: 0,375	0,595	0,509	0,506
IIM, HFIPS, CAS	UF1: 0,560, UAR: 0,528	UF1: 0,281, UAR: 0,283	0,396	0,489	0,423

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

ME-STR-Aufgabe ist hochgradig herausfordernd: Der beste STRS-Wert eines Teams beträgt nur 0,09, was zeigt, dass das Feld weitere Innovationen benötigt
ME-VQA zeigt Potenzial: Die beste durchschnittliche Punktzahl eines Teams beträgt 0,575, was die Effektivität multimodaler Methoden demonstriert
Lokalisierung ist der kritische Engpass: Die niedrige Leistung von ME-STR stammt hauptsächlich aus Schwierigkeiten in der Lokalisierungsphase

Einschränkungen

Begrenzte Testset-Größe: Das ME-VQA-Testset ist relativ klein und könnte die Bewertung der Generalisierungsfähigkeit beeinflussen
Einzelne Bewertungsmetriken: Möglicherweise sind mehrdimensionale Bewertungsstandards erforderlich
Unzureichend validierte Cross-Domain-Generalisierung: Die Domain-Adaptationsfähigkeit zwischen verschiedenen Datensätzen erfordert weitere Forschung

Zukünftige Richtungen

Erweiterung der Testset-Größe: Konstruktion größerer und vielfältigerer Testdatensätze
Verbesserung von Lokalisierungsalgorithmen: Fokus auf die Überwindung technischer Engpässe bei der Mikroexpressionslokalisierung
Optimierung multimodaler Methoden: Weitere Erforschung der Anwendung von MLLMs in der Mikroexpressionsanalyse

Tiefgreifende Bewertung

Stärken

Innovative Aufgabengestaltung: ME-STR-Aufgabe entspricht praktischen Anwendungen besser, ME-VQA führt ein neues Forschungsparadigma ein
Umfassendes Evaluierungssystem: Bereitstellung standardisierter Datensätze, Bewertungsmetriken und Baseline-Methoden
Technische Vorausschau: Zeitnahe Einführung multimodaler Großmodelle, Erfassung von Technologietrends
Strenge Experimentgestaltung: Detaillierte Baseline-Experimente und Challenge-Ergebnisanalyse

Mängel

Begrenzte theoretische Beiträge: Hauptsächlich Challenge-Organisation, mangelnde tiefgreifende theoretische Analyse
Unzureichende Methodische Innovation: Baseline-Methoden sind relativ einfach, keine bahnbrechenden Techniken vorgeschlagen
Einschränkungen der Datensatzgröße: Relativ kleine Testsets könnten die Allgemeingültigkeit der Schlussfolgerungen beeinflussen
Oberflächliche Cross-Modal-Fusion: Die multimodale Fusion in der ME-VQA-Aufgabe erfordert weitere Vertiefung

Einflussfähigkeit

Förderung des Feldes: Als autoritative Challenge kann sie die Entwicklung des Mikroexpressionsanalysefels effektiv fördern
Standardisierungsbeitrag: Etablierung von Evaluierungsstandards für neue Aufgaben und Bereitstellung von Benchmarks für nachfolgende Forschung
Technologischer Transformationswert: ME-STR-Aufgabe entspricht praktischen Anwendungsanforderungen besser
Akademischer Einfluss: Einführung multimodaler Methoden eröffnet neue Richtungen für das Feld

Anwendungsszenarien

Sicherheitsüberwachung: Emotionale Überwachung in Hochrisikosituationen wie Flughäfen und Zollbehörden
Psychische Gesundheitsbewertung: Emotionale Zustandsanalyse in der klinisch-psychologischen Forschung
Mensch-Computer-Interaktion: Verbesserung der emotionalen Verständnisfähigkeiten intelligenter Systeme
Gerichtliche Anwendungen: Unterstützung bei der Beurteilung der Authentizität von Aussagen

Literaturverzeichnis

Der Artikel zitiert 24 verwandte Arbeiten, hauptsächlich einschließlich:

Arbeiten zur Konstruktion von Mikroexpressionsdatensätzen (SAMM, CASME II, CAS(ME)³ usw.)
Papiere vorheriger MEGC-Challenges
Arbeiten zu multimodalen Großmodellen (Qwen2.5VL usw.)
Literatur zu Bewertungsmetriken (BLEU, ROUGE usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Challenge-Organisationspapier, das durch die Einführung von zwei innovativen Aufgaben – ME-STR und ME-VQA – die Entwicklung des Mikroexpressionsanalysefels effektiv fördert. Der Hauptwert des Papiers liegt in der Etablierung neuer Evaluierungsstandards und Forschungsparadigmen. Obwohl die theoretischen Beiträge relativ begrenzt sind, hat es wichtige Orientierungsbedeutung für die Felderentwicklung.