Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- Paper-ID: 2506.15298
- Titel: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- Autoren: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
- Klassifizierung: cs.CV cs.MM
- Veröffentlichungszeitpunkt/Konferenz: MM '25, 27.–31. Oktober 2025, Dublin, Irland (ACM International Conference on Multimedia)
- Paper-Link: https://arxiv.org/abs/2506.15298
Gesichtsmikroexpressionen (MEs) sind unwillkürliche Bewegungen, die spontan im Gesicht auftreten, wenn Menschen versuchen, ihre Gesichtsausdrücke zu unterdrücken oder zu kontrollieren, und treten typischerweise in Hochrisikosituationen auf. In den letzten Jahren wurden bedeutende Fortschritte in den Bereichen Mikroexpressionserkennungs-, Lokalisierungs- und Generierungstechniken erzielt. Allerdings sind traditionelle Ansätze, die Lokalisierung und Erkennung als separate Aufgaben behandeln, nicht optimal, besonders bei der Analyse von Langzeitvideos in realen Umgebungen. Gleichzeitig bieten multimodale große Sprachmodelle (MLLMs) und große Vision-Language-Modelle (LVLMs) durch ihre starken multimodalen Reasoning-Fähigkeiten neue vielversprechende Wege zur Verbesserung der Mikroexpressionsanalyse. MEGC 2025 führt zwei Aufgaben ein, die diese Forschungstrends widerspiegeln: (1) Mikroexpression Spot-Then-Recognize (ME-STR), das Mikroexpressionslokalisierung und nachfolgende Erkennung in einer einheitlichen sequenziellen Pipeline integriert; (2) Mikroexpression Visual Question Answering (ME-VQA), das Mikroexpressionsverständnis durch visuelles Frage-Beantworten erforscht und MLLMs oder LVLMs zur Verarbeitung verschiedener Fragetypen im Zusammenhang mit Mikroexpressionen nutzt.
Die Kernprobleme, die dieser Artikel adressiert, sind die Einschränkungen traditioneller Mikroexpressionsanalysemethoden:
- Suboptimalität der Aufgabentrennung: Traditionelle Methoden behandeln Mikroexpressionslokalisierung (Spotting) und Erkennung (Recognition) als unabhängige Aufgaben, was in praktischen Anwendungen nicht praktikabel ist
- Schlechte Anpassung an reale Szenarien: Bestehende Methoden können Mikroexpressionen in Langzeitvideos nicht effektiv analysieren
- Mangel an multimodalen Reasoning-Fähigkeiten: Traditionelle Methoden nutzen die Reasoning-Fähigkeiten neuer multimodaler Großmodelle nicht vollständig
Die Mikroexpressionsanalyse hat in folgenden Szenarien wichtige Anwendungswerte:
- Überwachung in Hochrisikosituationen: wie Sicherheitsprüfungen, gerichtliche Befragungen usw.
- Psychische Gesundheitsbewertung: Erkennung des echten emotionalen Zustands von Versuchspersonen
- Optimierung der Mensch-Computer-Interaktion: Verbesserung der Fähigkeit von KI-Systemen, menschliche Emotionen zu verstehen
- ME-Erkennungsaufgabe: Setzt voraus, dass Mikroexpressionssequenzen bereits lokalisiert wurden, was in der Praxis selten der Fall ist
- ME-Lokalisierungsaufgabe: Kann nur den Ort des Auftretens von Mikroexpressionen identifizieren, bietet aber keine aussagekräftige Interpretation des emotionalen Inhalts
- Mangel an End-to-End-Lösungen: Das Design separater Aufgaben führt zu suboptimaler Gesamtleistung
- Vorschlag des ME-STR-Aufgabenparadigmas: Integration von Mikroexpressionslokalisierung und Erkennung in eine einheitliche sequenzielle Pipeline, die praktischen Anforderungen besser entspricht
- Einführung der neuen ME-VQA-Aufgabe: Erstmalige Anwendung des Visual-Question-Answering-Paradigmas auf die Mikroexpressionsanalyse unter Nutzung der Reasoning-Fähigkeiten multimodaler Großmodelle
- Aufbau einer umfassenden Evaluierungsplattform: Bereitstellung standardisierter Testsets und Bewertungsmetriken zur Förderung der Entwicklung des Feldes
- Etablierung von Baseline-Methoden: Bereitstellung von Baseline-Methoden für beide Aufgaben als Grundlage für zukünftige Forschung
Die ME-STR-Aufgabe erfordert in langen Videosequenzen:
- Erste Phase: Lokalisierung des Zeitraums, in dem Mikroexpressionen auftreten
- Zweite Phase: Emotionale Klassifizierung der korrekt lokalisierten Mikroexpressionsfragmente
Nur Samples, die in der ersten Phase korrekt lokalisiert wurden, werden an die zweite Phase zur emotionalen Erkennung weitergeleitet.
Verwendung eines Mikroexpressionsanalysenetzes (MEAN) als Baseline:
- Einheitliche Architektur: End-to-End-Neuronalnetzwerk mit gemeinsamen Schichten und zwei spezialisierten Branches
- Lokalisierungs-Branch: Regressions-Branch, der für jeden Frame einen Konfidenzwert ausgibt, der die Wahrscheinlichkeit eines Mikroexpressionsintervalls anzeigt
- Erkennungs-Branch: Vorhersage der Emotionskategorie für vom Lokalisierungs-Branch identifizierte Kandidatenintervalle
Lokalisierungsphase: TP, FP, FN, Präzision, Recall, F1-Score
Erkennungsphase: TP, FP, FN, Präzision, Recall, F1, UF1, UAR
Gesamtbewertung: STRS = F1-score_s × F1-score_a
Gegeben eine Mikroexpressionsvideosequenz und eine Frage in natürlicher Sprache muss das Modell eine Antwort in natürlicher Sprache generieren, die die beobachteten Mikroexpressionen und ihre Attribute beschreibt.
Fragetypen umfassen:
- Binäre Klassifizierungsfragen: wie „Zeigt das Gesicht eine Lippenwinkel-Abwärts-Aktionseinheit?"
- Mehrklassen-Klassifizierungsfragen: wie „Was ist die Ausdruckskategorie?"
- Zusammengesetzte Fragen: wie „Welche Aktionseinheiten sind vorhanden, und basierend auf diesen Einheiten, was ist die Ausdruckskategorie?"
Verwendung von Qwen2.5VL-3B als Baseline:
- Modellarchitektur: Umfasst visuellen Encoder, Language-Model-Backbone und Cross-Modal-Fusionsmodul
- Trainingstrategie: Zwei Einstellungen – Zero-Shot (ZS) und Fine-Tuning (FT)
- Eingabetypen:
- Gleichmäßig abgetastete Videoframes
- Start-Apex-End-Frames (OAO)
- Optischer Fluss zwischen Start- und Apex-Frames (OF)
Emotionale Klassifizierung: UF1 und UAR für grobe und feine Emotionsgranularität
- Grobe Granularität: Positiv, Negativ, Überraschung
- Feine Granularität: Freude, Überraschung, Angst, Ekel, Wut, Traurigkeit
Textqualität: BLEU- und ROUGE-1-Scores zur Bewertung der Qualität des generierten Textes
Empfohlene Datensätze:
- SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long
ME-STR-Testset: 30 Langvideos
- SAMM Challenge-Datensatz: 10 Videos (200fps)
- CAS(ME)³: 20 Videofragmente (30fps)
ME-VQA-Testset: 24 Mikroexpressionsfragmente
- SAMM Challenge-Datensatz: 7 Fragmente (200fps)
- CAS(ME)³: 17 Fragmente (30fps)
- ME-STR: Verwendung des MEAN-Netzwerks trainiert auf CAS(ME)²
- ME-VQA: Verwendung von LoRA für parametereffizientes Fine-Tuning von Qwen2.5VL-3B
Baseline-Ergebnisse mit dem MEAN-Netzwerk zeigen:
- SAMM-Datensatz: STRS = 0,0062
- CAS(ME)³-Datensatz: STRS = 0,0086
Die Ergebnisse zeigen, dass die Lokalisierungsphase der Hauptengpass ist, wobei hohe FP- und FN-Raten zu niedriger Gesamtleistung führen.
47 registrierte Teilnehmer, 8 Teams reichten Ergebnisse ein:
| Teilnehmer | SAMM (F1) | CAS(ME)³ (F1) | Gesamt-STRS |
|---|
| Guo et al. | Lokalisierung: 0,086, Erkennung: 0,667 | Lokalisierung: 0,099, Erkennung: 0,645 | 0,09 |
| ustc-iat | Lokalisierung: 0,118, Erkennung: 0,471 | Lokalisierung: 0,067, Erkennung: 0,645 | 0,06 |
| gormanv | Lokalisierung: 0,067, Erkennung: 0,622 | Lokalisierung: 0,061, Erkennung: 0,278 | 0,047 |
Leistung von Qwen2.5VL-3B bei verschiedenen Eingabetypen:
- OAO- und OF-Eingaben: Bessere Leistung bei der Ausdruckserkennung
- Videoeingaben: Bessere Leistung bei BLEU- und ROUGE-1-Metriken
- Fine-Tuning vs. Zero-Shot: Fine-Tuning zeigt Verbesserungen bei den meisten Metriken, aber mit begrenztem Anstieg
28 Teilnehmer, 10 Teams reichten Ergebnisse ein:
| Teilnehmer | Grobe Granularität | Feine Granularität | BLEU | ROUGE | Durchschnittliche Punktzahl |
|---|
| Wang et al. | UF1: 0,733, UAR: 0,722 | UF1: 0,368, UAR: 0,408 | 0,615 | 0,607 | 0,575 |
| Zhu et al. | UF1: 0,594, UAR: 0,650 | UF1: 0,316, UAR: 0,375 | 0,595 | 0,509 | 0,506 |
| IIM, HFIPS, CAS | UF1: 0,560, UAR: 0,528 | UF1: 0,281, UAR: 0,283 | 0,396 | 0,489 | 0,423 |
Dieser Artikel ist die 8. MEGC-Challenge, mit folgenden Schwerpunkten in vorherigen Ausgaben:
- FG'18: Mikroexpressionserkennungs
- FG'19: Lokalisierung und Erkennung
- FG'20: Mikroexpressionslokalisierung
- MM'21-MM'23: Lokalisierung und Generierung
- MM'24: Spot-Then-Recognize-Paradigma und kulturübergreifende Lokalisierung
- Von Trennung zu Einheit: Entwicklung von unabhängigen Lokalisierungs- und Erkennungsaufgaben hin zu einheitlichen Frameworks
- Multimodale Fusion: Nutzung der multimodalen Reasoning-Fähigkeiten von MLLMs und LVLMs
- Praktische Orientierung: Stärkerer Fokus auf Anforderungen in realen Anwendungsszenarien
- ME-STR-Aufgabe ist hochgradig herausfordernd: Der beste STRS-Wert eines Teams beträgt nur 0,09, was zeigt, dass das Feld weitere Innovationen benötigt
- ME-VQA zeigt Potenzial: Die beste durchschnittliche Punktzahl eines Teams beträgt 0,575, was die Effektivität multimodaler Methoden demonstriert
- Lokalisierung ist der kritische Engpass: Die niedrige Leistung von ME-STR stammt hauptsächlich aus Schwierigkeiten in der Lokalisierungsphase
- Begrenzte Testset-Größe: Das ME-VQA-Testset ist relativ klein und könnte die Bewertung der Generalisierungsfähigkeit beeinflussen
- Einzelne Bewertungsmetriken: Möglicherweise sind mehrdimensionale Bewertungsstandards erforderlich
- Unzureichend validierte Cross-Domain-Generalisierung: Die Domain-Adaptationsfähigkeit zwischen verschiedenen Datensätzen erfordert weitere Forschung
- Erweiterung der Testset-Größe: Konstruktion größerer und vielfältigerer Testdatensätze
- Verbesserung von Lokalisierungsalgorithmen: Fokus auf die Überwindung technischer Engpässe bei der Mikroexpressionslokalisierung
- Optimierung multimodaler Methoden: Weitere Erforschung der Anwendung von MLLMs in der Mikroexpressionsanalyse
- Innovative Aufgabengestaltung: ME-STR-Aufgabe entspricht praktischen Anwendungen besser, ME-VQA führt ein neues Forschungsparadigma ein
- Umfassendes Evaluierungssystem: Bereitstellung standardisierter Datensätze, Bewertungsmetriken und Baseline-Methoden
- Technische Vorausschau: Zeitnahe Einführung multimodaler Großmodelle, Erfassung von Technologietrends
- Strenge Experimentgestaltung: Detaillierte Baseline-Experimente und Challenge-Ergebnisanalyse
- Begrenzte theoretische Beiträge: Hauptsächlich Challenge-Organisation, mangelnde tiefgreifende theoretische Analyse
- Unzureichende Methodische Innovation: Baseline-Methoden sind relativ einfach, keine bahnbrechenden Techniken vorgeschlagen
- Einschränkungen der Datensatzgröße: Relativ kleine Testsets könnten die Allgemeingültigkeit der Schlussfolgerungen beeinflussen
- Oberflächliche Cross-Modal-Fusion: Die multimodale Fusion in der ME-VQA-Aufgabe erfordert weitere Vertiefung
- Förderung des Feldes: Als autoritative Challenge kann sie die Entwicklung des Mikroexpressionsanalysefels effektiv fördern
- Standardisierungsbeitrag: Etablierung von Evaluierungsstandards für neue Aufgaben und Bereitstellung von Benchmarks für nachfolgende Forschung
- Technologischer Transformationswert: ME-STR-Aufgabe entspricht praktischen Anwendungsanforderungen besser
- Akademischer Einfluss: Einführung multimodaler Methoden eröffnet neue Richtungen für das Feld
- Sicherheitsüberwachung: Emotionale Überwachung in Hochrisikosituationen wie Flughäfen und Zollbehörden
- Psychische Gesundheitsbewertung: Emotionale Zustandsanalyse in der klinisch-psychologischen Forschung
- Mensch-Computer-Interaktion: Verbesserung der emotionalen Verständnisfähigkeiten intelligenter Systeme
- Gerichtliche Anwendungen: Unterstützung bei der Beurteilung der Authentizität von Aussagen
Der Artikel zitiert 24 verwandte Arbeiten, hauptsächlich einschließlich:
- Arbeiten zur Konstruktion von Mikroexpressionsdatensätzen (SAMM, CASME II, CAS(ME)³ usw.)
- Papiere vorheriger MEGC-Challenges
- Arbeiten zu multimodalen Großmodellen (Qwen2.5VL usw.)
- Literatur zu Bewertungsmetriken (BLEU, ROUGE usw.)
Gesamtbewertung: Dies ist ein hochqualitatives Challenge-Organisationspapier, das durch die Einführung von zwei innovativen Aufgaben – ME-STR und ME-VQA – die Entwicklung des Mikroexpressionsanalysefels effektiv fördert. Der Hauptwert des Papiers liegt in der Etablierung neuer Evaluierungsstandards und Forschungsparadigmen. Obwohl die theoretischen Beiträge relativ begrenzt sind, hat es wichtige Orientierungsbedeutung für die Felderentwicklung.