Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- ID Articolo: 2506.15298
- Titolo: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- Autori: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
- Classificazione: cs.CV cs.MM
- Data di Pubblicazione/Conferenza: MM '25, 27–31 ottobre 2025, Dublino, Irlanda (ACM International Conference on Multimedia)
- Link Articolo: https://arxiv.org/abs/2506.15298
Le microespressioni facciali (ME) sono movimenti involontari che compaiono spontaneamente sul volto quando le persone tentano di sopprimere o reprimere le espressioni facciali, generalmente osservate in ambienti ad alto rischio. Negli ultimi anni, sono stati compiuti progressi significativi nel riconoscimento, localizzazione e generazione di microespressioni. Tuttavia, gli approcci tradizionali che considerano la localizzazione e il riconoscimento come compiti separati non sono ottimali, in particolare quando si analizzano video di lunga durata in ambienti reali. Contemporaneamente, l'emergere di modelli linguistici multimodali di grandi dimensioni (MLLMs) e modelli visione-linguaggio di grandi dimensioni (LVLMs) offre nuove e promettenti vie per migliorare l'analisi delle microespressioni attraverso le loro potenti capacità di ragionamento multimodale. MEGC 2025 introduce due compiti che riflettono questi orientamenti di ricerca: (1) Microespressione Spot-Then-Recognize (ME-STR), che integra la localizzazione e il riconoscimento successivo delle microespressioni in una pipeline sequenziale unificata; (2) Microespressione Visual Question Answering (ME-VQA), che esplora la comprensione delle microespressioni attraverso il visual question answering, sfruttando MLLMs o LVLMs per elaborare vari tipi di domande relative alle microespressioni.
I problemi fondamentali affrontati da questo articolo sono le limitazioni dei metodi tradizionali di analisi delle microespressioni:
- Subottimalità della separazione dei compiti: Gli approcci tradizionali considerano la localizzazione (spotting) e il riconoscimento (recognition) delle microespressioni come compiti indipendenti, il che non è pratico nelle applicazioni reali
- Scarsa adattabilità ai scenari pratici: I metodi esistenti hanno difficoltà a gestire efficacemente l'analisi delle microespressioni in video di lunga durata
- Mancanza di capacità di ragionamento multimodale: I metodi tradizionali non sfruttano adeguatamente le capacità di ragionamento dei nuovi modelli multimodali di grandi dimensioni
L'analisi delle microespressioni ha un valore significativo nei seguenti scenari:
- Monitoraggio in ambienti ad alto rischio: Come controlli di sicurezza, interrogatori giudiziari, ecc.
- Valutazione della salute mentale: Rilevamento dello stato emotivo autentico dei soggetti
- Ottimizzazione dell'interazione uomo-macchina: Miglioramento della capacità dei sistemi AI di comprendere le emozioni umane
- Compito di riconoscimento ME: Presuppone che le sequenze di microespressioni siano già state localizzate, il che raramente accade nella pratica
- Compito di localizzazione ME: Può solo identificare la posizione in cui si verificano le microespressioni, senza fornire interpretazioni significative del contenuto emotivo
- Mancanza di soluzioni end-to-end: La progettazione di compiti separati porta a prestazioni complessive subottimali
- Proposizione del paradigma di compito ME-STR: Integra la localizzazione e il riconoscimento delle microespressioni in una pipeline sequenziale unificata, più conforme alle esigenze delle applicazioni pratiche
- Introduzione del nuovo compito ME-VQA: Applica per la prima volta il paradigma del visual question answering all'analisi delle microespressioni, sfruttando le capacità di ragionamento dei modelli multimodali di grandi dimensioni
- Costruzione di una piattaforma di valutazione completa: Fornisce set di test standardizzati e metriche di valutazione per promuovere lo sviluppo del settore
- Stabilimento di metodi di riferimento: Fornisce metodi baseline per entrambi i compiti, gettando le basi per la ricerca successiva
Il compito ME-STR richiede in sequenze video lunghe:
- Prima fase: Localizzazione dei segmenti temporali in cui si verificano le microespressioni
- Seconda fase: Classificazione emotiva dei segmenti di microespressione correttamente localizzati
Solo i campioni correttamente localizzati nella prima fase vengono trasmessi alla seconda fase per il riconoscimento emotivo.
Utilizza la rete di analisi delle microespressioni (MEAN) come baseline:
- Architettura unificata: Rete neurale end-to-end con strati condivisi e due rami specializzati
- Ramo di localizzazione: Ramo di regressione che produce punteggi di confidenza per ogni frame, indicando la probabilità di intervalli di microespressione
- Ramo di riconoscimento: Predice la categoria emotiva per gli intervalli candidati identificati dal ramo di localizzazione
Fase di localizzazione: TP, FP, FN, precisione, richiamo, punteggio F1
Fase di riconoscimento: TP, FP, FN, precisione, richiamo, F1, UF1, UAR
Valutazione integrata: STRS = F1-score_s × F1-score_a
Dato una sequenza video di microespressioni e una domanda in linguaggio naturale, il modello deve generare una risposta in linguaggio naturale che descriva le microespressioni osservate e i loro attributi.
I tipi di domande includono:
- Domande binarie: Come "Il volto mostra un'azione di depressione dell'angolo labiale?"
- Domande multiclasse: Come "Qual è la categoria di espressione?"
- Domande composte: Come "Quali unità di azione sono presenti e, sulla base di queste unità, qual è la categoria di espressione?"
Utilizza Qwen2.5VL-3B come baseline:
- Architettura del modello: Include codificatore visivo, backbone del modello linguistico e modulo di fusione cross-modale
- Strategia di addestramento: Due impostazioni, zero-shot (ZS) e fine-tuning (FT)
- Tipi di input:
- Frame video campionati a intervalli regolari
- Frame di inizio-vertice-fine (OAO)
- Flusso ottico tra frame di inizio e vertice (OF)
Classificazione emotiva: UF1 e UAR per emozioni a granularità grossa e fine
- Granularità grossa: positivo, negativo, sorpreso
- Granularità fine: felice, sorpreso, paura, disgusto, rabbia, tristezza
Qualità del testo: Punteggi BLEU e ROUGE-1 per valutare la qualità del testo generato
Si consiglia di utilizzare i seguenti dataset:
- SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long
Set di test ME-STR: 30 video lunghi
- Dataset SAMM Challenge: 10 video (200fps)
- CAS(ME)³: 20 segmenti video (30fps)
Set di test ME-VQA: 24 segmenti di microespressione
- Dataset SAMM Challenge: 7 segmenti (200fps)
- CAS(ME)³: 17 segmenti (30fps)
- ME-STR: Utilizzo della rete MEAN addestrata su CAS(ME)²
- ME-VQA: Fine-tuning efficiente in termini di parametri di Qwen2.5VL-3B utilizzando LoRA
I risultati di baseline utilizzando la rete MEAN mostrano:
- Dataset SAMM: STRS = 0.0062
- Dataset CAS(ME)³: STRS = 0.0086
I risultati indicano che la fase di localizzazione è il principale collo di bottiglia, con alti FP e FN che portano a prestazioni complessive inferiori.
47 partecipanti registrati, 8 team hanno presentato risultati:
| Partecipante | SAMM (F1) | CAS(ME)³ (F1) | STRS Totale |
|---|
| Guo et al. | Localizzazione:0.086, Riconoscimento:0.667 | Localizzazione:0.099, Riconoscimento:0.645 | 0.09 |
| ustc-iat | Localizzazione:0.118, Riconoscimento:0.471 | Localizzazione:0.067, Riconoscimento:0.645 | 0.06 |
| gormanv | Localizzazione:0.067, Riconoscimento:0.622 | Localizzazione:0.061, Riconoscimento:0.278 | 0.047 |
Prestazioni di Qwen2.5VL-3B con diversi tipi di input:
- Input OAO e OF: Prestazioni migliori nel riconoscimento delle espressioni
- Input video: Prestazioni migliori nelle metriche BLEU e ROUGE-1
- Fine-tuning vs zero-shot: Il fine-tuning mostra miglioramenti nella maggior parte delle metriche, ma i miglioramenti sono limitati
28 partecipanti, 10 team hanno presentato risultati:
| Partecipante | Granularità Grossa | Granularità Fine | BLEU | ROUGE | Punteggio Medio |
|---|
| Wang et al. | UF1:0.733, UAR:0.722 | UF1:0.368, UAR:0.408 | 0.615 | 0.607 | 0.575 |
| Zhu et al. | UF1:0.594, UAR:0.650 | UF1:0.316, UAR:0.375 | 0.595 | 0.509 | 0.506 |
| IIM, HFIPS, CAS | UF1:0.560, UAR:0.528 | UF1:0.281, UAR:0.283 | 0.396 | 0.489 | 0.423 |
Questo articolo è l'ottava edizione della competizione MEGC, con i seguenti focus delle edizioni precedenti:
- FG'18: Riconoscimento di microespressioni
- FG'19: Localizzazione e riconoscimento
- FG'20: Localizzazione di microespressioni
- MM'21-MM'23: Localizzazione e generazione
- MM'24: Paradigma spot-then-recognize e localizzazione transculturale
- Dalla separazione all'unificazione: Evoluzione dai compiti indipendenti di localizzazione e riconoscimento verso framework unificati
- Fusione multimodale: Sfruttamento delle capacità di ragionamento multimodale di MLLMs e LVLMs
- Orientamento alla praticità: Maggiore attenzione alle esigenze degli scenari di applicazione reale
- Elevata sfida del compito ME-STR: Lo STRS del miglior team è solo 0.09, indicando che questo campo richiede ulteriori innovazioni
- ME-VQA mostra potenziale: Il punteggio medio del miglior team è 0.575, dimostrando l'efficacia dei metodi multimodali
- La localizzazione è il collo di bottiglia critico: Le basse prestazioni di ME-STR derivano principalmente dalle difficoltà nella fase di localizzazione
- Dimensione limitata del set di test: Il set di test ME-VQA è relativamente piccolo, il che potrebbe influire sulla valutazione della capacità di generalizzazione
- Metriche di valutazione singolari: Potrebbero essere necessari standard di valutazione più multidimensionali
- Verifica insufficiente della generalizzazione cross-domain: La capacità di adattamento del dominio tra diversi dataset richiede ulteriori ricerche
- Espansione della dimensione del set di test: Costruzione di dataset di test più grandi e diversificati
- Miglioramento degli algoritmi di localizzazione: Superamento del collo di bottiglia tecnologico nella localizzazione delle microespressioni
- Ottimizzazione dei metodi multimodali: Ulteriore esplorazione dell'applicazione di MLLMs nell'analisi delle microespressioni
- Innovazione nella progettazione dei compiti: Il compito ME-STR è più vicino alle applicazioni pratiche, ME-VQA introduce un nuovo paradigma di ricerca
- Sistema di valutazione completo: Fornisce dataset standardizzati, metriche di valutazione e metodi di riferimento
- Preveggenza tecnologica: Introduzione tempestiva di modelli multimodali di grandi dimensioni, cogliendo le tendenze dello sviluppo tecnologico
- Progettazione sperimentale rigorosa: Analisi dettagliata degli esperimenti di baseline e dei risultati della competizione
- Contributi teorici limitati: Principalmente organizzazione di competizioni, mancanza di analisi teorica approfondita
- Innovazione metodologica insufficiente: I metodi baseline sono relativamente semplici, senza proporre tecnologie rivoluzionarie
- Limitazioni della dimensione del dataset: La dimensione del set di test è relativamente piccola, il che potrebbe influire sulla generalità delle conclusioni
- Fusione cross-modale superficiale: La fusione multimodale del compito ME-VQA richiede ulteriori approfondimenti
- Effetto di promozione del settore: Come competizione autorevole, può promuovere efficacemente lo sviluppo del campo dell'analisi delle microespressioni
- Contributo alla standardizzazione: Stabilisce standard di valutazione per i nuovi compiti, fornendo benchmark per la ricerca successiva
- Valore di trasferimento tecnologico: Il compito ME-STR è più vicino alle esigenze delle applicazioni pratiche
- Impatto accademico: L'introduzione di metodi multimodali apre nuove direzioni per questo campo
- Sorveglianza di sicurezza: Monitoraggio emotivo in ambienti ad alto rischio come aeroporti e dogane
- Valutazione psicologica: Analisi dello stato emotivo nella ricerca psicologica clinica
- Interazione uomo-macchina: Miglioramento della capacità di comprensione emotiva dei sistemi intelligenti
- Applicazioni giudiziarie: Assistenza nel giudizio dell'autenticità della testimonianza
L'articolo cita 24 articoli correlati, principalmente includenti:
- Lavori correlati alla costruzione di dataset di microespressioni (SAMM, CASME II, CAS(ME)³, ecc.)
- Articoli delle competizioni MEGC precedenti
- Lavori correlati ai modelli linguistici multimodali di grandi dimensioni (Qwen2.5VL, ecc.)
- Letteratura correlata alle metriche di valutazione (BLEU, ROUGE, ecc.)
Valutazione Complessiva: Questo è un articolo di alta qualità sull'organizzazione di competizioni che promuove efficacemente lo sviluppo del campo dell'analisi delle microespressioni introducendo due compiti innovativi, ME-STR e ME-VQA. Il valore principale dell'articolo risiede nell'istituzione di nuovi standard di valutazione e paradigmi di ricerca. Sebbene i contributi teorici siano relativamente limitati, l'articolo ha un significato guida importante per lo sviluppo del settore.