2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.
Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
academic

MEGC2025: सूक्ष्म-अभिव्यक्ति ग्रैंड चैलेंज - स्पॉट करें फिर पहचानें और दृश्य प्रश्न उत्तर

मूल जानकारी

  • पेपर ID: 2506.15298
  • शीर्षक: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
  • लेखक: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
  • वर्गीकरण: cs.CV cs.MM
  • प्रकाशन समय/सम्मेलन: MM '25, 27–31 अक्टूबर, 2025, डबलिन, आयरलैंड (ACM अंतर्राष्ट्रीय मल्टीमीडिया सम्मेलन)
  • पेपर लिंक: https://arxiv.org/abs/2506.15298

सारांश

चेहरे की सूक्ष्म अभिव्यक्तियाँ (MEs) वे अनैच्छिक गतिविधियाँ हैं जो तब होती हैं जब लोग अपनी चेहरे की अभिव्यक्तियों को दबाने या दमन करने का प्रयास करते हैं, जो आमतौर पर उच्च जोखिम वाले वातावरण में दिखाई देती हैं। हाल के वर्षों में, सूक्ष्म अभिव्यक्ति की पहचान, स्थानीयकरण और निर्माण के क्षेत्र में महत्वपूर्ण प्रगति हुई है। हालांकि, स्थानीयकरण और पहचान को अलग-अलग कार्यों के रूप में मानने का पारंपरिक दृष्टिकोण इष्टतम नहीं है, विशेष रूप से वास्तविक वातावरण में लंबी अवधि के वीडियो का विश्लेषण करते समय। साथ ही, बहु-मोडल बड़े भाषा मॉडल (MLLMs) और बड़े दृश्य-भाषा मॉडल (LVLMs) के उदय ने अपनी शक्तिशाली बहु-मोडल तर्क क्षमता के माध्यम से सूक्ष्म अभिव्यक्ति विश्लेषण को बढ़ाने के लिए नए आशाजनक मार्ग प्रदान किए हैं। MEGC 2025 ने इन अनुसंधान विकास दिशाओं को प्रतिबिंबित करने वाले दो कार्य प्रस्तुत किए हैं: (1) सूक्ष्म अभिव्यक्ति स्पॉट-दैन-रिकग्नाइज (ME-STR), जो सूक्ष्म अभिव्यक्ति स्थानीयकरण और बाद की पहचान को एक एकीकृत अनुक्रमिक पाइपलाइन में एकीकृत करता है; (2) सूक्ष्म अभिव्यक्ति दृश्य प्रश्न उत्तर (ME-VQA), जो दृश्य प्रश्न उत्तर के माध्यम से सूक्ष्म अभिव्यक्ति समझ की खोज करता है, MLLMs या LVLMs का उपयोग करके सूक्ष्म अभिव्यक्ति से संबंधित विभिन्न प्रश्न प्रकारों को संभालता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस पेपर द्वारा समाधान की जाने वाली मूल समस्या पारंपरिक सूक्ष्म अभिव्यक्ति विश्लेषण विधियों की सीमाएं हैं:

  1. कार्य पृथक्करण की उप-इष्टतमता: पारंपरिक विधियाँ सूक्ष्म अभिव्यक्ति स्पॉटिंग (spotting) और पहचान (recognition) को स्वतंत्र कार्यों के रूप में मानती हैं, जो वास्तविक अनुप्रयोगों में व्यावहारिक नहीं है
  2. वास्तविक परिदृश्य अनुकूलन में कमी: मौजूदा विधियाँ लंबी अवधि के वीडियो में सूक्ष्म अभिव्यक्ति विश्लेषण को प्रभावी ढंग से संभालने में कठिनाई करती हैं
  3. बहु-मोडल तर्क क्षमता की कमी: पारंपरिक विधियाँ उभरते हुए बहु-मोडल बड़े मॉडल की तर्क क्षमता का पूरी तरह से उपयोग नहीं करती हैं

अनुसंधान का महत्व

सूक्ष्म अभिव्यक्ति विश्लेषण निम्नलिखित परिदृश्यों में महत्वपूर्ण मूल्य रखता है:

  • उच्च जोखिम वाले वातावरण की निगरानी: जैसे सुरक्षा जांच, न्यायिक पूछताछ आदि
  • मानसिक स्वास्थ्य मूल्यांकन: प्रतिभागियों की वास्तविक भावनात्मक स्थिति का पता लगाना
  • मानव-कंप्यूटर इंटरैक्शन अनुकूलन: AI सिस्टम की मानव भावनाओं की समझ क्षमता में सुधार

मौजूदा विधियों की सीमाएं

  1. ME पहचान कार्य: मानता है कि सूक्ष्म अभिव्यक्ति अनुक्रम पहले से ही स्थानीयकृत हैं, जो वास्तविकता में शायद ही कभी होता है
  2. ME स्थानीयकरण कार्य: केवल सूक्ष्म अभिव्यक्ति के घटित होने के स्थान की पहचान कर सकता है, भावनात्मक सामग्री की सार्थक व्याख्या प्रदान नहीं कर सकता
  3. एंड-टू-एंड समाधान की कमी: अलग-अलग कार्य डिजाइन समग्र प्रदर्शन को उप-इष्टतम बनाता है

मूल योगदान

  1. ME-STR कार्य प्रतिमान प्रस्तावित करना: सूक्ष्म अभिव्यक्ति स्थानीयकरण और पहचान को एक एकीकृत अनुक्रमिक पाइपलाइन में एकीकृत करना, जो वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप है
  2. ME-VQA नया कार्य प्रस्तुत करना: पहली बार दृश्य प्रश्न उत्तर प्रतिमान को सूक्ष्म अभिव्यक्ति विश्लेषण में लागू करना, बहु-मोडल बड़े मॉडल की तर्क क्षमता का उपयोग करना
  3. व्यापक मूल्यांकन मंच का निर्माण: मानकीकृत परीक्षण सेट और मूल्यांकन मेट्रिक्स प्रदान करना, क्षेत्र विकास को बढ़ावा देना
  4. बेंचमार्क विधियों की स्थापना: दोनों कार्यों के लिए आधारभूत विधियाँ प्रदान करना, बाद के अनुसंधान के लिए आधार तैयार करना

विधि विवरण

कार्य 1: ME-STR (सूक्ष्म-अभिव्यक्ति स्पॉट-दैन-रिकग्नाइज)

कार्य परिभाषा

ME-STR कार्य लंबे वीडियो अनुक्रम में निम्नलिखित की आवश्यकता करता है:

  1. पहला चरण: सूक्ष्म अभिव्यक्ति के घटित होने के समय खंड का स्थानीयकरण
  2. दूसरा चरण: सही ढंग से स्थानीयकृत सूक्ष्म अभिव्यक्ति खंडों का भावनात्मक वर्गीकरण

केवल पहले चरण में सही ढंग से स्थानीयकृत नमूने ही दूसरे चरण में भावनात्मक पहचान के लिए प्रेषित किए जाते हैं।

बेंचमार्क विधि: MEAN नेटवर्क

सूक्ष्म अभिव्यक्ति विश्लेषण नेटवर्क (MEAN) को आधारभूत के रूप में अपनाया गया है:

  • एकीकृत आर्किटेक्चर: एंड-टू-एंड तंत्रिका नेटवर्क, साझा परतें और दो विशेष शाखाएं शामिल हैं
  • स्थानीयकरण शाखा: प्रतिगमन शाखा, प्रत्येक फ्रेम के लिए आत्मविश्वास स्कोर आउटपुट करता है, सूक्ष्म अभिव्यक्ति अंतराल की संभावना को इंगित करता है
  • पहचान शाखा: स्थानीयकरण शाखा द्वारा पहचाने गए उम्मीदवार अंतराल के लिए भावनात्मक श्रेणी की भविष्यवाणी करता है

मूल्यांकन मेट्रिक्स

स्थानीयकरण चरण: TP, FP, FN, सटीकता, रिकॉल, F1 स्कोर पहचान चरण: TP, FP, FN, सटीकता, रिकॉल, F1, UF1, UAR समग्र मूल्यांकन: STRS = F1-score_s × F1-score_a

कार्य 2: ME-VQA (सूक्ष्म-अभिव्यक्ति दृश्य प्रश्न उत्तर)

कार्य परिभाषा

सूक्ष्म अभिव्यक्ति वीडियो अनुक्रम और प्राकृतिक भाषा प्रश्न दिए जाने पर, मॉडल को देखी गई सूक्ष्म अभिव्यक्तियों और उनके गुणों का वर्णन करने वाले प्राकृतिक भाषा उत्तर उत्पन्न करने की आवश्यकता है।

प्रश्न प्रकार शामिल हैं:

  • द्विआधारी वर्गीकरण प्रश्न: जैसे "क्या चेहरा होंठ के कोने को नीचे की ओर दबाने वाली क्रिया इकाई प्रदर्शित करता है?"
  • बहु-वर्गीकरण प्रश्न: जैसे "अभिव्यक्ति श्रेणी क्या है?"
  • समग्र प्रश्न: जैसे "कौन सी क्रिया इकाइयाँ मौजूद हैं, और इन इकाइयों के आधार पर, अभिव्यक्ति श्रेणी क्या है?"

बेंचमार्क विधि: Qwen2.5VL-3B

Qwen2.5VL-3B को आधारभूत के रूप में अपनाया गया है:

  • मॉडल आर्किटेक्चर: दृश्य एनकोडर, भाषा मॉडल मुख्य भाग और क्रॉस-मोडल फ्यूजन मॉड्यूल शामिल हैं
  • प्रशिक्षण रणनीति: शून्य-शॉट (ZS) और सूक्ष्म-ट्यूनिंग (FT) दोनों सेटिंग्स
  • इनपुट प्रकार:
    1. समान रूप से नमूना किए गए वीडियो फ्रेम
    2. शुरुआत-शीर्ष-अंत फ्रेम (OAO)
    3. शुरुआत और शीर्ष के बीच ऑप्टिकल प्रवाह (OF)

मूल्यांकन मेट्रिक्स

भावनात्मक वर्गीकरण: सकल-अनाज और सूक्ष्म-अनाज भावनाओं के लिए UF1 और UAR

  • सकल-अनाज: सकारात्मक, नकारात्मक, आश्चर्य
  • सूक्ष्म-अनाज: खुशी, आश्चर्य, भय, घृणा, क्रोध, उदासी

पाठ गुणवत्ता: BLEU और ROUGE-1 स्कोर उत्पन्न पाठ गुणवत्ता का मूल्यांकन करते हैं

प्रयोगात्मक सेटअप

डेटासेट

प्रशिक्षण डेटा

निम्नलिखित डेटासेट का उपयोग करने की अनुशंसा की जाती है:

  • SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long

परीक्षण डेटा

ME-STR परीक्षण सेट: 30 लंबे वीडियो

  • SAMM चैलेंज डेटासेट: 10 वीडियो (200fps)
  • CAS(ME)³: 20 वीडियो खंड (30fps)

ME-VQA परीक्षण सेट: 24 सूक्ष्म अभिव्यक्ति खंड

  • SAMM चैलेंज डेटासेट: 7 खंड (200fps)
  • CAS(ME)³: 17 खंड (30fps)

कार्यान्वयन विवरण

  • ME-STR: CAS(ME)² पर प्रशिक्षित MEAN नेटवर्क का उपयोग करना
  • ME-VQA: LoRA का उपयोग करके Qwen2.5VL-3B के पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग

प्रयोगात्मक परिणाम

ME-STR कार्य परिणाम

बेंचमार्क परिणाम

MEAN नेटवर्क का उपयोग करके आधारभूत परिणाम दिखाते हैं:

  • SAMM डेटासेट: STRS = 0.0062
  • CAS(ME)³ डेटासेट: STRS = 0.0086

परिणाम दर्शाते हैं कि स्थानीयकरण चरण मुख्य बाधा है, उच्च FP और FN समग्र प्रदर्शन को कम करते हैं।

चैलेंज परिणाम

47 पंजीकृत प्रतिभागी, 8 टीमों ने परिणाम प्रस्तुत किए:

प्रतिभागीSAMM (F1)CAS(ME)³ (F1)कुल STRS
Guo et al.स्थानीयकरण:0.086, पहचान:0.667स्थानीयकरण:0.099, पहचान:0.6450.09
ustc-iatस्थानीयकरण:0.118, पहचान:0.471स्थानीयकरण:0.067, पहचान:0.6450.06
gormanvस्थानीयकरण:0.067, पहचान:0.622स्थानीयकरण:0.061, पहचान:0.2780.047

ME-VQA कार्य परिणाम

बेंचमार्क परिणाम

विभिन्न इनपुट प्रकारों के तहत Qwen2.5VL-3B का प्रदर्शन:

  • OAO और OF इनपुट: अभिव्यक्ति पहचान पर बेहतर प्रदर्शन
  • वीडियो इनपुट: BLEU और ROUGE-1 मेट्रिक्स पर बेहतर प्रदर्शन
  • सूक्ष्म-ट्यूनिंग बनाम शून्य-शॉट: सूक्ष्म-ट्यूनिंग अधिकांश मेट्रिक्स पर सुधार दिखाता है, लेकिन सुधार सीमित है

चैलेंज परिणाम

28 प्रतिभागी, 10 टीमों ने परिणाम प्रस्तुत किए:

प्रतिभागीसकल-अनाजसूक्ष्म-अनाजBLEUROUGEऔसत स्कोर
Wang et al.UF1:0.733, UAR:0.722UF1:0.368, UAR:0.4080.6150.6070.575
Zhu et al.UF1:0.594, UAR:0.650UF1:0.316, UAR:0.3750.5950.5090.506
IIM, HFIPS, CASUF1:0.560, UAR:0.528UF1:0.281, UAR:0.2830.3960.4890.423

संबंधित कार्य

MEGC इतिहास समीक्षा

यह पेपर 8वें MEGC चैलेंज का है, पिछले संस्करणों का ध्यान:

  • FG'18: सूक्ष्म अभिव्यक्ति पहचान
  • FG'19: स्थानीयकरण और पहचान
  • FG'20: सूक्ष्म अभिव्यक्ति स्थानीयकरण
  • MM'21-MM'23: स्थानीयकरण और निर्माण
  • MM'24: स्पॉट-दैन-रिकग्नाइज प्रतिमान और क्रॉस-सांस्कृतिक स्थानीयकरण

तकनीकी विकास प्रवृत्तियाँ

  1. अलग से एकीकृत तक: स्वतंत्र स्थानीयकरण और पहचान कार्यों से एकीकृत ढांचे की ओर विकास
  2. बहु-मोडल फ्यूजन: MLLMs और LVLMs की बहु-मोडल तर्क क्षमता का उपयोग
  3. व्यावहारिकता-केंद्रित: वास्तविक अनुप्रयोग परिदृश्यों की आवश्यकताओं पर अधिक ध्यान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. ME-STR कार्य उच्च चुनौतीपूर्ण है: सर्वश्रेष्ठ टीम का STRS केवल 0.09 है, जो दर्शाता है कि इस क्षेत्र को आगे की नवाचार की आवश्यकता है
  2. ME-VQA संभावना प्रदर्शित करता है: सर्वश्रेष्ठ टीम का औसत स्कोर 0.575 है, बहु-मोडल विधियों की प्रभावशीलता दिखाता है
  3. स्थानीयकरण मुख्य बाधा है: ME-STR का कम प्रदर्शन मुख्य रूप से स्थानीयकरण चरण की कठिनाई से उत्पन्न होता है

सीमाएं

  1. परीक्षण सेट आकार सीमित: ME-VQA परीक्षण सेट अपेक्षाकृत छोटा है, सामान्यीकरण क्षमता मूल्यांकन को प्रभावित कर सकता है
  2. मूल्यांकन मेट्रिक्स एकल: अधिक आयामों के मूल्यांकन मानदंडों की आवश्यकता हो सकती है
  3. क्रॉस-डोमेन सामान्यीकरण अपर्याप्त रूप से सत्यापित: विभिन्न डेटासेट के बीच डोमेन अनुकूलन क्षमता को आगे के अनुसंधान की आवश्यकता है

भविष्य की दिशाएं

  1. परीक्षण सेट आकार का विस्तार: बड़े, अधिक विविध परीक्षण डेटासेट का निर्माण
  2. स्थानीयकरण एल्गोरिदम में सुधार: सूक्ष्म अभिव्यक्ति स्थानीयकरण की तकनीकी बाधा को तोड़ने पर ध्यान केंद्रित करना
  3. बहु-मोडल विधि अनुकूलन: सूक्ष्म अभिव्यक्ति विश्लेषण में MLLMs के अनुप्रयोग की आगे की खोज

गहन मूल्यांकन

शक्तियाँ

  1. कार्य डिजाइन नवाचार: ME-STR कार्य वास्तविक अनुप्रयोगों के अधिक करीब है, ME-VQA नए अनुसंधान प्रतिमान का परिचय देता है
  2. मूल्यांकन प्रणाली व्यापक: मानकीकृत डेटासेट, मूल्यांकन मेट्रिक्स और बेंचमार्क विधियाँ प्रदान करता है
  3. तकनीकी दूरदर्शिता: समय पर बहु-मोडल बड़े मॉडल का परिचय, तकनीकी विकास प्रवृत्ति को पकड़ना
  4. प्रयोगात्मक डिजाइन कठोर: विस्तृत आधारभूत प्रयोग और चैलेंज परिणाम विश्लेषण

कमियाँ

  1. सीमित सैद्धांतिक योगदान: मुख्य रूप से चैलेंज आयोजन है, गहन सैद्धांतिक विश्लेषण की कमी है
  2. अपर्याप्त विधि नवाचार: आधारभूत विधियाँ अपेक्षाकृत सरल हैं, सफलता की तकनीक प्रस्तावित नहीं की गई है
  3. डेटासेट आकार सीमा: परीक्षण सेट आकार अपेक्षाकृत छोटा है, निष्कर्षों की सार्वभौमिकता को प्रभावित कर सकता है
  4. क्रॉस-मोडल फ्यूजन सतही: ME-VQA कार्य का बहु-मोडल फ्यूजन आगे की खोज की आवश्यकता है

प्रभाव

  1. क्षेत्र प्रेरण कार्य: एक अधिकार चैलेंज के रूप में, सूक्ष्म अभिव्यक्ति विश्लेषण क्षेत्र विकास को प्रभावी ढंग से बढ़ावा दे सकता है
  2. मानकीकरण योगदान: नए कार्यों के मूल्यांकन मानदंड स्थापित करता है, बाद के अनुसंधान के लिए बेंचमार्क प्रदान करता है
  3. तकनीकी रूपांतरण मूल्य: ME-STR कार्य वास्तविक अनुप्रयोग आवश्यकताओं के अधिक करीब है
  4. शैक्षणिक प्रभाव: इस क्षेत्र के लिए बहु-मोडल विधि का परिचय नई दिशा खोलता है

लागू परिदृश्य

  1. सुरक्षा निगरानी: हवाई अड्डे, सीमा शुल्क आदि उच्च जोखिम वाले वातावरण में भावनात्मक निगरानी
  2. मनोवैज्ञानिक मूल्यांकन: नैदानिक मनोविज्ञान अनुसंधान में भावनात्मक स्थिति विश्लेषण
  3. मानव-कंप्यूटर इंटरैक्शन: बुद्धिमान प्रणाली की भावनात्मक समझ क्षमता में सुधार
  4. न्यायिक अनुप्रयोग: गवाही की सत्यता निर्धारण में सहायता

संदर्भ

पेपर ने 24 संबंधित संदर्भों को उद्धृत किया है, मुख्य रूप से शामिल हैं:

  • सूक्ष्म अभिव्यक्ति डेटासेट निर्माण संबंधित कार्य (SAMM, CASME II, CAS(ME)³ आदि)
  • पिछले MEGC चैलेंज पेपर
  • बहु-मोडल बड़े मॉडल संबंधित कार्य (Qwen2.5VL आदि)
  • मूल्यांकन मेट्रिक्स संबंधित साहित्य (BLEU, ROUGE आदि)

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला चैलेंज आयोजन पेपर है जो ME-STR और ME-VQA दो नवाचारी कार्यों का परिचय देकर सूक्ष्म अभिव्यक्ति विश्लेषण क्षेत्र के विकास को प्रभावी ढंग से बढ़ावा देता है। पेपर का मुख्य मूल्य नए मूल्यांकन मानदंड और अनुसंधान प्रतिमान स्थापित करने में है, हालांकि सैद्धांतिक योगदान में अपेक्षाकृत सीमित है, लेकिन क्षेत्र विकास के लिए महत्वपूर्ण निर्देशक महत्व है।