Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
- पेपर ID: 2506.15298
- शीर्षक: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
- लेखक: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
- वर्गीकरण: cs.CV cs.MM
- प्रकाशन समय/सम्मेलन: MM '25, 27–31 अक्टूबर, 2025, डबलिन, आयरलैंड (ACM अंतर्राष्ट्रीय मल्टीमीडिया सम्मेलन)
- पेपर लिंक: https://arxiv.org/abs/2506.15298
चेहरे की सूक्ष्म अभिव्यक्तियाँ (MEs) वे अनैच्छिक गतिविधियाँ हैं जो तब होती हैं जब लोग अपनी चेहरे की अभिव्यक्तियों को दबाने या दमन करने का प्रयास करते हैं, जो आमतौर पर उच्च जोखिम वाले वातावरण में दिखाई देती हैं। हाल के वर्षों में, सूक्ष्म अभिव्यक्ति की पहचान, स्थानीयकरण और निर्माण के क्षेत्र में महत्वपूर्ण प्रगति हुई है। हालांकि, स्थानीयकरण और पहचान को अलग-अलग कार्यों के रूप में मानने का पारंपरिक दृष्टिकोण इष्टतम नहीं है, विशेष रूप से वास्तविक वातावरण में लंबी अवधि के वीडियो का विश्लेषण करते समय। साथ ही, बहु-मोडल बड़े भाषा मॉडल (MLLMs) और बड़े दृश्य-भाषा मॉडल (LVLMs) के उदय ने अपनी शक्तिशाली बहु-मोडल तर्क क्षमता के माध्यम से सूक्ष्म अभिव्यक्ति विश्लेषण को बढ़ाने के लिए नए आशाजनक मार्ग प्रदान किए हैं। MEGC 2025 ने इन अनुसंधान विकास दिशाओं को प्रतिबिंबित करने वाले दो कार्य प्रस्तुत किए हैं: (1) सूक्ष्म अभिव्यक्ति स्पॉट-दैन-रिकग्नाइज (ME-STR), जो सूक्ष्म अभिव्यक्ति स्थानीयकरण और बाद की पहचान को एक एकीकृत अनुक्रमिक पाइपलाइन में एकीकृत करता है; (2) सूक्ष्म अभिव्यक्ति दृश्य प्रश्न उत्तर (ME-VQA), जो दृश्य प्रश्न उत्तर के माध्यम से सूक्ष्म अभिव्यक्ति समझ की खोज करता है, MLLMs या LVLMs का उपयोग करके सूक्ष्म अभिव्यक्ति से संबंधित विभिन्न प्रश्न प्रकारों को संभालता है।
इस पेपर द्वारा समाधान की जाने वाली मूल समस्या पारंपरिक सूक्ष्म अभिव्यक्ति विश्लेषण विधियों की सीमाएं हैं:
- कार्य पृथक्करण की उप-इष्टतमता: पारंपरिक विधियाँ सूक्ष्म अभिव्यक्ति स्पॉटिंग (spotting) और पहचान (recognition) को स्वतंत्र कार्यों के रूप में मानती हैं, जो वास्तविक अनुप्रयोगों में व्यावहारिक नहीं है
- वास्तविक परिदृश्य अनुकूलन में कमी: मौजूदा विधियाँ लंबी अवधि के वीडियो में सूक्ष्म अभिव्यक्ति विश्लेषण को प्रभावी ढंग से संभालने में कठिनाई करती हैं
- बहु-मोडल तर्क क्षमता की कमी: पारंपरिक विधियाँ उभरते हुए बहु-मोडल बड़े मॉडल की तर्क क्षमता का पूरी तरह से उपयोग नहीं करती हैं
सूक्ष्म अभिव्यक्ति विश्लेषण निम्नलिखित परिदृश्यों में महत्वपूर्ण मूल्य रखता है:
- उच्च जोखिम वाले वातावरण की निगरानी: जैसे सुरक्षा जांच, न्यायिक पूछताछ आदि
- मानसिक स्वास्थ्य मूल्यांकन: प्रतिभागियों की वास्तविक भावनात्मक स्थिति का पता लगाना
- मानव-कंप्यूटर इंटरैक्शन अनुकूलन: AI सिस्टम की मानव भावनाओं की समझ क्षमता में सुधार
- ME पहचान कार्य: मानता है कि सूक्ष्म अभिव्यक्ति अनुक्रम पहले से ही स्थानीयकृत हैं, जो वास्तविकता में शायद ही कभी होता है
- ME स्थानीयकरण कार्य: केवल सूक्ष्म अभिव्यक्ति के घटित होने के स्थान की पहचान कर सकता है, भावनात्मक सामग्री की सार्थक व्याख्या प्रदान नहीं कर सकता
- एंड-टू-एंड समाधान की कमी: अलग-अलग कार्य डिजाइन समग्र प्रदर्शन को उप-इष्टतम बनाता है
- ME-STR कार्य प्रतिमान प्रस्तावित करना: सूक्ष्म अभिव्यक्ति स्थानीयकरण और पहचान को एक एकीकृत अनुक्रमिक पाइपलाइन में एकीकृत करना, जो वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप है
- ME-VQA नया कार्य प्रस्तुत करना: पहली बार दृश्य प्रश्न उत्तर प्रतिमान को सूक्ष्म अभिव्यक्ति विश्लेषण में लागू करना, बहु-मोडल बड़े मॉडल की तर्क क्षमता का उपयोग करना
- व्यापक मूल्यांकन मंच का निर्माण: मानकीकृत परीक्षण सेट और मूल्यांकन मेट्रिक्स प्रदान करना, क्षेत्र विकास को बढ़ावा देना
- बेंचमार्क विधियों की स्थापना: दोनों कार्यों के लिए आधारभूत विधियाँ प्रदान करना, बाद के अनुसंधान के लिए आधार तैयार करना
ME-STR कार्य लंबे वीडियो अनुक्रम में निम्नलिखित की आवश्यकता करता है:
- पहला चरण: सूक्ष्म अभिव्यक्ति के घटित होने के समय खंड का स्थानीयकरण
- दूसरा चरण: सही ढंग से स्थानीयकृत सूक्ष्म अभिव्यक्ति खंडों का भावनात्मक वर्गीकरण
केवल पहले चरण में सही ढंग से स्थानीयकृत नमूने ही दूसरे चरण में भावनात्मक पहचान के लिए प्रेषित किए जाते हैं।
सूक्ष्म अभिव्यक्ति विश्लेषण नेटवर्क (MEAN) को आधारभूत के रूप में अपनाया गया है:
- एकीकृत आर्किटेक्चर: एंड-टू-एंड तंत्रिका नेटवर्क, साझा परतें और दो विशेष शाखाएं शामिल हैं
- स्थानीयकरण शाखा: प्रतिगमन शाखा, प्रत्येक फ्रेम के लिए आत्मविश्वास स्कोर आउटपुट करता है, सूक्ष्म अभिव्यक्ति अंतराल की संभावना को इंगित करता है
- पहचान शाखा: स्थानीयकरण शाखा द्वारा पहचाने गए उम्मीदवार अंतराल के लिए भावनात्मक श्रेणी की भविष्यवाणी करता है
स्थानीयकरण चरण: TP, FP, FN, सटीकता, रिकॉल, F1 स्कोर
पहचान चरण: TP, FP, FN, सटीकता, रिकॉल, F1, UF1, UAR
समग्र मूल्यांकन: STRS = F1-score_s × F1-score_a
सूक्ष्म अभिव्यक्ति वीडियो अनुक्रम और प्राकृतिक भाषा प्रश्न दिए जाने पर, मॉडल को देखी गई सूक्ष्म अभिव्यक्तियों और उनके गुणों का वर्णन करने वाले प्राकृतिक भाषा उत्तर उत्पन्न करने की आवश्यकता है।
प्रश्न प्रकार शामिल हैं:
- द्विआधारी वर्गीकरण प्रश्न: जैसे "क्या चेहरा होंठ के कोने को नीचे की ओर दबाने वाली क्रिया इकाई प्रदर्शित करता है?"
- बहु-वर्गीकरण प्रश्न: जैसे "अभिव्यक्ति श्रेणी क्या है?"
- समग्र प्रश्न: जैसे "कौन सी क्रिया इकाइयाँ मौजूद हैं, और इन इकाइयों के आधार पर, अभिव्यक्ति श्रेणी क्या है?"
Qwen2.5VL-3B को आधारभूत के रूप में अपनाया गया है:
- मॉडल आर्किटेक्चर: दृश्य एनकोडर, भाषा मॉडल मुख्य भाग और क्रॉस-मोडल फ्यूजन मॉड्यूल शामिल हैं
- प्रशिक्षण रणनीति: शून्य-शॉट (ZS) और सूक्ष्म-ट्यूनिंग (FT) दोनों सेटिंग्स
- इनपुट प्रकार:
- समान रूप से नमूना किए गए वीडियो फ्रेम
- शुरुआत-शीर्ष-अंत फ्रेम (OAO)
- शुरुआत और शीर्ष के बीच ऑप्टिकल प्रवाह (OF)
भावनात्मक वर्गीकरण: सकल-अनाज और सूक्ष्म-अनाज भावनाओं के लिए UF1 और UAR
- सकल-अनाज: सकारात्मक, नकारात्मक, आश्चर्य
- सूक्ष्म-अनाज: खुशी, आश्चर्य, भय, घृणा, क्रोध, उदासी
पाठ गुणवत्ता: BLEU और ROUGE-1 स्कोर उत्पन्न पाठ गुणवत्ता का मूल्यांकन करते हैं
निम्नलिखित डेटासेट का उपयोग करने की अनुशंसा की जाती है:
- SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long
ME-STR परीक्षण सेट: 30 लंबे वीडियो
- SAMM चैलेंज डेटासेट: 10 वीडियो (200fps)
- CAS(ME)³: 20 वीडियो खंड (30fps)
ME-VQA परीक्षण सेट: 24 सूक्ष्म अभिव्यक्ति खंड
- SAMM चैलेंज डेटासेट: 7 खंड (200fps)
- CAS(ME)³: 17 खंड (30fps)
- ME-STR: CAS(ME)² पर प्रशिक्षित MEAN नेटवर्क का उपयोग करना
- ME-VQA: LoRA का उपयोग करके Qwen2.5VL-3B के पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग
MEAN नेटवर्क का उपयोग करके आधारभूत परिणाम दिखाते हैं:
- SAMM डेटासेट: STRS = 0.0062
- CAS(ME)³ डेटासेट: STRS = 0.0086
परिणाम दर्शाते हैं कि स्थानीयकरण चरण मुख्य बाधा है, उच्च FP और FN समग्र प्रदर्शन को कम करते हैं।
47 पंजीकृत प्रतिभागी, 8 टीमों ने परिणाम प्रस्तुत किए:
| प्रतिभागी | SAMM (F1) | CAS(ME)³ (F1) | कुल STRS |
|---|
| Guo et al. | स्थानीयकरण:0.086, पहचान:0.667 | स्थानीयकरण:0.099, पहचान:0.645 | 0.09 |
| ustc-iat | स्थानीयकरण:0.118, पहचान:0.471 | स्थानीयकरण:0.067, पहचान:0.645 | 0.06 |
| gormanv | स्थानीयकरण:0.067, पहचान:0.622 | स्थानीयकरण:0.061, पहचान:0.278 | 0.047 |
विभिन्न इनपुट प्रकारों के तहत Qwen2.5VL-3B का प्रदर्शन:
- OAO और OF इनपुट: अभिव्यक्ति पहचान पर बेहतर प्रदर्शन
- वीडियो इनपुट: BLEU और ROUGE-1 मेट्रिक्स पर बेहतर प्रदर्शन
- सूक्ष्म-ट्यूनिंग बनाम शून्य-शॉट: सूक्ष्म-ट्यूनिंग अधिकांश मेट्रिक्स पर सुधार दिखाता है, लेकिन सुधार सीमित है
28 प्रतिभागी, 10 टीमों ने परिणाम प्रस्तुत किए:
| प्रतिभागी | सकल-अनाज | सूक्ष्म-अनाज | BLEU | ROUGE | औसत स्कोर |
|---|
| Wang et al. | UF1:0.733, UAR:0.722 | UF1:0.368, UAR:0.408 | 0.615 | 0.607 | 0.575 |
| Zhu et al. | UF1:0.594, UAR:0.650 | UF1:0.316, UAR:0.375 | 0.595 | 0.509 | 0.506 |
| IIM, HFIPS, CAS | UF1:0.560, UAR:0.528 | UF1:0.281, UAR:0.283 | 0.396 | 0.489 | 0.423 |
यह पेपर 8वें MEGC चैलेंज का है, पिछले संस्करणों का ध्यान:
- FG'18: सूक्ष्म अभिव्यक्ति पहचान
- FG'19: स्थानीयकरण और पहचान
- FG'20: सूक्ष्म अभिव्यक्ति स्थानीयकरण
- MM'21-MM'23: स्थानीयकरण और निर्माण
- MM'24: स्पॉट-दैन-रिकग्नाइज प्रतिमान और क्रॉस-सांस्कृतिक स्थानीयकरण
- अलग से एकीकृत तक: स्वतंत्र स्थानीयकरण और पहचान कार्यों से एकीकृत ढांचे की ओर विकास
- बहु-मोडल फ्यूजन: MLLMs और LVLMs की बहु-मोडल तर्क क्षमता का उपयोग
- व्यावहारिकता-केंद्रित: वास्तविक अनुप्रयोग परिदृश्यों की आवश्यकताओं पर अधिक ध्यान
- ME-STR कार्य उच्च चुनौतीपूर्ण है: सर्वश्रेष्ठ टीम का STRS केवल 0.09 है, जो दर्शाता है कि इस क्षेत्र को आगे की नवाचार की आवश्यकता है
- ME-VQA संभावना प्रदर्शित करता है: सर्वश्रेष्ठ टीम का औसत स्कोर 0.575 है, बहु-मोडल विधियों की प्रभावशीलता दिखाता है
- स्थानीयकरण मुख्य बाधा है: ME-STR का कम प्रदर्शन मुख्य रूप से स्थानीयकरण चरण की कठिनाई से उत्पन्न होता है
- परीक्षण सेट आकार सीमित: ME-VQA परीक्षण सेट अपेक्षाकृत छोटा है, सामान्यीकरण क्षमता मूल्यांकन को प्रभावित कर सकता है
- मूल्यांकन मेट्रिक्स एकल: अधिक आयामों के मूल्यांकन मानदंडों की आवश्यकता हो सकती है
- क्रॉस-डोमेन सामान्यीकरण अपर्याप्त रूप से सत्यापित: विभिन्न डेटासेट के बीच डोमेन अनुकूलन क्षमता को आगे के अनुसंधान की आवश्यकता है
- परीक्षण सेट आकार का विस्तार: बड़े, अधिक विविध परीक्षण डेटासेट का निर्माण
- स्थानीयकरण एल्गोरिदम में सुधार: सूक्ष्म अभिव्यक्ति स्थानीयकरण की तकनीकी बाधा को तोड़ने पर ध्यान केंद्रित करना
- बहु-मोडल विधि अनुकूलन: सूक्ष्म अभिव्यक्ति विश्लेषण में MLLMs के अनुप्रयोग की आगे की खोज
- कार्य डिजाइन नवाचार: ME-STR कार्य वास्तविक अनुप्रयोगों के अधिक करीब है, ME-VQA नए अनुसंधान प्रतिमान का परिचय देता है
- मूल्यांकन प्रणाली व्यापक: मानकीकृत डेटासेट, मूल्यांकन मेट्रिक्स और बेंचमार्क विधियाँ प्रदान करता है
- तकनीकी दूरदर्शिता: समय पर बहु-मोडल बड़े मॉडल का परिचय, तकनीकी विकास प्रवृत्ति को पकड़ना
- प्रयोगात्मक डिजाइन कठोर: विस्तृत आधारभूत प्रयोग और चैलेंज परिणाम विश्लेषण
- सीमित सैद्धांतिक योगदान: मुख्य रूप से चैलेंज आयोजन है, गहन सैद्धांतिक विश्लेषण की कमी है
- अपर्याप्त विधि नवाचार: आधारभूत विधियाँ अपेक्षाकृत सरल हैं, सफलता की तकनीक प्रस्तावित नहीं की गई है
- डेटासेट आकार सीमा: परीक्षण सेट आकार अपेक्षाकृत छोटा है, निष्कर्षों की सार्वभौमिकता को प्रभावित कर सकता है
- क्रॉस-मोडल फ्यूजन सतही: ME-VQA कार्य का बहु-मोडल फ्यूजन आगे की खोज की आवश्यकता है
- क्षेत्र प्रेरण कार्य: एक अधिकार चैलेंज के रूप में, सूक्ष्म अभिव्यक्ति विश्लेषण क्षेत्र विकास को प्रभावी ढंग से बढ़ावा दे सकता है
- मानकीकरण योगदान: नए कार्यों के मूल्यांकन मानदंड स्थापित करता है, बाद के अनुसंधान के लिए बेंचमार्क प्रदान करता है
- तकनीकी रूपांतरण मूल्य: ME-STR कार्य वास्तविक अनुप्रयोग आवश्यकताओं के अधिक करीब है
- शैक्षणिक प्रभाव: इस क्षेत्र के लिए बहु-मोडल विधि का परिचय नई दिशा खोलता है
- सुरक्षा निगरानी: हवाई अड्डे, सीमा शुल्क आदि उच्च जोखिम वाले वातावरण में भावनात्मक निगरानी
- मनोवैज्ञानिक मूल्यांकन: नैदानिक मनोविज्ञान अनुसंधान में भावनात्मक स्थिति विश्लेषण
- मानव-कंप्यूटर इंटरैक्शन: बुद्धिमान प्रणाली की भावनात्मक समझ क्षमता में सुधार
- न्यायिक अनुप्रयोग: गवाही की सत्यता निर्धारण में सहायता
पेपर ने 24 संबंधित संदर्भों को उद्धृत किया है, मुख्य रूप से शामिल हैं:
- सूक्ष्म अभिव्यक्ति डेटासेट निर्माण संबंधित कार्य (SAMM, CASME II, CAS(ME)³ आदि)
- पिछले MEGC चैलेंज पेपर
- बहु-मोडल बड़े मॉडल संबंधित कार्य (Qwen2.5VL आदि)
- मूल्यांकन मेट्रिक्स संबंधित साहित्य (BLEU, ROUGE आदि)
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला चैलेंज आयोजन पेपर है जो ME-STR और ME-VQA दो नवाचारी कार्यों का परिचय देकर सूक्ष्म अभिव्यक्ति विश्लेषण क्षेत्र के विकास को प्रभावी ढंग से बढ़ावा देता है। पेपर का मुख्य मूल्य नए मूल्यांकन मानदंड और अनुसंधान प्रतिमान स्थापित करने में है, हालांकि सैद्धांतिक योगदान में अपेक्षाकृत सीमित है, लेकिन क्षेत्र विकास के लिए महत्वपूर्ण निर्देशक महत्व है।