Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
- পেপার আইডি: 2506.15298
- শিরোনাম: MEGC2025: মাইক্রো-এক্সপ্রেশন গ্র্যান্ড চ্যালেঞ্জ অন স্পট দেন রিকগনাইজ এবং ভিজ্যুয়াল কোয়েশ্চেন আন্সারিং
- লেখক: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
- শ্রেণীবিভাগ: cs.CV cs.MM
- প্রকাশনার সময়/সম্মেলন: MM '25, অক্টোবর 27–31, 2025, ডাবলিন, আয়ারল্যান্ড (ACM আন্তর্জাতিক মাল্টিমিডিয়া সম্মেলন)
- পেপার লিঙ্ক: https://arxiv.org/abs/2506.15298
মুখের মাইক্রো-এক্সপ্রেশন (MEs) হল অনৈচ্ছিক গতিবিধি যা মানুষ যখন মুখের অভিব্যক্তি দমন বা প্রতিরোধ করার চেষ্টা করে তখন স্বতঃস্ফূর্তভাবে প্রদর্শিত হয়, যা সাধারণত উচ্চ ঝুঁকির পরিবেশে দেখা যায়। সম্প্রতি মাইক্রো-এক্সপ্রেশন স্বীকৃতি, স্থানীয়করণ এবং উৎপাদনের ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি অর্জিত হয়েছে। তবে স্থানীয়করণ এবং স্বীকৃতিকে পৃথক কাজ হিসাবে বিবেচনা করার ঐতিহ্যবাহী পদ্ধতি সর্বোত্তম নয়, বিশেষত বাস্তব পরিবেশে দীর্ঘ সময়ের ভিডিও বিশ্লেষণ করার সময়। একই সাথে, মাল্টিমোডাল বড় ভাষা মডেল (MLLMs) এবং বড় দৃষ্টি-ভাষা মডেল (LVLMs) এর আবির্ভাব তাদের শক্তিশালী মাল্টিমোডাল যুক্তি ক্ষমতার মাধ্যমে মাইক্রো-এক্সপ্রেশন বিশ্লেষণ উন্নত করার জন্য নতুন প্রতিশ্রুতিশীল পথ প্রদান করে। MEGC 2025 এই গবেষণা উন্নয়ন প্রবণতা প্রতিফলিত করে এমন দুটি কাজ প্রবর্তন করে: (1) মাইক্রো-এক্সপ্রেশন স্পট-দেন-রিকগনাইজ (ME-STR), যা মাইক্রো-এক্সপ্রেশন স্থানীয়করণ এবং পরবর্তী স্বীকৃতিকে একটি একীভূত ক্রমিক পাইপলাইনে একীভূত করে; (2) মাইক্রো-এক্সপ্রেশন ভিজ্যুয়াল প্রশ্নোত্তর (ME-VQA), যা ভিজ্যুয়াল প্রশ্নোত্তরের মাধ্যমে মাইক্রো-এক্সপ্রেশন বোঝাপড়া অন্বেষণ করে, মাইক্রো-এক্সপ্রেশন সম্পর্কিত বিভিন্ন প্রশ্নের ধরন পরিচালনা করতে MLLMs বা LVLMs ব্যবহার করে।
এই পেপারটি যে মূল সমস্যাগুলি সমাধান করে তা হল ঐতিহ্যবাহী মাইক্রো-এক্সপ্রেশন বিশ্লেষণ পদ্ধতির সীমাবদ্ধতা:
- কাজ বিভাজনের সাব-অপটিমালিটি: ঐতিহ্যবাহী পদ্ধতি মাইক্রো-এক্সপ্রেশন স্পটিং এবং স্বীকৃতিকে স্বাধীন কাজ হিসাবে বিবেচনা করে, যা বাস্তব প্রয়োগে ব্যবহারিক নয়
- বাস্তব পরিস্থিতির অভিযোজন দুর্বল: বিদ্যমান পদ্ধতি দীর্ঘ সময়ের ভিডিওতে মাইক্রো-এক্সপ্রেশন বিশ্লেষণ কার্যকরভাবে পরিচালনা করতে অসুবিধা পায়
- মাল্টিমোডাল যুক্তি ক্ষমতার অভাব: ঐতিহ্যবাহী পদ্ধতি উদীয়মান মাল্টিমোডাল বড় মডেলের যুক্তি ক্ষমতা সম্পূর্ণভাবে ব্যবহার করে না
মাইক্রো-এক্সপ্রেশন বিশ্লেষণ নিম্নলিখিত পরিস্থিতিতে গুরুত্বপূর্ণ মূল্য রাখে:
- উচ্চ ঝুঁকির পরিবেশ পর্যবেক্ষণ: যেমন নিরাপত্তা পরীক্ষা, বিচারিক জিজ্ঞাসাবাদ ইত্যাদি
- মানসিক স্বাস্থ্য মূল্যায়ন: পরীক্ষার্থীর প্রকৃত আবেগজনক অবস্থা সনাক্ত করা
- মানব-কম্পিউটার ইন্টারঅ্যাকশন অপটিমাইজেশন: AI সিস্টেমের মানব আবেগের প্রতি বোঝাপড়া ক্ষমতা উন্নত করা
- ME স্বীকৃতি কাজ: মাইক্রো-এক্সপ্রেশন ক্রম ইতিমধ্যে স্থানীয়করণ করা হয়েছে বলে অনুমান করে, যা বাস্তবে বিরল
- ME স্থানীয়করণ কাজ: শুধুমাত্র মাইক্রো-এক্সপ্রেশন ঘটনার অবস্থান সনাক্ত করতে পারে, আবেগজনক বিষয়বস্তুর অর্থপূর্ণ ব্যাখ্যা প্রদান করতে পারে না
- এন্ড-টু-এন্ড সমাধানের অভাব: পৃথক কাজের ডিজাইন সামগ্রিক কর্মক্ষমতা সাব-অপটিমাল করে তোলে
- ME-STR কাজের প্যারাডাইম প্রস্তাব: মাইক্রো-এক্সপ্রেশন স্থানীয়করণ এবং স্বীকৃতিকে একটি একীভূত ক্রমিক পাইপলাইনে একীভূত করে, যা বাস্তব প্রয়োগের চাহিদার সাথে আরও ভালভাবে সামঞ্জস্যপূর্ণ
- ME-VQA নতুন কাজ প্রবর্তন: প্রথমবারের মতো ভিজ্যুয়াল প্রশ্নোত্তর প্যারাডাইম মাইক্রো-এক্সপ্রেশন বিশ্লেষণে প্রয়োগ করে, মাল্টিমোডাল বড় মডেলের যুক্তি ক্ষমতা ব্যবহার করে
- ব্যাপক মূল্যায়ন প্ল্যাটফর্ম নির্মাণ: মানসম্মত পরীক্ষা সেট এবং মূল্যায়ন মেট্রিক্স প্রদান করে, ক্ষেত্রের উন্নয়ন চালিত করে
- বেঞ্চমার্ক পদ্ধতি প্রতিষ্ঠা: দুটি কাজের জন্য বেসলাইন পদ্ধতি প্রদান করে, পরবর্তী গবেষণার ভিত্তি স্থাপন করে
ME-STR কাজ দীর্ঘ ভিডিও ক্রমে নিম্নলিখিত প্রয়োজন:
- প্রথম পর্যায়: মাইক্রো-এক্সপ্রেশন ঘটনার সময় বিভাগ স্থানীয়করণ করা
- দ্বিতীয় পর্যায়: সঠিকভাবে স্থানীয়করণ করা মাইক্রো-এক্সপ্রেশন খণ্ডগুলিতে আবেগজনক শ্রেণীবিভাগ সম্পাদন করা
শুধুমাত্র প্রথম পর্যায়ে সঠিকভাবে স্থানীয়করণ করা নমুনাগুলি দ্বিতীয় পর্যায়ে আবেগজনক স্বীকৃতির জন্য পাস করা হয়।
মাইক্রো-এক্সপ্রেশন বিশ্লেষণ নেটওয়ার্ক (MEAN) বেসলাইন হিসাবে ব্যবহার করা হয়:
- একীভূত আর্কিটেকচার: এন্ড-টু-এন্ড নিউরাল নেটওয়ার্ক, যা ভাগ করা স্তর এবং দুটি বিশেষায়িত শাখা অন্তর্ভুক্ত করে
- স্থানীয়করণ শাখা: রিগ্রেশন শাখা, প্রতিটি ফ্রেমের জন্য আত্মবিশ্বাসের স্কোর আউটপুট করে, মাইক্রো-এক্সপ্রেশন ব্যবধানের সম্ভাবনা নির্দেশ করে
- স্বীকৃতি শাখা: স্থানীয়করণ শাখা দ্বারা চিহ্নিত প্রার্থী ব্যবধানের জন্য আবেগজনক বিভাগ পূর্বাভাস দেয়
স্থানীয়করণ পর্যায়: TP, FP, FN, নির্ভুলতা, স্মরণ, F1 স্কোর
স্বীকৃতি পর্যায়: TP, FP, FN, নির্ভুলতা, স্মরণ, F1, UF1, UAR
সমন্বিত মূল্যায়ন: STRS = F1-score_s × F1-score_a
মাইক্রো-এক্সপ্রেশন ভিডিও ক্রম এবং প্রাকৃতিক ভাষার প্রশ্ন দেওয়া, মডেলকে পর্যবেক্ষণ করা মাইক্রো-এক্সপ্রেশন এবং এর বৈশিষ্ট্য বর্ণনা করে এমন প্রাকৃতিক ভাষার উত্তর উৎপন্ন করতে হবে।
প্রশ্নের ধরনগুলির মধ্যে রয়েছে:
- দ্বিমুখী প্রশ্ন: যেমন "মুখ কি ঠোঁটের কোণ হ্রাস পাওয়ার ক্রিয়া ইউনিট প্রদর্শন করে?"
- বহুমুখী প্রশ্ন: যেমন "অভিব্যক্তির বিভাগ কী?"
- যৌগিক প্রশ্ন: যেমন "কোন ক্রিয়া ইউনিটগুলি বিদ্যমান এবং এই ইউনিটগুলির উপর ভিত্তি করে, অভিব্যক্তির বিভাগ কী?"
Qwen2.5VL-3B বেসলাইন হিসাবে ব্যবহার করা হয়:
- মডেল আর্কিটেকচার: দৃষ্টি এনকোডার, ভাষা মডেল মূল এবং ক্রস-মোডাল ফিউশন মডিউল অন্তর্ভুক্ত করে
- প্রশিক্ষণ কৌশল: জিরো-শট (ZS) এবং ফাইন-টিউনিং (FT) দুটি সেটিং
- ইনপুট ধরন:
- সমানভাবে ব্যবধানযুক্ত নমুনা ভিডিও ফ্রেম
- শুরু-শীর্ষ-শেষ ফ্রেম (OAO)
- শুরু এবং শীর্ষের মধ্যে অপটিক্যাল প্রবাহ (OF)
আবেগজনক শ্রেণীবিভাগ: মোটা-দানাদার এবং সূক্ষ্ম-দানাদার আবেগের UF1 এবং UAR
- মোটা-দানাদার: ইতিবাচক, নেতিবাচক, অবাক
- সূক্ষ্ম-দানাদার: সুখ, অবাক, ভয়, বিরক্তি, ক্রোধ, দুঃখ
পাঠ্য গুণমান: উৎপাদিত পাঠ্যের গুণমান মূল্যায়ন করতে BLEU এবং ROUGE-1 স্কোর
নিম্নলিখিত ডেটাসেট ব্যবহার করার সুপারিশ করা হয়:
- SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long
ME-STR পরীক্ষা সেট: 30টি দীর্ঘ ভিডিও
- SAMM চ্যালেঞ্জ ডেটাসেট: 10টি ভিডিও (200fps)
- CAS(ME)³: 20টি ভিডিও খণ্ড (30fps)
ME-VQA পরীক্ষা সেট: 24টি মাইক্রো-এক্সপ্রেশন খণ্ড
- SAMM চ্যালেঞ্জ ডেটাসেট: 7টি খণ্ড (200fps)
- CAS(ME)³: 17টি খণ্ড (30fps)
- ME-STR: CAS(ME)² এ প্রশিক্ষিত MEAN নেটওয়ার্ক ব্যবহার করা হয়
- ME-VQA: Qwen2.5VL-3B এর জন্য LoRA ব্যবহার করে পরামিতি-দক্ষ ফাইন-টিউনিং
MEAN নেটওয়ার্ক ব্যবহার করে বেসলাইন ফলাফল দেখায়:
- SAMM ডেটাসেট: STRS = 0.0062
- CAS(ME)³ ডেটাসেট: STRS = 0.0086
ফলাফল নির্দেশ করে যে স্থানীয়করণ পর্যায় প্রধান বাধা, উচ্চ FP এবং FN সামগ্রিক কর্মক্ষমতা হ্রাস করে।
47 জন নিবন্ধিত অংশগ্রহণকারী, 8টি দল ফলাফল জমা দিয়েছে:
| অংশগ্রহণকারী | SAMM (F1) | CAS(ME)³ (F1) | সামগ্রিক STRS |
|---|
| Guo et al. | স্থানীয়করণ:0.086, স্বীকৃতি:0.667 | স্থানীয়করণ:0.099, স্বীকৃতি:0.645 | 0.09 |
| ustc-iat | স্থানীয়করণ:0.118, স্বীকৃতি:0.471 | স্থানীয়করণ:0.067, স্বীকৃতি:0.645 | 0.06 |
| gormanv | স্থানীয়করণ:0.067, স্বীকৃতি:0.622 | স্থানীয়করণ:0.061, স্বীকৃতি:0.278 | 0.047 |
বিভিন্ন ইনপুট ধরনের অধীনে Qwen2.5VL-3B এর কর্মক্ষমতা:
- OAO এবং OF ইনপুট: অভিব্যক্তি স্বীকৃতিতে আরও ভাল কর্মক্ষমতা
- ভিডিও ইনপুট: BLEU এবং ROUGE-1 মেট্রিক্সে আরও ভাল কর্মক্ষমতা
- ফাইন-টিউনিং বনাম জিরো-শট: ফাইন-টিউনিং বেশিরভাগ মেট্রিক্সে উন্নতি করে, কিন্তু উন্নতি সীমিত
28 জন অংশগ্রহণকারী, 10টি দল ফলাফল জমা দিয়েছে:
| অংশগ্রহণকারী | মোটা-দানাদার | সূক্ষ্ম-দানাদার | BLEU | ROUGE | গড় স্কোর |
|---|
| Wang et al. | UF1:0.733, UAR:0.722 | UF1:0.368, UAR:0.408 | 0.615 | 0.607 | 0.575 |
| Zhu et al. | UF1:0.594, UAR:0.650 | UF1:0.316, UAR:0.375 | 0.595 | 0.509 | 0.506 |
| IIM, HFIPS, CAS | UF1:0.560, UAR:0.528 | UF1:0.281, UAR:0.283 | 0.396 | 0.489 | 0.423 |
এই পেপারটি 8তম MEGC চ্যালেঞ্জ প্রতিযোগিতা, প্রতিটি সংস্করণের ফোকাস:
- FG'18: মাইক্রো-এক্সপ্রেশন স্বীকৃতি
- FG'19: স্থানীয়করণ এবং স্বীকৃতি
- FG'20: মাইক্রো-এক্সপ্রেশন স্থানীয়করণ
- MM'21-MM'23: স্থানীয়করণ এবং উৎপাদন
- MM'24: স্পট-দেন-রিকগনাইজ প্যারাডাইম এবং ক্রস-সাংস্কৃতিক স্থানীয়করণ
- পৃথক থেকে একীভূত: স্বাধীন স্থানীয়করণ এবং স্বীকৃতি কাজ থেকে একীভূত কাঠামোতে বিকাশ
- মাল্টিমোডাল ফিউশন: MLLMs এবং LVLMs এর মাল্টিমোডাল যুক্তি ক্ষমতা ব্যবহার করা
- ব্যবহারিকতা-ভিত্তিক: বাস্তব প্রয়োগ পরিস্থিতির চাহিদার প্রতি আরও মনোযোগী
- ME-STR কাজ উচ্চ চ্যালেঞ্জিং: সেরা দলের STRS মাত্র 0.09, এই ক্ষেত্রে আরও উদ্ভাবনের প্রয়োজন নির্দেশ করে
- ME-VQA সম্ভাবনা প্রদর্শন করে: সেরা দলের গড় স্কোর 0.575, মাল্টিমোডাল পদ্ধতির কার্যকারিতা প্রদর্শন করে
- স্থানীয়করণ মূল বাধা: ME-STR এর নিম্ন কর্মক্ষমতা প্রধানত স্থানীয়করণ পর্যায়ের কঠিনতা থেকে উদ্ভূত
- পরীক্ষা সেট আকার সীমিত: ME-VQA পরীক্ষা সেট তুলনামূলকভাবে ছোট, সাধারণীকরণ ক্ষমতা মূল্যায়ন প্রভাবিত করতে পারে
- মূল্যায়ন মেট্রিক্স একক: আরও মাত্রার মূল্যায়ন মান প্রয়োজন হতে পারে
- ক্রস-ডোমেইন সাধারণীকরণ অপর্যাপ্তভাবে যাচাই করা: বিভিন্ন ডেটাসেটের মধ্যে ডোমেইন অভিযোজন ক্ষমতা আরও গবেষণার প্রয়োজন
- পরীক্ষা সেট আকার সম্প্রসারণ: বৃহত্তর, আরও বৈচিত্র্যময় পরীক্ষা ডেটাসেট নির্মাণ করা
- স্থানীয়করণ অ্যালগরিদম উন্নত করা: মাইক্রো-এক্সপ্রেশন স্থানীয়করণের প্রযুক্তিগত বাধা অতিক্রম করার উপর ফোকাস করা
- মাল্টিমোডাল পদ্ধতি অপটিমাইজেশন: মাইক্রো-এক্সপ্রেশন বিশ্লেষণে MLLMs এর প্রয়োগ আরও অন্বেষণ করা
- কাজ ডিজাইন উদ্ভাবন: ME-STR কাজ বাস্তব প্রয়োগের কাছাকাছি, ME-VQA নতুন গবেষণা প্যারাডাইম প্রবর্তন করে
- মূল্যায়ন ব্যবস্থা সম্পূর্ণ: মানসম্মত ডেটাসেট, মূল্যায়ন মেট্রিক্স এবং বেঞ্চমার্ক পদ্ধতি প্রদান করে
- প্রযুক্তিগত দূরদর্শিতা: সময়মত মাল্টিমোডাল বড় মডেল প্রবর্তন করে, প্রযুক্তি উন্নয়ন প্রবণতা ধরে রাখে
- পরীক্ষামূলক ডিজাইন কঠোর: বিস্তারিত বেসলাইন পরীক্ষা এবং চ্যালেঞ্জ প্রতিযোগিতা ফলাফল বিশ্লেষণ
- সীমিত তাত্ত্বিক অবদান: প্রধানত চ্যালেঞ্জ প্রতিযোগিতা সংগঠন, গভীর তাত্ত্বিক বিশ্লেষণের অভাব
- অপর্যাপ্ত পদ্ধতি উদ্ভাবন: বেসলাইন পদ্ধতি তুলনামূলকভাবে সহজ, যুগান্তকারী প্রযুক্তি প্রস্তাব করে না
- ডেটাসেট আকার সীমাবদ্ধতা: পরীক্ষা সেট আকার তুলনামূলকভাবে ছোট, সিদ্ধান্তের সর্বজনীনতা প্রভাবিত করতে পারে
- ক্রস-মোডাল ফিউশন অগভীর: ME-VQA কাজের মাল্টিমোডাল ফিউশন আরও গভীর অন্বেষণের অপেক্ষায় রয়েছে
- ক্ষেত্র চালিত কর্ম: কর্তৃপক্ষ চ্যালেঞ্জ প্রতিযোগিতা হিসাবে, মাইক্রো-এক্সপ্রেশন বিশ্লেষণ ক্ষেত্র উন্নয়ন কার্যকরভাবে চালিত করতে পারে
- মানসম্মতকরণ অবদান: নতুন কাজের মূল্যায়ন মান প্রতিষ্ঠা করে, পরবর্তী গবেষণার জন্য বেঞ্চমার্ক প্রদান করে
- প্রযুক্তি রূপান্তর মূল্য: ME-STR কাজ বাস্তব প্রয়োগ চাহিদার কাছাকাছি
- একাডেমিক প্রভাব: মাল্টিমোডাল পদ্ধতি প্রবর্তন এই ক্ষেত্রের জন্য নতুন দিকনির্দেশনা খোলে
- নিরাপত্তা পর্যবেক্ষণ: বিমানবন্দর, কাস্টমস ইত্যাদি উচ্চ ঝুঁকির পরিবেশে আবেগজনক পর্যবেক্ষণ
- মানসিক মূল্যায়ন: ক্লিনিক্যাল মনোবিজ্ঞান গবেষণায় আবেগজনক অবস্থা বিশ্লেষণ
- মানব-কম্পিউটার ইন্টারঅ্যাকশন: AI সিস্টেমের আবেগজনক বোঝাপড়া ক্ষমতা উন্নয়ন
- বিচারিক প্রয়োগ: সাক্ষ্যের সত্যতা নির্ধারণে সহায়তা করা
পেপারটি 24টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত করে:
- মাইক্রো-এক্সপ্রেশন ডেটাসেট নির্মাণ সম্পর্কিত কাজ (SAMM, CASME II, CAS(ME)³ ইত্যাদি)
- পূর্ববর্তী MEGC চ্যালেঞ্জ প্রতিযোগিতা পেপার
- মাল্টিমোডাল বড় মডেল সম্পর্কিত কাজ (Qwen2.5VL ইত্যাদি)
- মূল্যায়ন মেট্রিক্স সম্পর্কিত সাহিত্য (BLEU, ROUGE ইত্যাদি)
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের চ্যালেঞ্জ প্রতিযোগিতা সংগঠন পেপার, ME-STR এবং ME-VQA দুটি উদ্ভাবনী কাজ প্রবর্তনের মাধ্যমে, মাইক্রো-এক্সপ্রেশন বিশ্লেষণ ক্ষেত্রের উন্নয়ন কার্যকরভাবে চালিত করে। পেপারের প্রধান মূল্য নতুন মূল্যায়ন মান এবং গবেষণা প্যারাডাইম প্রতিষ্ঠায় নিহিত, যদিও তাত্ত্বিক অবদানে তুলনামূলকভাবে সীমিত, তবে ক্ষেত্র উন্নয়নের জন্য গুরুত্বপূর্ণ নির্দেশনামূলক তাৎপর্য রয়েছে।