2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.
Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
academic

MEGC2025: 미세표정 그랜드 챌린지 - 탐지 후 인식 및 시각 질의응답

기본 정보

  • 논문 ID: 2506.15298
  • 제목: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
  • 저자: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
  • 분류: cs.CV cs.MM
  • 발표 시간/학회: MM '25, 2025년 10월 27-31일, 더블린, 아일랜드 (ACM 국제 멀티미디어 학회)
  • 논문 링크: https://arxiv.org/abs/2506.15298

초록

안면 미세표정(MEs)은 사람들이 안면 표정을 억제하거나 억압하려고 할 때 안면에서 자발적으로 나타나는 비자발적 운동으로, 일반적으로 고위험 환경에서 발생합니다. 최근 미세표정 인식, 탐지 및 생성 분야에서 상당한 진전이 이루어졌습니다. 그러나 탐지와 인식을 분리된 작업으로 취급하는 전통적 방법은 최적이 아니며, 특히 현실 환경에서 장시간 비디오를 분석할 때 그렇습니다. 동시에 다중모달 대규모 언어 모델(MLLMs)과 대규모 시각-언어 모델(LVLMs)의 출현은 강력한 다중모달 추론 능력을 통해 미세표정 분석을 강화할 수 있는 새로운 유망한 경로를 제공합니다. MEGC 2025는 이러한 연구 발전 방향을 반영하는 두 가지 작업을 도입합니다: (1) 미세표정 탐지 후 인식(ME-STR)은 미세표정 탐지와 후속 인식을 통합된 순차 파이프라인으로 통합합니다; (2) 미세표정 시각 질의응답(ME-VQA)은 시각 질의응답을 통해 미세표정 이해를 탐색하며, MLLMs 또는 LVLMs을 활용하여 미세표정 관련 다양한 질문 유형을 처리합니다.

연구 배경 및 동기

문제 정의

본 논문이 해결하고자 하는 핵심 문제는 전통적 미세표정 분석 방법의 한계입니다:

  1. 작업 분리의 차선성: 전통적 방법은 미세표정 탐지(spotting)와 인식(recognition)을 독립적 작업으로 취급하는데, 이는 실제 응용에서 실용적이지 않습니다
  2. 실제 장면 적응성 부족: 기존 방법은 장시간 비디오에서 미세표정 분석을 효과적으로 처리하기 어렵습니다
  3. 다중모달 추론 능력 부족: 전통적 방법은 새로운 다중모달 대규모 모델의 추론 능력을 충분히 활용하지 못합니다

연구의 중요성

미세표정 분석은 다음 장면에서 중요한 가치를 가집니다:

  • 고위험 환경 모니터링: 보안 검사, 사법 심문 등
  • 정신 건강 평가: 피험자의 진정한 감정 상태 감지
  • 인간-기계 상호작용 최적화: AI 시스템의 인간 감정 이해 능력 향상

기존 방법의 한계

  1. ME 인식 작업: 미세표정 수열이 이미 탐지되었다고 가정하는데, 현실에서는 거의 성립하지 않습니다
  2. ME 탐지 작업: 미세표정 발생 위치만 식별할 수 있으며, 감정 내용에 대한 의미 있는 해석을 제공할 수 없습니다
  3. 엔드-투-엔드 솔루션 부재: 분리된 작업 설계로 인해 전체 성능이 차선입니다

핵심 기여

  1. ME-STR 작업 패러다임 제안: 미세표정 탐지와 인식을 통합된 순차 파이프라인으로 통합하여 실제 응용 요구에 더 부합합니다
  2. ME-VQA 신규 작업 도입: 시각 질의응답 패러다임을 미세표정 분석에 처음 적용하며, 다중모달 대규모 모델의 추론 능력을 활용합니다
  3. 포괄적 평가 플랫폼 구축: 표준화된 테스트 세트와 평가 지표를 제공하여 분야 발전을 촉진합니다
  4. 기준 방법 수립: 두 작업에 대한 기준선 방법을 제공하여 후속 연구의 기초를 마련합니다

방법 상세 설명

작업 1: ME-STR (미세표정 탐지-후-인식)

작업 정의

ME-STR 작업은 장시간 비디오 수열에서 다음을 요구합니다:

  1. 첫 번째 단계: 미세표정이 발생하는 시간 구간 탐지
  2. 두 번째 단계: 올바르게 탐지된 미세표정 클립에 대한 감정 분류

첫 번째 단계에서 올바르게 탐지된 샘플만 두 번째 단계로 전달되어 감정 인식을 수행합니다.

기준선 방법: MEAN 네트워크

미세표정 분석 네트워크(MEAN)를 기준선으로 채택합니다:

  • 통합 아키텍처: 공유 계층과 두 개의 전문 분기를 포함하는 엔드-투-엔드 신경망
  • 탐지 분기: 회귀 분기로, 각 프레임에 대해 미세표정 구간의 가능성을 나타내는 신뢰도 점수 출력
  • 인식 분기: 탐지 분기에서 식별한 후보 구간에 대해 감정 범주 예측

평가 지표

탐지 단계: TP, FP, FN, 정밀도, 재현율, F1 점수 인식 단계: TP, FP, FN, 정밀도, 재현율, F1, UF1, UAR 종합 평가: STRS = F1-score_s × F1-score_a

작업 2: ME-VQA (미세표정 시각 질의응답)

작업 정의

미세표정 비디오 수열과 자연어 질문이 주어졌을 때, 모델은 관찰된 미세표정 및 그 속성을 설명하는 자연어 답변을 생성해야 합니다.

질문 유형은 다음을 포함합니다:

  • 이진 분류 질문: 예: "얼굴이 입술 모서리 하강 동작 단위를 표시하고 있는가?"
  • 다중 분류 질문: 예: "표정 범주는 무엇인가?"
  • 복합 질문: 예: "어떤 동작 단위가 존재하며, 이러한 단위를 기반으로 표정 범주는 무엇인가?"

기준선 방법: Qwen2.5VL-3B

Qwen2.5VL-3B를 기준선으로 채택합니다:

  • 모델 아키텍처: 시각 인코더, 언어 모델 백본 및 교차 모달 융합 모듈 포함
  • 훈련 전략: 영샷(ZS)과 미세조정(FT) 두 가지 설정
  • 입력 유형:
    1. 등간격 샘플링된 비디오 프레임
    2. 시작-정점-종료 프레임(OAO)
    3. 시작과 정점 사이의 광학 흐름(OF)

평가 지표

감정 분류: 거친 입도 및 세밀한 입도 감정의 UF1 및 UAR

  • 거친 입도: 긍정, 부정, 놀람
  • 세밀한 입도: 행복, 놀람, 두려움, 혐오, 분노, 슬픔

텍스트 품질: BLEU 및 ROUGE-1 점수로 생성 텍스트 품질 평가

실험 설정

데이터셋

훈련 데이터

다음 데이터셋 사용을 권장합니다:

  • SAMM-LV, CAS(ME)³, 4DME, CAS(ME)², SMIC-E-long

테스트 데이터

ME-STR 테스트 세트: 30개의 장시간 비디오

  • SAMM 챌린지 데이터셋: 10개 비디오(200fps)
  • CAS(ME)³: 20개 비디오 클립(30fps)

ME-VQA 테스트 세트: 24개의 미세표정 클립

  • SAMM 챌린지 데이터셋: 7개 클립(200fps)
  • CAS(ME)³: 17개 클립(30fps)

구현 세부사항

  • ME-STR: CAS(ME)²에서 훈련된 MEAN 네트워크 사용
  • ME-VQA: LoRA를 사용하여 Qwen2.5VL-3B에 대한 매개변수 효율적 미세조정

실험 결과

ME-STR 작업 결과

기준선 결과

MEAN 네트워크의 기준선 결과는 다음을 보여줍니다:

  • SAMM 데이터셋: STRS = 0.0062
  • CAS(ME)³ 데이터셋: STRS = 0.0086

결과는 탐지 단계가 주요 병목임을 나타내며, 높은 FP와 FN이 전체 성능 저하를 초래합니다.

챌린지 결과

47명의 등록 참여자, 8개 팀 제출:

참여자SAMM (F1)CAS(ME)³ (F1)전체 STRS
Guo et al.탐지:0.086, 인식:0.667탐지:0.099, 인식:0.6450.09
ustc-iat탐지:0.118, 인식:0.471탐지:0.067, 인식:0.6450.06
gormanv탐지:0.067, 인식:0.622탐지:0.061, 인식:0.2780.047

ME-VQA 작업 결과

기준선 결과

Qwen2.5VL-3B의 다양한 입력 유형에서의 성능:

  • OAO 및 OF 입력: 표정 인식에서 더 나은 성능
  • 비디오 입력: BLEU 및 ROUGE-1 지표에서 더 나은 성능
  • 미세조정 vs 영샷: 미세조정이 대부분의 지표에서 개선을 보이나 향상이 제한적

챌린지 결과

28명의 참여자, 10개 팀 제출:

참여자거친 입도세밀한 입도BLEUROUGE평균 점수
Wang et al.UF1:0.733, UAR:0.722UF1:0.368, UAR:0.4080.6150.6070.575
Zhu et al.UF1:0.594, UAR:0.650UF1:0.316, UAR:0.3750.5950.5090.506
IIM, HFIPS, CASUF1:0.560, UAR:0.528UF1:0.281, UAR:0.2830.3960.4890.423

관련 연구

MEGC 역사 검토

본 논문은 제8회 MEGC 챌린지이며, 역대 초점:

  • FG'18: 미세표정 인식
  • FG'19: 탐지 및 인식
  • FG'20: 미세표정 탐지
  • MM'21-MM'23: 탐지 및 생성
  • MM'24: 탐지 후 인식 패러다임 및 문화 간 탐지

기술 발전 추세

  1. 분리에서 통합으로: 독립적인 탐지 및 인식 작업에서 통합 프레임워크로 발전
  2. 다중모달 융합: MLLMs 및 LVLMs의 다중모달 추론 능력 활용
  3. 실용성 지향: 실제 응용 장면의 요구에 더 관심

결론 및 논의

주요 결론

  1. ME-STR 작업의 높은 난이도: 최고 팀의 STRS가 0.09에 불과하여 이 분야에서 추가 혁신이 필요함을 나타냅니다
  2. ME-VQA의 잠재력 입증: 최고 팀의 평균 점수 0.575로 다중모달 방법의 효과성을 보여줍니다
  3. 탐지가 핵심 병목: ME-STR의 낮은 성능은 주로 탐지 단계의 어려움에서 비롯됩니다

한계

  1. 테스트 세트 규모 제한: ME-VQA 테스트 세트가 상대적으로 작아 일반화 능력 평가에 영향을 미칠 수 있습니다
  2. 평가 지표의 단일성: 더 많은 차원의 평가 기준이 필요할 수 있습니다
  3. 교차 도메인 일반화 미검증: 다양한 데이터셋 간 도메인 적응 능력을 추가로 연구해야 합니다

향후 방향

  1. 테스트 세트 규모 확대: 더 크고 다양한 테스트 데이터셋 구축
  2. 탐지 알고리즘 개선: 미세표정 탐지의 기술적 병목 돌파에 중점
  3. 다중모달 방법 최적화: MLLMs의 미세표정 분석 응용 추가 탐색

심층 평가

장점

  1. 작업 설계의 혁신성: ME-STR 작업이 실제 응용에 더 부합하며, ME-VQA가 새로운 연구 패러다임을 도입합니다
  2. 평가 체계의 완전성: 표준화된 데이터셋, 평가 지표 및 기준선 방법을 제공합니다
  3. 기술의 선견지명: 다중모달 대규모 모델을 적시에 도입하여 기술 발전 추세를 파악합니다
  4. 실험 설계의 엄밀성: 상세한 기준선 실험 및 챌린지 결과 분석

부족한 점

  1. 이론적 기여 제한: 주로 챌린지 조직이며 심층적 이론 분석이 부족합니다
  2. 방법 혁신 부족: 기준선 방법이 상대적으로 단순하며 획기적 기술이 없습니다
  3. 데이터셋 규모 제약: 테스트 세트 규모가 상대적으로 작아 결론의 보편성에 영향을 미칠 수 있습니다
  4. 교차 모달 융합의 얕음: ME-VQA 작업의 다중모달 융합이 추가 심화가 필요합니다

영향력

  1. 분야 추진 작용: 권위 있는 챌린지로서 미세표정 분석 분야 발전을 효과적으로 촉진합니다
  2. 표준화 기여: 신규 작업의 평가 표준을 수립하여 후속 연구에 기준을 제공합니다
  3. 기술 전환 가치: ME-STR 작업이 실제 응용 요구에 더 부합합니다
  4. 학술 영향: 다중모달 방법 도입으로 이 분야에 새로운 방향을 개척합니다

적용 장면

  1. 보안 모니터링: 공항, 세관 등 고위험 환경의 감정 모니터링
  2. 심리 평가: 임상 심리학 연구에서의 감정 상태 분석
  3. 인간-기계 상호작용: 지능형 시스템의 감정 이해 능력 향상
  4. 사법 응용: 증언 진실성 판단 보조

참고문헌

논문은 24편의 관련 문헌을 인용하며, 주로 다음을 포함합니다:

  • 미세표정 데이터셋 구축 관련 연구(SAMM, CASME II, CAS(ME)³ 등)
  • 역대 MEGC 챌린지 논문
  • 다중모달 대규모 모델 관련 연구(Qwen2.5VL 등)
  • 평가 지표 관련 문헌(BLEU, ROUGE 등)

종합 평가: 이는 높은 품질의 챌린지 조직 논문으로, ME-STR과 ME-VQA 두 가지 혁신적 작업을 도입하여 미세표정 분석 분야의 발전을 효과적으로 촉진합니다. 논문의 주요 가치는 새로운 평가 표준과 연구 패러다임을 수립하는 데 있으며, 이론적 기여는 상대적으로 제한적이지만 분야 발전에 중요한 지도적 의미를 가집니다.