2025-11-23T13:31:16.476236

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering

Fan, Li, See et al.
Facial micro-expressions (MEs) are involuntary movements of the face that occur spontaneously when a person experiences an emotion but attempts to suppress or repress the facial expression, typically found in a high-stakes environment. In recent years, substantial advancements have been made in the areas of ME recognition, spotting, and generation. However, conventional approaches that treat spotting and recognition as separate tasks are suboptimal, particularly for analyzing long-duration videos in realistic settings. Concurrently, the emergence of multimodal large language models (MLLMs) and large vision-language models (LVLMs) offers promising new avenues for enhancing ME analysis through their powerful multimodal reasoning capabilities. The ME grand challenge (MEGC) 2025 introduces two tasks that reflect these evolving research directions: (1) ME spot-then-recognize (ME-STR), which integrates ME spotting and subsequent recognition in a unified sequential pipeline; and (2) ME visual question answering (ME-VQA), which explores ME understanding through visual question answering, leveraging MLLMs or LVLMs to address diverse question types related to MEs. All participating algorithms are required to run on this test set and submit their results on a leaderboard. More details are available at https://megc2025.github.io.
academic

MEGC2025: マイクロ表情グランドチャレンジ - スポット・ザン・レコグナイズおよびビジュアル質問応答

基本情報

  • 論文ID: 2506.15298
  • タイトル: MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering
  • 著者: Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Wen-Huang Cheng, Xiaobai Li, Xiaopeng Hong, Su-Jing Wang, Adrian K. Davison
  • 分類: cs.CV cs.MM
  • 発表時期/会議: MM '25, 2025年10月27-31日, ダブリン, アイルランド (ACM国際マルチメディア会議)
  • 論文リンク: https://arxiv.org/abs/2506.15298

要約

顔面マイクロ表情(MEs)は、人々が顔の表情を抑制または圧制しようとする際に顔に自発的に現れる不随意運動であり、通常は高リスク環境で発生します。近年、マイクロ表情認識、定位、生成などの分野で大きな進展がありました。しかし、定位と認識を分離されたタスクとして扱う従来のアプローチは最適ではなく、特に実世界環境で長時間ビデオを分析する際に問題があります。同時に、マルチモーダル大言語モデル(MLLMs)および大規模ビジョン言語モデル(LVLMs)の出現により、その強力なマルチモーダル推論能力を通じてマイクロ表情分析を強化するための新しい有望な道が提供されています。MEGC 2025は、これらの研究開発方向を反映する2つのタスクを導入しています: (1) マイクロ表情スポット・ザン・レコグナイズ(ME-STR)は、マイクロ表情の定位と後続の認識を統一された順序パイプラインに統合します。(2) マイクロ表情ビジュアル質問応答(ME-VQA)は、ビジュアル質問応答を通じてマイクロ表情理解を探索し、MLLMsまたはLVLMsを活用してマイクロ表情関連のさまざまな質問タイプに対応します。

研究背景と動機

問題定義

本論文が解決しようとしている核心的な問題は、従来のマイクロ表情分析手法の限界です:

  1. タスク分離の最適性の欠如: 従来の手法はマイクロ表情定位(spotting)と認識(recognition)を独立したタスクとして扱っており、これは実際の応用では実用的ではありません
  2. 実際のシナリオへの適応性の低さ: 既存の手法は長時間ビデオ内のマイクロ表情分析を効果的に処理することが困難です
  3. マルチモーダル推論能力の欠如: 従来の手法は新興のマルチモーダル大規模モデルの推論能力を十分に活用していません

研究の重要性

マイクロ表情分析は以下のシナリオで重要な価値があります:

  • 高リスク環境監視: セキュリティチェック、司法尋問など
  • 心理健康評価: 被験者の真の感情状態の検出
  • 人間-機械インタラクション最適化: AIシステムの人間感情理解能力の向上

既存手法の限界

  1. ME認識タスク: マイクロ表情シーケンスが既に定位されていることを前提としており、実際にはめったに成立しません
  2. ME定位タスク: マイクロ表情の発生位置のみを識別でき、感情内容の意味のある解釈を提供できません
  3. エンドツーエンドソリューションの欠如: 分離されたタスク設計により、全体的なパフォーマンスが最適ではありません

核心的な貢献

  1. ME-STRタスクパラダイムの提案: マイクロ表情定位と認識を統一された順序パイプラインに統合し、実際の応用要件により適合しています
  2. ME-VQA新タスクの導入: マイクロ表情分析にビジュアル質問応答パラダイムを初めて適用し、マルチモーダル大規模モデルの推論能力を活用します
  3. 包括的な評価プラットフォームの構築: 標準化されたテストセットと評価指標を提供し、分野の発展を促進します
  4. ベンチマーク手法の確立: 2つのタスクにベースライン手法を提供し、後続の研究の基礎を築きます

手法の詳細

タスク1: ME-STR (マイクロ表情スポット・ザン・レコグナイズ)

タスク定義

ME-STRタスクは長いビデオシーケンスで以下を要求します:

  1. 第1段階: マイクロ表情が発生する時間セグメントを定位する
  2. 第2段階: 正しく定位されたマイクロ表情セグメントに対して感情分類を実行する

第1段階で正しく定位されたサンプルのみが第2段階に渡され、感情認識が実行されます。

ベースライン手法: MEANネットワーク

マイクロ表情分析ネットワーク(MEAN)をベースラインとして採用:

  • 統一アーキテクチャ: 共有層と2つの専門分枝を含むエンドツーエンドニューラルネットワーク
  • 定位分枝: 回帰分枝で、各フレームに対してマイクロ表情区間の可能性を示す信頼度スコアを出力
  • 認識分枝: 定位分枝が識別した候補区間に対して感情カテゴリを予測

評価指標

定位段階: TP、FP、FN、精度、再現率、F1スコア 認識段階: TP、FP、FN、精度、再現率、F1、UF1、UAR 総合評価: STRS = F1-score_s × F1-score_a

タスク2: ME-VQA (マイクロ表情ビジュアル質問応答)

タスク定義

マイクロ表情ビデオシーケンスと自然言語質問が与えられた場合、モデルは観察されたマイクロ表情とその属性を説明する自然言語回答を生成する必要があります。

質問タイプには以下が含まれます:

  • 二値分類質問: 例えば「顔は唇角下制動作単位を示していますか?」
  • 多値分類質問: 例えば「表情カテゴリは何ですか?」
  • 複合質問: 例えば「どの動作単位が存在し、これらの単位に基づいて表情カテゴリは何ですか?」

ベースライン手法: Qwen2.5VL-3B

Qwen2.5VL-3Bをベースラインとして採用:

  • モデルアーキテクチャ: ビジョンエンコーダ、言語モデルバックボーン、クロスモーダル融合モジュールを含む
  • トレーニング戦略: ゼロショット(ZS)とファインチューニング(FT)の2つの設定
  • 入力タイプ:
    1. 等間隔でサンプリングされたビデオフレーム
    2. 開始-頂点-終了フレーム(OAO)
    3. 開始と頂点間の光フロー(OF)

評価指標

感情分類: 粗粒度および細粒度感情のUF1およびUAR

  • 粗粒度: ポジティブ、ネガティブ、驚き
  • 細粒度: 喜び、驚き、恐怖、嫌悪、怒り、悲しみ

テキスト品質: BLEU およびROUGE-1スコアで生成テキスト品質を評価

実験設定

データセット

トレーニングデータ

以下のデータセットの使用を推奨:

  • SAMM-LV、CAS(ME)³、4DME、CAS(ME)²、SMIC-E-long

テストデータ

ME-STRテストセット: 30個の長いビデオ

  • SAMMチャレンジデータセット: 10個のビデオ(200fps)
  • CAS(ME)³: 20個のビデオセグメント(30fps)

ME-VQAテストセット: 24個のマイクロ表情セグメント

  • SAMMチャレンジデータセット: 7個のセグメント(200fps)
  • CAS(ME)³: 17個のセグメント(30fps)

実装の詳細

  • ME-STR: CAS(ME)²上でトレーニングされたMEANネットワークを使用
  • ME-VQA: LoRAを使用してQwen2.5VL-3Bをパラメータ効率的にファインチューニング

実験結果

ME-STRタスク結果

ベースライン結果

MEANネットワークを使用したベースライン結果は以下を示しています:

  • SAMMデータセット: STRS = 0.0062
  • CAS(ME)³データセット: STRS = 0.0086

結果は定位段階が主なボトルネックであることを示しており、高いFPとFNが全体的なパフォーマンスの低下につながっています。

チャレンジ結果

47名の登録参加者、8チームが結果を提出:

参加者SAMM (F1)CAS(ME)³ (F1)総合STRS
Guo et al.定位:0.086, 認識:0.667定位:0.099, 認識:0.6450.09
ustc-iat定位:0.118, 認識:0.471定位:0.067, 認識:0.6450.06
gormanv定位:0.067, 認識:0.622定位:0.061, 認識:0.2780.047

ME-VQAタスク結果

ベースライン結果

異なる入力タイプ下でのQwen2.5VL-3Bのパフォーマンス:

  • OAOおよびOF入力: 表情認識でより良いパフォーマンス
  • ビデオ入力: BLEUおよびROUGE-1指標でより良いパフォーマンス
  • ファインチューニング対ゼロショット: ファインチューニングはほとんどの指標で改善を示しますが、改善は限定的です

チャレンジ結果

28名の参加者、10チームが結果を提出:

参加者粗粒度細粒度BLEUROUGE平均スコア
Wang et al.UF1:0.733, UAR:0.722UF1:0.368, UAR:0.4080.6150.6070.575
Zhu et al.UF1:0.594, UAR:0.650UF1:0.316, UAR:0.3750.5950.5090.506
IIM, HFIPS, CASUF1:0.560, UAR:0.528UF1:0.281, UAR:0.2830.3960.4890.423

関連研究

MEGC履歴概観

本論文は第8回MEGCチャレンジであり、各回のフォーカス:

  • FG'18: マイクロ表情認識
  • FG'19: 定位と認識
  • FG'20: マイクロ表情定位
  • MM'21-MM'23: 定位と生成
  • MM'24: スポット・ザン・レコグナイズパラダイムと文化横断的定位

技術発展トレンド

  1. 分離から統一へ: 独立した定位・認識タスクから統一フレームワークへの発展
  2. マルチモーダル融合: MLLMsおよびLVLMsのマルチモーダル推論能力の活用
  3. 実用性指向: 実際の応用シナリオの要件に対する関心の増加

結論と考察

主要な結論

  1. ME-STRタスクの高い課題性: 最高チームのSTRSはわずか0.09であり、この分野ではさらなるイノベーションが必要であることを示しています
  2. ME-VQAの潜在性: 最高チームの平均スコア0.575は、マルチモーダル手法の有効性を示しています
  3. 定位が重要なボトルネック: ME-STRの低いパフォーマンスは主に定位段階の困難に由来しています

限界

  1. テストセット規模の制限: ME-VQAテストセットは相対的に小さく、汎化能力評価に影響を与える可能性があります
  2. 評価指標の単一性: より多くの次元の評価基準が必要な場合があります
  3. クロスドメイン汎化の不十分な検証: 異なるデータセット間のドメイン適応能力はさらなる研究が必要です

今後の方向性

  1. テストセット規模の拡大: より大きく、より多様なテストデータセットの構築
  2. 定位アルゴリズムの改善: マイクロ表情定位の技術的ボトルネックの突破に重点を置く
  3. マルチモーダル手法の最適化: マイクロ表情分析におけるMLLMsの応用をさらに探索

深い評価

利点

  1. タスク設計の革新性: ME-STRタスクはより実際の応用に近く、ME-VQAは新しい研究パラダイムを導入しています
  2. 評価体系の完全性: 標準化されたデータセット、評価指標、ベースライン手法を提供
  3. 技術の先見性: マルチモーダル大規模モデルを適時に導入し、技術発展トレンドを把握
  4. 実験設計の厳密性: 詳細なベースライン実験とチャレンジ結果分析

不足

  1. 理論的貢献の限定性: 主にチャレンジ組織であり、深い理論分析に欠ける
  2. 手法イノベーションの不足: ベースライン手法は相対的に単純で、革新的な技術を提案していません
  3. データセット規模の制限: テストセット規模が相対的に小さく、結論の普遍性に影響を与える可能性があります
  4. クロスモーダル融合の浅さ: ME-VQAタスクのマルチモーダル融合はさらなる深化が必要です

影響力

  1. 分野推進作用: 権威あるチャレンジとして、マイクロ表情分析分野の発展を効果的に推進できます
  2. 標準化への貢献: 新しいタスクの評価基準を確立し、後続研究のベンチマークを提供
  3. 技術転換価値: ME-STRタスクはより実際の応用要件に適合しています
  4. 学術的影響: マルチモーダル手法を導入し、この分野に新しい方向を開きます

適用シナリオ

  1. セキュリティ監視: 空港、税関などの高リスク環境での感情監視
  2. 心理評価: 臨床心理学研究における感情状態分析
  3. 人間-機械インタラクション: インテリジェントシステムの感情理解能力向上
  4. 司法応用: 証言の真実性判断を支援

参考文献

論文は24篇の関連文献を引用しており、主に以下を含みます:

  • マイクロ表情データセット構築関連研究(SAMM、CASME II、CAS(ME)³など)
  • 過去のMEGCチャレンジ論文
  • マルチモーダル大規模モデル関連研究(Qwen2.5VLなど)
  • 評価指標関連文献(BLEU、ROUGEなど)

総合評価: これは高品質なチャレンジ組織論文であり、ME-STRおよびME-VQAという2つの革新的なタスクを導入することで、マイクロ表情分析分野の発展を効果的に推進しています。論文の主な価値は新しい評価基準と研究パラダイムの確立にあり、理論的貢献は相対的に限定的ですが、分野の発展に対して重要な指導的意義を持っています。