2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

ビッグファイブとHEXACOの結合モデリングによるマルチモーダル見かけ上の人格特性認識

基本情報

論文ID: 2510.14203
タイトル: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
著者: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
分類: cs.CV cs.CL cs.MM
発表日: 2025年10月16日
論文リンク: https://arxiv.org/abs/2510.14203

要旨

本論文は、長年にわたって研究されてきたビッグファイブ人格特性と、心理学において最近注目を集めているHEXACO人格特性を結合する結合モデリング手法を提案し、マルチモーダル人間行動から見かけ上の人格特性を自動認識する。従来の研究はビッグファイブを用いたマルチモーダル見かけ上の人格特性認識に主に焦点を当てており、見かけ上のHEXACOに関する研究は存在しない。HEXACOは、転位攻撃性、復讐心理、社会的支配志向などに関連する誠実性-謙虚性特性を評価することができる。さらに、機械学習モデリングにおけるビッグファイブとHEXACOの関係はまだ明確にされていない。これらの関係を考慮することで、著者らはマルチモーダル人間行動に対する認識能力の向上を期待している。

研究背景と動機

問題定義

中核的問題：既存のマルチモーダル人格特性認識研究は主にビッグファイブに焦点を当てており、HEXACO（特に誠実性-謙虚性次元）への関心が不足している
重要性：HEXACO内の誠実性-謙虚性特性は、転位攻撃性、復讐心理、社会的支配志向、職場での不適切な行動などの要因と強い負の相関を示し、心理学的に重要な意味を持つ
既存の限界：
- 見かけ上のHEXACO特性に対するマルチモーダル認識研究の欠如
- 機械学習モデリングにおけるビッグファイブとHEXACOの関係が十分に探索されていない
- 既存のデータセットは主にビッグファイブ向けに設計されている

研究動機

ビッグファイブとHEXACOの結合モデリングを通じて、2つの人格フレームワーク間の心理学的関係を活用し、マルチモーダル人格特性認識の堅牢性と精度を向上させる。

核心的貢献

初の研究：マルチモーダル見かけ上のHEXACO人格特性認識に関する最初の研究
結合モデリング手法：ビッグファイブとHEXACOの結合モデリング手法を提案し、両フレームワークの認識性能を向上させた
関係探索：マルチモーダル見かけ上の人格特性認識においてビッグファイブと他の人格特性（HEXACO）の関係を初めて研究した
データセット貢献：ビッグファイブとHEXACO特性の両方にアノテーションされた自己紹介ビデオデータセットを構築した

方法の詳細

タスク定義

音声-視覚ビデオ入力が与えられた場合、ビッグファイブスコア $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ とHEXACOスコア $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ を結合推定する：

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

ここで $S$ は音声特徴、 $U$ は視覚特徴、 $\Theta$ は訓練可能なパラメータセットである。

モデルアーキテクチャ

マルチモーダルTransformerアーキテクチャ

モデルは4つのエンコーダで構成される：音声エンコーダ、テキストエンコーダ、視覚エンコーダ、マルチモーダルエンコーダ。

特徴符号化：
- 音声エンコーダ： $S \rightarrow A$ （音声表現）
- テキストエンコーダ： $W \rightarrow T$ （テキスト表現、ASRを通じて取得）
- 視覚エンコーダ： $U \rightarrow V$ （視覚表現）

マルチモーダル融合：

H₀ = TemporalConcat(A,T,V)  # 時系列連結
H'₀ = AddSegment(H₀; θ_segment)  # モダリティセグメント情報を追加
H = TransformerEnc(H'₀; θ_multi)  # Transformer符号化

注意プーリング：
```
h = AttentivePooling(H; θ_pool)
```

結合予測ヘッド：

ẑ = Sigmoid(h; θᶻ_head)  # HEXACO予測
ŷ = Sigmoid(h; θʸ_head)  # ビッグファイブ予測

訓練戦略

平均絶対誤差損失を用いた結合訓練：

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

技術的革新点

結合最適化：ビッグファイブとHEXACO認識を同時に最適化し、心理学的関係を活用して性能を向上させる
マルチモーダル融合：事前訓練されたTransformerアーキテクチャを使用して音声、視覚、テキスト情報を処理
関係モデリング：共有表現学習を通じてビッグファイブとHEXACO間の潜在的関係をモデル化

実験設定

データセット

規模：10,100個の自己紹介ビデオ、1,010名の参加者
アノテーション：200名の観察者が50項目のビッグファイブアンケートと60項目のHEXACOアンケートを使用してアノテーション
分割：
- 訓練セット：9,030個のビデオ（903名の参加者）
- 検証セット：500個のビデオ（50名の参加者）
- テストセット：570個のビデオ（57名の参加者）
ビデオ特性：平均時間73.6秒、1280×720解像度、25fps

評価指標

Pearson相関係数：予測値と真実値の線形相関性を測定
精度：ChaLearn第一印象チャレンジの計算方法を採用： $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

比較手法

ビッグファイブ専用モデル
HEXACO専用モデル
結合モデル（提案手法）

実装詳細

音声特徴：80次元ログMelフィルタバンク係数、10msフレームシフト
視覚特徴：CenterNet顔検出、128×128クロップ、3fpsダウンサンプリング
事前訓練：音声エンコーダ（20K時間の日本語音声）、テキストエンコーダ（100Gトークン）、視覚エンコーダ（RAF-DBおよびAffectNet）
訓練：バッチサイズ8、ドロップアウト0.1、RAdamオプティマイザ、NVIDIA A6000 GPU

実験結果

主要結果

ビッグファイブ認識性能

モダリティ組合	開放性	誠実性	外向性	協調性	神経症傾向
音声（結合）	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
音声+視覚+テキスト（結合）	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
人間評価	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

HEXACO認識性能

モダリティ組合	誠実性-謙虚性	感情性	外向性	協調性	誠実性	開放性
音声（結合）	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
音声+視覚+テキスト（結合）	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4