2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.
This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
academic

ビッグファイブとHEXACOの結合モデリングによるマルチモーダル見かけ上の人格特性認識

基本情報

  • 論文ID: 2510.14203
  • タイトル: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
  • 著者: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
  • 分類: cs.CV cs.CL cs.MM
  • 発表日: 2025年10月16日
  • 論文リンク: https://arxiv.org/abs/2510.14203

要旨

本論文は、長年にわたって研究されてきたビッグファイブ人格特性と、心理学において最近注目を集めているHEXACO人格特性を結合する結合モデリング手法を提案し、マルチモーダル人間行動から見かけ上の人格特性を自動認識する。従来の研究はビッグファイブを用いたマルチモーダル見かけ上の人格特性認識に主に焦点を当てており、見かけ上のHEXACOに関する研究は存在しない。HEXACOは、転位攻撃性、復讐心理、社会的支配志向などに関連する誠実性-謙虚性特性を評価することができる。さらに、機械学習モデリングにおけるビッグファイブとHEXACOの関係はまだ明確にされていない。これらの関係を考慮することで、著者らはマルチモーダル人間行動に対する認識能力の向上を期待している。

研究背景と動機

問題定義

  1. 中核的問題:既存のマルチモーダル人格特性認識研究は主にビッグファイブに焦点を当てており、HEXACO(特に誠実性-謙虚性次元)への関心が不足している
  2. 重要性:HEXACO内の誠実性-謙虚性特性は、転位攻撃性、復讐心理、社会的支配志向、職場での不適切な行動などの要因と強い負の相関を示し、心理学的に重要な意味を持つ
  3. 既存の限界
    • 見かけ上のHEXACO特性に対するマルチモーダル認識研究の欠如
    • 機械学習モデリングにおけるビッグファイブとHEXACOの関係が十分に探索されていない
    • 既存のデータセットは主にビッグファイブ向けに設計されている

研究動機

ビッグファイブとHEXACOの結合モデリングを通じて、2つの人格フレームワーク間の心理学的関係を活用し、マルチモーダル人格特性認識の堅牢性と精度を向上させる。

核心的貢献

  1. 初の研究:マルチモーダル見かけ上のHEXACO人格特性認識に関する最初の研究
  2. 結合モデリング手法:ビッグファイブとHEXACOの結合モデリング手法を提案し、両フレームワークの認識性能を向上させた
  3. 関係探索:マルチモーダル見かけ上の人格特性認識においてビッグファイブと他の人格特性(HEXACO)の関係を初めて研究した
  4. データセット貢献:ビッグファイブとHEXACO特性の両方にアノテーションされた自己紹介ビデオデータセットを構築した

方法の詳細

タスク定義

音声-視覚ビデオ入力が与えられた場合、ビッグファイブスコア y^=[y^1,,y^5]\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ とHEXACOスコア z^=[z^1,,z^6]\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤ を結合推定する:

{y^,z^}=F(S,U;Θ)\{\hat{y}, \hat{z}\} = F(S, U; \Theta)

ここでSSは音声特徴、UUは視覚特徴、Θ\Thetaは訓練可能なパラメータセットである。

モデルアーキテクチャ

マルチモーダルTransformerアーキテクチャ

モデルは4つのエンコーダで構成される:音声エンコーダ、テキストエンコーダ、視覚エンコーダ、マルチモーダルエンコーダ。

  1. 特徴符号化
    • 音声エンコーダ:SAS \rightarrow A(音声表現)
    • テキストエンコーダ:WTW \rightarrow T(テキスト表現、ASRを通じて取得)
    • 視覚エンコーダ:UVU \rightarrow V(視覚表現)
  2. マルチモーダル融合
    H₀ = TemporalConcat(A,T,V)  # 時系列連結
    H'₀ = AddSegment(H₀; θ_segment)  # モダリティセグメント情報を追加
    H = TransformerEnc(H'₀; θ_multi)  # Transformer符号化
    
  3. 注意プーリング
    h = AttentivePooling(H; θ_pool)
    
  4. 結合予測ヘッド
    ẑ = Sigmoid(h; θᶻ_head)  # HEXACO予測
    ŷ = Sigmoid(h; θʸ_head)  # ビッグファイブ予測
    

訓練戦略

平均絶対誤差損失を用いた結合訓練:

L=1Dd=1Dy^dyd+1Dd=1Dz^dzdL = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|

技術的革新点

  1. 結合最適化:ビッグファイブとHEXACO認識を同時に最適化し、心理学的関係を活用して性能を向上させる
  2. マルチモーダル融合:事前訓練されたTransformerアーキテクチャを使用して音声、視覚、テキスト情報を処理
  3. 関係モデリング:共有表現学習を通じてビッグファイブとHEXACO間の潜在的関係をモデル化

実験設定

データセット

  • 規模:10,100個の自己紹介ビデオ、1,010名の参加者
  • アノテーション:200名の観察者が50項目のビッグファイブアンケートと60項目のHEXACOアンケートを使用してアノテーション
  • 分割
    • 訓練セット:9,030個のビデオ(903名の参加者)
    • 検証セット:500個のビデオ(50名の参加者)
    • テストセット:570個のビデオ(57名の参加者)
  • ビデオ特性:平均時間73.6秒、1280×720解像度、25fps

評価指標

  1. Pearson相関係数:予測値と真実値の線形相関性を測定
  2. 精度:ChaLearn第一印象チャレンジの計算方法を採用: Accuracyk=11Dd=1Dy^dkydk\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|

比較手法

  • ビッグファイブ専用モデル
  • HEXACO専用モデル
  • 結合モデル(提案手法)

実装詳細

  • 音声特徴:80次元ログMelフィルタバンク係数、10msフレームシフト
  • 視覚特徴:CenterNet顔検出、128×128クロップ、3fpsダウンサンプリング
  • 事前訓練:音声エンコーダ(20K時間の日本語音声)、テキストエンコーダ(100Gトークン)、視覚エンコーダ(RAF-DBおよびAffectNet)
  • 訓練:バッチサイズ8、ドロップアウト0.1、RAdamオプティマイザ、NVIDIA A6000 GPU

実験結果

主要結果

ビッグファイブ認識性能

モダリティ組合開放性誠実性外向性協調性神経症傾向
音声(結合)0.542/94.40.614/93.30.707/91.60.576/93.40.530/93.8
音声+視覚+テキスト(結合)0.595/94.80.686/93.90.757/92.60.657/94.00.586/94.2
人間評価0.544/92.90.668/92.70.770/91.70.645/92.40.532/92.1

HEXACO認識性能

モダリティ組合誠実性-謙虚性感情性外向性協調性誠実性開放性
音声(結合)0.482/95.20.639/95.60.660/92.90.469/94.00.549/94.10.454/93.7
音声+視覚+テキスト(結合)0.504/95.20.645/95.60.707/93.20.576/94.30.579/94.20.608/94.4

主要な発見

  1. 結合モデリングの利点:結合モデルはほとんどの場合、専用モデルより優れている
  2. モダリティ貢献:音声特徴が最も効果的で、視覚特徴は協調性認識において相対的に効果的
  3. 性能比較:自動認識性能は人間評価水準に近い

ビッグファイブとHEXACOの相関分析

実験結果は、結合モデルが学習した相関パターンが心理学的予測と基本的に一致していることを示しているが、いくつかの特性では相関性が過度に捉えられており、モデルは人間水準の認識性能を達成しているものの、人間の印象知覚方法を完全には再現していないことを示唆している。

関連研究

マルチモーダル人格特性認識

  • 初期研究は主に手工特徴を使用
  • 最近の深層学習手法は深い残差ネットワーク、エンドツーエンド手法など広く応用されている
  • ほとんどの研究はビッグファイブフレームワークに焦点を当てている

HEXACO研究

  • HEXACOはビッグファイブの代替フレームワークとして6つの次元を含む
  • 誠実性-謙虚性次元は多くの負の行動要因と負の相関を示す
  • 以前はソーシャルメディアテキストから自己報告HEXACO特性を推測する研究が1件のみ

結論と考察

主要な結論

  1. ビッグファイブとHEXACOの結合モデリングは、両フレームワークの認識性能を効果的に向上させることができる
  2. マルチモーダル情報融合は人格特性認識に不可欠である
  3. 自動認識性能は人間評価水準に達することができる

限界

  1. 相関性バイアス:モデルはビッグファイブとHEXACO間の相関性を過度に捉え、人間の知覚パターンを完全には再現していない
  2. データの限界:データセットは日本語の自己紹介ビデオのみを含み、汎化性の検証が必要
  3. 文化的差異:異なる文化背景下での人格特性表現の違いを考慮していない

今後の方向性

  1. モデルを改善して、ビッグファイブとHEXACO相関性に対する人間の知覚をより良く再現する
  2. より多くの言語と文化背景に拡張する
  3. 他の人格フレームワークの結合モデリングを探索する

深層的評価

利点

  1. 革新性が高い:HEXACOを初めてマルチモーダル人格特性認識に導入し、研究の空白を埋めた
  2. 手法が合理的:結合モデリングの考え方は心理学理論に適合し、技術実装は完善されている
  3. 実験が充分:大規模アノテーション付きデータセットを構築し、実験設定は合理的で結果は説得力がある
  4. 実用的価値:人間評価水準に達し、実際の応用可能性を持つ

不足点

  1. 理論的深さ:ビッグファイブとHEXACO関係の機械学習モデリングに対する深い理論分析が不足している
  2. 汎化性:日本語データのみで検証され、言語間・文化間の汎化性は未知数
  3. 解釈性:モデルの解釈性は限定的で、具体的な決定メカニズムを理解することが難しい

影響力

  1. 学術的貢献:マルチモーダル人格計算に新しい方向を開き、学際的研究を推進
  2. 実用的価値:人事、教育評価、心理保健などの分野に応用可能
  3. データ貢献:提供される二重アノテーション付きデータセットは後続研究に重要な価値を持つ

適用シーン

  1. 人事管理:採用面接での人格評価
  2. 教育分野:学生の個別化教育と心理保健監視
  3. ソーシャルメディア:ユーザープロファイルとコンテンツ推奨
  4. 心理保健:心理診断と治療の補助

参考文献

論文は人格心理学理論、マルチモーダル学習、深層学習など複数の分野の重要な研究を含む36篇の関連文献を引用し、研究に堅実な理論的基礎を提供している。


総合評価:これは学際的研究の高品質な論文であり、マルチモーダル人格計算分野において重要な開拓的意義を持つ。理論的深さと汎化性の面ではまだ改善の余地があるが、その革新性と実用的価値により、この分野における重要な貢献となっている。