This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
論文ID : 2510.14203タイトル : Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition著者 : Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)分類 : cs.CV cs.CL cs.MM発表日 : 2025年10月16日論文リンク : https://arxiv.org/abs/2510.14203 本論文は、長年にわたって研究されてきたビッグファイブ人格特性と、心理学において最近注目を集めているHEXACO人格特性を結合する結合モデリング手法を提案し、マルチモーダル人間行動から見かけ上の人格特性を自動認識する。従来の研究はビッグファイブを用いたマルチモーダル見かけ上の人格特性認識に主に焦点を当てており、見かけ上のHEXACOに関する研究は存在しない。HEXACOは、転位攻撃性、復讐心理、社会的支配志向などに関連する誠実性-謙虚性特性を評価することができる。さらに、機械学習モデリングにおけるビッグファイブとHEXACOの関係はまだ明確にされていない。これらの関係を考慮することで、著者らはマルチモーダル人間行動に対する認識能力の向上を期待している。
中核的問題 :既存のマルチモーダル人格特性認識研究は主にビッグファイブに焦点を当てており、HEXACO(特に誠実性-謙虚性次元)への関心が不足している重要性 :HEXACO内の誠実性-謙虚性特性は、転位攻撃性、復讐心理、社会的支配志向、職場での不適切な行動などの要因と強い負の相関を示し、心理学的に重要な意味を持つ既存の限界 :
見かけ上のHEXACO特性に対するマルチモーダル認識研究の欠如 機械学習モデリングにおけるビッグファイブとHEXACOの関係が十分に探索されていない 既存のデータセットは主にビッグファイブ向けに設計されている ビッグファイブとHEXACOの結合モデリングを通じて、2つの人格フレームワーク間の心理学的関係を活用し、マルチモーダル人格特性認識の堅牢性と精度を向上させる。
初の研究 :マルチモーダル見かけ上のHEXACO人格特性認識に関する最初の研究結合モデリング手法 :ビッグファイブとHEXACOの結合モデリング手法を提案し、両フレームワークの認識性能を向上させた関係探索 :マルチモーダル見かけ上の人格特性認識においてビッグファイブと他の人格特性(HEXACO)の関係を初めて研究したデータセット貢献 :ビッグファイブとHEXACO特性の両方にアノテーションされた自己紹介ビデオデータセットを構築した音声-視覚ビデオ入力が与えられた場合、ビッグファイブスコア y ^ = [ y ^ 1 , ⋯ , y ^ 5 ] ⊤ \hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ y ^ = [ y ^ 1 , ⋯ , y ^ 5 ] ⊤ とHEXACOスコア z ^ = [ z ^ 1 , ⋯ , z ^ 6 ] ⊤ \hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤ z ^ = [ z ^ 1 , ⋯ , z ^ 6 ] ⊤ を結合推定する:
{ y ^ , z ^ } = F ( S , U ; Θ ) \{\hat{y}, \hat{z}\} = F(S, U; \Theta) { y ^ , z ^ } = F ( S , U ; Θ )
ここでS S S は音声特徴、U U U は視覚特徴、Θ \Theta Θ は訓練可能なパラメータセットである。
モデルは4つのエンコーダで構成される:音声エンコーダ、テキストエンコーダ、視覚エンコーダ、マルチモーダルエンコーダ。
特徴符号化 :音声エンコーダ:S → A S \rightarrow A S → A (音声表現) テキストエンコーダ:W → T W \rightarrow T W → T (テキスト表現、ASRを通じて取得) 視覚エンコーダ:U → V U \rightarrow V U → V (視覚表現) マルチモーダル融合 :H₀ = TemporalConcat(A,T,V) # 時系列連結
H'₀ = AddSegment(H₀; θ_segment) # モダリティセグメント情報を追加
H = TransformerEnc(H'₀; θ_multi) # Transformer符号化
注意プーリング :h = AttentivePooling(H; θ_pool)
結合予測ヘッド :ẑ = Sigmoid(h; θᶻ_head) # HEXACO予測
ŷ = Sigmoid(h; θʸ_head) # ビッグファイブ予測
平均絶対誤差損失を用いた結合訓練:
L = 1 ∣ D ∣ ∑ d = 1 ∣ D ∣ ∣ y ^ d − y d ∣ + 1 ∣ D ∣ ∑ d = 1 ∣ D ∣ ∣ z ^ d − z d ∣ L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d| L = ∣ D ∣ 1 ∑ d = 1 ∣ D ∣ ∣ y ^ d − y d ∣ + ∣ D ∣ 1 ∑ d = 1 ∣ D ∣ ∣ z ^ d − z d ∣
結合最適化 :ビッグファイブとHEXACO認識を同時に最適化し、心理学的関係を活用して性能を向上させるマルチモーダル融合 :事前訓練されたTransformerアーキテクチャを使用して音声、視覚、テキスト情報を処理関係モデリング :共有表現学習を通じてビッグファイブとHEXACO間の潜在的関係をモデル化規模 :10,100個の自己紹介ビデオ、1,010名の参加者アノテーション :200名の観察者が50項目のビッグファイブアンケートと60項目のHEXACOアンケートを使用してアノテーション分割 :
訓練セット:9,030個のビデオ(903名の参加者) 検証セット:500個のビデオ(50名の参加者) テストセット:570個のビデオ(57名の参加者) ビデオ特性 :平均時間73.6秒、1280×720解像度、25fpsPearson相関係数 :予測値と真実値の線形相関性を測定精度 :ChaLearn第一印象チャレンジの計算方法を採用:
Accuracy k = 1 − 1 D ∑ d = 1 D ∣ y ^ d k − y d k ∣ \text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k| Accuracy k = 1 − D 1 ∑ d = 1 D ∣ y ^ d k − y d k ∣ ビッグファイブ専用モデル HEXACO専用モデル 結合モデル(提案手法) 音声特徴 :80次元ログMelフィルタバンク係数、10msフレームシフト視覚特徴 :CenterNet顔検出、128×128クロップ、3fpsダウンサンプリング事前訓練 :音声エンコーダ(20K時間の日本語音声)、テキストエンコーダ(100Gトークン)、視覚エンコーダ(RAF-DBおよびAffectNet)訓練 :バッチサイズ8、ドロップアウト0.1、RAdamオプティマイザ、NVIDIA A6000 GPUモダリティ組合 開放性 誠実性 外向性 協調性 神経症傾向 音声(結合) 0.542/94.4 0.614/93.3 0.707/91.6 0.576/93.4 0.530/93.8 音声+視覚+テキスト(結合) 0.595/94.8 0.686/93.9 0.757/92.6 0.657/94.0 0.586/94.2 人間評価 0.544/92.9 0.668/92.7 0.770/91.7 0.645/92.4 0.532/92.1
モダリティ組合 誠実性-謙虚性 感情性 外向性 協調性 誠実性 開放性 音声(結合) 0.482/95.2 0.639/95.6 0.660/92.9 0.469/94.0 0.549/94.1 0.454/93.7 音声+視覚+テキスト(結合) 0.504/95.2 0.645/95.6 0.707/93.2 0.576/94.3 0.579/94.2 0.608/94.4
結合モデリングの利点 :結合モデルはほとんどの場合、専用モデルより優れているモダリティ貢献 :音声特徴が最も効果的で、視覚特徴は協調性認識において相対的に効果的性能比較 :自動認識性能は人間評価水準に近い実験結果は、結合モデルが学習した相関パターンが心理学的予測と基本的に一致していることを示しているが、いくつかの特性では相関性が過度に捉えられており、モデルは人間水準の認識性能を達成しているものの、人間の印象知覚方法を完全には再現していないことを示唆している。
初期研究は主に手工特徴を使用 最近の深層学習手法は深い残差ネットワーク、エンドツーエンド手法など広く応用されている ほとんどの研究はビッグファイブフレームワークに焦点を当てている HEXACOはビッグファイブの代替フレームワークとして6つの次元を含む 誠実性-謙虚性次元は多くの負の行動要因と負の相関を示す 以前はソーシャルメディアテキストから自己報告HEXACO特性を推測する研究が1件のみ ビッグファイブとHEXACOの結合モデリングは、両フレームワークの認識性能を効果的に向上させることができる マルチモーダル情報融合は人格特性認識に不可欠である 自動認識性能は人間評価水準に達することができる 相関性バイアス :モデルはビッグファイブとHEXACO間の相関性を過度に捉え、人間の知覚パターンを完全には再現していないデータの限界 :データセットは日本語の自己紹介ビデオのみを含み、汎化性の検証が必要文化的差異 :異なる文化背景下での人格特性表現の違いを考慮していないモデルを改善して、ビッグファイブとHEXACO相関性に対する人間の知覚をより良く再現する より多くの言語と文化背景に拡張する 他の人格フレームワークの結合モデリングを探索する 革新性が高い :HEXACOを初めてマルチモーダル人格特性認識に導入し、研究の空白を埋めた手法が合理的 :結合モデリングの考え方は心理学理論に適合し、技術実装は完善されている実験が充分 :大規模アノテーション付きデータセットを構築し、実験設定は合理的で結果は説得力がある実用的価値 :人間評価水準に達し、実際の応用可能性を持つ理論的深さ :ビッグファイブとHEXACO関係の機械学習モデリングに対する深い理論分析が不足している汎化性 :日本語データのみで検証され、言語間・文化間の汎化性は未知数解釈性 :モデルの解釈性は限定的で、具体的な決定メカニズムを理解することが難しい学術的貢献 :マルチモーダル人格計算に新しい方向を開き、学際的研究を推進実用的価値 :人事、教育評価、心理保健などの分野に応用可能データ貢献 :提供される二重アノテーション付きデータセットは後続研究に重要な価値を持つ人事管理 :採用面接での人格評価教育分野 :学生の個別化教育と心理保健監視ソーシャルメディア :ユーザープロファイルとコンテンツ推奨心理保健 :心理診断と治療の補助論文は人格心理学理論、マルチモーダル学習、深層学習など複数の分野の重要な研究を含む36篇の関連文献を引用し、研究に堅実な理論的基礎を提供している。
総合評価 :これは学際的研究の高品質な論文であり、マルチモーダル人格計算分野において重要な開拓的意義を持つ。理論的深さと汎化性の面ではまだ改善の余地があるが、その革新性と実用的価値により、この分野における重要な貢献となっている。