2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

基本信息

论文ID: 2510.14203
标题: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
作者: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
分类: cs.CV cs.CL cs.MM
发表时间: 2025年10月16日
论文链接: https://arxiv.org/abs/2510.14203

摘要

本文提出了一种联合建模方法，将长期研究的Big Five人格特质和近期在心理学中受到关注的HEXACO人格特质相结合，用于从多模态人类行为中自动识别表观人格特质。以往研究主要使用Big Five进行多模态表观人格特质识别，但没有研究关注表观HEXACO，而HEXACO能够评估与移位攻击性、复仇心理、社会支配取向等相关的诚实-谦逊特质。此外，机器学习建模中Big Five和HEXACO之间的关系尚未明确。通过考虑这些关系，作者期望提高对多模态人类行为的感知能力。

研究背景与动机

问题定义

核心问题：现有多模态人格特质识别研究主要聚焦于Big Five，缺乏对HEXACO（特别是诚实-谦逊维度）的关注
重要性：HEXACO中的诚实-谦逊特质与移位攻击性、复仇心理、社会支配取向、职场不当行为等因素强烈负相关，具有重要的心理学意义
现有局限：
- 缺乏针对表观HEXACO特质的多模态识别研究
- Big Five和HEXACO在机器学习建模中的关系未被充分探索
- 现有数据集主要为Big Five设计

研究动机

通过联合建模Big Five和HEXACO，利用两个人格框架间的心理学关系，提升多模态人格特质识别的鲁棒性和准确性。

核心贡献

首次研究：首个针对多模态表观HEXACO人格特质识别的研究
联合建模方法：提出Big Five和HEXACO的联合建模方法，提升了两个框架的识别性能
关系探索：首次在多模态表观人格特质识别中研究Big Five与其他人格特质（HEXACO）的关系
数据集贡献：构建了同时标注Big Five和HEXACO特质的自我介绍视频数据集

方法详解

任务定义

给定音频-视觉视频输入，联合估计Big Five分数 $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ 和HEXACO分数 $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ ：

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

其中 $S$ 为音频特征， $U$ 为视觉特征， $\Theta$ 为可训练参数集。

模型架构

多模态Transformer架构

模型包含四个编码器：音频编码器、文本编码器、视觉编码器和多模态编码器。

特征编码：
- 音频编码器： $S \rightarrow A$ （音频表示）
- 文本编码器： $W \rightarrow T$ （文本表示，通过ASR获得）
- 视觉编码器： $U \rightarrow V$ （视觉表示）

多模态融合：

H₀ = TemporalConcat(A,T,V)  # 时序拼接
H'₀ = AddSegment(H₀; θ_segment)  # 添加模态分割信息
H = TransformerEnc(H'₀; θ_multi)  # Transformer编码

注意力池化：
```
h = AttentivePooling(H; θ_pool)
```

联合预测头：

ẑ = Sigmoid(h; θᶻ_head)  # HEXACO预测
ŷ = Sigmoid(h; θʸ_head)  # Big Five预测

训练策略

使用平均绝对误差损失进行联合训练：

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

技术创新点

联合优化：同时优化Big Five和HEXACO识别，利用心理学关系提升性能
多模态融合：使用预训练的Transformer架构处理音频、视觉和文本信息
关系建模：通过共享表示学习Big Five和HEXACO间的潜在关系

实验设置

数据集

规模：10,100个自我介绍视频，1,010名参与者
标注：200名观察者使用50项Big Five问卷和60项HEXACO问卷进行标注
划分：
- 训练集：9,030个视频（903名参与者）
- 验证集：500个视频（50名参与者）
- 测试集：570个视频（57名参与者）
视频特征：平均时长73.6秒，1280×720分辨率，25fps

评价指标

Pearson相关系数：衡量预测值与真实值的线性相关性
准确率：采用ChaLearn第一印象挑战赛的计算方式： $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

对比方法

Big Five专用模型
HEXACO专用模型
联合模型（提出方法）

实现细节

音频特征：80维log Mel滤波器组系数，10ms帧移
视觉特征：CenterNet人脸检测，128×128裁剪，3fps下采样
预训练：音频编码器（20K小时日语语音），文本编码器（100G tokens），视觉编码器（RAF-DB和AffectNet）
训练：批大小8，dropout 0.1，RAdam优化器，NVIDIA A6000 GPU

模态组合	开放性	尽责性	外向性	宜人性	神经质
音频（联合）	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
音频+视觉+文本（联合）	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
人类评估	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

HEXACO识别性能

模态组合	诚实-谦逊	情绪性	外向性	宜人性	尽责性	开放性
音频（联合）	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
音频+视觉+文本（联合）	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4