2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.
This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
academic

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

基本信息

  • 论文ID: 2510.14203
  • 标题: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
  • 作者: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
  • 分类: cs.CV cs.CL cs.MM
  • 发表时间: 2025年10月16日
  • 论文链接: https://arxiv.org/abs/2510.14203

摘要

本文提出了一种联合建模方法,将长期研究的Big Five人格特质和近期在心理学中受到关注的HEXACO人格特质相结合,用于从多模态人类行为中自动识别表观人格特质。以往研究主要使用Big Five进行多模态表观人格特质识别,但没有研究关注表观HEXACO,而HEXACO能够评估与移位攻击性、复仇心理、社会支配取向等相关的诚实-谦逊特质。此外,机器学习建模中Big Five和HEXACO之间的关系尚未明确。通过考虑这些关系,作者期望提高对多模态人类行为的感知能力。

研究背景与动机

问题定义

  1. 核心问题:现有多模态人格特质识别研究主要聚焦于Big Five,缺乏对HEXACO(特别是诚实-谦逊维度)的关注
  2. 重要性:HEXACO中的诚实-谦逊特质与移位攻击性、复仇心理、社会支配取向、职场不当行为等因素强烈负相关,具有重要的心理学意义
  3. 现有局限
    • 缺乏针对表观HEXACO特质的多模态识别研究
    • Big Five和HEXACO在机器学习建模中的关系未被充分探索
    • 现有数据集主要为Big Five设计

研究动机

通过联合建模Big Five和HEXACO,利用两个人格框架间的心理学关系,提升多模态人格特质识别的鲁棒性和准确性。

核心贡献

  1. 首次研究:首个针对多模态表观HEXACO人格特质识别的研究
  2. 联合建模方法:提出Big Five和HEXACO的联合建模方法,提升了两个框架的识别性能
  3. 关系探索:首次在多模态表观人格特质识别中研究Big Five与其他人格特质(HEXACO)的关系
  4. 数据集贡献:构建了同时标注Big Five和HEXACO特质的自我介绍视频数据集

方法详解

任务定义

给定音频-视觉视频输入,联合估计Big Five分数 y^=[y^1,,y^5]\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ 和HEXACO分数 z^=[z^1,,z^6]\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤

{y^,z^}=F(S,U;Θ)\{\hat{y}, \hat{z}\} = F(S, U; \Theta)

其中SS为音频特征,UU为视觉特征,Θ\Theta为可训练参数集。

模型架构

多模态Transformer架构

模型包含四个编码器:音频编码器、文本编码器、视觉编码器和多模态编码器。

  1. 特征编码
    • 音频编码器:SAS \rightarrow A(音频表示)
    • 文本编码器:WTW \rightarrow T(文本表示,通过ASR获得)
    • 视觉编码器:UVU \rightarrow V(视觉表示)
  2. 多模态融合
    H₀ = TemporalConcat(A,T,V)  # 时序拼接
    H'₀ = AddSegment(H₀; θ_segment)  # 添加模态分割信息
    H = TransformerEnc(H'₀; θ_multi)  # Transformer编码
    
  3. 注意力池化
    h = AttentivePooling(H; θ_pool)
    
  4. 联合预测头
    ẑ = Sigmoid(h; θᶻ_head)  # HEXACO预测
    ŷ = Sigmoid(h; θʸ_head)  # Big Five预测
    

训练策略

使用平均绝对误差损失进行联合训练:

L=1Dd=1Dy^dyd+1Dd=1Dz^dzdL = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|

技术创新点

  1. 联合优化:同时优化Big Five和HEXACO识别,利用心理学关系提升性能
  2. 多模态融合:使用预训练的Transformer架构处理音频、视觉和文本信息
  3. 关系建模:通过共享表示学习Big Five和HEXACO间的潜在关系

实验设置

数据集

  • 规模:10,100个自我介绍视频,1,010名参与者
  • 标注:200名观察者使用50项Big Five问卷和60项HEXACO问卷进行标注
  • 划分
    • 训练集:9,030个视频(903名参与者)
    • 验证集:500个视频(50名参与者)
    • 测试集:570个视频(57名参与者)
  • 视频特征:平均时长73.6秒,1280×720分辨率,25fps

评价指标

  1. Pearson相关系数:衡量预测值与真实值的线性相关性
  2. 准确率:采用ChaLearn第一印象挑战赛的计算方式: Accuracyk=11Dd=1Dy^dkydk\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|

对比方法

  • Big Five专用模型
  • HEXACO专用模型
  • 联合模型(提出方法)

实现细节

  • 音频特征:80维log Mel滤波器组系数,10ms帧移
  • 视觉特征:CenterNet人脸检测,128×128裁剪,3fps下采样
  • 预训练:音频编码器(20K小时日语语音),文本编码器(100G tokens),视觉编码器(RAF-DB和AffectNet)
  • 训练:批大小8,dropout 0.1,RAdam优化器,NVIDIA A6000 GPU

实验结果

主要结果

Big Five识别性能

模态组合开放性尽责性外向性宜人性神经质
音频(联合)0.542/94.40.614/93.30.707/91.60.576/93.40.530/93.8
音频+视觉+文本(联合)0.595/94.80.686/93.90.757/92.60.657/94.00.586/94.2
人类评估0.544/92.90.668/92.70.770/91.70.645/92.40.532/92.1

HEXACO识别性能

模态组合诚实-谦逊情绪性外向性宜人性尽责性开放性
音频(联合)0.482/95.20.639/95.60.660/92.90.469/94.00.549/94.10.454/93.7
音频+视觉+文本(联合)0.504/95.20.645/95.60.707/93.20.576/94.30.579/94.20.608/94.4

关键发现

  1. 联合建模优势:联合模型在大多数情况下优于专用模型
  2. 模态贡献:音频特征最有效,视觉特征在宜人性识别中相对有效
  3. 性能对比:自动识别性能接近人类评估水平

Big Five与HEXACO相关性分析

实验结果显示,联合模型学习到的相关性模式与心理学预期基本一致,但在某些特质上相关性被过度捕获,这表明模型虽然达到了人类水平的识别性能,但未能完全复现人类的印象感知方式。

相关工作

多模态人格特质识别

  • 早期研究主要使用手工特征
  • 近期深度学习方法广泛应用,如深度残差网络、端到端方法等
  • 大多数研究聚焦于Big Five框架

HEXACO研究

  • HEXACO作为Big Five的替代框架,包含六个维度
  • 诚实-谦逊维度与多种负面行为因素负相关
  • 此前仅有一项研究从社交媒体文本推断自报HEXACO特质

结论与讨论

主要结论

  1. 联合建模Big Five和HEXACO能够有效提升两个框架的识别性能
  2. 多模态信息融合对人格特质识别至关重要
  3. 自动识别性能可达到人类评估水平

局限性

  1. 相关性偏差:模型过度捕获了Big Five和HEXACO间的相关性,未能完全复现人类感知模式
  2. 数据局限:数据集仅包含日语自我介绍视频,泛化性有待验证
  3. 文化差异:未考虑不同文化背景下的人格特质表达差异

未来方向

  1. 改进模型以更好地复现人类对Big Five和HEXACO相关性的感知
  2. 扩展到更多语言和文化背景
  3. 探索其他人格框架的联合建模

深度评价

优点

  1. 创新性强:首次将HEXACO引入多模态人格特质识别,填补了研究空白
  2. 方法合理:联合建模思路符合心理学理论,技术实现完善
  3. 实验充分:构建了大规模标注数据集,实验设置合理,结果具有说服力
  4. 实用价值:达到人类评估水平,具有实际应用潜力

不足

  1. 理论深度:对Big Five和HEXACO关系的机器学习建模缺乏深入的理论分析
  2. 泛化性:仅在日语数据上验证,跨语言、跨文化的泛化性未知
  3. 解释性:模型的可解释性有限,难以理解具体的决策机制

影响力

  1. 学术贡献:为多模态人格计算开辟新方向,推动跨学科研究
  2. 实用价值:可应用于人力资源、教育评估、心理健康等领域
  3. 数据贡献:提供的双标注数据集对后续研究具有重要价值

适用场景

  1. 人力资源:招聘面试中的人格评估
  2. 教育领域:学生个性化教学和心理健康监测
  3. 社交媒体:用户画像和内容推荐
  4. 心理健康:辅助心理诊断和治疗

参考文献

论文引用了36篇相关文献,涵盖人格心理学理论、多模态学习、深度学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的跨学科研究论文,在多模态人格计算领域具有重要的开创性意义。虽然在理论深度和泛化性方面还有提升空间,但其创新性和实用价值使其成为该领域的重要贡献。