This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition 论文ID : 2510.14203标题 : Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition作者 : Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)分类 : cs.CV cs.CL cs.MM发表时间 : 2025年10月16日论文链接 : https://arxiv.org/abs/2510.14203 本文提出了一种联合建模方法,将长期研究的Big Five人格特质和近期在心理学中受到关注的HEXACO人格特质相结合,用于从多模态人类行为中自动识别表观人格特质。以往研究主要使用Big Five进行多模态表观人格特质识别,但没有研究关注表观HEXACO,而HEXACO能够评估与移位攻击性、复仇心理、社会支配取向等相关的诚实-谦逊特质。此外,机器学习建模中Big Five和HEXACO之间的关系尚未明确。通过考虑这些关系,作者期望提高对多模态人类行为的感知能力。
核心问题 :现有多模态人格特质识别研究主要聚焦于Big Five,缺乏对HEXACO(特别是诚实-谦逊维度)的关注重要性 :HEXACO中的诚实-谦逊特质与移位攻击性、复仇心理、社会支配取向、职场不当行为等因素强烈负相关,具有重要的心理学意义现有局限 :
缺乏针对表观HEXACO特质的多模态识别研究 Big Five和HEXACO在机器学习建模中的关系未被充分探索 现有数据集主要为Big Five设计 通过联合建模Big Five和HEXACO,利用两个人格框架间的心理学关系,提升多模态人格特质识别的鲁棒性和准确性。
首次研究 :首个针对多模态表观HEXACO人格特质识别的研究联合建模方法 :提出Big Five和HEXACO的联合建模方法,提升了两个框架的识别性能关系探索 :首次在多模态表观人格特质识别中研究Big Five与其他人格特质(HEXACO)的关系数据集贡献 :构建了同时标注Big Five和HEXACO特质的自我介绍视频数据集给定音频-视觉视频输入,联合估计Big Five分数 y ^ = [ y ^ 1 , ⋯ , y ^ 5 ] ⊤ \hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ y ^ = [ y ^ 1 , ⋯ , y ^ 5 ] ⊤ 和HEXACO分数 z ^ = [ z ^ 1 , ⋯ , z ^ 6 ] ⊤ \hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤ z ^ = [ z ^ 1 , ⋯ , z ^ 6 ] ⊤ :
{ y ^ , z ^ } = F ( S , U ; Θ ) \{\hat{y}, \hat{z}\} = F(S, U; \Theta) { y ^ , z ^ } = F ( S , U ; Θ )
其中S S S 为音频特征,U U U 为视觉特征,Θ \Theta Θ 为可训练参数集。
模型包含四个编码器:音频编码器、文本编码器、视觉编码器和多模态编码器。
特征编码 :音频编码器:S → A S \rightarrow A S → A (音频表示) 文本编码器:W → T W \rightarrow T W → T (文本表示,通过ASR获得) 视觉编码器:U → V U \rightarrow V U → V (视觉表示) 多模态融合 :H₀ = TemporalConcat(A,T,V) # 时序拼接
H'₀ = AddSegment(H₀; θ_segment) # 添加模态分割信息
H = TransformerEnc(H'₀; θ_multi) # Transformer编码
注意力池化 :h = AttentivePooling(H; θ_pool)
联合预测头 :ẑ = Sigmoid(h; θᶻ_head) # HEXACO预测
ŷ = Sigmoid(h; θʸ_head) # Big Five预测
使用平均绝对误差损失进行联合训练:
L = 1 ∣ D ∣ ∑ d = 1 ∣ D ∣ ∣ y ^ d − y d ∣ + 1 ∣ D ∣ ∑ d = 1 ∣ D ∣ ∣ z ^ d − z d ∣ L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d| L = ∣ D ∣ 1 ∑ d = 1 ∣ D ∣ ∣ y ^ d − y d ∣ + ∣ D ∣ 1 ∑ d = 1 ∣ D ∣ ∣ z ^ d − z d ∣
联合优化 :同时优化Big Five和HEXACO识别,利用心理学关系提升性能多模态融合 :使用预训练的Transformer架构处理音频、视觉和文本信息关系建模 :通过共享表示学习Big Five和HEXACO间的潜在关系规模 :10,100个自我介绍视频,1,010名参与者标注 :200名观察者使用50项Big Five问卷和60项HEXACO问卷进行标注划分 :
训练集:9,030个视频(903名参与者) 验证集:500个视频(50名参与者) 测试集:570个视频(57名参与者) 视频特征 :平均时长73.6秒,1280×720分辨率,25fpsPearson相关系数 :衡量预测值与真实值的线性相关性准确率 :采用ChaLearn第一印象挑战赛的计算方式:
Accuracy k = 1 − 1 D ∑ d = 1 D ∣ y ^ d k − y d k ∣ \text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k| Accuracy k = 1 − D 1 ∑ d = 1 D ∣ y ^ d k − y d k ∣ Big Five专用模型 HEXACO专用模型 联合模型(提出方法) 音频特征 :80维log Mel滤波器组系数,10ms帧移视觉特征 :CenterNet人脸检测,128×128裁剪,3fps下采样预训练 :音频编码器(20K小时日语语音),文本编码器(100G tokens),视觉编码器(RAF-DB和AffectNet)训练 :批大小8,dropout 0.1,RAdam优化器,NVIDIA A6000 GPU模态组合 开放性 尽责性 外向性 宜人性 神经质 音频(联合) 0.542/94.4 0.614/93.3 0.707/91.6 0.576/93.4 0.530/93.8 音频+视觉+文本(联合) 0.595/94.8 0.686/93.9 0.757/92.6 0.657/94.0 0.586/94.2 人类评估 0.544/92.9 0.668/92.7 0.770/91.7 0.645/92.4 0.532/92.1
模态组合 诚实-谦逊 情绪性 外向性 宜人性 尽责性 开放性 音频(联合) 0.482/95.2 0.639/95.6 0.660/92.9 0.469/94.0 0.549/94.1 0.454/93.7 音频+视觉+文本(联合) 0.504/95.2 0.645/95.6 0.707/93.2 0.576/94.3 0.579/94.2 0.608/94.4
联合建模优势 :联合模型在大多数情况下优于专用模型模态贡献 :音频特征最有效,视觉特征在宜人性识别中相对有效性能对比 :自动识别性能接近人类评估水平实验结果显示,联合模型学习到的相关性模式与心理学预期基本一致,但在某些特质上相关性被过度捕获,这表明模型虽然达到了人类水平的识别性能,但未能完全复现人类的印象感知方式。
早期研究主要使用手工特征 近期深度学习方法广泛应用,如深度残差网络、端到端方法等 大多数研究聚焦于Big Five框架 HEXACO作为Big Five的替代框架,包含六个维度 诚实-谦逊维度与多种负面行为因素负相关 此前仅有一项研究从社交媒体文本推断自报HEXACO特质 联合建模Big Five和HEXACO能够有效提升两个框架的识别性能 多模态信息融合对人格特质识别至关重要 自动识别性能可达到人类评估水平 相关性偏差 :模型过度捕获了Big Five和HEXACO间的相关性,未能完全复现人类感知模式数据局限 :数据集仅包含日语自我介绍视频,泛化性有待验证文化差异 :未考虑不同文化背景下的人格特质表达差异改进模型以更好地复现人类对Big Five和HEXACO相关性的感知 扩展到更多语言和文化背景 探索其他人格框架的联合建模 创新性强 :首次将HEXACO引入多模态人格特质识别,填补了研究空白方法合理 :联合建模思路符合心理学理论,技术实现完善实验充分 :构建了大规模标注数据集,实验设置合理,结果具有说服力实用价值 :达到人类评估水平,具有实际应用潜力理论深度 :对Big Five和HEXACO关系的机器学习建模缺乏深入的理论分析泛化性 :仅在日语数据上验证,跨语言、跨文化的泛化性未知解释性 :模型的可解释性有限,难以理解具体的决策机制学术贡献 :为多模态人格计算开辟新方向,推动跨学科研究实用价值 :可应用于人力资源、教育评估、心理健康等领域数据贡献 :提供的双标注数据集对后续研究具有重要价值人力资源 :招聘面试中的人格评估教育领域 :学生个性化教学和心理健康监测社交媒体 :用户画像和内容推荐心理健康 :辅助心理诊断和治疗论文引用了36篇相关文献,涵盖人格心理学理论、多模态学习、深度学习等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价 :这是一篇高质量的跨学科研究论文,在多模态人格计算领域具有重要的开创性意义。虽然在理论深度和泛化性方面还有提升空间,但其创新性和实用价值使其成为该领域的重要贡献。