2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.
This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
academic

Modelado Conjunto de Big Five y HEXACO para el Reconocimiento Multimodal de Rasgos de Personalidad Aparente

Información Básica

  • ID del Artículo: 2510.14203
  • Título: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
  • Autores: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japón)
  • Clasificación: cs.CV cs.CL cs.MM
  • Fecha de Publicación: 16 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.14203

Resumen

Este artículo propone un método de modelado conjunto que integra el modelo Big Five, ampliamente investigado, con el modelo HEXACO, recientemente destacado en psicología, para el reconocimiento automático de rasgos de personalidad aparente a partir del comportamiento humano multimodal. Investigaciones previas se han enfocado principalmente en Big Five para el reconocimiento multimodal de personalidad aparente, sin abordar el HEXACO aparente, el cual permite evaluar el rasgo de honestidad-humildad, relacionado con la agresión desplazada, la mentalidad vengativa, la orientación de dominio social y otros factores. Además, la relación entre Big Five y HEXACO en el modelado de aprendizaje automático aún no ha sido claramente establecida. Al considerar estas relaciones, los autores esperan mejorar la capacidad de percepción del comportamiento humano multimodal.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: La investigación existente en reconocimiento multimodal de rasgos de personalidad se centra principalmente en Big Five, careciendo de atención hacia HEXACO (particularmente la dimensión de honestidad-humildad)
  2. Importancia: El rasgo de honestidad-humildad en HEXACO muestra una correlación negativa fuerte con agresión desplazada, mentalidad vengativa, orientación de dominio social, conducta inapropiada en el trabajo y otros factores, poseyendo significancia psicológica importante
  3. Limitaciones Existentes:
    • Falta de investigación en reconocimiento multimodal de rasgos HEXACO aparentes
    • La relación entre Big Five y HEXACO en modelado de aprendizaje automático no ha sido suficientemente explorada
    • Los conjuntos de datos existentes están diseñados principalmente para Big Five

Motivación de la Investigación

Mediante el modelado conjunto de Big Five y HEXACO, aprovechando las relaciones psicológicas entre dos marcos de personalidad, mejorar la robustez y precisión del reconocimiento multimodal de rasgos de personalidad.

Contribuciones Principales

  1. Primer Estudio: Primera investigación sobre reconocimiento multimodal de rasgos de personalidad HEXACO aparente
  2. Método de Modelado Conjunto: Propone un método de modelado conjunto de Big Five y HEXACO que mejora el desempeño de reconocimiento de ambos marcos
  3. Exploración de Relaciones: Primer estudio que investiga la relación entre Big Five y otros rasgos de personalidad (HEXACO) en reconocimiento multimodal de personalidad aparente
  4. Contribución de Conjunto de Datos: Construcción de un conjunto de datos de videos de auto-presentación anotados simultáneamente con rasgos Big Five y HEXACO

Detalles de la Metodología

Definición de la Tarea

Dado un video de entrada audiovisual, estimar conjuntamente las puntuaciones de Big Five y^=[y^1,,y^5]\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ y las puntuaciones de HEXACO z^=[z^1,,z^6]\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤:

{y^,z^}=F(S,U;Θ)\{\hat{y}, \hat{z}\} = F(S, U; \Theta)

donde SS representa características de audio, UU representa características visuales, y Θ\Theta es el conjunto de parámetros entrenables.

Arquitectura del Modelo

Arquitectura Multimodal Transformer

El modelo contiene cuatro codificadores: codificador de audio, codificador de texto, codificador visual y codificador multimodal.

  1. Codificación de Características:
    • Codificador de audio: SAS \rightarrow A (representación de audio)
    • Codificador de texto: WTW \rightarrow T (representación de texto, obtenida mediante ASR)
    • Codificador visual: UVU \rightarrow V (representación visual)
  2. Fusión Multimodal:
    H₀ = TemporalConcat(A,T,V)  # Concatenación temporal
    H'₀ = AddSegment(H₀; θ_segment)  # Agregar información de segmentación modal
    H = TransformerEnc(H'₀; θ_multi)  # Codificación Transformer
    
  3. Agrupamiento por Atención:
    h = AttentivePooling(H; θ_pool)
    
  4. Cabezas de Predicción Conjunta:
    ẑ = Sigmoid(h; θᶻ_head)  # Predicción HEXACO
    ŷ = Sigmoid(h; θʸ_head)  # Predicción Big Five
    

Estrategia de Entrenamiento

Se utiliza pérdida de error absoluto medio para entrenamiento conjunto:

L=1Dd=1Dy^dyd+1Dd=1Dz^dzdL = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|

Puntos de Innovación Técnica

  1. Optimización Conjunta: Optimizar simultáneamente el reconocimiento de Big Five y HEXACO, aprovechando relaciones psicológicas para mejorar el desempeño
  2. Fusión Multimodal: Utilizar arquitectura Transformer preentrenada para procesar información de audio, visual y texto
  3. Modelado de Relaciones: Aprender relaciones latentes entre Big Five y HEXACO mediante aprendizaje de representación compartida

Configuración Experimental

Conjunto de Datos

  • Escala: 10,100 videos de auto-presentación, 1,010 participantes
  • Anotación: 200 observadores utilizando cuestionarios de 50 ítems para Big Five y 60 ítems para HEXACO
  • División:
    • Conjunto de entrenamiento: 9,030 videos (903 participantes)
    • Conjunto de validación: 500 videos (50 participantes)
    • Conjunto de prueba: 570 videos (57 participantes)
  • Características de Video: Duración promedio 73.6 segundos, resolución 1280×720, 25fps

Métricas de Evaluación

  1. Coeficiente de Correlación de Pearson: Mide la correlación lineal entre valores predichos y reales
  2. Precisión: Utilizando el método de cálculo del Desafío de Primera Impresión de ChaLearn: Accuracyk=11Dd=1Dy^dkydk\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|

Métodos de Comparación

  • Modelo especializado en Big Five
  • Modelo especializado en HEXACO
  • Modelo conjunto (método propuesto)

Detalles de Implementación

  • Características de Audio: Coeficientes de banco de filtros Mel logarítmico de 80 dimensiones, cambio de marco de 10ms
  • Características Visuales: Detección de rostro CenterNet, recorte de 128×128, submuestreo a 3fps
  • Preentrenamiento: Codificador de audio (20K horas de habla japonesa), codificador de texto (100G tokens), codificador visual (RAF-DB y AffectNet)
  • Entrenamiento: Tamaño de lote 8, dropout 0.1, optimizador RAdam, GPU NVIDIA A6000

Resultados Experimentales

Resultados Principales

Desempeño de Reconocimiento de Big Five

Combinación ModalAperturaResponsabilidadExtraversiónAmabilidadNeuroticismo
Audio (Conjunto)0.542/94.40.614/93.30.707/91.60.576/93.40.530/93.8
Audio+Visual+Texto (Conjunto)0.595/94.80.686/93.90.757/92.60.657/94.00.586/94.2
Evaluación Humana0.544/92.90.668/92.70.770/91.70.645/92.40.532/92.1

Desempeño de Reconocimiento de HEXACO

Combinación ModalHonestidad-HumildadEmocionalidadExtraversiónAmabilidadResponsabilidadApertura
Audio (Conjunto)0.482/95.20.639/95.60.660/92.90.469/94.00.549/94.10.454/93.7
Audio+Visual+Texto (Conjunto)0.504/95.20.645/95.60.707/93.20.576/94.30.579/94.20.608/94.4

Hallazgos Clave

  1. Ventajas del Modelado Conjunto: El modelo conjunto supera a los modelos especializados en la mayoría de los casos
  2. Contribución Modal: Las características de audio son más efectivas, mientras que las características visuales son relativamente efectivas en el reconocimiento de amabilidad
  3. Comparación de Desempeño: El desempeño de reconocimiento automático se aproxima al nivel de evaluación humana

Análisis de Correlación entre Big Five y HEXACO

Los resultados experimentales muestran que los patrones de correlación aprendidos por el modelo conjunto son básicamente consistentes con las expectativas psicológicas, pero la correlación se captura excesivamente en ciertos rasgos, lo que indica que aunque el modelo alcanza un desempeño de reconocimiento a nivel humano, no reproduce completamente la forma en que los humanos perciben las impresiones.

Trabajo Relacionado

Reconocimiento Multimodal de Rasgos de Personalidad

  • Las investigaciones tempranas utilizaban principalmente características manuales
  • Los métodos de aprendizaje profundo reciente se aplican ampliamente, como redes residuales profundas, métodos de extremo a extremo, etc.
  • La mayoría de las investigaciones se centran en el marco Big Five

Investigación HEXACO

  • HEXACO como marco alternativo a Big Five, contiene seis dimensiones
  • La dimensión de honestidad-humildad muestra correlación negativa con múltiples factores de comportamiento negativo
  • Anteriormente solo había una investigación que infería rasgos HEXACO autorreportados a partir de texto de redes sociales

Conclusiones y Discusión

Conclusiones Principales

  1. El modelado conjunto de Big Five y HEXACO puede mejorar efectivamente el desempeño de reconocimiento de ambos marcos
  2. La fusión de información multimodal es crucial para el reconocimiento de rasgos de personalidad
  3. El desempeño de reconocimiento automático puede alcanzar el nivel de evaluación humana

Limitaciones

  1. Sesgo de Correlación: El modelo captura excesivamente la correlación entre Big Five y HEXACO, sin reproducir completamente los patrones de percepción humana
  2. Limitaciones de Datos: El conjunto de datos contiene solo videos de auto-presentación en japonés, la generalización requiere verificación
  3. Diferencias Culturales: No se consideran las diferencias en la expresión de rasgos de personalidad en diferentes contextos culturales

Direcciones Futuras

  1. Mejorar el modelo para reproducir mejor la percepción humana de la correlación entre Big Five y HEXACO
  2. Extender a más idiomas y contextos culturales
  3. Explorar el modelado conjunto de otros marcos de personalidad

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera introducción de HEXACO en reconocimiento multimodal de rasgos de personalidad, llenando un vacío de investigación
  2. Metodología Razonable: El enfoque de modelado conjunto se alinea con la teoría psicológica, con implementación técnica completa
  3. Experimentación Suficiente: Construcción de conjunto de datos anotado a gran escala, configuración experimental razonable, resultados convincentes
  4. Valor Práctico: Alcanza nivel de evaluación humana, con potencial de aplicación práctica

Insuficiencias

  1. Profundidad Teórica: Falta análisis teórico profundo del modelado de aprendizaje automático de la relación entre Big Five y HEXACO
  2. Generalización: Verificación solo en datos en japonés, la generalización entre idiomas y culturas es desconocida
  3. Interpretabilidad: Interpretabilidad limitada del modelo, difícil de entender mecanismos de decisión específicos

Impacto

  1. Contribución Académica: Abre nuevas direcciones para la computación multimodal de personalidad, promoviendo investigación interdisciplinaria
  2. Valor Práctico: Aplicable en recursos humanos, evaluación educativa, salud mental y otros campos
  3. Contribución de Datos: El conjunto de datos con anotación dual proporciona valor importante para investigación posterior

Escenarios de Aplicación

  1. Recursos Humanos: Evaluación de personalidad en entrevistas de selección
  2. Campo Educativo: Enseñanza personalizada de estudiantes y monitoreo de salud mental
  3. Redes Sociales: Perfiles de usuario y recomendación de contenido
  4. Salud Mental: Asistencia en diagnóstico psicológico y tratamiento

Referencias Bibliográficas

El artículo cita 36 referencias relacionadas, abarcando teoría de psicología de la personalidad, aprendizaje multimodal, aprendizaje profundo y otros múltiples campos, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad e interdisciplinario con significancia pionera importante en el campo de la computación multimodal de personalidad. Aunque hay espacio para mejora en profundidad teórica y generalización, su innovación y valor práctico lo convierten en una contribución importante a este campo.