2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

Modelado Conjunto de Big Five y HEXACO para el Reconocimiento Multimodal de Rasgos de Personalidad Aparente

Información Básica

ID del Artículo: 2510.14203
Título: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
Autores: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japón)
Clasificación: cs.CV cs.CL cs.MM
Fecha de Publicación: 16 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.14203

Resumen

Este artículo propone un método de modelado conjunto que integra el modelo Big Five, ampliamente investigado, con el modelo HEXACO, recientemente destacado en psicología, para el reconocimiento automático de rasgos de personalidad aparente a partir del comportamiento humano multimodal. Investigaciones previas se han enfocado principalmente en Big Five para el reconocimiento multimodal de personalidad aparente, sin abordar el HEXACO aparente, el cual permite evaluar el rasgo de honestidad-humildad, relacionado con la agresión desplazada, la mentalidad vengativa, la orientación de dominio social y otros factores. Además, la relación entre Big Five y HEXACO en el modelado de aprendizaje automático aún no ha sido claramente establecida. Al considerar estas relaciones, los autores esperan mejorar la capacidad de percepción del comportamiento humano multimodal.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: La investigación existente en reconocimiento multimodal de rasgos de personalidad se centra principalmente en Big Five, careciendo de atención hacia HEXACO (particularmente la dimensión de honestidad-humildad)
Importancia: El rasgo de honestidad-humildad en HEXACO muestra una correlación negativa fuerte con agresión desplazada, mentalidad vengativa, orientación de dominio social, conducta inapropiada en el trabajo y otros factores, poseyendo significancia psicológica importante
Limitaciones Existentes:
- Falta de investigación en reconocimiento multimodal de rasgos HEXACO aparentes
- La relación entre Big Five y HEXACO en modelado de aprendizaje automático no ha sido suficientemente explorada
- Los conjuntos de datos existentes están diseñados principalmente para Big Five

Motivación de la Investigación

Mediante el modelado conjunto de Big Five y HEXACO, aprovechando las relaciones psicológicas entre dos marcos de personalidad, mejorar la robustez y precisión del reconocimiento multimodal de rasgos de personalidad.

Contribuciones Principales

Primer Estudio: Primera investigación sobre reconocimiento multimodal de rasgos de personalidad HEXACO aparente
Método de Modelado Conjunto: Propone un método de modelado conjunto de Big Five y HEXACO que mejora el desempeño de reconocimiento de ambos marcos
Exploración de Relaciones: Primer estudio que investiga la relación entre Big Five y otros rasgos de personalidad (HEXACO) en reconocimiento multimodal de personalidad aparente
Contribución de Conjunto de Datos: Construcción de un conjunto de datos de videos de auto-presentación anotados simultáneamente con rasgos Big Five y HEXACO

Detalles de la Metodología

Definición de la Tarea

Dado un video de entrada audiovisual, estimar conjuntamente las puntuaciones de Big Five $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ y las puntuaciones de HEXACO $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ :

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

donde $S$ representa características de audio, $U$ representa características visuales, y $\Theta$ es el conjunto de parámetros entrenables.

Arquitectura del Modelo

Arquitectura Multimodal Transformer

El modelo contiene cuatro codificadores: codificador de audio, codificador de texto, codificador visual y codificador multimodal.

Codificación de Características:
- Codificador de audio: $S \rightarrow A$ (representación de audio)
- Codificador de texto: $W \rightarrow T$ (representación de texto, obtenida mediante ASR)
- Codificador visual: $U \rightarrow V$ (representación visual)

Fusión Multimodal:

H₀ = TemporalConcat(A,T,V)  # Concatenación temporal
H'₀ = AddSegment(H₀; θ_segment)  # Agregar información de segmentación modal
H = TransformerEnc(H'₀; θ_multi)  # Codificación Transformer

Agrupamiento por Atención:
```
h = AttentivePooling(H; θ_pool)
```

Cabezas de Predicción Conjunta:

ẑ = Sigmoid(h; θᶻ_head)  # Predicción HEXACO
ŷ = Sigmoid(h; θʸ_head)  # Predicción Big Five

Estrategia de Entrenamiento

Se utiliza pérdida de error absoluto medio para entrenamiento conjunto:

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

Puntos de Innovación Técnica

Optimización Conjunta: Optimizar simultáneamente el reconocimiento de Big Five y HEXACO, aprovechando relaciones psicológicas para mejorar el desempeño
Fusión Multimodal: Utilizar arquitectura Transformer preentrenada para procesar información de audio, visual y texto
Modelado de Relaciones: Aprender relaciones latentes entre Big Five y HEXACO mediante aprendizaje de representación compartida

Configuración Experimental

Conjunto de Datos

Escala: 10,100 videos de auto-presentación, 1,010 participantes
Anotación: 200 observadores utilizando cuestionarios de 50 ítems para Big Five y 60 ítems para HEXACO
División:
- Conjunto de entrenamiento: 9,030 videos (903 participantes)
- Conjunto de validación: 500 videos (50 participantes)
- Conjunto de prueba: 570 videos (57 participantes)
Características de Video: Duración promedio 73.6 segundos, resolución 1280×720, 25fps

Métricas de Evaluación

Coeficiente de Correlación de Pearson: Mide la correlación lineal entre valores predichos y reales
Precisión: Utilizando el método de cálculo del Desafío de Primera Impresión de ChaLearn: $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

Métodos de Comparación

Modelo especializado en Big Five
Modelo especializado en HEXACO
Modelo conjunto (método propuesto)

Detalles de Implementación

Características de Audio: Coeficientes de banco de filtros Mel logarítmico de 80 dimensiones, cambio de marco de 10ms
Características Visuales: Detección de rostro CenterNet, recorte de 128×128, submuestreo a 3fps
Preentrenamiento: Codificador de audio (20K horas de habla japonesa), codificador de texto (100G tokens), codificador visual (RAF-DB y AffectNet)
Entrenamiento: Tamaño de lote 8, dropout 0.1, optimizador RAdam, GPU NVIDIA A6000

Resultados Experimentales

Resultados Principales

Desempeño de Reconocimiento de Big Five

Combinación Modal	Apertura	Responsabilidad	Extraversión	Amabilidad	Neuroticismo
Audio (Conjunto)	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
Audio+Visual+Texto (Conjunto)	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
Evaluación Humana	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

Desempeño de Reconocimiento de HEXACO

Combinación Modal	Honestidad-Humildad	Emocionalidad	Extraversión	Amabilidad	Responsabilidad	Apertura
Audio (Conjunto)	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
Audio+Visual+Texto (Conjunto)	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4

Hallazgos Clave

Ventajas del Modelado Conjunto: El modelo conjunto supera a los modelos especializados en la mayoría de los casos
Contribución Modal: Las características de audio son más efectivas, mientras que las características visuales son relativamente efectivas en el reconocimiento de amabilidad
Comparación de Desempeño: El desempeño de reconocimiento automático se aproxima al nivel de evaluación humana

Análisis de Correlación entre Big Five y HEXACO

Los resultados experimentales muestran que los patrones de correlación aprendidos por el modelo conjunto son básicamente consistentes con las expectativas psicológicas, pero la correlación se captura excesivamente en ciertos rasgos, lo que indica que aunque el modelo alcanza un desempeño de reconocimiento a nivel humano, no reproduce completamente la forma en que los humanos perciben las impresiones.

Trabajo Relacionado

Reconocimiento Multimodal de Rasgos de Personalidad

Las investigaciones tempranas utilizaban principalmente características manuales
Los métodos de aprendizaje profundo reciente se aplican ampliamente, como redes residuales profundas, métodos de extremo a extremo, etc.
La mayoría de las investigaciones se centran en el marco Big Five

Investigación HEXACO

HEXACO como marco alternativo a Big Five, contiene seis dimensiones
La dimensión de honestidad-humildad muestra correlación negativa con múltiples factores de comportamiento negativo
Anteriormente solo había una investigación que infería rasgos HEXACO autorreportados a partir de texto de redes sociales

Conclusiones y Discusión

Conclusiones Principales

El modelado conjunto de Big Five y HEXACO puede mejorar efectivamente el desempeño de reconocimiento de ambos marcos
La fusión de información multimodal es crucial para el reconocimiento de rasgos de personalidad
El desempeño de reconocimiento automático puede alcanzar el nivel de evaluación humana

Limitaciones

Sesgo de Correlación: El modelo captura excesivamente la correlación entre Big Five y HEXACO, sin reproducir completamente los patrones de percepción humana
Limitaciones de Datos: El conjunto de datos contiene solo videos de auto-presentación en japonés, la generalización requiere verificación
Diferencias Culturales: No se consideran las diferencias en la expresión de rasgos de personalidad en diferentes contextos culturales

Direcciones Futuras

Mejorar el modelo para reproducir mejor la percepción humana de la correlación entre Big Five y HEXACO
Extender a más idiomas y contextos culturales
Explorar el modelado conjunto de otros marcos de personalidad

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera introducción de HEXACO en reconocimiento multimodal de rasgos de personalidad, llenando un vacío de investigación
Metodología Razonable: El enfoque de modelado conjunto se alinea con la teoría psicológica, con implementación técnica completa
Experimentación Suficiente: Construcción de conjunto de datos anotado a gran escala, configuración experimental razonable, resultados convincentes
Valor Práctico: Alcanza nivel de evaluación humana, con potencial de aplicación práctica

Insuficiencias

Profundidad Teórica: Falta análisis teórico profundo del modelado de aprendizaje automático de la relación entre Big Five y HEXACO
Generalización: Verificación solo en datos en japonés, la generalización entre idiomas y culturas es desconocida
Interpretabilidad: Interpretabilidad limitada del modelo, difícil de entender mecanismos de decisión específicos

Impacto

Contribución Académica: Abre nuevas direcciones para la computación multimodal de personalidad, promoviendo investigación interdisciplinaria
Valor Práctico: Aplicable en recursos humanos, evaluación educativa, salud mental y otros campos
Contribución de Datos: El conjunto de datos con anotación dual proporciona valor importante para investigación posterior

Escenarios de Aplicación

Recursos Humanos: Evaluación de personalidad en entrevistas de selección
Campo Educativo: Enseñanza personalizada de estudiantes y monitoreo de salud mental
Redes Sociales: Perfiles de usuario y recomendación de contenido
Salud Mental: Asistencia en diagnóstico psicológico y tratamiento

Referencias Bibliográficas

El artículo cita 36 referencias relacionadas, abarcando teoría de psicología de la personalidad, aprendizaje multimodal, aprendizaje profundo y otros múltiples campos, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad e interdisciplinario con significancia pionera importante en el campo de la computación multimodal de personalidad. Aunque hay espacio para mejora en profundidad teórica y generalización, su innovación y valor práctico lo convierten en una contribución importante a este campo.