2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

Modellazione Congiunta di Big Five e HEXACO per il Riconoscimento Multimodale dei Tratti di Personalità Apparente

Informazioni Fondamentali

ID Articolo: 2510.14203
Titolo: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
Autori: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Giappone)
Classificazione: cs.CV cs.CL cs.MM
Data di Pubblicazione: 16 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.14203

Riassunto

Il presente articolo propone un metodo di modellazione congiunta che combina il modello Big Five, oggetto di ricerca a lungo termine, con il modello HEXACO, recentemente oggetto di attenzione nella psicologia, per il riconoscimento automatico dei tratti di personalità apparente dal comportamento umano multimodale. Le ricerche precedenti hanno principalmente utilizzato il Big Five per il riconoscimento multimodale della personalità apparente, ma nessuno studio ha affrontato l'HEXACO apparente, il quale è in grado di valutare il tratto di onestà-umiltà correlato all'aggressività spostata, alla mentalità vendicativa, all'orientamento al dominio sociale e ad altri fattori. Inoltre, la relazione tra Big Five e HEXACO nella modellazione dell'apprendimento automatico non è stata ancora chiarita. Considerando queste relazioni, gli autori si aspettano di migliorare la capacità percettiva del comportamento umano multimodale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: La ricerca esistente sul riconoscimento multimodale dei tratti di personalità si concentra principalmente su Big Five, mancando di attenzione verso HEXACO (in particolare la dimensione onestà-umiltà)
Importanza: Il tratto onestà-umiltà in HEXACO mostra una forte correlazione negativa con l'aggressività spostata, la mentalità vendicativa, l'orientamento al dominio sociale, i comportamenti scorretti sul lavoro e altri fattori, possedendo un significato psicologico importante
Limitazioni Esistenti:
- Mancanza di ricerche sul riconoscimento multimodale dei tratti HEXACO apparenti
- La relazione tra Big Five e HEXACO nella modellazione dell'apprendimento automatico non è stata sufficientemente esplorata
- I dataset esistenti sono principalmente progettati per Big Five

Motivazione della Ricerca

Attraverso la modellazione congiunta di Big Five e HEXACO, sfruttando le relazioni psicologiche tra i due framework, migliorare la robustezza e l'accuratezza del riconoscimento multimodale dei tratti di personalità.

Contributi Fondamentali

Prima Ricerca: Primo studio sul riconoscimento multimodale dei tratti di personalità HEXACO apparente
Metodo di Modellazione Congiunta: Propone un metodo di modellazione congiunta di Big Five e HEXACO, migliorando le prestazioni di riconoscimento di entrambi i framework
Esplorazione delle Relazioni: Prima ricerca sulla relazione tra Big Five e altri tratti di personalità (HEXACO) nel riconoscimento multimodale della personalità apparente
Contributo al Dataset: Costruzione di un dataset di video di auto-presentazione annotato simultaneamente con tratti Big Five e HEXACO

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato l'input video audio-visivo, stimare congiuntamente i punteggi Big Five $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ e i punteggi HEXACO $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ :

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

dove $S$ rappresenta le caratteristiche audio, $U$ rappresenta le caratteristiche visive, e $\Theta$ è l'insieme dei parametri addestrabili.

Architettura del Modello

Architettura Transformer Multimodale

Il modello contiene quattro encoder: encoder audio, encoder testuale, encoder visivo ed encoder multimodale.

Codifica delle Caratteristiche:
- Encoder audio: $S \rightarrow A$ (rappresentazione audio)
- Encoder testuale: $W \rightarrow T$ (rappresentazione testuale, ottenuta tramite ASR)
- Encoder visivo: $U \rightarrow V$ (rappresentazione visiva)

Fusione Multimodale:

H₀ = TemporalConcat(A,T,V)  # Concatenazione temporale
H'₀ = AddSegment(H₀; θ_segment)  # Aggiunta informazioni di segmentazione modale
H = TransformerEnc(H'₀; θ_multi)  # Codifica Transformer

Pooling Attentivo:
```
h = AttentivePooling(H; θ_pool)
```

Testa di Predizione Congiunta:

ẑ = Sigmoid(h; θᶻ_head)  # Predizione HEXACO
ŷ = Sigmoid(h; θʸ_head)  # Predizione Big Five

Strategia di Addestramento

Utilizzo della perdita dell'errore assoluto medio per l'addestramento congiunto:

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

Punti di Innovazione Tecnica

Ottimizzazione Congiunta: Ottimizzazione simultanea del riconoscimento Big Five e HEXACO, sfruttando le relazioni psicologiche per migliorare le prestazioni
Fusione Multimodale: Utilizzo di architettura Transformer pre-addestrata per elaborare informazioni audio, visive e testuali
Modellazione delle Relazioni: Apprendimento delle relazioni latenti tra Big Five e HEXACO attraverso l'apprendimento di rappresentazioni condivise

Configurazione Sperimentale

Dataset

Scala: 10.100 video di auto-presentazione, 1.010 partecipanti
Annotazione: 200 osservatori hanno utilizzato questionari Big Five a 50 item e questionari HEXACO a 60 item per l'annotazione
Divisione:
- Set di addestramento: 9.030 video (903 partecipanti)
- Set di validazione: 500 video (50 partecipanti)
- Set di test: 570 video (57 partecipanti)
Caratteristiche Video: Durata media 73,6 secondi, risoluzione 1280×720, 25fps

Metriche di Valutazione

Coefficiente di Correlazione di Pearson: Misura la correlazione lineare tra valori predetti e valori reali
Accuratezza: Calcolata secondo il metodo della sfida ChaLearn First Impression: $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

Metodi di Confronto

Modello dedicato Big Five
Modello dedicato HEXACO
Modello congiunto (metodo proposto)

Dettagli di Implementazione

Caratteristiche Audio: Coefficienti del filtro Mel logaritmico a 80 dimensioni, spostamento di frame di 10ms
Caratteristiche Visive: Rilevamento volti CenterNet, ritaglio 128×128, sottocampionamento a 3fps
Pre-addestramento: Encoder audio (20K ore di linguaggio parlato giapponese), encoder testuale (100G token), encoder visivo (RAF-DB e AffectNet)
Addestramento: Dimensione batch 8, dropout 0,1, ottimizzatore RAdam, GPU NVIDIA A6000

Risultati Sperimentali

Risultati Principali

Prestazioni di Riconoscimento Big Five

Combinazione Modale	Apertura	Coscienziosità	Estroversione	Gradevolezza	Nevroticismo
Audio (congiunto)	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
Audio+Visivo+Testo (congiunto)	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
Valutazione Umana	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

Prestazioni di Riconoscimento HEXACO

Combinazione Modale	Onestà-Umiltà	Emotività	Estroversione	Gradevolezza	Coscienziosità	Apertura
Audio (congiunto)	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
Audio+Visivo+Testo (congiunto)	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4

Scoperte Chiave

Vantaggi della Modellazione Congiunta: Il modello congiunto supera il modello dedicato nella maggior parte dei casi
Contributo Modale: Le caratteristiche audio sono più efficaci, mentre le caratteristiche visive sono relativamente efficaci nel riconoscimento della gradevolezza
Confronto Prestazioni: Le prestazioni di riconoscimento automatico sono prossime al livello di valutazione umana

Analisi della Correlazione tra Big Five e HEXACO

I risultati sperimentali mostrano che i modelli di correlazione appresi dal modello congiunto sono sostanzialmente coerenti con le aspettative psicologiche, ma in alcuni tratti la correlazione viene catturata eccessivamente, indicando che sebbene il modello raggiunga prestazioni di riconoscimento a livello umano, non riesce a replicare completamente il modo in cui gli umani percepiscono le impressioni.

Lavori Correlati

Riconoscimento Multimodale dei Tratti di Personalità

Le ricerche iniziali hanno principalmente utilizzato caratteristiche costruite manualmente
I metodi di apprendimento profondo recenti sono ampiamente applicati, come reti residue profonde, metodi end-to-end, ecc.
La maggior parte della ricerca si concentra sul framework Big Five

Ricerca HEXACO

HEXACO come framework alternativo a Big Five, contiene sei dimensioni
La dimensione onestà-umiltà mostra correlazione negativa con vari fattori di comportamento negativo
Precedentemente solo uno studio ha dedotto i tratti HEXACO auto-riferiti dal testo dei social media

Conclusioni e Discussione

Conclusioni Principali

La modellazione congiunta di Big Five e HEXACO può migliorare efficacemente le prestazioni di riconoscimento di entrambi i framework
La fusione di informazioni multimodali è cruciale per il riconoscimento dei tratti di personalità
Le prestazioni di riconoscimento automatico possono raggiungere il livello di valutazione umana

Limitazioni

Deviazione di Correlazione: Il modello cattura eccessivamente la correlazione tra Big Five e HEXACO, non replicando completamente i modelli di percezione umana
Limitazioni dei Dati: Il dataset contiene solo video di auto-presentazione in giapponese, la generalizzabilità rimane da verificare
Differenze Culturali: Non considera le differenze nell'espressione dei tratti di personalità in diversi contesti culturali

Direzioni Future

Migliorare il modello per replicare meglio la percezione umana della correlazione tra Big Five e HEXACO
Estendere a più lingue e contesti culturali
Esplorare la modellazione congiunta di altri framework di personalità

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima introduzione di HEXACO nel riconoscimento multimodale della personalità, colmando un vuoto di ricerca
Metodo Ragionevole: L'approccio di modellazione congiunta è coerente con la teoria psicologica, con implementazione tecnica completa
Esperimenti Completi: Costruzione di un dataset annotato su larga scala, configurazione sperimentale ragionevole, risultati convincenti
Valore Pratico: Raggiungimento del livello di valutazione umana, con potenziale di applicazione pratica

Insufficienze

Profondità Teorica: Mancanza di analisi teorica approfondita sulla modellazione dell'apprendimento automatico della relazione tra Big Five e HEXACO
Generalizzabilità: Verifica solo su dati giapponesi, la generalizzabilità cross-linguistica e cross-culturale rimane sconosciuta
Interpretabilità: Interpretabilità limitata del modello, difficile comprendere i meccanismi decisionali specifici

Impatto

Contributo Accademico: Apre nuove direzioni per il calcolo della personalità multimodale, promuove la ricerca interdisciplinare
Valore Pratico: Applicabile a risorse umane, valutazione educativa, salute mentale e altri campi
Contributo ai Dati: Il dataset con doppia annotazione fornito ha un valore importante per la ricerca successiva

Scenari Applicabili

Risorse Umane: Valutazione della personalità nei colloqui di reclutamento
Ambito Educativo: Insegnamento personalizzato degli studenti e monitoraggio della salute mentale
Social Media: Profilazione utente e raccomandazione di contenuti
Salute Mentale: Supporto alla diagnosi psicologica e al trattamento

Bibliografia

L'articolo cita 37 lavori correlati, coprendo la teoria della psicologia della personalità, l'apprendimento multimodale, l'apprendimento profondo e altri campi importanti, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità e interdisciplinare con un significato pioneristico importante nel campo del calcolo della personalità multimodale. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nella generalizzabilità, la sua innovatività e il suo valore pratico lo rendono un contributo importante a questo campo.