2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.
This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
academic

Modellazione Congiunta di Big Five e HEXACO per il Riconoscimento Multimodale dei Tratti di Personalità Apparente

Informazioni Fondamentali

  • ID Articolo: 2510.14203
  • Titolo: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
  • Autori: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Giappone)
  • Classificazione: cs.CV cs.CL cs.MM
  • Data di Pubblicazione: 16 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.14203

Riassunto

Il presente articolo propone un metodo di modellazione congiunta che combina il modello Big Five, oggetto di ricerca a lungo termine, con il modello HEXACO, recentemente oggetto di attenzione nella psicologia, per il riconoscimento automatico dei tratti di personalità apparente dal comportamento umano multimodale. Le ricerche precedenti hanno principalmente utilizzato il Big Five per il riconoscimento multimodale della personalità apparente, ma nessuno studio ha affrontato l'HEXACO apparente, il quale è in grado di valutare il tratto di onestà-umiltà correlato all'aggressività spostata, alla mentalità vendicativa, all'orientamento al dominio sociale e ad altri fattori. Inoltre, la relazione tra Big Five e HEXACO nella modellazione dell'apprendimento automatico non è stata ancora chiarita. Considerando queste relazioni, gli autori si aspettano di migliorare la capacità percettiva del comportamento umano multimodale.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: La ricerca esistente sul riconoscimento multimodale dei tratti di personalità si concentra principalmente su Big Five, mancando di attenzione verso HEXACO (in particolare la dimensione onestà-umiltà)
  2. Importanza: Il tratto onestà-umiltà in HEXACO mostra una forte correlazione negativa con l'aggressività spostata, la mentalità vendicativa, l'orientamento al dominio sociale, i comportamenti scorretti sul lavoro e altri fattori, possedendo un significato psicologico importante
  3. Limitazioni Esistenti:
    • Mancanza di ricerche sul riconoscimento multimodale dei tratti HEXACO apparenti
    • La relazione tra Big Five e HEXACO nella modellazione dell'apprendimento automatico non è stata sufficientemente esplorata
    • I dataset esistenti sono principalmente progettati per Big Five

Motivazione della Ricerca

Attraverso la modellazione congiunta di Big Five e HEXACO, sfruttando le relazioni psicologiche tra i due framework, migliorare la robustezza e l'accuratezza del riconoscimento multimodale dei tratti di personalità.

Contributi Fondamentali

  1. Prima Ricerca: Primo studio sul riconoscimento multimodale dei tratti di personalità HEXACO apparente
  2. Metodo di Modellazione Congiunta: Propone un metodo di modellazione congiunta di Big Five e HEXACO, migliorando le prestazioni di riconoscimento di entrambi i framework
  3. Esplorazione delle Relazioni: Prima ricerca sulla relazione tra Big Five e altri tratti di personalità (HEXACO) nel riconoscimento multimodale della personalità apparente
  4. Contributo al Dataset: Costruzione di un dataset di video di auto-presentazione annotato simultaneamente con tratti Big Five e HEXACO

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato l'input video audio-visivo, stimare congiuntamente i punteggi Big Five y^=[y^1,,y^5]\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ e i punteggi HEXACO z^=[z^1,,z^6]\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤:

{y^,z^}=F(S,U;Θ)\{\hat{y}, \hat{z}\} = F(S, U; \Theta)

dove SS rappresenta le caratteristiche audio, UU rappresenta le caratteristiche visive, e Θ\Theta è l'insieme dei parametri addestrabili.

Architettura del Modello

Architettura Transformer Multimodale

Il modello contiene quattro encoder: encoder audio, encoder testuale, encoder visivo ed encoder multimodale.

  1. Codifica delle Caratteristiche:
    • Encoder audio: SAS \rightarrow A (rappresentazione audio)
    • Encoder testuale: WTW \rightarrow T (rappresentazione testuale, ottenuta tramite ASR)
    • Encoder visivo: UVU \rightarrow V (rappresentazione visiva)
  2. Fusione Multimodale:
    H₀ = TemporalConcat(A,T,V)  # Concatenazione temporale
    H'₀ = AddSegment(H₀; θ_segment)  # Aggiunta informazioni di segmentazione modale
    H = TransformerEnc(H'₀; θ_multi)  # Codifica Transformer
    
  3. Pooling Attentivo:
    h = AttentivePooling(H; θ_pool)
    
  4. Testa di Predizione Congiunta:
    ẑ = Sigmoid(h; θᶻ_head)  # Predizione HEXACO
    ŷ = Sigmoid(h; θʸ_head)  # Predizione Big Five
    

Strategia di Addestramento

Utilizzo della perdita dell'errore assoluto medio per l'addestramento congiunto:

L=1Dd=1Dy^dyd+1Dd=1Dz^dzdL = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|

Punti di Innovazione Tecnica

  1. Ottimizzazione Congiunta: Ottimizzazione simultanea del riconoscimento Big Five e HEXACO, sfruttando le relazioni psicologiche per migliorare le prestazioni
  2. Fusione Multimodale: Utilizzo di architettura Transformer pre-addestrata per elaborare informazioni audio, visive e testuali
  3. Modellazione delle Relazioni: Apprendimento delle relazioni latenti tra Big Five e HEXACO attraverso l'apprendimento di rappresentazioni condivise

Configurazione Sperimentale

Dataset

  • Scala: 10.100 video di auto-presentazione, 1.010 partecipanti
  • Annotazione: 200 osservatori hanno utilizzato questionari Big Five a 50 item e questionari HEXACO a 60 item per l'annotazione
  • Divisione:
    • Set di addestramento: 9.030 video (903 partecipanti)
    • Set di validazione: 500 video (50 partecipanti)
    • Set di test: 570 video (57 partecipanti)
  • Caratteristiche Video: Durata media 73,6 secondi, risoluzione 1280×720, 25fps

Metriche di Valutazione

  1. Coefficiente di Correlazione di Pearson: Misura la correlazione lineare tra valori predetti e valori reali
  2. Accuratezza: Calcolata secondo il metodo della sfida ChaLearn First Impression: Accuracyk=11Dd=1Dy^dkydk\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|

Metodi di Confronto

  • Modello dedicato Big Five
  • Modello dedicato HEXACO
  • Modello congiunto (metodo proposto)

Dettagli di Implementazione

  • Caratteristiche Audio: Coefficienti del filtro Mel logaritmico a 80 dimensioni, spostamento di frame di 10ms
  • Caratteristiche Visive: Rilevamento volti CenterNet, ritaglio 128×128, sottocampionamento a 3fps
  • Pre-addestramento: Encoder audio (20K ore di linguaggio parlato giapponese), encoder testuale (100G token), encoder visivo (RAF-DB e AffectNet)
  • Addestramento: Dimensione batch 8, dropout 0,1, ottimizzatore RAdam, GPU NVIDIA A6000

Risultati Sperimentali

Risultati Principali

Prestazioni di Riconoscimento Big Five

Combinazione ModaleAperturaCoscienziositàEstroversioneGradevolezzaNevroticismo
Audio (congiunto)0.542/94.40.614/93.30.707/91.60.576/93.40.530/93.8
Audio+Visivo+Testo (congiunto)0.595/94.80.686/93.90.757/92.60.657/94.00.586/94.2
Valutazione Umana0.544/92.90.668/92.70.770/91.70.645/92.40.532/92.1

Prestazioni di Riconoscimento HEXACO

Combinazione ModaleOnestà-UmiltàEmotivitàEstroversioneGradevolezzaCoscienziositàApertura
Audio (congiunto)0.482/95.20.639/95.60.660/92.90.469/94.00.549/94.10.454/93.7
Audio+Visivo+Testo (congiunto)0.504/95.20.645/95.60.707/93.20.576/94.30.579/94.20.608/94.4

Scoperte Chiave

  1. Vantaggi della Modellazione Congiunta: Il modello congiunto supera il modello dedicato nella maggior parte dei casi
  2. Contributo Modale: Le caratteristiche audio sono più efficaci, mentre le caratteristiche visive sono relativamente efficaci nel riconoscimento della gradevolezza
  3. Confronto Prestazioni: Le prestazioni di riconoscimento automatico sono prossime al livello di valutazione umana

Analisi della Correlazione tra Big Five e HEXACO

I risultati sperimentali mostrano che i modelli di correlazione appresi dal modello congiunto sono sostanzialmente coerenti con le aspettative psicologiche, ma in alcuni tratti la correlazione viene catturata eccessivamente, indicando che sebbene il modello raggiunga prestazioni di riconoscimento a livello umano, non riesce a replicare completamente il modo in cui gli umani percepiscono le impressioni.

Lavori Correlati

Riconoscimento Multimodale dei Tratti di Personalità

  • Le ricerche iniziali hanno principalmente utilizzato caratteristiche costruite manualmente
  • I metodi di apprendimento profondo recenti sono ampiamente applicati, come reti residue profonde, metodi end-to-end, ecc.
  • La maggior parte della ricerca si concentra sul framework Big Five

Ricerca HEXACO

  • HEXACO come framework alternativo a Big Five, contiene sei dimensioni
  • La dimensione onestà-umiltà mostra correlazione negativa con vari fattori di comportamento negativo
  • Precedentemente solo uno studio ha dedotto i tratti HEXACO auto-riferiti dal testo dei social media

Conclusioni e Discussione

Conclusioni Principali

  1. La modellazione congiunta di Big Five e HEXACO può migliorare efficacemente le prestazioni di riconoscimento di entrambi i framework
  2. La fusione di informazioni multimodali è cruciale per il riconoscimento dei tratti di personalità
  3. Le prestazioni di riconoscimento automatico possono raggiungere il livello di valutazione umana

Limitazioni

  1. Deviazione di Correlazione: Il modello cattura eccessivamente la correlazione tra Big Five e HEXACO, non replicando completamente i modelli di percezione umana
  2. Limitazioni dei Dati: Il dataset contiene solo video di auto-presentazione in giapponese, la generalizzabilità rimane da verificare
  3. Differenze Culturali: Non considera le differenze nell'espressione dei tratti di personalità in diversi contesti culturali

Direzioni Future

  1. Migliorare il modello per replicare meglio la percezione umana della correlazione tra Big Five e HEXACO
  2. Estendere a più lingue e contesti culturali
  3. Esplorare la modellazione congiunta di altri framework di personalità

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima introduzione di HEXACO nel riconoscimento multimodale della personalità, colmando un vuoto di ricerca
  2. Metodo Ragionevole: L'approccio di modellazione congiunta è coerente con la teoria psicologica, con implementazione tecnica completa
  3. Esperimenti Completi: Costruzione di un dataset annotato su larga scala, configurazione sperimentale ragionevole, risultati convincenti
  4. Valore Pratico: Raggiungimento del livello di valutazione umana, con potenziale di applicazione pratica

Insufficienze

  1. Profondità Teorica: Mancanza di analisi teorica approfondita sulla modellazione dell'apprendimento automatico della relazione tra Big Five e HEXACO
  2. Generalizzabilità: Verifica solo su dati giapponesi, la generalizzabilità cross-linguistica e cross-culturale rimane sconosciuta
  3. Interpretabilità: Interpretabilità limitata del modello, difficile comprendere i meccanismi decisionali specifici

Impatto

  1. Contributo Accademico: Apre nuove direzioni per il calcolo della personalità multimodale, promuove la ricerca interdisciplinare
  2. Valore Pratico: Applicabile a risorse umane, valutazione educativa, salute mentale e altri campi
  3. Contributo ai Dati: Il dataset con doppia annotazione fornito ha un valore importante per la ricerca successiva

Scenari Applicabili

  1. Risorse Umane: Valutazione della personalità nei colloqui di reclutamento
  2. Ambito Educativo: Insegnamento personalizzato degli studenti e monitoraggio della salute mentale
  3. Social Media: Profilazione utente e raccomandazione di contenuti
  4. Salute Mentale: Supporto alla diagnosi psicologica e al trattamento

Bibliografia

L'articolo cita 37 lavori correlati, coprendo la teoria della psicologia della personalità, l'apprendimento multimodale, l'apprendimento profondo e altri campi importanti, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità e interdisciplinare con un significato pioneristico importante nel campo del calcolo della personalità multimodale. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nella generalizzabilità, la sua innovatività e il suo valore pratico lo rendono un contributo importante a questo campo.