2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.
This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
academic

Gemeinsame Modellierung von Big Five und HEXACO zur multimodalen Erkennung von Persönlichkeitsmerkmalen

Grundlegende Informationen

  • Paper-ID: 2510.14203
  • Titel: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
  • Autoren: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
  • Klassifizierung: cs.CV cs.CL cs.MM
  • Veröffentlichungsdatum: 16. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.14203

Zusammenfassung

In diesem Artikel wird eine gemeinsame Modellierungsmethode vorgestellt, die das lange erforschte Big-Five-Persönlichkeitsmerkmal-Modell und das in der Psychologie kürzlich beachtete HEXACO-Persönlichkeitsmerkmal-Modell kombiniert, um die wahrgenommenen Persönlichkeitsmerkmale aus multimodalen menschlichen Verhaltensweisen automatisch zu erkennen. Bisherige Forschungen konzentrierten sich hauptsächlich auf Big Five für die multimodale Erkennung wahrgenommener Persönlichkeitsmerkmale, ohne die wahrgenommenen HEXACO-Merkmale zu untersuchen. HEXACO kann jedoch das Merkmal der Ehrlichkeit-Demut bewerten, das mit versetzter Aggressivität, Rachsucht, sozialer Dominanzorientierung und anderen Faktoren zusammenhängt. Darüber hinaus ist die Beziehung zwischen Big Five und HEXACO in der maschinellen Lernmodellierung noch nicht klar. Durch Berücksichtigung dieser Beziehungen erwarten die Autoren, die Wahrnehmungsfähigkeit für multimodale menschliche Verhaltensweisen zu verbessern.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bestehende Forschungen zur multimodalen Erkennung von Persönlichkeitsmerkmalen konzentrieren sich hauptsächlich auf Big Five und vernachlässigen HEXACO (insbesondere die Dimension Ehrlichkeit-Demut)
  2. Bedeutung: Das Merkmal Ehrlichkeit-Demut in HEXACO zeigt starke negative Korrelationen mit versetzter Aggressivität, Rachsucht, sozialer Dominanzorientierung und unangemessenem Verhalten am Arbeitsplatz und hat wichtige psychologische Bedeutung
  3. Bestehende Einschränkungen:
    • Mangel an Forschungen zur multimodalen Erkennung wahrgenommener HEXACO-Merkmale
    • Die Beziehung zwischen Big Five und HEXACO in der maschinellen Lernmodellierung wurde nicht ausreichend erforscht
    • Bestehende Datensätze sind hauptsächlich für Big Five konzipiert

Forschungsmotivation

Durch gemeinsame Modellierung von Big Five und HEXACO unter Nutzung der psychologischen Beziehungen zwischen den beiden Persönlichkeitsrahmen die Robustheit und Genauigkeit der multimodalen Erkennung von Persönlichkeitsmerkmalen verbessern.

Kernbeiträge

  1. Erste Forschung: Erste Forschung zur multimodalen Erkennung wahrgenommener HEXACO-Persönlichkeitsmerkmale
  2. Gemeinsame Modellierungsmethode: Vorschlag einer gemeinsamen Modellierungsmethode für Big Five und HEXACO, die die Erkennungsleistung beider Rahmen verbessert
  3. Beziehungserkundung: Erste Untersuchung der Beziehung zwischen Big Five und anderen Persönlichkeitsmerkmalen (HEXACO) in der multimodalen Erkennung wahrgenommener Persönlichkeitsmerkmale
  4. Datensatzbeitrag: Konstruktion eines Datensatzes von Selbstvorstellungsvideos mit gleichzeitiger Annotation von Big-Five- und HEXACO-Merkmalen

Methodische Erläuterung

Aufgabendefinition

Gegeben eine Audio-Bild-Videoeingabe, gemeinsame Schätzung von Big-Five-Scores y^=[y^1,,y^5]\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ und HEXACO-Scores z^=[z^1,,z^6]\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤:

{y^,z^}=F(S,U;Θ)\{\hat{y}, \hat{z}\} = F(S, U; \Theta)

wobei SS Audio-Merkmale, UU visuelle Merkmale und Θ\Theta die Menge der trainierbaren Parameter darstellt.

Modellarchitektur

Multimodale Transformer-Architektur

Das Modell enthält vier Encoder: Audio-Encoder, Text-Encoder, visueller Encoder und multimodaler Encoder.

  1. Merkmalskodierung:
    • Audio-Encoder: SAS \rightarrow A (Audio-Darstellung)
    • Text-Encoder: WTW \rightarrow T (Text-Darstellung, über ASR gewonnen)
    • Visueller Encoder: UVU \rightarrow V (visuelle Darstellung)
  2. Multimodale Fusion:
    H₀ = TemporalConcat(A,T,V)  # Zeitliche Verkettung
    H'₀ = AddSegment(H₀; θ_segment)  # Modalitätssegmentierungsinformationen hinzufügen
    H = TransformerEnc(H'₀; θ_multi)  # Transformer-Kodierung
    
  3. Aufmerksamkeits-Pooling:
    h = AttentivePooling(H; θ_pool)
    
  4. Gemeinsamer Vorhersagekopf:
    ẑ = Sigmoid(h; θᶻ_head)  # HEXACO-Vorhersage
    ŷ = Sigmoid(h; θʸ_head)  # Big-Five-Vorhersage
    

Trainingsstrategie

Gemeinsames Training mit mittlerem absoluten Fehler-Verlust:

L=1Dd=1Dy^dyd+1Dd=1Dz^dzdL = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|

Technische Innovationspunkte

  1. Gemeinsame Optimierung: Gleichzeitige Optimierung der Big-Five- und HEXACO-Erkennung unter Nutzung psychologischer Beziehungen zur Leistungsverbesserung
  2. Multimodale Fusion: Verwendung vortrainierter Transformer-Architektur zur Verarbeitung von Audio-, Bild- und Textinformationen
  3. Beziehungsmodellierung: Modellierung potenzieller Beziehungen zwischen Big Five und HEXACO durch gemeinsames Repräsentationslernen

Experimentelle Einrichtung

Datensatz

  • Umfang: 10.100 Selbstvorstellungsvideos, 1.010 Teilnehmer
  • Annotation: 200 Beobachter verwenden 50-Item-Big-Five-Fragebogen und 60-Item-HEXACO-Fragebogen
  • Aufteilung:
    • Trainingssatz: 9.030 Videos (903 Teilnehmer)
    • Validierungssatz: 500 Videos (50 Teilnehmer)
    • Testsatz: 570 Videos (57 Teilnehmer)
  • Videomerkmale: Durchschnittliche Dauer 73,6 Sekunden, 1280×720 Auflösung, 25fps

Bewertungsmetriken

  1. Pearson-Korrelationskoeffizient: Messung der linearen Korrelation zwischen vorhergesagten und tatsächlichen Werten
  2. Genauigkeit: Berechnung nach ChaLearn First Impressions Challenge: Accuracyk=11Dd=1Dy^dkydk\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|

Vergleichsmethoden

  • Big-Five-spezifisches Modell
  • HEXACO-spezifisches Modell
  • Gemeinsames Modell (vorgeschlagene Methode)

Implementierungsdetails

  • Audio-Merkmale: 80-dimensionale Log-Mel-Filterbankkoeffizienten, 10ms Frame-Shift
  • Visuelle Merkmale: CenterNet-Gesichtserkennung, 128×128 Zuschnitt, 3fps Unterabtastung
  • Vortraining: Audio-Encoder (20K Stunden japanische Sprache), Text-Encoder (100G Tokens), visueller Encoder (RAF-DB und AffectNet)
  • Training: Batch-Größe 8, Dropout 0,1, RAdam-Optimierer, NVIDIA A6000 GPU

Experimentelle Ergebnisse

Hauptergebnisse

Big-Five-Erkennungsleistung

ModalitätskombinationOffenheitGewissenhaftigkeitExtraversionVerträglichkeitNeurotizismus
Audio (gemeinsam)0,542/94,40,614/93,30,707/91,60,576/93,40,530/93,8
Audio+Bild+Text (gemeinsam)0,595/94,80,686/93,90,757/92,60,657/94,00,586/94,2
Menschliche Bewertung0,544/92,90,668/92,70,770/91,70,645/92,40,532/92,1

HEXACO-Erkennungsleistung

ModalitätskombinationEhrlichkeit-DemutEmotionalitätExtraversionVerträglichkeitGewissenhaftigkeitOffenheit
Audio (gemeinsam)0,482/95,20,639/95,60,660/92,90,469/94,00,549/94,10,454/93,7
Audio+Bild+Text (gemeinsam)0,504/95,20,645/95,60,707/93,20,576/94,30,579/94,20,608/94,4

Wichtige Erkenntnisse

  1. Vorteile der gemeinsamen Modellierung: Das gemeinsame Modell übertrifft in den meisten Fällen spezialisierte Modelle
  2. Modalitätsbeitrag: Audio-Merkmale sind am effektivsten, visuelle Merkmale sind bei der Erkennung von Verträglichkeit relativ wirksam
  3. Leistungsvergleich: Die automatische Erkennungsleistung liegt nahe am Niveau menschlicher Bewertungen

Analyse der Big-Five- und HEXACO-Korrelation

Die experimentellen Ergebnisse zeigen, dass die vom gemeinsamen Modell erlernten Korrelationsmuster grundsätzlich mit psychologischen Erwartungen übereinstimmen, aber bei einigen Merkmalen wird die Korrelation übermäßig erfasst. Dies deutet darauf hin, dass das Modell zwar eine menschliche Erkennungsleistung erreicht, aber nicht vollständig die menschliche Art der Impressionswahrnehmung reproduziert.

Verwandte Arbeiten

Multimodale Erkennung von Persönlichkeitsmerkmalen

  • Frühe Forschungen verwendeten hauptsächlich handgefertigte Merkmale
  • Tiefe Lernmethoden werden in jüngster Zeit weit verbreitet, wie tiefe Residualnetzwerke, End-to-End-Methoden usw.
  • Die meisten Forschungen konzentrieren sich auf das Big-Five-Framework

HEXACO-Forschung

  • HEXACO als alternatives Framework zu Big Five mit sechs Dimensionen
  • Die Dimension Ehrlichkeit-Demut zeigt negative Korrelationen mit verschiedenen negativen Verhaltensfaktoren
  • Bisher gab es nur eine Studie, die selbstberichtete HEXACO-Merkmale aus Social-Media-Text ableitete

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Die gemeinsame Modellierung von Big Five und HEXACO kann die Erkennungsleistung beider Rahmen effektiv verbessern
  2. Die Fusion multimodaler Informationen ist für die Erkennung von Persönlichkeitsmerkmalen von entscheidender Bedeutung
  3. Die automatische Erkennungsleistung kann das Niveau menschlicher Bewertungen erreichen

Einschränkungen

  1. Korrelationsabweichung: Das Modell erfasst übermäßig die Korrelation zwischen Big Five und HEXACO und reproduziert nicht vollständig die menschliche Wahrnehmungsmuster
  2. Datenbeschränkungen: Der Datensatz enthält nur japanische Selbstvorstellungsvideos, und die Verallgemeinerbarkeit muss noch überprüft werden
  3. Kulturelle Unterschiede: Unterschiede in der Ausdrucksweise von Persönlichkeitsmerkmalen in verschiedenen kulturellen Kontexten wurden nicht berücksichtigt

Zukünftige Richtungen

  1. Verbesserung des Modells, um die menschliche Wahrnehmung der Korrelation zwischen Big Five und HEXACO besser zu reproduzieren
  2. Erweiterung auf mehr Sprachen und kulturelle Kontexte
  3. Erkundung der gemeinsamen Modellierung anderer Persönlichkeitsrahmen

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige Einführung von HEXACO in die multimodale Erkennung von Persönlichkeitsmerkmalen, Schließung einer Forschungslücke
  2. Angemessene Methode: Der Gedanke der gemeinsamen Modellierung entspricht der psychologischen Theorie, die technische Umsetzung ist vollständig
  3. Umfassende Experimente: Konstruktion eines großflächigen annotierten Datensatzes, angemessene experimentelle Einrichtung, überzeugende Ergebnisse
  4. Praktischer Wert: Erreicht das Niveau menschlicher Bewertungen mit praktischem Anwendungspotenzial

Mängel

  1. Theoretische Tiefe: Mangelnde tiefe theoretische Analyse der maschinellen Lernmodellierung der Beziehung zwischen Big Five und HEXACO
  2. Verallgemeinerbarkeit: Nur auf japanischen Daten validiert, Verallgemeinerbarkeit über Sprachen und Kulturen hinweg ist unbekannt
  3. Interpretierbarkeit: Begrenzte Interpretierbarkeit des Modells, schwierig zu verstehen, wie spezifische Entscheidungen getroffen werden

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Richtungen für multimodale Persönlichkeitsberechnung, fördert interdisziplinäre Forschung
  2. Praktischer Wert: Kann in Personalwesen, Bildungsbewertung, psychische Gesundheit und anderen Bereichen angewendet werden
  3. Datensatzbeitrag: Der bereitgestellte doppelt annotierte Datensatz hat wichtigen Wert für nachfolgende Forschungen

Anwendungsszenarien

  1. Personalwesen: Persönlichkeitsbewertung bei Einstellungsinterviews
  2. Bildungsbereich: Personalisiertes Lehren und Überwachung der psychischen Gesundheit von Schülern
  3. Soziale Medien: Benutzerprofilerstellung und Inhaltsempfehlung
  4. Psychische Gesundheit: Unterstützung bei psychologischer Diagnose und Behandlung

Referenzen

Das Papier zitiert 36 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen wie Persönlichkeitspsychologie, multimodale Lernverfahren und tiefes Lernen abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier mit wichtiger Pionierarbeit im Bereich der multimodalen Persönlichkeitsberechnung. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und Verallgemeinerbarkeit gibt, machen seine Innovativität und praktischer Wert es zu einem wichtigen Beitrag auf diesem Gebiet.