2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

Big Five और HEXACO का संयुक्त मॉडलिंग बहुविध स्पष्ट व्यक्तित्व-विशेषता पहचान के लिए

मूल जानकारी

पेपर ID: 2510.14203
शीर्षक: Big Five और HEXACO का संयुक्त मॉडलिंग बहुविध स्पष्ट व्यक्तित्व-विशेषता पहचान के लिए
लेखक: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., जापान)
वर्गीकरण: cs.CV cs.CL cs.MM
प्रकाशन तिथि: 16 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.14203

सारांश

यह पेपर एक संयुक्त मॉडलिंग विधि प्रस्तावित करता है जो दीर्घकालीन शोध किए गए Big Five व्यक्तित्व विशेषताओं और हाल ही में मनोविज्ञान में ध्यान आकर्षित करने वाली HEXACO व्यक्तित्व विशेषताओं को जोड़ता है, बहुविध मानव व्यवहार से स्वचालित रूप से स्पष्ट व्यक्तित्व विशेषताओं की पहचान के लिए। पूर्ववर्ती शोध मुख्य रूप से Big Five का उपयोग करके बहुविध स्पष्ट व्यक्तित्व विशेषता पहचान के लिए किया गया है, लेकिन स्पष्ट HEXACO पर कोई शोध ध्यान केंद्रित नहीं किया गया है, जबकि HEXACO विस्थापित आक्रामकता, प्रतिशोधी मनोविज्ञान, सामाजिक प्रभुत्व अभिविन्यास आदि से संबंधित ईमानदारी-विनम्रता विशेषता का मूल्यांकन कर सकता है। इसके अलावा, मशीन लर्निंग मॉडलिंग में Big Five और HEXACO के बीच संबंध अभी तक स्पष्ट नहीं किए गए हैं। इन संबंधों पर विचार करके, लेखक बहुविध मानव व्यवहार के प्रति संवेदनशीलता में सुधार की अपेक्षा करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: मौजूदा बहुविध व्यक्तित्व विशेषता पहचान अनुसंधान मुख्य रूप से Big Five पर केंद्रित है, HEXACO (विशेषकर ईमानदारी-विनम्रता आयाम) पर ध्यान की कमी है
महत्व: HEXACO में ईमानदारी-विनम्रता विशेषता विस्थापित आक्रामकता, प्रतिशोधी मनोविज्ञान, सामाजिक प्रभुत्व अभिविन्यास, कार्यस्थल के अनुचित आचरण आदि कारकों के साथ दृढ़ता से नकारात्मक रूप से संबंधित है, जिसका महत्वपूर्ण मनोवैज्ञानिक महत्व है
मौजूदा सीमाएं:
- स्पष्ट HEXACO विशेषताओं की बहुविध पहचान के लिए शोध की कमी
- मशीन लर्निंग मॉडलिंग में Big Five और HEXACO के बीच संबंध पर्याप्त रूप से अन्वेषित नहीं किए गए हैं
- मौजूदा डेटासेट मुख्य रूप से Big Five के लिए डिज़ाइन किए गए हैं

अनुसंधान प्रेरणा

Big Five और HEXACO को संयुक्त रूप से मॉडल करके, दोनों व्यक्तित्व ढांचों के बीच मनोवैज्ञानिक संबंधों का उपयोग करके, बहुविध व्यक्तित्व विशेषता पहचान की मजबूती और सटीकता में सुधार करना।

मुख्य योगदान

पहला अध्ययन: बहुविध स्पष्ट HEXACO व्यक्तित्व विशेषता पहचान के लिए पहला अनुसंधान
संयुक्त मॉडलिंग विधि: Big Five और HEXACO की संयुक्त मॉडलिंग विधि प्रस्तावित करता है, दोनों ढांचों की पहचान के प्रदर्शन में सुधार करता है
संबंध अन्वेषण: बहुविध स्पष्ट व्यक्तित्व विशेषता पहचान में Big Five और अन्य व्यक्तित्व विशेषताओं (HEXACO) के बीच संबंध का पहली बार अध्ययन
डेटासेट योगदान: Big Five और HEXACO विशेषताओं दोनों के साथ एक साथ टिप्पणी की गई स्व-परिचय वीडियो डेटासेट का निर्माण

विधि विवरण

कार्य परिभाषा

ऑडियो-दृश्य वीडियो इनपुट दिया गया, Big Five स्कोर $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ और HEXACO स्कोर $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ का संयुक्त अनुमान लगाएं:

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

जहां $S$ ऑडियो विशेषताएं हैं, $U$ दृश्य विशेषताएं हैं, $\Theta$ प्रशिक्षण योग्य पैरामीटर का सेट है।

मॉडल आर्किटेक्चर

बहुविध Transformer आर्किटेक्चर

मॉडल में चार एनकोडर हैं: ऑडियो एनकोडर, पाठ एनकोडर, दृश्य एनकोडर और बहुविध एनकोडर।

विशेषता एन्कोडिंग:
- ऑडियो एनकोडर: $S \rightarrow A$ (ऑडियो प्रतिनिधित्व)
- पाठ एनकोडर: $W \rightarrow T$ (पाठ प्रतिनिधित्व, ASR के माध्यम से प्राप्त)
- दृश्य एनकोडर: $U \rightarrow V$ (दृश्य प्रतिनिधित्व)

बहुविध संलयन:

H₀ = TemporalConcat(A,T,V)  # अस्थायी संयोजन
H'₀ = AddSegment(H₀; θ_segment)  # मोडल विभाजन जानकारी जोड़ें
H = TransformerEnc(H'₀; θ_multi)  # Transformer एन्कोडिंग

ध्यान पूलिंग:
```
h = AttentivePooling(H; θ_pool)
```

संयुक्त भविष्यवाणी शीर्ष:

ẑ = Sigmoid(h; θᶻ_head)  # HEXACO भविष्यवाणी
ŷ = Sigmoid(h; θʸ_head)  # Big Five भविष्यवाणी

प्रशिक्षण रणनीति

औसत निरपेक्ष त्रुटि हानि का उपयोग करके संयुक्त प्रशिक्षण:

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

तकनीकी नवाचार बिंदु

संयुक्त अनुकूलन: Big Five और HEXACO पहचान दोनों को एक साथ अनुकूलित करना, मनोवैज्ञानिक संबंधों का उपयोग करके प्रदर्शन में सुधार
बहुविध संलयन: ऑडियो, दृश्य और पाठ जानकारी को संभालने के लिए पूर्व-प्रशिक्षित Transformer आर्किटेक्चर का उपयोग
संबंध मॉडलिंग: Big Five और HEXACO के बीच संभावित संबंधों को साझा प्रतिनिधित्व सीखने के माध्यम से

प्रयोगात्मक सेटअप

डेटासेट

स्केल: 10,100 स्व-परिचय वीडियो, 1,010 प्रतिभागी
टिप्पणी: 200 पर्यवेक्षकों द्वारा 50-आइटम Big Five प्रश्नावली और 60-आइटम HEXACO प्रश्नावली का उपयोग करके
विभाजन:
- प्रशिक्षण सेट: 9,030 वीडियो (903 प्रतिभागी)
- सत्यापन सेट: 500 वीडियो (50 प्रतिभागी)
- परीक्षण सेट: 570 वीडियो (57 प्रतिभागी)
वीडियो विशेषताएं: औसत अवधि 73.6 सेकंड, 1280×720 रिज़ॉल्यूशन, 25fps

मूल्यांकन मेट्रिक्स

Pearson सहसंबंध गुणांक: भविष्यवाणी किए गए मानों और वास्तविक मानों के बीच रैखिक सहसंबंध को मापना
सटीकता: ChaLearn प्रथम प्रभाव चुनौती की गणना विधि का उपयोग: $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

तुलनात्मक विधियां

Big Five समर्पित मॉडल
HEXACO समर्पित मॉडल
संयुक्त मॉडल (प्रस्तावित विधि)

कार्यान्वयन विवरण

ऑडियो विशेषताएं: 80-आयामी log Mel फ़िल्टर बैंक गुणांक, 10ms फ्रेम शिफ्ट
दृश्य विशेषताएं: CenterNet चेहरा पहचान, 128×128 क्रॉप, 3fps डाउनसैंपलिंग
पूर्व-प्रशिक्षण: ऑडियो एनकोडर (20K घंटे जापानी भाषण), पाठ एनकोडर (100G टोकन), दृश्य एनकोडर (RAF-DB और AffectNet)
प्रशिक्षण: बैच आकार 8, dropout 0.1, RAdam अनुकूलक, NVIDIA A6000 GPU

प्रयोगात्मक परिणाम

मुख्य परिणाम

Big Five पहचान प्रदर्शन

मोडल संयोजन	खुलापन	ईमानदारी	बहिर्मुखता	सहमति	तंत्रिका विक्षिप्तता
ऑडियो (संयुक्त)	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
ऑडियो+दृश्य+पाठ (संयुक्त)	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
मानव मूल्यांकन	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

HEXACO पहचान प्रदर्शन

मोडल संयोजन	ईमानदारी-विनम्रता	भावनात्मकता	बहिर्मुखता	सहमति	ईमानदारी	खुलापन
ऑडियो (संयुक्त)	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
ऑडियो+दृश्य+पाठ (संयुक्त)	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4

मुख्य निष्कर्ष

संयुक्त मॉडलिंग लाभ: संयुक्त मॉडल अधिकांश मामलों में समर्पित मॉडल से बेहतर है
मोडल योगदान: ऑडियो विशेषताएं सबसे प्रभावी हैं, दृश्य विशेषताएं सहमति पहचान में अपेक्षाकृत प्रभावी हैं
प्रदर्शन तुलना: स्वचालित पहचान प्रदर्शन मानव मूल्यांकन स्तर के करीब है

Big Five और HEXACO सहसंबंध विश्लेषण

प्रयोगात्मक परिणाम दर्शाते हैं कि संयुक्त मॉडल द्वारा सीखे गए सहसंबंध पैटर्न मनोवैज्ञानिक अपेक्षाओं के साथ मूलतः सुसंगत हैं, लेकिन कुछ विशेषताओं पर सहसंबंध अत्यधिक कब्जा किया गया है, जो दर्शाता है कि मॉडल हालांकि मानव-स्तरीय पहचान प्रदर्शन प्राप्त करता है, लेकिन मानव छाप धारणा के तरीके को पूरी तरह से पुनः प्रस्तुत नहीं कर सकता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Big Five और HEXACO को संयुक्त रूप से मॉडल करना दोनों ढांचों की पहचान के प्रदर्शन में प्रभावी रूप से सुधार कर सकता है
बहुविध जानकारी संलयन व्यक्तित्व विशेषता पहचान के लिए महत्वपूर्ण है
स्वचालित पहचान प्रदर्शन मानव मूल्यांकन स्तर तक पहुंच सकता है

सीमाएं

सहसंबंध पूर्वाग्रह: मॉडल Big Five और HEXACO के बीच सहसंबंध को अत्यधिक कब्जा करता है, मानव धारणा पैटर्न को पूरी तरह से पुनः प्रस्तुत नहीं करता है
डेटा सीमाएं: डेटासेट केवल जापानी स्व-परिचय वीडियो शामिल करता है, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
सांस्कृतिक अंतर: विभिन्न सांस्कृतिक पृष्ठभूमि में व्यक्तित्व विशेषता अभिव्यक्ति के अंतर पर विचार नहीं किया गया है

भविष्य की दिशाएं

Big Five और HEXACO सहसंबंध के प्रति मानव धारणा को बेहतर ढंग से पुनः प्रस्तुत करने के लिए मॉडल में सुधार
अधिक भाषाओं और सांस्कृतिक पृष्ठभूमि तक विस्तार
अन्य व्यक्तित्व ढांचों की संयुक्त मॉडलिंग का अन्वेषण

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार HEXACO को बहुविध व्यक्तित्व विशेषता पहचान में पेश करता है, अनुसंधान अंतराल को भरता है
तर्कसंगत विधि: संयुक्त मॉडलिंग विचार मनोवैज्ञानिक सिद्धांत के अनुरूप है, तकनीकी कार्यान्वयन पूर्ण है
पर्याप्त प्रयोग: बड़े पैमाने पर टिप्पणी किए गए डेटासेट का निर्माण, प्रयोगात्मक सेटअप तर्कसंगत है, परिणाम प्रेरक हैं
व्यावहारिक मूल्य: मानव मूल्यांकन स्तर प्राप्त करता है, व्यावहारिक अनुप्रयोग क्षमता है

कमियां

सैद्धांतिक गहराई: Big Five और HEXACO संबंध की मशीन लर्निंग मॉडलिंग में गहन सैद्धांतिक विश्लेषण की कमी
सामान्यीकरण क्षमता: केवल जापानी डेटा पर सत्यापित, भाषा-पार, संस्कृति-पार सामान्यीकरण क्षमता अज्ञात है
व्याख्यात्मकता: मॉडल की व्याख्यात्मकता सीमित है, विशिष्ट निर्णय तंत्र को समझना कठिन है

प्रभाव

शैक्षणिक योगदान: बहुविध व्यक्तित्व गणना के लिए नई दिशा खोलता है, अंतःविषय अनुसंधान को बढ़ावा देता है
व्यावहारिक मूल्य: मानव संसाधन, शिक्षा मूल्यांकन, मानसिक स्वास्थ्य आदि क्षेत्रों में लागू किया जा सकता है
डेटासेट योगदान: प्रदान किया गया दोहरी-टिप्पणी डेटासेट बाद के अनुसंधान के लिए महत्वपूर्ण मूल्य है

लागू परिदृश्य

मानव संसाधन: भर्ती साक्षात्कार में व्यक्तित्व मूल्यांकन
शिक्षा क्षेत्र: छात्र व्यक्तिगतकृत शिक्षण और मानसिक स्वास्थ्य निगरानी
सामाजिक मीडिया: उपयोगकर्ता प्रोफाइलिंग और सामग्री सिफारिश
मानसिक स्वास्थ्य: सहायक मनोवैज्ञानिक निदान और उपचार

संदर्भ

पेपर 36 संबंधित संदर्भों का हवाला देता है, जो व्यक्तित्व मनोविज्ञान सिद्धांत, बहुविध शिक्षण, गहन शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह बहुविध व्यक्तित्व गणना क्षेत्र में एक उच्च-गुणवत्ता वाला अंतःविषय अनुसंधान पेपर है, जिसका महत्वपूर्ण अग्रणी महत्व है। हालांकि सैद्धांतिक गहराई और सामान्यीकरण क्षमता में सुधार की गुंजाइश है, इसकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाता है।

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Big Five और HEXACO का संयुक्त मॉडलिंग बहुविध स्पष्ट व्यक्तित्व-विशेषता पहचान के लिए

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

बहुविध Transformer आर्किटेक्चर

प्रशिक्षण रणनीति

तकनीकी नवाचार बिंदु

प्रयोगात्मक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रयोगात्मक परिणाम

मुख्य परिणाम

Big Five पहचान प्रदर्शन

HEXACO पहचान प्रदर्शन

मुख्य निष्कर्ष

Big Five और HEXACO सहसंबंध विश्लेषण

संबंधित कार्य

बहुविध व्यक्तित्व विशेषता पहचान

HEXACO अनुसंधान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ