This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
논문 ID : 2510.14203제목 : Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition저자 : Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)분류 : cs.CV cs.CL cs.MM발표 시간 : 2025년 10월 16일논문 링크 : https://arxiv.org/abs/2510.14203 본 논문은 오랫동안 연구되어온 Big Five 성격특질과 최근 심리학에서 주목받고 있는 HEXACO 성격특질을 결합하여 다중모달 인간 행동으로부터 외현적 성격특질을 자동으로 인식하는 결합 모델링 방법을 제안한다. 기존 연구는 주로 Big Five를 사용하여 다중모달 외현적 성격특질 인식을 수행했으나, 외현적 HEXACO에 관한 연구는 부재했다. HEXACO는 변위된 공격성, 복수심, 사회적 지배 지향성 등과 관련된 정직-겸손 특질을 평가할 수 있다. 또한 기계학습 모델링에서 Big Five와 HEXACO 간의 관계는 아직 명확하지 않다. 이러한 관계를 고려함으로써 저자들은 다중모달 인간 행동에 대한 인식 능력을 향상시킬 것으로 기대한다.
핵심 문제 : 기존 다중모달 성격특질 인식 연구는 주로 Big Five에 초점을 맞추고 있으며, HEXACO(특히 정직-겸손 차원)에 대한 관심이 부족하다중요성 : HEXACO의 정직-겸손 특질은 변위된 공격성, 복수심, 사회적 지배 지향성, 직장 내 부정행위 등과 강한 음의 상관관계를 보이며 중요한 심리학적 의미를 가진다기존 한계 :
외현적 HEXACO 특질에 대한 다중모달 인식 연구 부재 Big Five와 HEXACO 간의 기계학습 모델링 관계가 충분히 탐색되지 않음 기존 데이터셋은 주로 Big Five를 중심으로 설계됨 Big Five와 HEXACO를 결합 모델링함으로써 두 성격 프레임워크 간의 심리학적 관계를 활용하여 다중모달 성격특질 인식의 견고성과 정확성을 향상시킨다.
최초 연구 : 다중모달 외현적 HEXACO 성격특질 인식에 관한 최초 연구결합 모델링 방법 : Big Five와 HEXACO의 결합 모델링 방법을 제안하여 두 프레임워크의 인식 성능을 향상시킴관계 탐색 : 다중모달 외현적 성격특질 인식에서 Big Five와 다른 성격특질(HEXACO) 간의 관계를 최초로 연구데이터셋 기여 : Big Five와 HEXACO 특질이 동시에 주석 처리된 자기소개 비디오 데이터셋 구축음성-시각 비디오 입력이 주어졌을 때, Big Five 점수 y ^ = [ y ^ 1 , ⋯ , y ^ 5 ] ⊤ \hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤ y ^ = [ y ^ 1 , ⋯ , y ^ 5 ] ⊤ 와 HEXACO 점수 z ^ = [ z ^ 1 , ⋯ , z ^ 6 ] ⊤ \hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤ z ^ = [ z ^ 1 , ⋯ , z ^ 6 ] ⊤ 를 결합으로 추정한다:
{ y ^ , z ^ } = F ( S , U ; Θ ) \{\hat{y}, \hat{z}\} = F(S, U; \Theta) { y ^ , z ^ } = F ( S , U ; Θ )
여기서 S S S 는 음성 특징, U U U 는 시각 특징, Θ \Theta Θ 는 학습 가능한 매개변수 집합이다.
모델은 네 개의 인코더로 구성된다: 음성 인코더, 텍스트 인코더, 시각 인코더 및 다중모달 인코더.
특징 인코딩 :음성 인코더: S → A S \rightarrow A S → A (음성 표현) 텍스트 인코더: W → T W \rightarrow T W → T (텍스트 표현, ASR을 통해 획득) 시각 인코더: U → V U \rightarrow V U → V (시각 표현) 다중모달 융합 :H₀ = TemporalConcat(A,T,V) # 시간적 연결
H'₀ = AddSegment(H₀; θ_segment) # 모달리티 분할 정보 추가
H = TransformerEnc(H'₀; θ_multi) # Transformer 인코딩
주의 풀링 :h = AttentivePooling(H; θ_pool)
결합 예측 헤드 :ẑ = Sigmoid(h; θᶻ_head) # HEXACO 예측
ŷ = Sigmoid(h; θʸ_head) # Big Five 예측
평균 절대 오차 손실을 사용하여 결합 학습을 수행한다:
L = 1 ∣ D ∣ ∑ d = 1 ∣ D ∣ ∣ y ^ d − y d ∣ + 1 ∣ D ∣ ∑ d = 1 ∣ D ∣ ∣ z ^ d − z d ∣ L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d| L = ∣ D ∣ 1 ∑ d = 1 ∣ D ∣ ∣ y ^ d − y d ∣ + ∣ D ∣ 1 ∑ d = 1 ∣ D ∣ ∣ z ^ d − z d ∣
결합 최적화 : Big Five와 HEXACO 인식을 동시에 최적화하여 심리학적 관계를 활용한 성능 향상다중모달 융합 : 사전 학습된 Transformer 아키텍처를 사용하여 음성, 시각 및 텍스트 정보 처리관계 모델링 : 공유 표현 학습을 통해 Big Five와 HEXACO 간의 잠재적 관계 모델링규모 : 10,100개의 자기소개 비디오, 1,010명의 참여자주석 : 200명의 관찰자가 50항목 Big Five 설문지와 60항목 HEXACO 설문지를 사용하여 주석 처리분할 :
학습 세트: 9,030개 비디오 (903명 참여자) 검증 세트: 500개 비디오 (50명 참여자) 테스트 세트: 570개 비디오 (57명 참여자) 비디오 특징 : 평균 길이 73.6초, 1280×720 해상도, 25fpsPearson 상관계수 : 예측값과 실제값 간의 선형 상관성 측정정확도 : ChaLearn 첫인상 챌린지의 계산 방식 채택:
Accuracy k = 1 − 1 D ∑ d = 1 D ∣ y ^ d k − y d k ∣ \text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k| Accuracy k = 1 − D 1 ∑ d = 1 D ∣ y ^ d k − y d k ∣ Big Five 전용 모델 HEXACO 전용 모델 결합 모델 (제안 방법) 음성 특징 : 80차원 로그 Mel 필터뱅크 계수, 10ms 프레임 이동시각 특징 : CenterNet 얼굴 검출, 128×128 자르기, 3fps 다운샘플링사전 학습 : 음성 인코더 (20K시간 일본어 음성), 텍스트 인코더 (100G 토큰), 시각 인코더 (RAF-DB 및 AffectNet)학습 : 배치 크기 8, 드롭아웃 0.1, RAdam 최적화기, NVIDIA A6000 GPU모달리티 조합 개방성 성실성 외향성 친화성 신경증 음성 (결합) 0.542/94.4 0.614/93.3 0.707/91.6 0.576/93.4 0.530/93.8 음성+시각+텍스트 (결합) 0.595/94.8 0.686/93.9 0.757/92.6 0.657/94.0 0.586/94.2 인간 평가 0.544/92.9 0.668/92.7 0.770/91.7 0.645/92.4 0.532/92.1
모달리티 조합 정직-겸손 감정성 외향성 친화성 성실성 개방성 음성 (결합) 0.482/95.2 0.639/95.6 0.660/92.9 0.469/94.0 0.549/94.1 0.454/93.7 음성+시각+텍스트 (결합) 0.504/95.2 0.645/95.6 0.707/93.2 0.576/94.3 0.579/94.2 0.608/94.4
결합 모델링의 장점 : 결합 모델이 대부분의 경우 전용 모델보다 우수한 성능을 보임모달리티 기여도 : 음성 특징이 가장 효과적이며, 시각 특징은 친화성 인식에서 상대적으로 효과적성능 비교 : 자동 인식 성능이 인간 평가 수준에 근접실험 결과는 결합 모델이 학습한 상관성 패턴이 심리학적 예상과 기본적으로 일치함을 보여주지만, 일부 특질에서 상관성이 과도하게 포착되었다. 이는 모델이 인간 수준의 인식 성능에 도달했지만 인간의 인상 인식 방식을 완전히 재현하지 못했음을 시사한다.
초기 연구는 주로 수작업 특징 사용 최근 심층학습 방법이 광범위하게 적용됨 (예: 심층 잔차 네트워크, 종단 간 방법 등) 대부분의 연구는 Big Five 프레임워크에 초점을 맞춤 HEXACO는 Big Five의 대체 프레임워크로 6개 차원 포함 정직-겸손 차원은 다양한 부정적 행동 요인과 음의 상관관계 이전에는 소셜 미디어 텍스트에서 자기보고 HEXACO 특질을 추론한 연구 1건만 존재 Big Five와 HEXACO를 결합 모델링하면 두 프레임워크의 인식 성능을 효과적으로 향상시킬 수 있다 다중모달 정보 융합은 성격특질 인식에 매우 중요하다 자동 인식 성능은 인간 평가 수준에 도달할 수 있다 상관성 편향 : 모델이 Big Five와 HEXACO 간의 상관성을 과도하게 포착하여 인간 인식 패턴을 완전히 재현하지 못함데이터 한계 : 데이터셋이 일본어 자기소개 비디오만 포함하여 일반화 가능성 검증 필요문화적 차이 : 다양한 문화 배경에서의 성격특질 표현 차이 미고려모델 개선을 통해 Big Five와 HEXACO 상관성에 대한 인간의 인식을 더 잘 재현 더 많은 언어 및 문화 배경으로 확장 다른 성격 프레임워크의 결합 모델링 탐색 높은 혁신성 : HEXACO를 다중모달 성격특질 인식에 최초로 도입하여 연구 공백 해소합리적 방법 : 결합 모델링 접근법이 심리학 이론과 부합하며 기술 구현이 완전함충분한 실험 : 대규모 주석 데이터셋 구축, 합리적 실험 설정, 설득력 있는 결과실용적 가치 : 인간 평가 수준 달성으로 실제 응용 가능성 보유이론적 깊이 : Big Five와 HEXACO 관계의 기계학습 모델링에 대한 심층 이론 분석 부족일반화 가능성 : 일본어 데이터에서만 검증되어 언어 간, 문화 간 일반화 가능성 미지수해석 가능성 : 모델의 해석 가능성 제한으로 구체적 의사결정 메커니즘 이해 어려움학술 기여 : 다중모달 성격 계산에 새로운 방향 제시, 학제 간 연구 촉진실용적 가치 : 인사, 교육, 심리건강 등 분야에 응용 가능데이터 기여 : 이중 주석 데이터셋이 후속 연구에 중요한 가치 제공인사 관리 : 채용 면접에서의 성격 평가교육 분야 : 학생 맞춤형 교수 및 심리건강 모니터링소셜 미디어 : 사용자 프로필 작성 및 콘텐츠 추천심리건강 : 심리 진단 및 치료 보조논문은 36편의 관련 문헌을 인용하며, 성격 심리학 이론, 다중모달 학습, 심층학습 등 여러 분야의 중요한 연구를 포괄하여 연구에 견고한 이론적 기초를 제공한다.
종합 평가 : 이는 다중모달 성격 계산 분야에서 중요한 개척적 의미를 가지는 높은 품질의 학제 간 연구 논문이다. 이론적 깊이와 일반화 가능성 측면에서 개선의 여지가 있지만, 혁신성과 실용적 가치로 인해 해당 분야의 중요한 기여가 된다.