2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

Big Five와 HEXACO의 결합 모델링을 통한 다중모달 외현적 성격특질 인식

기본 정보

논문 ID: 2510.14203
제목: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
저자: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
분류: cs.CV cs.CL cs.MM
발표 시간: 2025년 10월 16일
논문 링크: https://arxiv.org/abs/2510.14203

초록

본 논문은 오랫동안 연구되어온 Big Five 성격특질과 최근 심리학에서 주목받고 있는 HEXACO 성격특질을 결합하여 다중모달 인간 행동으로부터 외현적 성격특질을 자동으로 인식하는 결합 모델링 방법을 제안한다. 기존 연구는 주로 Big Five를 사용하여 다중모달 외현적 성격특질 인식을 수행했으나, 외현적 HEXACO에 관한 연구는 부재했다. HEXACO는 변위된 공격성, 복수심, 사회적 지배 지향성 등과 관련된 정직-겸손 특질을 평가할 수 있다. 또한 기계학습 모델링에서 Big Five와 HEXACO 간의 관계는 아직 명확하지 않다. 이러한 관계를 고려함으로써 저자들은 다중모달 인간 행동에 대한 인식 능력을 향상시킬 것으로 기대한다.

연구 배경 및 동기

문제 정의

핵심 문제: 기존 다중모달 성격특질 인식 연구는 주로 Big Five에 초점을 맞추고 있으며, HEXACO(특히 정직-겸손 차원)에 대한 관심이 부족하다
중요성: HEXACO의 정직-겸손 특질은 변위된 공격성, 복수심, 사회적 지배 지향성, 직장 내 부정행위 등과 강한 음의 상관관계를 보이며 중요한 심리학적 의미를 가진다
기존 한계:
- 외현적 HEXACO 특질에 대한 다중모달 인식 연구 부재
- Big Five와 HEXACO 간의 기계학습 모델링 관계가 충분히 탐색되지 않음
- 기존 데이터셋은 주로 Big Five를 중심으로 설계됨

연구 동기

Big Five와 HEXACO를 결합 모델링함으로써 두 성격 프레임워크 간의 심리학적 관계를 활용하여 다중모달 성격특질 인식의 견고성과 정확성을 향상시킨다.

핵심 기여

최초 연구: 다중모달 외현적 HEXACO 성격특질 인식에 관한 최초 연구
결합 모델링 방법: Big Five와 HEXACO의 결합 모델링 방법을 제안하여 두 프레임워크의 인식 성능을 향상시킴
관계 탐색: 다중모달 외현적 성격특질 인식에서 Big Five와 다른 성격특질(HEXACO) 간의 관계를 최초로 연구
데이터셋 기여: Big Five와 HEXACO 특질이 동시에 주석 처리된 자기소개 비디오 데이터셋 구축

방법론 상세 설명

작업 정의

음성-시각 비디오 입력이 주어졌을 때, Big Five 점수 $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ 와 HEXACO 점수 $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ 를 결합으로 추정한다:

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

여기서 $S$ 는 음성 특징, $U$ 는 시각 특징, $\Theta$ 는 학습 가능한 매개변수 집합이다.

모델 아키텍처

다중모달 Transformer 아키텍처

모델은 네 개의 인코더로 구성된다: 음성 인코더, 텍스트 인코더, 시각 인코더 및 다중모달 인코더.

특징 인코딩:
- 음성 인코더: $S \rightarrow A$ (음성 표현)
- 텍스트 인코더: $W \rightarrow T$ (텍스트 표현, ASR을 통해 획득)
- 시각 인코더: $U \rightarrow V$ (시각 표현)

다중모달 융합:

H₀ = TemporalConcat(A,T,V)  # 시간적 연결
H'₀ = AddSegment(H₀; θ_segment)  # 모달리티 분할 정보 추가
H = TransformerEnc(H'₀; θ_multi)  # Transformer 인코딩

주의 풀링:
```
h = AttentivePooling(H; θ_pool)
```

결합 예측 헤드:

ẑ = Sigmoid(h; θᶻ_head)  # HEXACO 예측
ŷ = Sigmoid(h; θʸ_head)  # Big Five 예측

학습 전략

평균 절대 오차 손실을 사용하여 결합 학습을 수행한다:

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

기술 혁신점

결합 최적화: Big Five와 HEXACO 인식을 동시에 최적화하여 심리학적 관계를 활용한 성능 향상
다중모달 융합: 사전 학습된 Transformer 아키텍처를 사용하여 음성, 시각 및 텍스트 정보 처리
관계 모델링: 공유 표현 학습을 통해 Big Five와 HEXACO 간의 잠재적 관계 모델링

실험 설정

데이터셋

규모: 10,100개의 자기소개 비디오, 1,010명의 참여자
주석: 200명의 관찰자가 50항목 Big Five 설문지와 60항목 HEXACO 설문지를 사용하여 주석 처리
분할:
- 학습 세트: 9,030개 비디오 (903명 참여자)
- 검증 세트: 500개 비디오 (50명 참여자)
- 테스트 세트: 570개 비디오 (57명 참여자)
비디오 특징: 평균 길이 73.6초, 1280×720 해상도, 25fps

평가 지표

Pearson 상관계수: 예측값과 실제값 간의 선형 상관성 측정
정확도: ChaLearn 첫인상 챌린지의 계산 방식 채택: $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

비교 방법

Big Five 전용 모델
HEXACO 전용 모델
결합 모델 (제안 방법)

구현 세부사항

음성 특징: 80차원 로그 Mel 필터뱅크 계수, 10ms 프레임 이동
시각 특징: CenterNet 얼굴 검출, 128×128 자르기, 3fps 다운샘플링
사전 학습: 음성 인코더 (20K시간 일본어 음성), 텍스트 인코더 (100G 토큰), 시각 인코더 (RAF-DB 및 AffectNet)
학습: 배치 크기 8, 드롭아웃 0.1, RAdam 최적화기, NVIDIA A6000 GPU

실험 결과

주요 결과

Big Five 인식 성능

모달리티 조합	개방성	성실성	외향성	친화성	신경증
음성 (결합)	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
음성+시각+텍스트 (결합)	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
인간 평가	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

HEXACO 인식 성능

모달리티 조합	정직-겸손	감정성	외향성	친화성	성실성	개방성
음성 (결합)	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
음성+시각+텍스트 (결합)	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4