2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.
This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.
academic

Big Five와 HEXACO의 결합 모델링을 통한 다중모달 외현적 성격특질 인식

기본 정보

  • 논문 ID: 2510.14203
  • 제목: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
  • 저자: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
  • 분류: cs.CV cs.CL cs.MM
  • 발표 시간: 2025년 10월 16일
  • 논문 링크: https://arxiv.org/abs/2510.14203

초록

본 논문은 오랫동안 연구되어온 Big Five 성격특질과 최근 심리학에서 주목받고 있는 HEXACO 성격특질을 결합하여 다중모달 인간 행동으로부터 외현적 성격특질을 자동으로 인식하는 결합 모델링 방법을 제안한다. 기존 연구는 주로 Big Five를 사용하여 다중모달 외현적 성격특질 인식을 수행했으나, 외현적 HEXACO에 관한 연구는 부재했다. HEXACO는 변위된 공격성, 복수심, 사회적 지배 지향성 등과 관련된 정직-겸손 특질을 평가할 수 있다. 또한 기계학습 모델링에서 Big Five와 HEXACO 간의 관계는 아직 명확하지 않다. 이러한 관계를 고려함으로써 저자들은 다중모달 인간 행동에 대한 인식 능력을 향상시킬 것으로 기대한다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 기존 다중모달 성격특질 인식 연구는 주로 Big Five에 초점을 맞추고 있으며, HEXACO(특히 정직-겸손 차원)에 대한 관심이 부족하다
  2. 중요성: HEXACO의 정직-겸손 특질은 변위된 공격성, 복수심, 사회적 지배 지향성, 직장 내 부정행위 등과 강한 음의 상관관계를 보이며 중요한 심리학적 의미를 가진다
  3. 기존 한계:
    • 외현적 HEXACO 특질에 대한 다중모달 인식 연구 부재
    • Big Five와 HEXACO 간의 기계학습 모델링 관계가 충분히 탐색되지 않음
    • 기존 데이터셋은 주로 Big Five를 중심으로 설계됨

연구 동기

Big Five와 HEXACO를 결합 모델링함으로써 두 성격 프레임워크 간의 심리학적 관계를 활용하여 다중모달 성격특질 인식의 견고성과 정확성을 향상시킨다.

핵심 기여

  1. 최초 연구: 다중모달 외현적 HEXACO 성격특질 인식에 관한 최초 연구
  2. 결합 모델링 방법: Big Five와 HEXACO의 결합 모델링 방법을 제안하여 두 프레임워크의 인식 성능을 향상시킴
  3. 관계 탐색: 다중모달 외현적 성격특질 인식에서 Big Five와 다른 성격특질(HEXACO) 간의 관계를 최초로 연구
  4. 데이터셋 기여: Big Five와 HEXACO 특질이 동시에 주석 처리된 자기소개 비디오 데이터셋 구축

방법론 상세 설명

작업 정의

음성-시각 비디오 입력이 주어졌을 때, Big Five 점수 y^=[y^1,,y^5]\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤와 HEXACO 점수 z^=[z^1,,z^6]\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤를 결합으로 추정한다:

{y^,z^}=F(S,U;Θ)\{\hat{y}, \hat{z}\} = F(S, U; \Theta)

여기서 SS는 음성 특징, UU는 시각 특징, Θ\Theta는 학습 가능한 매개변수 집합이다.

모델 아키텍처

다중모달 Transformer 아키텍처

모델은 네 개의 인코더로 구성된다: 음성 인코더, 텍스트 인코더, 시각 인코더 및 다중모달 인코더.

  1. 특징 인코딩:
    • 음성 인코더: SAS \rightarrow A (음성 표현)
    • 텍스트 인코더: WTW \rightarrow T (텍스트 표현, ASR을 통해 획득)
    • 시각 인코더: UVU \rightarrow V (시각 표현)
  2. 다중모달 융합:
    H₀ = TemporalConcat(A,T,V)  # 시간적 연결
    H'₀ = AddSegment(H₀; θ_segment)  # 모달리티 분할 정보 추가
    H = TransformerEnc(H'₀; θ_multi)  # Transformer 인코딩
    
  3. 주의 풀링:
    h = AttentivePooling(H; θ_pool)
    
  4. 결합 예측 헤드:
    ẑ = Sigmoid(h; θᶻ_head)  # HEXACO 예측
    ŷ = Sigmoid(h; θʸ_head)  # Big Five 예측
    

학습 전략

평균 절대 오차 손실을 사용하여 결합 학습을 수행한다:

L=1Dd=1Dy^dyd+1Dd=1Dz^dzdL = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|

기술 혁신점

  1. 결합 최적화: Big Five와 HEXACO 인식을 동시에 최적화하여 심리학적 관계를 활용한 성능 향상
  2. 다중모달 융합: 사전 학습된 Transformer 아키텍처를 사용하여 음성, 시각 및 텍스트 정보 처리
  3. 관계 모델링: 공유 표현 학습을 통해 Big Five와 HEXACO 간의 잠재적 관계 모델링

실험 설정

데이터셋

  • 규모: 10,100개의 자기소개 비디오, 1,010명의 참여자
  • 주석: 200명의 관찰자가 50항목 Big Five 설문지와 60항목 HEXACO 설문지를 사용하여 주석 처리
  • 분할:
    • 학습 세트: 9,030개 비디오 (903명 참여자)
    • 검증 세트: 500개 비디오 (50명 참여자)
    • 테스트 세트: 570개 비디오 (57명 참여자)
  • 비디오 특징: 평균 길이 73.6초, 1280×720 해상도, 25fps

평가 지표

  1. Pearson 상관계수: 예측값과 실제값 간의 선형 상관성 측정
  2. 정확도: ChaLearn 첫인상 챌린지의 계산 방식 채택: Accuracyk=11Dd=1Dy^dkydk\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|

비교 방법

  • Big Five 전용 모델
  • HEXACO 전용 모델
  • 결합 모델 (제안 방법)

구현 세부사항

  • 음성 특징: 80차원 로그 Mel 필터뱅크 계수, 10ms 프레임 이동
  • 시각 특징: CenterNet 얼굴 검출, 128×128 자르기, 3fps 다운샘플링
  • 사전 학습: 음성 인코더 (20K시간 일본어 음성), 텍스트 인코더 (100G 토큰), 시각 인코더 (RAF-DB 및 AffectNet)
  • 학습: 배치 크기 8, 드롭아웃 0.1, RAdam 최적화기, NVIDIA A6000 GPU

실험 결과

주요 결과

Big Five 인식 성능

모달리티 조합개방성성실성외향성친화성신경증
음성 (결합)0.542/94.40.614/93.30.707/91.60.576/93.40.530/93.8
음성+시각+텍스트 (결합)0.595/94.80.686/93.90.757/92.60.657/94.00.586/94.2
인간 평가0.544/92.90.668/92.70.770/91.70.645/92.40.532/92.1

HEXACO 인식 성능

모달리티 조합정직-겸손감정성외향성친화성성실성개방성
음성 (결합)0.482/95.20.639/95.60.660/92.90.469/94.00.549/94.10.454/93.7
음성+시각+텍스트 (결합)0.504/95.20.645/95.60.707/93.20.576/94.30.579/94.20.608/94.4

주요 발견

  1. 결합 모델링의 장점: 결합 모델이 대부분의 경우 전용 모델보다 우수한 성능을 보임
  2. 모달리티 기여도: 음성 특징이 가장 효과적이며, 시각 특징은 친화성 인식에서 상대적으로 효과적
  3. 성능 비교: 자동 인식 성능이 인간 평가 수준에 근접

Big Five와 HEXACO 상관성 분석

실험 결과는 결합 모델이 학습한 상관성 패턴이 심리학적 예상과 기본적으로 일치함을 보여주지만, 일부 특질에서 상관성이 과도하게 포착되었다. 이는 모델이 인간 수준의 인식 성능에 도달했지만 인간의 인상 인식 방식을 완전히 재현하지 못했음을 시사한다.

관련 연구

다중모달 성격특질 인식

  • 초기 연구는 주로 수작업 특징 사용
  • 최근 심층학습 방법이 광범위하게 적용됨 (예: 심층 잔차 네트워크, 종단 간 방법 등)
  • 대부분의 연구는 Big Five 프레임워크에 초점을 맞춤

HEXACO 연구

  • HEXACO는 Big Five의 대체 프레임워크로 6개 차원 포함
  • 정직-겸손 차원은 다양한 부정적 행동 요인과 음의 상관관계
  • 이전에는 소셜 미디어 텍스트에서 자기보고 HEXACO 특질을 추론한 연구 1건만 존재

결론 및 논의

주요 결론

  1. Big Five와 HEXACO를 결합 모델링하면 두 프레임워크의 인식 성능을 효과적으로 향상시킬 수 있다
  2. 다중모달 정보 융합은 성격특질 인식에 매우 중요하다
  3. 자동 인식 성능은 인간 평가 수준에 도달할 수 있다

한계

  1. 상관성 편향: 모델이 Big Five와 HEXACO 간의 상관성을 과도하게 포착하여 인간 인식 패턴을 완전히 재현하지 못함
  2. 데이터 한계: 데이터셋이 일본어 자기소개 비디오만 포함하여 일반화 가능성 검증 필요
  3. 문화적 차이: 다양한 문화 배경에서의 성격특질 표현 차이 미고려

향후 방향

  1. 모델 개선을 통해 Big Five와 HEXACO 상관성에 대한 인간의 인식을 더 잘 재현
  2. 더 많은 언어 및 문화 배경으로 확장
  3. 다른 성격 프레임워크의 결합 모델링 탐색

심층 평가

장점

  1. 높은 혁신성: HEXACO를 다중모달 성격특질 인식에 최초로 도입하여 연구 공백 해소
  2. 합리적 방법: 결합 모델링 접근법이 심리학 이론과 부합하며 기술 구현이 완전함
  3. 충분한 실험: 대규모 주석 데이터셋 구축, 합리적 실험 설정, 설득력 있는 결과
  4. 실용적 가치: 인간 평가 수준 달성으로 실제 응용 가능성 보유

부족한 점

  1. 이론적 깊이: Big Five와 HEXACO 관계의 기계학습 모델링에 대한 심층 이론 분석 부족
  2. 일반화 가능성: 일본어 데이터에서만 검증되어 언어 간, 문화 간 일반화 가능성 미지수
  3. 해석 가능성: 모델의 해석 가능성 제한으로 구체적 의사결정 메커니즘 이해 어려움

영향력

  1. 학술 기여: 다중모달 성격 계산에 새로운 방향 제시, 학제 간 연구 촉진
  2. 실용적 가치: 인사, 교육, 심리건강 등 분야에 응용 가능
  3. 데이터 기여: 이중 주석 데이터셋이 후속 연구에 중요한 가치 제공

적용 분야

  1. 인사 관리: 채용 면접에서의 성격 평가
  2. 교육 분야: 학생 맞춤형 교수 및 심리건강 모니터링
  3. 소셜 미디어: 사용자 프로필 작성 및 콘텐츠 추천
  4. 심리건강: 심리 진단 및 치료 보조

참고문헌

논문은 36편의 관련 문헌을 인용하며, 성격 심리학 이론, 다중모달 학습, 심층학습 등 여러 분야의 중요한 연구를 포괄하여 연구에 견고한 이론적 기초를 제공한다.


종합 평가: 이는 다중모달 성격 계산 분야에서 중요한 개척적 의미를 가지는 높은 품질의 학제 간 연구 논문이다. 이론적 깊이와 일반화 가능성 측면에서 개선의 여지가 있지만, 혁신성과 실용적 가치로 인해 해당 분야의 중요한 기여가 된다.