2025-11-10T02:37:56.044553

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Masumura, Orihashi, Ihori et al.

This paper proposes a joint modeling method of the Big Five, which has long been studied, and HEXACO, which has recently attracted attention in psychology, for automatically recognizing apparent personality traits from multimodal human behavior. Most previous studies have used the Big Five for multimodal apparent personality-trait recognition. However, no study has focused on apparent HEXACO which can evaluate an Honesty-Humility trait related to displaced aggression and vengefulness, social-dominance orientation, etc. In addition, the relationships between the Big Five and HEXACO when modeled by machine learning have not been clarified. We expect awareness of multimodal human behavior to improve by considering these relationships. The key advance of our proposed method is to optimize jointly recognizing the Big Five and HEXACO. Experiments using a self-introduction video dataset demonstrate that the proposed method can effectively recognize the Big Five and HEXACO.

academic

Совместное моделирование Big Five и HEXACO для распознавания видимых черт личности в мультимодальном формате

Основная информация

ID статьи: 2510.14203
Название: Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition
Авторы: Ryo Masumura, Shota Orihashi, Mana Ihori, Tomohiro Tanaka, Naoki Makishima, Taiga Yamane, Naotaka Kawata, Satoshi Suzuki, Taichi Katayama (NTT, Inc., Japan)
Классификация: cs.CV cs.CL cs.MM
Дата публикации: 16 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.14203

Аннотация

В данной работе предложен метод совместного моделирования, объединяющий давно исследуемые черты личности Big Five и недавно привлекшие внимание психологов черты HEXACO для автоматического распознавания видимых черт личности из мультимодального поведения человека. Предыдущие исследования в основном использовали Big Five для мультимодального распознавания видимых черт личности, однако не было исследований, посвящённых видимым чертам HEXACO, которые позволяют оценивать честность-скромность, связанные со смещённой агрессией, мстительностью, ориентацией на социальное доминирование и другими факторами. Кроме того, взаимосвязь между Big Five и HEXACO в машинном обучении остаётся неясной. Учитывая эти взаимосвязи, авторы ожидают повысить способность восприятия мультимодального поведения человека.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Существующие исследования распознавания черт личности в мультимодальном формате в основном сосредоточены на Big Five, при этом отсутствует внимание к HEXACO (особенно к измерению честности-скромности)
Значимость: Черта честности-скромности в HEXACO имеет сильную отрицательную корреляцию со смещённой агрессией, мстительностью, ориентацией на социальное доминирование, неправомерным поведением на рабочем месте и другими факторами, что имеет важное психологическое значение
Существующие ограничения:
- Отсутствуют исследования мультимодального распознавания видимых черт HEXACO
- Взаимосвязь между Big Five и HEXACO при машинном обучении недостаточно изучена
- Существующие наборы данных в основном разработаны для Big Five

Исследовательская мотивация

Посредством совместного моделирования Big Five и HEXACO, используя психологические взаимосвязи между двумя фреймворками, повысить надёжность и точность распознавания видимых черт личности в мультимодальном формате.

Основные вклады

Первое исследование: Первое исследование, посвящённое распознаванию видимых черт личности HEXACO в мультимодальном формате
Метод совместного моделирования: Предложен метод совместного моделирования Big Five и HEXACO, повышающий производительность распознавания обоих фреймворков
Исследование взаимосвязей: Первое исследование взаимосвязей между Big Five и другими чертами личности (HEXACO) при распознавании видимых черт личности в мультимодальном формате
Вклад в набор данных: Создан набор видеоданных самопрезентаций с одновременной аннотацией черт Big Five и HEXACO

Описание методологии

Определение задачи

Учитывая аудиовизуальный видеовход, совместно оценить оценки Big Five $\hat{y} = [\hat{y}_1, \cdots, \hat{y}_5]^⊤$ и оценки HEXACO $\hat{z} = [\hat{z}_1, \cdots, \hat{z}_6]^⊤$ :

$\{\hat{y}, \hat{z}\} = F(S, U; \Theta)$

где $S$ — аудиофичи, $U$ — визуальные фичи, $\Theta$ — набор обучаемых параметров.

Архитектура модели

Мультимодальная архитектура Transformer

Модель содержит четыре кодировщика: аудиокодировщик, текстовый кодировщик, визуальный кодировщик и мультимодальный кодировщик.

Кодирование фичей:
- Аудиокодировщик: $S \rightarrow A$ (аудиопредставление)
- Текстовый кодировщик: $W \rightarrow T$ (текстовое представление, полученное через ASR)
- Визуальный кодировщик: $U \rightarrow V$ (визуальное представление)

Мультимодальное слияние:

H₀ = TemporalConcat(A,T,V)  # временная конкатенация
H'₀ = AddSegment(H₀; θ_segment)  # добавление информации о сегментации модальности
H = TransformerEnc(H'₀; θ_multi)  # кодирование Transformer

Внимательное объединение:
```
h = AttentivePooling(H; θ_pool)
```

Объединённая головка предсказания:

ẑ = Sigmoid(h; θᶻ_head)  # предсказание HEXACO
ŷ = Sigmoid(h; θʸ_head)  # предсказание Big Five

Стратегия обучения

Используется потеря средней абсолютной ошибки для совместного обучения:

$L = \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{y}_d - y_d| + \frac{1}{|D|}\sum_{d=1}^{|D|}|\hat{z}_d - z_d|$

Технические инновации

Совместная оптимизация: Одновременная оптимизация распознавания Big Five и HEXACO, использование психологических взаимосвязей для повышения производительности
Мультимодальное слияние: Использование предварительно обученной архитектуры Transformer для обработки аудио-, визуальной и текстовой информации
Моделирование взаимосвязей: Изучение потенциальных взаимосвязей между Big Five и HEXACO посредством совместного обучения представлениям

Экспериментальная установка

Набор данных

Масштаб: 10 100 видеороликов самопрезентации, 1 010 участников
Аннотация: 200 наблюдателей использовали опросник Big Five из 50 пунктов и опросник HEXACO из 60 пунктов
Разделение:
- Обучающий набор: 9 030 видеороликов (903 участника)
- Набор валидации: 500 видеороликов (50 участников)
- Тестовый набор: 570 видеороликов (57 участников)
Характеристики видео: средняя продолжительность 73,6 секунды, разрешение 1280×720, 25 кадров в секунду

Метрики оценки

Коэффициент корреляции Пирсона: Измерение линейной корреляции между предсказанными и истинными значениями
Точность: Рассчитывается в соответствии с методом конкурса ChaLearn First Impressions Challenge: $\text{Accuracy}^k = 1 - \frac{1}{D}\sum_{d=1}^{D}|\hat{y}_d^k - y_d^k|$

Методы сравнения

Специализированная модель Big Five
Специализированная модель HEXACO
Объединённая модель (предложенный метод)

Детали реализации

Аудиофичи: 80-мерные коэффициенты логарифмического Mel-фильтра, сдвиг кадра 10 мс
Визуальные фичи: Обнаружение лица CenterNet, обрезка 128×128, понижение дискретизации на 3 кадра в секунду
Предварительное обучение: Аудиокодировщик (20 тыс. часов японской речи), текстовый кодировщик (100 млрд токенов), визуальный кодировщик (RAF-DB и AffectNet)
Обучение: Размер пакета 8, dropout 0,1, оптимизатор RAdam, GPU NVIDIA A6000

Результаты экспериментов

Основные результаты

Производительность распознавания Big Five

Комбинация модальностей	Открытость	Добросовестность	Экстраверсия	Доброжелательность	Невротизм
Аудио (объединённая)	0.542/94.4	0.614/93.3	0.707/91.6	0.576/93.4	0.530/93.8
Аудио+визуальное+текст (объединённая)	0.595/94.8	0.686/93.9	0.757/92.6	0.657/94.0	0.586/94.2
Оценка человеком	0.544/92.9	0.668/92.7	0.770/91.7	0.645/92.4	0.532/92.1

Производительность распознавания HEXACO

Комбинация модальностей	Честность-скромность	Эмоциональность	Экстраверсия	Доброжелательность	Добросовестность	Открытость
Аудио (объединённая)	0.482/95.2	0.639/95.6	0.660/92.9	0.469/94.0	0.549/94.1	0.454/93.7
Аудио+визуальное+текст (объединённая)	0.504/95.2	0.645/95.6	0.707/93.2	0.576/94.3	0.579/94.2	0.608/94.4

Ключевые выводы

Преимущества совместного моделирования: Объединённая модель в большинстве случаев превосходит специализированные модели
Вклад модальностей: Аудиофичи наиболее эффективны, визуальные фичи относительно эффективны при распознавании доброжелательности
Сравнение производительности: Производительность автоматического распознавания близка к уровню оценки человеком

Анализ корреляции между Big Five и HEXACO

Результаты экспериментов показывают, что модели совместного обучения изучают закономерности корреляции, в целом соответствующие психологическим ожиданиям, однако на некоторых чертах корреляция захватывается чрезмерно, что указывает на то, что модель, хотя и достигает производительности на уровне человека при распознавании черт, не полностью воспроизводит способ восприятия впечатлений человеком.

Связанные работы

Распознавание черт личности в мультимодальном формате

Ранние исследования в основном использовали ручные фичи
Недавние методы глубокого обучения широко применяются, такие как глубокие остаточные сети, сквозные методы и т.д.
Большинство исследований сосредоточены на фреймворке Big Five

Исследования HEXACO

HEXACO как альтернативный фреймворк Big Five содержит шесть измерений
Измерение честности-скромности имеет отрицательную корреляцию со множеством факторов негативного поведения
Ранее только одно исследование выводило самооценённые черты HEXACO из текста социальных сетей

Заключение и обсуждение

Основные выводы

Совместное моделирование Big Five и HEXACO может эффективно повысить производительность распознавания обоих фреймворков
Слияние мультимодальной информации критически важно для распознавания черт личности
Производительность автоматического распознавания может достичь уровня оценки человеком

Ограничения

Смещение корреляции: Модель чрезмерно захватывает корреляцию между Big Five и HEXACO, не полностью воспроизводя способ восприятия человеком
Ограничения данных: Набор данных содержит только видеоролики самопрезентации на японском языке, обобщаемость требует проверки
Культурные различия: Не учитываются различия в выражении черт личности в разных культурных контекстах

Будущие направления

Улучшение модели для лучшего воспроизведения восприятия человеком корреляции между Big Five и HEXACO
Расширение на больше языков и культурных контекстов
Исследование совместного моделирования других фреймворков личности

Углубленная оценка

Преимущества

Высокая инновационность: Первое введение HEXACO в распознавание видимых черт личности в мультимодальном формате, заполнение пробела в исследованиях
Разумная методология: Идея совместного моделирования соответствует психологической теории, техническая реализация совершенна
Полные эксперименты: Создан крупномасштабный аннотированный набор данных, экспериментальная установка разумна, результаты убедительны
Практическая ценность: Достижение уровня оценки человеком, наличие потенциала практического применения

Недостатки

Глубина теории: Отсутствует глубокий теоретический анализ машинного обучения взаимосвязей между Big Five и HEXACO
Обобщаемость: Проверка только на японских данных, обобщаемость на разные языки и культуры неизвестна
Интерпретируемость: Ограниченная интерпретируемость модели, сложность понимания конкретных механизмов принятия решений

Влияние

Академический вклад: Открытие новых направлений для мультимодальных вычислений личности, продвижение междисциплинарных исследований
Практическая ценность: Применимо в управлении человеческими ресурсами, образовании, оценке психического здоровья и других областях
Вклад в данные: Предоставленный двойной аннотированный набор данных имеет важное значение для последующих исследований

Применимые сценарии

Управление человеческими ресурсами: Оценка личности при интервью при приёме на работу
Образовательная сфера: Персонализированное обучение студентов и мониторинг психического здоровья
Социальные сети: Профилирование пользователей и рекомендация контента
Психическое здоровье: Вспомогательная психологическая диагностика и лечение

Библиография

Статья цитирует 36 связанных работ, охватывающих психологическую теорию личности, мультимодальное обучение, глубокое обучение и другие важные работы в нескольких областях, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная междисциплинарная исследовательская работа, имеющая важное пионерское значение в области мультимодальных вычислений личности. Хотя в теоретической глубине и обобщаемости есть место для улучшения, её инновационность и практическая ценность делают её важным вкладом в эту область.