2025-11-18T20:58:12.950706

learning discriminative features from spectrograms using center loss for speech emotion recognition

Dai, Wu, Li et al.

Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.

academic

Обучение дискриминативных признаков из спектрограмм с использованием центральной потери для распознавания эмоций в речи

Основная информация

ID статьи: 2501.01103
Название: Learning Discriminative Features from Spectrograms Using Center Loss for Speech Emotion Recognition
Авторы: Dongyang Dai, Zhiyong Wu, Runnan Li, Xixin Wu, Jia Jia, Helen Meng
Классификация: eess.AS (Обработка аудио и речи), cs.AI (Искусственный интеллект), cs.SD (Звук)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01103

Аннотация

В данной работе предлагается новый метод для решения проблемы сложности извлечения признаков, вызванной неоднозначностью эмоций при распознавании эмоций в речи. Метод объединяет потерю кроссэнтропии softmax и центральную потерю (center loss) для обучения дискриминативных признаков из спектрограмм переменной длины. Потеря кроссэнтропии softmax обеспечивает разделение признаков различных классов эмоций, а центральная потеря эффективно притягивает признаки одного класса эмоций к его центру. Экспериментальные результаты показывают, что введение центральной потери повышает невзвешенную и взвешенную точность более чем на 3% для входных данных мел-спектрограммы и более чем на 4% для входных данных спектрограммы кратковременного преобразования Фурье (STFT).

Исследовательский контекст и мотивация

1. Определение проблемы

Распознавание эмоций в речи (SER) является ключевой технологией для естественного взаимодействия человека и машины, требующей извлечения признаков из речевых сигналов и их классификации в соответствующие категории эмоций. Однако естественная неоднозначность эмоций затрудняет извлечение эффективных признаков.

2. Значимость проблемы

Распознавание эмоций в речи критически важно для реализации естественного взаимодействия человека и машины
Различные типы эмоций могут быть запутанными, что усложняет извлечение эффективных признаков
Традиционные методы имеют ограничения в обработке неоднозначности эмоций

3. Ограничения существующих методов

Традиционные методы: извлечение признаков уровня кадра из перекрывающихся кадров с последующим применением статистических функций; ограниченная выразительность признаков
Существующие методы глубокого обучения: хотя они используют нейронные сети для извлечения высокоуровневых признаков, они все еще недостаточны в обработке неоднозначности эмоций
Существующие методы дискриминативного обучения: методы, использующие потерю косинусного сходства и потерю триплетов, применяют двухэтапную стратегию, которая может привести к снижению производительности и зависит от стратегии выбора пар образцов или триплетов

4. Исследовательская мотивация

Предложить сквозной метод для обучения дискриминативных признаков посредством объединенной функции контролируемых потерь (потеря кроссэнтропии softmax + центральная потеря), избегая проблем несогласованности двухэтапной стратегии.

Основные вклады

Предложен новый метод объединенной функции потерь: объединение потери кроссэнтропии softmax с центральной потерей для обучения дискриминативных признаков из спектрограмм переменной длины
Реализовано сквозное распознавание эмоций в речи: избегаются проблемы двухэтапной стратегии существующих методов, не требуется построение пар образцов или триплетов
Достигнуто значительное повышение производительности на наборе данных IEMOCAP: повышение более чем на 3% для входных данных мел-спектрограммы, более чем на 4% для входных данных спектрограммы STFT
Предоставлен подробный визуальный анализ: визуализация встраивания PCA демонстрирует эффект усиления дискриминативности признаков центральной потерей

Подробное описание метода

Определение задачи

Входные данные: спектрограмма переменной длины (LT × LF, где LT — временное измерение, LF — частотное измерение) Выходные данные: метка класса эмоции (neutral, angry, happy, sad) Цель: обучение дискриминативных признаков с малой внутриклассовой дисперсией и большой межклассовой дисперсией

Архитектура модели

Модель включает следующие компоненты:

Слои CNN: извлечение пространственной информации из спектрограммы
- Первый слой: 48 сверточных ядер 7×7, шаг 2,2, активация ReLU
- Второй слой: 64 сверточных ядра 3×3, шаг 1,1, активация ReLU
- Третий слой: 80 сверточных ядер 3×3, шаг 1,1, активация ReLU
- Четвертый слой: 96 сверточных ядер 3×3, шаг 1,1, активация ReLU
- После каждого слоя применяется слой максимального пулинга (2×2, шаг 2,2)
Двунаправленный слой RNN (Bi-RNN):
- Использование 128-мерных единиц GRU
- Сжатие последовательности переменной длины в вектор фиксированной длины (256 измерений)
- Конкатенация последних выходов прямого и обратного RNN
Полносвязные слои:
- FC1: проецирование выхода Bi-RNN в целевое пространство признаков (64 измерения), активация PReLU
- FC2: выход апостериорной вероятности для вычисления потери кроссэнтропии softmax

Проектирование функции потерь

1. Потеря кроссэнтропии Softmax

L_s = -1/Σω_yi * Σ(i=1 to m) ω_yi * log(e^(W_yi^T * z_i + b_yi) / Σ(j=1 to n) e^(W_j^T * z_i + b_j))

где ω_j — вес класса, используемый для обработки дисбаланса классов.

2. Центральная потеря

L_c = 1/Σω_yi * Σ(i=1 to m) ω_yi * ||z_i - c_yi||²

где c_j — глобальный центр j-го класса, обновляемый следующим образом:

c_j^(t+1) = (1-α)c_j^t + α*ċ_j^t  (когда j-й класс присутствует в мини-пакете)
c_j^(t+1) = c_j^t                  (когда j-й класс отсутствует в мини-пакете)

3. Объединенная потеря

L = L_s + λL_c

где λ — гиперпараметр для балансировки двух потерь.

Технические инновации

Сквозное обучение: избегаются проблемы двухэтапной стратегии традиционных методов дискриминативного обучения
Естественная интеграция: центральная потеря может быть естественно интегрирована в общие модели SER
Без необходимости в парировании образцов: не требуется построение пар образцов или триплетов, что упрощает процесс обучения
Обработка дисбаланса классов: взвешенная функция потерь эффективно обрабатывает проблему дисбаланса данных

Экспериментальная установка

Набор данных

Набор данных IEMOCAP:

Примерно 12 часов аудиовизуальных данных
4 класса эмоций: neutral(30,9%), angry(19,9%), happy+excited(29,6%), sad(19,6%)
Всего 5531 высказывание, happy и excited объединены
5-кратная перекрестная валидация с сохранением распределения эмоций

Метрики оценки

Невзвешенная точность (UA): среднее значение полноты для каждого класса
Взвешенная точность (WA): количество правильно классифицированных образцов, деленное на общее количество образцов

Методы сравнения

Базовый метод: использование только потери кроссэнтропии softmax (λ=0)
Предложенный метод: объединение потери кроссэнтропии softmax и центральной потери

Детали реализации

Оптимизатор: Adam, скорость обучения 0,0003
Размер пакета: 32
Размерность признаков: 64 измерения (выход FC1)
Параметры спектрограммы: сдвиг окна 10 мс, длина окна 40 мс, частота дискретизации 16 кГц, длина DFT 1024
Мел-спектрограмма: 128 мел-полос
Максимальная длина высказывания: 14 секунд

Экспериментальные результаты

Основные результаты

Результаты экспериментов с мел-спектрограммой:

Базовый метод (λ=0): UA=63,80%, WA=61,83%
Предложенный метод (λ=0,3, α=0,5): UA=66,86%, WA=65,40%
Повышение: UA повышена на 3,06%, WA повышена на 3,57%

Результаты экспериментов со спектрограммой STFT:

Базовый метод (λ=0): UA=60,98%, WA=58,93%
Предложенный метод (λ=0,3, α=0,5): UA=65,13%, WA=62,96%
Повышение: UA повышена на 4,15%, WA повышена на 4,03%

Анализ чувствительности гиперпараметров

Параметр α: UA и WA нечувствительны к α, производительность относительно стабильна в диапазоне 0,1-0,9
Параметр λ: оптимальная производительность достигается при λ=0,3, слишком большое или слишком малое λ влияет на производительность

Визуальный анализ

Визуализация с понижением размерности PCA показывает:

После использования центральной потери признаки одного класса более плотно сгруппированы
Степень разделения между различными классами повышена
Обучающий и тестовый наборы демонстрируют аналогичные закономерности улучшения

Анализ матрицы ошибок

После введения центральной потери точность распознавания каждого класса эмоций повышена в различной степени:

Neutral: 57,5%→63,7%
Angry: 69,1%→70,5%
Happy: 51,1%→55,6%
Sad: 77,6%→77,7%

Связанные работы

Традиционные методы

Статистические методы на основе ручных признаков
Извлечение признаков уровня кадра и применение статистических функций

Методы глубокого обучения

Объединение DNN и экстремальной машины обучения
Двунаправленный LSTM для представления высокоуровневых признаков
Сквозное обучение на исходных сигналах
Объединение CNN и RNN для обучения на спектрограммах

Методы дискриминативного обучения

Попарные дискриминативные задачи: использование потери косинусного сходства + бинарная кроссэнтропия
Фреймворк триплетов: использование потери триплетов для обучения дискриминативных признаков
Преимущества предложенного метода по сравнению с этими методами: сквозное обучение, без необходимости в парировании образцов

Выводы и обсуждение

Основные выводы

Центральная потеря может эффективно снижать внутриклассовую дисперсию и повышать дискриминативность признаков
Объединенная функция потерь достигает значительного повышения производительности на обоих типах входных спектрограмм
Этот метод может быть естественно интегрирован в существующие модели SER без необходимости в дополнительном классификаторе

Ограничения

Основное внимание уделяется снижению внутриклассовой дисперсии; исследование увеличения межклассовой дисперсии ограничено
Проверка проведена только на наборе данных IEMOCAP; обобщаемость требует дальнейшей проверки
Для крайне несбалансированных наборов данных взвешенная стратегия может требовать дальнейшей оптимизации

Будущие направления

Авторы предлагают исследовать больше проектирований функций потерь, особенно методы увеличения межклассовой дисперсии признаков для дальнейшего повышения производительности SER.

Глубокая оценка

Преимущества

Сильная инновационность метода: успешная адаптация центральной потери из распознавания лиц в область распознавания эмоций в речи
Строгое проектирование экспериментов: включает анализ чувствительности гиперпараметров, визуальную верификацию и подробные абляционные исследования
Убедительные результаты: достигнуто последовательное повышение производительности на двух различных типах входных спектрограмм
Ясное изложение: подробное описание технических деталей, точное выражение математических формул

Недостатки

Единственный набор данных: проверка проведена только на наборе данных IEMOCAP, отсутствует проверка обобщаемости между наборами данных
Ограниченные методы сравнения: в основном сравнение с собственным базовым методом, отсутствует подробное сравнение с другими современными методами
Недостаточный теоретический анализ: отсутствует глубокий анализ причин эффективности центральной потери в задаче SER
Отсутствует анализ вычислительной сложности: не обсуждается влияние введения центральной потери на эффективность обучения и вывода

Влияние

Технический вклад: предоставляет простой и эффективный метод обучения признаков для распознавания эмоций в речи
Практическая ценность: метод легко реализуется и интегрируется, обладает хорошей практической применимостью
Воспроизводимость: подробное описание технических деталей облегчает воспроизведение

Применимые сценарии

Применим к различным задачам распознавания эмоций в речи на основе спектрограмм
Особенно подходит для обработки несбалансированных наборов данных эмоций
Может служить модулем повышения производительности для существующих систем SER

Список литературы

Статья цитирует 19 связанных работ, охватывающих традиционные методы распознавания эмоций в речи, методы глубокого обучения и обучение дискриминативным признакам и другие ключевые области, обеспечивая достаточную теоретическую основу и техническое сравнение для исследования.

Общая оценка: Это технически обоснованная и экспериментально полная статья, которая успешно внедряет центральную потерю в область распознавания эмоций в речи и достигает значительного повышения производительности. Хотя есть место для улучшения в теоретическом анализе и проверке между наборами данных, простой и эффективный метод и последовательные экспериментальные результаты придают ей хорошую академическую ценность и практическую применимость.