learning discriminative features from spectrograms using center loss for speech emotion recognition
Dai, Wu, Li et al.
Identifying the emotional state from speech is essential for the natural interaction of the machine with the speaker. However, extracting effective features for emotion recognition is difficult, as emotions are ambiguous. We propose a novel approach to learn discriminative features from variable length spectrograms for emotion recognition by cooperating softmax cross-entropy loss and center loss together. The softmax cross-entropy loss enables features from different emotion categories separable, and center loss efficiently pulls the features belonging to the same emotion category to their center. By combining the two losses together, the discriminative power will be highly enhanced, which leads to network learning more effective features for emotion recognition. As demonstrated by the experimental results, after introducing center loss, both the unweighted accuracy and weighted accuracy are improved by over 3\% on Mel-spectrogram input, and more than 4\% on Short Time Fourier Transform spectrogram input.
academic
Обучение дискриминативных признаков из спектрограмм с использованием центральной потери для распознавания эмоций в речи
В данной работе предлагается новый метод для решения проблемы сложности извлечения признаков, вызванной неоднозначностью эмоций при распознавании эмоций в речи. Метод объединяет потерю кроссэнтропии softmax и центральную потерю (center loss) для обучения дискриминативных признаков из спектрограмм переменной длины. Потеря кроссэнтропии softmax обеспечивает разделение признаков различных классов эмоций, а центральная потеря эффективно притягивает признаки одного класса эмоций к его центру. Экспериментальные результаты показывают, что введение центральной потери повышает невзвешенную и взвешенную точность более чем на 3% для входных данных мел-спектрограммы и более чем на 4% для входных данных спектрограммы кратковременного преобразования Фурье (STFT).
Распознавание эмоций в речи (SER) является ключевой технологией для естественного взаимодействия человека и машины, требующей извлечения признаков из речевых сигналов и их классификации в соответствующие категории эмоций. Однако естественная неоднозначность эмоций затрудняет извлечение эффективных признаков.
Традиционные методы: извлечение признаков уровня кадра из перекрывающихся кадров с последующим применением статистических функций; ограниченная выразительность признаков
Существующие методы глубокого обучения: хотя они используют нейронные сети для извлечения высокоуровневых признаков, они все еще недостаточны в обработке неоднозначности эмоций
Существующие методы дискриминативного обучения: методы, использующие потерю косинусного сходства и потерю триплетов, применяют двухэтапную стратегию, которая может привести к снижению производительности и зависит от стратегии выбора пар образцов или триплетов
Предложить сквозной метод для обучения дискриминативных признаков посредством объединенной функции контролируемых потерь (потеря кроссэнтропии softmax + центральная потеря), избегая проблем несогласованности двухэтапной стратегии.
Предложен новый метод объединенной функции потерь: объединение потери кроссэнтропии softmax с центральной потерей для обучения дискриминативных признаков из спектрограмм переменной длины
Реализовано сквозное распознавание эмоций в речи: избегаются проблемы двухэтапной стратегии существующих методов, не требуется построение пар образцов или триплетов
Достигнуто значительное повышение производительности на наборе данных IEMOCAP: повышение более чем на 3% для входных данных мел-спектрограммы, более чем на 4% для входных данных спектрограммы STFT
Предоставлен подробный визуальный анализ: визуализация встраивания PCA демонстрирует эффект усиления дискриминативности признаков центральной потерей
Входные данные: спектрограмма переменной длины (LT × LF, где LT — временное измерение, LF — частотное измерение)
Выходные данные: метка класса эмоции (neutral, angry, happy, sad)
Цель: обучение дискриминативных признаков с малой внутриклассовой дисперсией и большой межклассовой дисперсией
Авторы предлагают исследовать больше проектирований функций потерь, особенно методы увеличения межклассовой дисперсии признаков для дальнейшего повышения производительности SER.
Статья цитирует 19 связанных работ, охватывающих традиционные методы распознавания эмоций в речи, методы глубокого обучения и обучение дискриминативным признакам и другие ключевые области, обеспечивая достаточную теоретическую основу и техническое сравнение для исследования.
Общая оценка: Это технически обоснованная и экспериментально полная статья, которая успешно внедряет центральную потерю в область распознавания эмоций в речи и достигает значительного повышения производительности. Хотя есть место для улучшения в теоретическом анализе и проверке между наборами данных, простой и эффективный метод и последовательные экспериментальные результаты придают ей хорошую академическую ценность и практическую применимость.