Machine learning models for speech-based depression classification offer promise for health care applications. Despite growing work on depression classification, little is understood about how the length of speech-input impacts model performance. We analyze results for speaker-independent depression classification using a corpus of over 1400 hours of speech from a human-machine health screening application. We examine performance as a function of response input length for two NLP systems that differ in overall performance.
Results for both systems show that performance depends on natural length, elapsed length, and ordering of the response within a session. Systems share a minimum length threshold, but differ in a response saturation threshold, with the latter higher for the better system. At saturation it is better to pose a new question to the speaker, than to continue the current response. These and additional reported results suggest how applications can be better designed to both elicit and process optimal input lengths for depression classification.
- ID статьи: 2501.00608
- Название: Optimizing Speech-Input Length for Speaker-Independent Depression Classification
- Авторы: Томаш Рутовский, Амир Харати, Ян Лу, Элизабет Шрайберг (Ellipsis Health, Inc.)
- Классификация: cs.CL eess.AS
- Ключевые слова: депрессия, речь, паралингвистика, аффективные вычисления, обработка естественного языка, приложения здравоохранения, глубокое обучение
В данной работе исследуется влияние длины речевого входа на производительность классификации депрессии на основе машинного обучения. Исследование использует крупномасштабный корпус, содержащий более 1400 часов речевых данных, и анализирует производительность двух систем обработки естественного языка с различными характеристиками при разных длинах входных ответов. Результаты показывают, что производительность системы зависит от естественной длины, прошедшего времени и порядка ответов в сеансе. Обе системы имеют общий минимальный порог длины, но различаются по пороговому значению насыщения ответа, при этом система с лучшей производительностью имеет более высокий порог насыщения.
Депрессия является распространённым инвалидизирующим заболеванием и одной из основных проблем общественного здравоохранения в мире. Мобильные технологии искусственного интеллекта играют важную роль в расширении скрининга депрессии, особенно в качестве вспомогательного инструмента для медицинских работников. Речевые технологии перспективны благодаря своей естественности, возможности удалённого использования, отсутствию необходимости в специальной подготовке и способности передавать информацию о состоянии говорящего.
- Практические потребности: Несмотря на растущее количество исследований по классификации депрессии на основе речи, существует мало знаний о том, как длина речевого входа влияет на производительность модели
- Практические соображения: Более длинный ввод увеличивает временные затраты пациента и затраты на инфраструктуру системы
- Потребность в оптимизации: Необходимо найти оптимальный баланс между производительностью и эффективностью
- Первоначальное предположение "больше речи — лучше" в большинстве задач речевых технологий не имеет глубокой проверки
- Отсутствие систематического исследования взаимосвязи между длиной входа и производительностью классификации
- Недостаточное учёт временных и стоимостных ограничений в практических приложениях
- Крупномасштабный анализ данных: Систематический анализ с использованием корпуса, содержащего более 1400 часов речевых данных
- Многоуровневое исследование эффектов длины: Анализ эффектов длины на уровне отдельных ответов и многоответных сеансов
- Сравнение между системами: Сравнение двух систем обработки естественного языка с различной производительностью для проверки универсальности пороговых значений длины
- Практические руководящие принципы: Конкретные рекомендации для проектирования и оптимизации приложений классификации депрессии
- Неожиданные открытия: Выявление закономерностей увеличения длины речи говорящего в ходе сеанса
- Ввод: Спонтанная речь на американском английском языке, свободные ответы пользователей на вопросы по различным темам
- Вывод: Бинарная классификация (депрессия/без депрессии), основанная на оценке PHQ-8 (≥10 для депрессии)
- Ограничение: Задача классификации независимо от говорящего
- Масштаб: 1400 часов речи, 9600 независимых пользователей
- Структура: Каждый сеанс содержит 4-6 ответов на вопросы (в среднем 4,52), каждый ответ содержит в среднем 125 слов
- Аннотирование: Использование шкалы PHQ-8 (PHQ-9 с удалённым вопросом о суицидальных мыслях) в качестве золотого стандарта
- Разделение: Обучающий и тестовый наборы не содержат перекрывающихся говорящих
- Метод: SVM + векторизация слов
- Признаки: Векторы слов Word2Vec с использованием усреднённого объединения
- Данные: Меньший набор обучения (650 часов, 6600 пользователей)
- Словарь: 7000 токенов
- Метод: Модель глубокого обучения на основе ULMFiT
- Архитектура: Языковая модель RNN-LSTM, предварительно обученная на крупномасштабных открытых корпусах (например, Wikipedia) и затем дообученная
- Данные: Полный набор обучения (1400 часов, 9600 пользователей)
- Словарь: 30000 токенов
- Кумулятивный управляемый показатель длины: Определение нового метода оценки длины, показывающего объём информации, существующей "на данный момент" в любой точке
- Многомерный анализ длины: Одновременное рассмотрение естественной длины, прошедшего времени и порядка в сеансе
- Сравнение пороговых значений между системами: Проверка универсальности выявленных закономерностей путём сравнения систем с различной производительностью
| Набор данных | Всего ответов | Обучение(-dep) | Обучение(+dep) | Тест(-dep) | Тест(+dep) |
|---|
| Меньший (650ч) | 32,078 | 12,966 | 4,602 | 11,366 | 3,144 |
| Больший (1400ч) | 64,518 | 35,715 | 14,293 | 11,366 | 3,144 |
- Основная метрика: AUC (площадь под кривой), подходящая для бинарных задач и несбалансированного распределения классов
- Вспомогательные метрики: Специфичность и чувствительность для оценки в медицинской области
- Транскрипция: Google Async ASR
- Оценка темпа речи: Глобальный средний темп речи 2,39 слова/сек (143,4 слова/мин)
- Снижение темпа речи, связанное с депрессией: Темп речи в группе с депрессией примерно на 5 слов/мин ниже, чем в группе без депрессии, что соответствует литературным данным
- Снижение темпа, связанное с длиной: Более длинные ответы имеют универсально более медленный темп речи, разница составляет примерно 3-4 слова/мин
- Незначительный эффект: Общая разница невелика, можно использовать глобальную оценку темпа речи
- Минимальный порог длины: Обе системы показывают резкое снижение производительности при длине менее 30-50 слов
- Точка насыщения ответа: Отдельный ответ достигает насыщения AUC примерно при 250 словах
- Точка насыщения сеанса: На уровне сеанса насыщение происходит примерно при 1000 словах
- Система 2 постоянно превосходит Систему 1
- Производительность на уровне сеанса превосходит производительность отдельного ответа
- Обе системы превосходят производительность врачей первичной помощи без вспомогательных средств (87% специфичность/54% чувствительность)
- Согласованность минимального порога: Независимо от количества ответов, минимальный порог сеанса составляет 30-50 слов
- Убывающая предельная полезность: Выигрыш от N+1-го ответа по сравнению с N-м ответом уменьшается с увеличением N
- Преимущество множественных ответов: При заданной длине больше ответов лучше, чем меньше
- Выигрыш от нового ответа: Максимальный выигрыш от начала нового ответа составляет примерно 4% AUC
- Раннее насыщение ответа: Система 2 достигает насыщения при 200 словах (Система 1 при 120 словах)
- Закономерность увеличения длины: Говорящие имеют тенденцию постепенно увеличивать длину ответов в ходе сеанса
- Пересечение производительности длинных и коротких ответов: Длинные ответы в конечном итоге показывают лучшую производительность, но короткие ответы показывают лучшую производительность на начальном этапе
- Пороговое значение длины в пределах ответа: Существует пороговая длина, ниже которой текущий ответ не следует прерывать
- Система 1: 80 слов (порог продолжения) и 120 слов (порог насыщения)
- Система 2: 150 слов (порог продолжения) и 200 слов (порог насыщения)
- Оптимальная длина сеанса: Примерно 8 минут общей речи (1000 слов)
- Ценность второй половины ответа: На 6% AUC выше, чем первая половина
- Различие производительности между системами: Более совершенная система может более эффективно использовать дополнительные слова
В статье цитируются исследования по обнаружению депрессии, эмоциональным вычислениям на основе речи, многомодальной оценке и другим смежным областям. Особо отмечается роль серии конкурсов AVEC в развитии этой области. По сравнению с существующими работами данная статья сосредоточена на практической, но часто упускаемой из виду проблеме длины входа.
- Существование пороговых значений длины: Существуют чёткие минимальные и максимальные пороговые значения длины
- Зависимость от системы: Более совершенные системы имеют более высокие пороговые значения насыщения и лучше используют дополнительную информацию
- Стратегия сеанса: Несколько коротких ответов предпочтительнее, чем несколько длинных ответов
- Руководство для приложений реального времени: Может обеспечить руководство в реальном времени о том, когда продолжить, когда переключиться на другой вопрос или завершить сеанс
- Специфичность данных: Конкретные значения длины и темпа речи могут различаться в зависимости от набора данных, языка, возрастной группы
- Специфичность задачи: Результаты в основном применимы к задачам классификации депрессии
- Зависимость от технологии: Основаны на конкретных технологиях ASR и NLP
- Кросс-языковая проверка: Проверка выявленных закономерностей на разных языках и в различных культурных контекстах
- Разработка систем реального времени: Создание адаптивных систем, которые могут оптимизировать длину в реальном времени
- Расширение на множественные задачи: Распространение выявленных закономерностей на другие задачи классификации психического здоровья
- Высокая практическая ценность: Непосредственно решает ключевые проблемы практического применения
- Крупный масштаб данных: Использует один из крупнейших наборов данных в этой области
- Систематичность методологии: Многомерный и многоуровневый подход к анализу
- Значимость выявленных закономерностей: Раскрывает интересные модели поведения говорящих
- Сильная прикладная направленность: Предоставляет конкретные рекомендации по проектированию
- Ограниченная техническая инновация: В основном аналитическое исследование с относительно традиционными методами
- Требуется проверка обобщаемости: Способность результатов к кросс-доменной обобщаемости требует дальнейшей проверки
- Недостаточное теоретическое объяснение: Отсутствует глубокое теоретическое объяснение наблюдаемых явлений
- Вклад в область: Заполняет пробел в исследованиях длины входа при обнаружении депрессии на основе речи
- Практическая ценность: Предоставляет важные рекомендации по проектированию для практического развёртывания систем
- Воспроизводимость: Методология ясна, обсуждаются вопросы выпуска данных с Лингвистическим консорциумом данных
- Приложения скрининга психического здоровья на основе речи
- Платформы телемедицины и цифрового здравоохранения
- Оптимизация проектирования систем диалога человека и машины
- Исследования в области эмоциональных вычислений на основе речи
В статье цитируется 34 соответствующих источника, охватывающих обнаружение депрессии, обработку речи, глубокое обучение и другие области, обеспечивающие прочную теоретическую основу для исследования.
Общая оценка: Это исследовательская работа с важной практической ценностью. Хотя техническая инновация относительно ограничена, она решает ключевые проблемы практического применения и предоставляет ценные рекомендации для проектирования и оптимизации систем обнаружения депрессии на основе речи. Методология исследования систематична, масштаб данных велик, выводы практичны и имеют важное значение для продвижения практического применения в этой области.