2025-11-23T03:58:16.399198

Optimizing Speech-Input Length for Speaker-Independent Depression Classification

Rutowski, Harati, Lu et al.

Machine learning models for speech-based depression classification offer promise for health care applications. Despite growing work on depression classification, little is understood about how the length of speech-input impacts model performance. We analyze results for speaker-independent depression classification using a corpus of over 1400 hours of speech from a human-machine health screening application. We examine performance as a function of response input length for two NLP systems that differ in overall performance. Results for both systems show that performance depends on natural length, elapsed length, and ordering of the response within a session. Systems share a minimum length threshold, but differ in a response saturation threshold, with the latter higher for the better system. At saturation it is better to pose a new question to the speaker, than to continue the current response. These and additional reported results suggest how applications can be better designed to both elicit and process optimal input lengths for depression classification.

academic

Оптимизация длины речевого входа для классификации депрессии независимо от говорящего

Основная информация

ID статьи: 2501.00608
Название: Optimizing Speech-Input Length for Speaker-Independent Depression Classification
Авторы: Томаш Рутовский, Амир Харати, Ян Лу, Элизабет Шрайберг (Ellipsis Health, Inc.)
Классификация: cs.CL eess.AS
Ключевые слова: депрессия, речь, паралингвистика, аффективные вычисления, обработка естественного языка, приложения здравоохранения, глубокое обучение

Аннотация

В данной работе исследуется влияние длины речевого входа на производительность классификации депрессии на основе машинного обучения. Исследование использует крупномасштабный корпус, содержащий более 1400 часов речевых данных, и анализирует производительность двух систем обработки естественного языка с различными характеристиками при разных длинах входных ответов. Результаты показывают, что производительность системы зависит от естественной длины, прошедшего времени и порядка ответов в сеансе. Обе системы имеют общий минимальный порог длины, но различаются по пороговому значению насыщения ответа, при этом система с лучшей производительностью имеет более высокий порог насыщения.

Исследовательский контекст и мотивация

Определение проблемы

Депрессия является распространённым инвалидизирующим заболеванием и одной из основных проблем общественного здравоохранения в мире. Мобильные технологии искусственного интеллекта играют важную роль в расширении скрининга депрессии, особенно в качестве вспомогательного инструмента для медицинских работников. Речевые технологии перспективны благодаря своей естественности, возможности удалённого использования, отсутствию необходимости в специальной подготовке и способности передавать информацию о состоянии говорящего.

Исследовательская мотивация

Практические потребности: Несмотря на растущее количество исследований по классификации депрессии на основе речи, существует мало знаний о том, как длина речевого входа влияет на производительность модели
Практические соображения: Более длинный ввод увеличивает временные затраты пациента и затраты на инфраструктуру системы
Потребность в оптимизации: Необходимо найти оптимальный баланс между производительностью и эффективностью

Ограничения существующих подходов

Первоначальное предположение "больше речи — лучше" в большинстве задач речевых технологий не имеет глубокой проверки
Отсутствие систематического исследования взаимосвязи между длиной входа и производительностью классификации
Недостаточное учёт временных и стоимостных ограничений в практических приложениях

Основные вклады

Крупномасштабный анализ данных: Систематический анализ с использованием корпуса, содержащего более 1400 часов речевых данных
Многоуровневое исследование эффектов длины: Анализ эффектов длины на уровне отдельных ответов и многоответных сеансов
Сравнение между системами: Сравнение двух систем обработки естественного языка с различной производительностью для проверки универсальности пороговых значений длины
Практические руководящие принципы: Конкретные рекомендации для проектирования и оптимизации приложений классификации депрессии
Неожиданные открытия: Выявление закономерностей увеличения длины речи говорящего в ходе сеанса

Подробное описание методологии

Определение задачи

Ввод: Спонтанная речь на американском английском языке, свободные ответы пользователей на вопросы по различным темам
Вывод: Бинарная классификация (депрессия/без депрессии), основанная на оценке PHQ-8 (≥10 для депрессии)
Ограничение: Задача классификации независимо от говорящего

Построение набора данных

Масштаб: 1400 часов речи, 9600 независимых пользователей
Структура: Каждый сеанс содержит 4-6 ответов на вопросы (в среднем 4,52), каждый ответ содержит в среднем 125 слов
Аннотирование: Использование шкалы PHQ-8 (PHQ-9 с удалённым вопросом о суицидальных мыслях) в качестве золотого стандарта
Разделение: Обучающий и тестовый наборы не содержат перекрывающихся говорящих

Архитектура модели

Система 1 (более слабая система)

Метод: SVM + векторизация слов
Признаки: Векторы слов Word2Vec с использованием усреднённого объединения
Данные: Меньший набор обучения (650 часов, 6600 пользователей)
Словарь: 7000 токенов

Система 2 (более сильная система)

Метод: Модель глубокого обучения на основе ULMFiT
Архитектура: Языковая модель RNN-LSTM, предварительно обученная на крупномасштабных открытых корпусах (например, Wikipedia) и затем дообученная
Данные: Полный набор обучения (1400 часов, 9600 пользователей)
Словарь: 30000 токенов

Технические инновации

Кумулятивный управляемый показатель длины: Определение нового метода оценки длины, показывающего объём информации, существующей "на данный момент" в любой точке
Многомерный анализ длины: Одновременное рассмотрение естественной длины, прошедшего времени и порядка в сеансе
Сравнение пороговых значений между системами: Проверка универсальности выявленных закономерностей путём сравнения систем с различной производительностью

Экспериментальная установка

Детали набора данных

Набор данных	Всего ответов	Обучение(-dep)	Обучение(+dep)	Тест(-dep)	Тест(+dep)
Меньший (650ч)	32,078	12,966	4,602	11,366	3,144
Больший (1400ч)	64,518	35,715	14,293	11,366	3,144

Метрики оценки

Основная метрика: AUC (площадь под кривой), подходящая для бинарных задач и несбалансированного распределения классов
Вспомогательные метрики: Специфичность и чувствительность для оценки в медицинской области

Обработка речи

Транскрипция: Google Async ASR
Оценка темпа речи: Глобальный средний темп речи 2,39 слова/сек (143,4 слова/мин)

Результаты экспериментов

Выявленные закономерности темпа речи

Снижение темпа речи, связанное с депрессией: Темп речи в группе с депрессией примерно на 5 слов/мин ниже, чем в группе без депрессии, что соответствует литературным данным
Снижение темпа, связанное с длиной: Более длинные ответы имеют универсально более медленный темп речи, разница составляет примерно 3-4 слова/мин
Незначительный эффект: Общая разница невелика, можно использовать глобальную оценку темпа речи

Совокупные эффекты длины

Основные выявленные закономерности

Минимальный порог длины: Обе системы показывают резкое снижение производительности при длине менее 30-50 слов
Точка насыщения ответа: Отдельный ответ достигает насыщения AUC примерно при 250 словах
Точка насыщения сеанса: На уровне сеанса насыщение происходит примерно при 1000 словах

Сравнение производительности систем

Система 2 постоянно превосходит Систему 1
Производительность на уровне сеанса превосходит производительность отдельного ответа
Обе системы превосходят производительность врачей первичной помощи без вспомогательных средств (87% специфичность/54% чувствительность)

Эффекты длины в пределах сеанса

Кумулятивные эффекты ответов

Согласованность минимального порога: Независимо от количества ответов, минимальный порог сеанса составляет 30-50 слов
Убывающая предельная полезность: Выигрыш от N+1-го ответа по сравнению с N-м ответом уменьшается с увеличением N
Преимущество множественных ответов: При заданной длине больше ответов лучше, чем меньше
Выигрыш от нового ответа: Максимальный выигрыш от начала нового ответа составляет примерно 4% AUC
Раннее насыщение ответа: Система 2 достигает насыщения при 200 словах (Система 1 при 120 словах)

Неожиданные открытия

Закономерность увеличения длины: Говорящие имеют тенденцию постепенно увеличивать длину ответов в ходе сеанса
Пересечение производительности длинных и коротких ответов: Длинные ответы в конечном итоге показывают лучшую производительность, но короткие ответы показывают лучшую производительность на начальном этапе
Пороговое значение длины в пределах ответа: Существует пороговая длина, ниже которой текущий ответ не следует прерывать
- Система 1: 80 слов (порог продолжения) и 120 слов (порог насыщения)
- Система 2: 150 слов (порог продолжения) и 200 слов (порог насыщения)

Ключевые числовые результаты

Оптимальная длина сеанса: Примерно 8 минут общей речи (1000 слов)
Ценность второй половины ответа: На 6% AUC выше, чем первая половина
Различие производительности между системами: Более совершенная система может более эффективно использовать дополнительные слова

Связанные работы

В статье цитируются исследования по обнаружению депрессии, эмоциональным вычислениям на основе речи, многомодальной оценке и другим смежным областям. Особо отмечается роль серии конкурсов AVEC в развитии этой области. По сравнению с существующими работами данная статья сосредоточена на практической, но часто упускаемой из виду проблеме длины входа.

Выводы и обсуждение

Основные выводы

Существование пороговых значений длины: Существуют чёткие минимальные и максимальные пороговые значения длины
Зависимость от системы: Более совершенные системы имеют более высокие пороговые значения насыщения и лучше используют дополнительную информацию
Стратегия сеанса: Несколько коротких ответов предпочтительнее, чем несколько длинных ответов
Руководство для приложений реального времени: Может обеспечить руководство в реальном времени о том, когда продолжить, когда переключиться на другой вопрос или завершить сеанс

Ограничения

Специфичность данных: Конкретные значения длины и темпа речи могут различаться в зависимости от набора данных, языка, возрастной группы
Специфичность задачи: Результаты в основном применимы к задачам классификации депрессии
Зависимость от технологии: Основаны на конкретных технологиях ASR и NLP

Направления будущих исследований

Кросс-языковая проверка: Проверка выявленных закономерностей на разных языках и в различных культурных контекстах
Разработка систем реального времени: Создание адаптивных систем, которые могут оптимизировать длину в реальном времени
Расширение на множественные задачи: Распространение выявленных закономерностей на другие задачи классификации психического здоровья

Глубокая оценка

Преимущества

Высокая практическая ценность: Непосредственно решает ключевые проблемы практического применения
Крупный масштаб данных: Использует один из крупнейших наборов данных в этой области
Систематичность методологии: Многомерный и многоуровневый подход к анализу
Значимость выявленных закономерностей: Раскрывает интересные модели поведения говорящих
Сильная прикладная направленность: Предоставляет конкретные рекомендации по проектированию

Недостатки

Ограниченная техническая инновация: В основном аналитическое исследование с относительно традиционными методами
Требуется проверка обобщаемости: Способность результатов к кросс-доменной обобщаемости требует дальнейшей проверки
Недостаточное теоретическое объяснение: Отсутствует глубокое теоретическое объяснение наблюдаемых явлений

Влияние

Вклад в область: Заполняет пробел в исследованиях длины входа при обнаружении депрессии на основе речи
Практическая ценность: Предоставляет важные рекомендации по проектированию для практического развёртывания систем
Воспроизводимость: Методология ясна, обсуждаются вопросы выпуска данных с Лингвистическим консорциумом данных

Применимые сценарии

Приложения скрининга психического здоровья на основе речи
Платформы телемедицины и цифрового здравоохранения
Оптимизация проектирования систем диалога человека и машины
Исследования в области эмоциональных вычислений на основе речи

Библиография

В статье цитируется 34 соответствующих источника, охватывающих обнаружение депрессии, обработку речи, глубокое обучение и другие области, обеспечивающие прочную теоретическую основу для исследования.

Общая оценка: Это исследовательская работа с важной практической ценностью. Хотя техническая инновация относительно ограничена, она решает ключевые проблемы практического применения и предоставляет ценные рекомендации для проектирования и оптимизации систем обнаружения депрессии на основе речи. Методология исследования систематична, масштаб данных велик, выводы практичны и имеют важное значение для продвижения практического применения в этой области.