2025-11-23T03:58:16.399198

Optimizing Speech-Input Length for Speaker-Independent Depression Classification

Rutowski, Harati, Lu et al.

Machine learning models for speech-based depression classification offer promise for health care applications. Despite growing work on depression classification, little is understood about how the length of speech-input impacts model performance. We analyze results for speaker-independent depression classification using a corpus of over 1400 hours of speech from a human-machine health screening application. We examine performance as a function of response input length for two NLP systems that differ in overall performance. Results for both systems show that performance depends on natural length, elapsed length, and ordering of the response within a session. Systems share a minimum length threshold, but differ in a response saturation threshold, with the latter higher for the better system. At saturation it is better to pose a new question to the speaker, than to continue the current response. These and additional reported results suggest how applications can be better designed to both elicit and process optimal input lengths for depression classification.

academic

Optimizing Speech-Input Length for Speaker-Independent Depression Classification

基本信息

论文ID: 2501.00608
标题: Optimizing Speech-Input Length for Speaker-Independent Depression Classification
作者: Tomasz Rutowski, Amir Harati, Yang Lu, Elizabeth Shriberg (Ellipsis Health, Inc.)
分类: cs.CL eess.AS
关键词: depression, speech, paralinguistics, affective computing, NLP, health applications, deep learning

摘要

本文研究了语音输入长度对基于机器学习的抑郁症分类性能的影响。研究使用了超过1400小时语音数据的大规模语料库，分析了两个性能不同的NLP系统在不同响应输入长度下的表现。结果表明，系统性能取决于自然长度、经过时间和会话中响应的顺序。两个系统共享最小长度阈值，但在响应饱和阈值上存在差异，性能更好的系统具有更高的饱和阈值。

研究背景与动机

问题定义

抑郁症是一种普遍的致残性疾病，也是全球主要的公共健康问题。移动AI技术在扩大抑郁症筛查方面具有重要作用，特别是作为医疗提供者的辅助工具。语音技术因其自然性、远程使用能力、无需特殊训练以及携带说话者状态信息的特点而具有前景。

研究动机

实际需求：尽管基于语音的抑郁症分类研究不断增长，但对语音输入长度如何影响模型性能的了解很少
实用考虑：更长的输入会增加患者时间成本和系统基础设施成本
优化需求：需要在性能和效率之间找到最佳平衡点

现有方法局限性

大多数语音技术任务中"语音越多越好"的一阶假设缺乏深入验证
缺乏对输入长度与分类性能关系的系统性研究
实际应用中的时间和成本约束未得到充分考虑

核心贡献

大规模数据分析：使用超过1400小时语音数据的语料库进行系统性分析
多层次长度效应研究：在个体响应和多响应会话层面分析长度效应
系统间比较：对比两个性能不同的NLP系统，验证长度阈值的一般性
实用指导原则：为抑郁症分类应用的设计和优化提供具体建议
意外发现：揭示了说话者在会话中语音长度递增的模式

方法详解

任务定义

输入：美式英语自发语音，用户对不同主题问题的自由回答
输出：二元分类任务（抑郁/非抑郁），基于PHQ-8评分（≥10为抑郁）
约束：说话者无关的分类任务

数据集构建

规模：1400小时语音，9600名独立用户
结构：每个会话包含4-6个问题响应（平均4.52个），每个响应平均125词
标注：使用PHQ-8量表（移除自杀倾向问题的PHQ-9）作为金标准
划分：训练集和测试集无重叠说话者

模型架构

System 1（较弱系统）

方法：SVM + 词嵌入
特征：Word2Vec词向量，使用平均池化
数据：较小训练集（650小时，6600用户）
词汇量：7000个token

System 2（较强系统）

方法：基于ULMFiT的深度学习模型
架构：RNN-LSTM语言模型，在大规模公开语料（如Wikipedia）上预训练后微调
数据：完整训练集（1400小时，9600用户）
词汇量：30000个token

技术创新点

累积门控长度指标：定义了新的长度评估方法，显示在任意点"目前为止"存在的信息量
多维度长度分析：同时考虑自然长度、经过时间和会话内顺序
系统间阈值比较：通过对比不同性能系统验证发现的普遍性

实验设置

数据集详情

数据集	总响应数	训练(-dep)	训练(+dep)	测试(-dep)	测试(+dep)
较小(650h)	32,078	12,966	4,602	11,366	3,144
较大(1400h)	64,518	35,715	14,293	11,366	3,144

评价指标

主要指标：AUC（曲线下面积），适用于二元任务和倾斜类别分布
辅助指标：特异性和敏感性，用于医疗领域评估

语音处理

转录：Google Async ASR
语速估算：全局平均语速2.39词/秒（143.4词/分钟）

实验结果

语速分析发现

抑郁症相关语速下降：抑郁组语速比非抑郁组低约5词/分钟，与文献一致
长度相关语速下降：较长响应的语速普遍较慢，差异约3-4词/分钟
效应较小：总体差异不大，可使用全局语速估算

聚合长度效应

主要发现

最小长度阈值：两个系统在30-50词以下性能急剧下降
响应饱和点：单个响应在约250词处AUC饱和
会话饱和点：会话级别在约1000词处饱和

系统性能比较

System 2始终优于System 1
会话级别性能优于单个响应
两系统均超过无辅助初级保健医生的表现（87%特异性/54%敏感性）

会话内长度效应

响应累积效应

最小阈值一致：无论响应数量，会话最小阈值为30-50词
递减收益：N+1个响应相比N个响应的收益随N增加而递减
多响应优势：给定长度下，更多响应优于更少响应
新响应收益：开始新响应的最大收益约为4% AUC
早期响应饱和：System 2在200词处饱和（System 1为120词）

意外发现

长度递增模式：说话者倾向于在会话过程中逐渐增加响应长度
长短响应性能交叉：长响应最终表现更好，但短响应在初期表现更好
响应内阈值：存在不应中断当前响应的阈值长度
- System 1：80词（继续阈值）和120词（饱和阈值）
- System 2：150词（继续阈值）和200词（饱和阈值）