2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.
The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
academic

Ensemble of classifiers for speech evaluation

基本信息

  • 论文ID: 2501.00067
  • 标题: Ensemble of classifiers for speech evaluation
  • 作者: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
  • 分类: cs.SD cs.AI eess.AS
  • 发表时间/会议: 2025年(预印本)
  • 论文链接: https://arxiv.org/abs/2501.00067

摘要

本文描述了将二元分类器集成方法应用于医学语音评估问题的尝试。基于音节发音质量的定量和专家评估编制了数据集。使用7个选定指标的定量评估作为特征:动态时间规整距离、闵可夫斯基距离、相关系数、最长公共子序列(LCSS)、实序列编辑距离(EDR)、带惩罚的实序列编辑距离(ERP)和合并分割(MSM)。专家对发音质量的评估用作类别标签:1类表示高质量语音,0类表示失真语音。对五种分类方法进行了训练结果比较:逻辑回归(LR)、支持向量机(SVM)、朴素贝叶斯(NB)、决策树(DT)和K近邻(KNN)。还展示了使用混合方法构建分类器集成的结果。相比使用单个二元分类器,集成方法在研究的数据集上略微提高了分类准确率。

研究背景与动机

问题定义

本研究要解决的核心问题是医学语音评估的自动化和标准化。具体而言,针对声道肿瘤疾病患者的语音康复过程中,需要对患者的音节发音质量进行客观、准确的评估。

问题重要性

  1. 医学需求: 声道肿瘤疾病统计数据显示,语音分析方法在医学中的重要性日益凸显
  2. 康复需要: 康复措施需要根据患者个体特征进行调整,传统的主观评估方法存在局限性
  3. 标准化需求: 目前官方推荐的基于GOST标准的专家语音评估方法需要更客观的替代方案

现有方法局限性

传统的专家语音评估方法存在以下问题:

  • 主观性强,缺乏客观量化标准
  • 评估结果可能因评估者而异
  • 难以进行大规模标准化应用
  • 缺乏对患者康复过程的精确跟踪

研究动机

基于机器学习方法,特别是分类器集成技术,可以实现更高效的语音信号分析,提供客观、一致的语音质量评估,从而改善语音康复的效果。

核心贡献

  1. 提出了基于分类器集成的语音评估方法:将Blending集成方法应用于医学语音质量评估任务
  2. 构建了多音素语音质量评估数据集:基于托木斯克国家研究医学中心肿瘤研究所的患者录音数据
  3. 系统比较了多种分类算法:对5种主流分类方法进行了全面评估和比较
  4. 实现了分类准确率的提升:集成方法相比单一分类器在所有测试音素上都获得了性能改进
  5. 提供了完整的数据预处理流程:包括噪声清理和数据重平衡的系统性方法

方法详解

任务定义

输入:患者音节发音的音频录音 输出:二元分类结果(0-失真语音,1-高质量语音) 约束条件:基于7个定量指标和专家标注的训练数据

特征提取方法

研究使用了7个关键的相似性和距离度量指标:

  1. DTW距离:动态时间规整算法中的路径成本估计
  2. 相关系数:衡量序列间的线性相关性
  3. 闵可夫斯基距离:广义的距离度量
  4. EDR:实序列编辑距离
  5. ERP:带惩罚的实序列编辑距离
  6. LCSS:最长公共子序列长度
  7. MSM:移动分割合并距离,计算序列变换所需操作数

数据预处理策略

针对数据集的不平衡性问题,采用了以下预处理方法:

  1. 噪声清理:使用四分位数分析算法
  2. 数据重平衡:采用KMeansSMOTE方法(K-Means和SMOTE的组合)
  3. 数据集构建:为每个问题音素构建4个数据集变体:
    • 原始数据集
    • 清理噪声后的数据集
    • 重平衡数据集
    • 重平衡且清理噪声的数据集

分类器选择

选择了5种常用的二元分类方法:

  1. K近邻(KNN)
  2. 随机森林(RF)
  3. 支持向量机(SVC)
  4. 逻辑回归(LR)
  5. 决策树(DT)

集成方法:Blending

采用混合模型(Blending)方法构建分类器集成:

步骤1:创建多个基础模型 步骤2:混合模型训练

  • 基础模型在训练数据集上训练
  • 元模型在基础模型预测结果上训练

步骤3:构建元特征矩阵meta_X

  • 每列代表一个基础模型的输出
  • 每行代表独立数据集中的一个样本

步骤4:元模型训练 步骤5:集成预测

  • 两步过程:基础模型预测→元模型最终预测

实验设置

数据集

  • 数据来源:托木斯克国家研究医学中心肿瘤研究所患者录音
  • 数据规模:针对3个问题音素kst,每个音素1020个特征向量
  • 标注方式:语音治疗师专家标注(0-不清晰,1-清晰)
  • 特征维度:7维特征向量(对应7个距离度量指标)

评价指标

  • 主要指标:分类准确率(Accuracy)
  • 评估方式:在独立测试集上评估集成模型效果

对比方法

  • 5种单一分类器作为基线方法
  • 不同组合的集成方法进行内部对比

实现细节

  • 使用Python机器学习库实现
  • 数据集按音素分别处理
  • 采用训练-验证-测试的标准划分

实验结果

主要结果

k音素数据集

  • 最佳单一分类器:随机森林,准确率77.2%
  • 最佳集成结果:78.6%准确率
  • 最佳组合:主分类器SVC + 辅助分类器(KNN, SVC, RandomForest, DecisionTree)
  • 提升幅度:1.4个百分点

t音素数据集

  • 最佳单一分类器:决策树,准确率86.3%
  • 最佳集成结果:87.0%准确率
  • 改进案例数:24个案例中结果得到改进
  • 最佳结果获得次数:5次达到87.0%最高准确率
  • 提升幅度:0.7个百分点

s音素数据集

  • 最佳单一分类器:支持向量机,准确率86.4%
  • 最佳集成结果:87.0%准确率
  • 最佳组合
    • 主分类器DecisionTree + 辅助分类器(KNN, SVC, LogisticRegression)
    • 主分类器RandomForest + 辅助分类器(KNN, SVC, LogisticRegression)
  • 提升幅度:0.6个百分点

实验发现

  1. 一致性改进:集成方法在所有3个音素数据集上都实现了性能提升
  2. 提升幅度适中:准确率提升范围在0.6-1.4个百分点
  3. 组合多样性:不同音素的最佳集成组合存在差异,说明需要针对性优化
  4. 稳定性增强:集成方法提供了比单一分类器更稳定的预测结果

相关工作

集成学习在医学中的应用

论文提到集成分类器在医学、经济学和信息安全等多个领域的应用,特别指出在DDoS攻击检测中,2个或更多分类器的组合平均可提高5%的准确率。

语音分析技术发展

  • 传统方法基于GOST标准的专家评估
  • 机器学习方法在语音信号分析中的应用日益广泛
  • 动态时间规整等算法在语音处理中的重要作用

本文贡献定位

相比现有工作,本文首次将集成学习系统性地应用于医学语音康复评估,提供了完整的从特征提取到分类器集成的解决方案。

结论与讨论

主要结论

  1. 方法有效性:集成方法在语音质量评估任务上确实能够提升分类准确率
  2. 普适性:在多个不同音素上都观察到了一致的改进效果
  3. 实用价值:为医学语音康复提供了客观、自动化的评估工具

局限性

  1. 提升幅度有限:准确率提升相对较小(0.6-1.4个百分点)
  2. 数据集规模:每个音素仅1020个样本,可能限制了模型的泛化能力
  3. 特征工程:仅使用了7个传统的距离度量指标,可能存在特征表示不充分的问题
  4. 集成方法单一:仅测试了Blending方法,未探索其他集成策略

未来方向

论文明确提出将研究其他集成构建方法以进一步提高分类准确率和语音分析质量评估效果。

深度评价

优点

  1. 实际应用价值高:针对真实医学需求,具有明确的应用场景
  2. 方法论严谨:系统比较了多种分类方法,采用了标准的数据预处理流程
  3. 实验设计合理:针对数据不平衡问题采用了适当的处理方法
  4. 结果可重现:提供了详细的实验设置和参数配置

不足

  1. 创新性有限:主要是现有技术的应用,缺乏方法论上的重大创新
  2. 性能提升微小:虽然一致性好,但提升幅度较小,实用价值有待验证
  3. 特征工程简单:未充分利用深度学习等现代方法进行特征提取
  4. 评估指标单一:仅使用准确率,缺乏其他重要指标如精确率、召回率等
  5. 缺乏统计显著性测试:未报告结果的统计显著性

影响力

  1. 领域贡献:为医学语音评估提供了新的技术路径
  2. 实用价值:可直接应用于临床语音康复实践
  3. 可复现性:方法描述清晰,易于复现和改进
  4. 局限性:影响力可能受限于性能提升的微小幅度

适用场景

  1. 医学语音康复:声道疾病患者的语音质量评估和康复跟踪
  2. 语音治疗:为语音治疗师提供客观的评估工具
  3. 语音质量监测:大规模语音数据的自动化质量评估
  4. 研究平台:作为进一步研究语音评估方法的基础平台

参考文献

论文引用了12篇相关文献,涵盖了以下几个重要方向:

  1. 肿瘤疾病统计数据和GOST标准
  2. 机器学习在语音分析中的应用
  3. 集成学习在网络安全中的应用
  4. 动态时间规整和各种距离度量算法
  5. 时间序列对齐和相似性度量方法

这些参考文献为研究提供了坚实的理论基础和技术支撑。


总体评价:这是一篇应用导向的研究论文,虽然在方法创新上相对有限,但针对实际医学需求提供了系统性的解决方案。研究方法严谨,实验设计合理,结果具有一定的实用价值。建议未来工作在特征工程和集成方法上进行更深入的探索。