2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.

The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.

academic

Ensemble of classifiers for speech evaluation

基本信息

论文ID: 2501.00067
标题: Ensemble of classifiers for speech evaluation
作者: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
分类: cs.SD cs.AI eess.AS
发表时间/会议: 2025年（预印本）
论文链接: https://arxiv.org/abs/2501.00067

摘要

本文描述了将二元分类器集成方法应用于医学语音评估问题的尝试。基于音节发音质量的定量和专家评估编制了数据集。使用7个选定指标的定量评估作为特征：动态时间规整距离、闵可夫斯基距离、相关系数、最长公共子序列(LCSS)、实序列编辑距离(EDR)、带惩罚的实序列编辑距离(ERP)和合并分割(MSM)。专家对发音质量的评估用作类别标签：1类表示高质量语音，0类表示失真语音。对五种分类方法进行了训练结果比较：逻辑回归(LR)、支持向量机(SVM)、朴素贝叶斯(NB)、决策树(DT)和K近邻(KNN)。还展示了使用混合方法构建分类器集成的结果。相比使用单个二元分类器，集成方法在研究的数据集上略微提高了分类准确率。

研究背景与动机

问题定义

本研究要解决的核心问题是医学语音评估的自动化和标准化。具体而言，针对声道肿瘤疾病患者的语音康复过程中，需要对患者的音节发音质量进行客观、准确的评估。

问题重要性

医学需求: 声道肿瘤疾病统计数据显示，语音分析方法在医学中的重要性日益凸显
康复需要: 康复措施需要根据患者个体特征进行调整，传统的主观评估方法存在局限性
标准化需求: 目前官方推荐的基于GOST标准的专家语音评估方法需要更客观的替代方案

现有方法局限性

传统的专家语音评估方法存在以下问题：

主观性强，缺乏客观量化标准
评估结果可能因评估者而异
难以进行大规模标准化应用
缺乏对患者康复过程的精确跟踪

研究动机

基于机器学习方法，特别是分类器集成技术，可以实现更高效的语音信号分析，提供客观、一致的语音质量评估，从而改善语音康复的效果。

核心贡献

提出了基于分类器集成的语音评估方法：将Blending集成方法应用于医学语音质量评估任务
构建了多音素语音质量评估数据集：基于托木斯克国家研究医学中心肿瘤研究所的患者录音数据
系统比较了多种分类算法：对5种主流分类方法进行了全面评估和比较
实现了分类准确率的提升：集成方法相比单一分类器在所有测试音素上都获得了性能改进
提供了完整的数据预处理流程：包括噪声清理和数据重平衡的系统性方法

方法详解

任务定义

输入：患者音节发音的音频录音输出：二元分类结果（0-失真语音，1-高质量语音） 约束条件：基于7个定量指标和专家标注的训练数据

特征提取方法

研究使用了7个关键的相似性和距离度量指标：

DTW距离：动态时间规整算法中的路径成本估计
相关系数：衡量序列间的线性相关性
闵可夫斯基距离：广义的距离度量
EDR：实序列编辑距离
ERP：带惩罚的实序列编辑距离
LCSS：最长公共子序列长度
MSM：移动分割合并距离，计算序列变换所需操作数

数据预处理策略

针对数据集的不平衡性问题，采用了以下预处理方法：

噪声清理：使用四分位数分析算法
数据重平衡：采用KMeansSMOTE方法（K-Means和SMOTE的组合）
数据集构建：为每个问题音素构建4个数据集变体：
- 原始数据集
- 清理噪声后的数据集
- 重平衡数据集
- 重平衡且清理噪声的数据集

分类器选择

选择了5种常用的二元分类方法：

K近邻(KNN)
随机森林(RF)
支持向量机(SVC)
逻辑回归(LR)
决策树(DT)

集成方法：Blending

采用混合模型(Blending)方法构建分类器集成：

步骤1：创建多个基础模型 步骤2：混合模型训练

基础模型在训练数据集上训练
元模型在基础模型预测结果上训练

步骤3：构建元特征矩阵meta_X

每列代表一个基础模型的输出
每行代表独立数据集中的一个样本

步骤4：元模型训练 步骤5：集成预测

两步过程：基础模型预测→元模型最终预测

实验设置

数据集

数据来源：托木斯克国家研究医学中心肿瘤研究所患者录音
数据规模：针对3个问题音素k、s、t，每个音素1020个特征向量
标注方式：语音治疗师专家标注（0-不清晰，1-清晰）
特征维度：7维特征向量（对应7个距离度量指标）

评价指标

主要指标：分类准确率(Accuracy)
评估方式：在独立测试集上评估集成模型效果

对比方法

5种单一分类器作为基线方法
不同组合的集成方法进行内部对比

实现细节

使用Python机器学习库实现
数据集按音素分别处理
采用训练-验证-测试的标准划分

实验结果

主要结果

k音素数据集

最佳单一分类器：随机森林，准确率77.2%
最佳集成结果：78.6%准确率
最佳组合：主分类器SVC + 辅助分类器(KNN, SVC, RandomForest, DecisionTree)
提升幅度：1.4个百分点

t音素数据集

最佳单一分类器：决策树，准确率86.3%
最佳集成结果：87.0%准确率
改进案例数：24个案例中结果得到改进
最佳结果获得次数：5次达到87.0%最高准确率
提升幅度：0.7个百分点

s音素数据集

最佳单一分类器：支持向量机，准确率86.4%
最佳集成结果：87.0%准确率
最佳组合：
- 主分类器DecisionTree + 辅助分类器(KNN, SVC, LogisticRegression)
- 主分类器RandomForest + 辅助分类器(KNN, SVC, LogisticRegression)
提升幅度：0.6个百分点