2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.
The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
academic

Ансамбль классификаторов для оценки речи

Основная информация

  • ID статьи: 2501.00067
  • Название: Ensemble of classifiers for speech evaluation
  • Авторы: Г. Белокрылов, А. Коренев, Б. Лодонова, А. Новохрестов
  • Классификация: cs.SD cs.AI eess.AS
  • Дата публикации/конференция: 2025 (препринт)
  • Ссылка на статью: https://arxiv.org/abs/2501.00067

Аннотация

В данной статье описывается применение методов ансамбля бинарных классификаторов к задаче медицинской оценки речи. Набор данных был составлен на основе количественной и экспертной оценки качества произношения слогов. В качестве признаков использовалась количественная оценка с применением семи выбранных метрик: расстояние динамического временного деформирования (DTW), расстояние Минковского, коэффициент корреляции, самая длинная общая подпоследовательность (LCSS), расстояние редактирования вещественной последовательности (EDR), расстояние редактирования вещественной последовательности с штрафом (ERP) и объединённое разделение (MSM). Экспертная оценка качества произношения использовалась в качестве меток классов: класс 1 обозначает высококачественную речь, класс 0 обозначает искажённую речь. Проведено сравнение результатов обучения пяти методов классификации: логистическая регрессия (LR), метод опорных векторов (SVM), наивный байесовский классификатор (NB), дерево решений (DT) и метод k-ближайших соседей (KNN). Также представлены результаты построения ансамбля классификаторов с использованием гибридного метода. Методы ансамбля показали незначительное повышение точности классификации на исследуемом наборе данных по сравнению с использованием отдельных бинарных классификаторов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в автоматизации и стандартизации медицинской оценки речи. В частности, при реабилитации пациентов с опухолевыми заболеваниями голосового тракта необходимо проводить объективную и точную оценку качества произношения слогов пациентом.

Значимость проблемы

  1. Медицинская необходимость: Статистические данные по опухолевым заболеваниям голосового тракта демонстрируют возрастающую важность методов анализа речи в медицине
  2. Потребности реабилитации: Реабилитационные мероприятия должны корректироваться с учётом индивидуальных характеристик пациента; традиционные методы субъективной оценки имеют ограничения
  3. Требование стандартизации: Существующие официально рекомендуемые методы экспертной оценки речи на основе стандартов ГОСТ требуют более объективных альтернатив

Ограничения существующих методов

Традиционные методы экспертной оценки речи имеют следующие недостатки:

  • Высокая субъективность, отсутствие объективных количественных критериев
  • Результаты оценки могут варьироваться в зависимости от оценивающего специалиста
  • Сложность применения в крупномасштабных стандартизированных приложениях
  • Отсутствие точного отслеживания процесса реабилитации пациента

Исследовательская мотивация

На основе методов машинного обучения, в частности методов ансамбля классификаторов, возможно реализовать более эффективный анализ речевых сигналов, обеспечивающий объективную и согласованную оценку качества речи, что улучшит эффективность речевой реабилитации.

Основные вклады

  1. Предложен метод оценки речи на основе ансамбля классификаторов: Применение метода Blending к задаче оценки медицинского качества речи
  2. Построен набор данных для оценки качества многофонемной речи: На основе записей пациентов Томского национального исследовательского медицинского центра Онкологического института
  3. Проведено систематическое сравнение нескольких алгоритмов классификации: Полная оценка и сравнение пяти основных методов классификации
  4. Достигнуто повышение точности классификации: Методы ансамбля обеспечили улучшение производительности по сравнению с отдельными классификаторами на всех тестируемых фонемах
  5. Предоставлен полный процесс предварительной обработки данных: Систематический подход, включающий очистку шума и переуравновешивание данных

Подробное описание методологии

Определение задачи

Входные данные: Аудиозаписи произношения слогов пациентом Выходные данные: Результат бинарной классификации (0 — искажённая речь, 1 — высококачественная речь) Ограничения: Обучающие данные на основе семи количественных метрик и экспертной разметки

Метод извлечения признаков

В исследовании использовались семь ключевых метрик сходства и расстояния:

  1. Расстояние DTW: Оценка стоимости пути в алгоритме динамического временного деформирования
  2. Коэффициент корреляции: Измерение линейной корреляции между последовательностями
  3. Расстояние Минковского: Обобщённая метрика расстояния
  4. EDR: Расстояние редактирования вещественной последовательности
  5. ERP: Расстояние редактирования вещественной последовательности с штрафом
  6. LCSS: Длина самой длинной общей подпоследовательности
  7. MSM: Расстояние объединённого разделения, вычисляющее количество операций, необходимых для преобразования последовательности

Стратегия предварительной обработки данных

Для решения проблемы дисбаланса набора данных применялись следующие методы предварительной обработки:

  1. Очистка шума: Использование алгоритма анализа квартилей
  2. Переуравновешивание данных: Применение метода KMeansSMOTE (комбинация K-Means и SMOTE)
  3. Построение набора данных: Для каждой проблемной фонемы построены четыре варианта набора данных:
    • Исходный набор данных
    • Набор данных после очистки шума
    • Переуравновешенный набор данных
    • Переуравновешенный и очищенный от шума набор данных

Выбор классификаторов

Выбраны пять распространённых методов бинарной классификации:

  1. Метод k-ближайших соседей (KNN)
  2. Случайный лес (RF)
  3. Метод опорных векторов (SVC)
  4. Логистическая регрессия (LR)
  5. Дерево решений (DT)

Метод ансамбля: Blending

Применён метод смешивания (Blending) для построения ансамбля классификаторов:

Этап 1: Создание нескольких базовых моделей Этап 2: Обучение смешивающей модели

  • Базовые модели обучаются на обучающем наборе данных
  • Метамодель обучается на результатах предсказаний базовых моделей

Этап 3: Построение матрицы метапризнаков meta_X

  • Каждый столбец представляет выход одной базовой модели
  • Каждая строка представляет один образец из независимого набора данных

Этап 4: Обучение метамодели Этап 5: Предсказание ансамбля

  • Двухэтапный процесс: предсказание базовых моделей → финальное предсказание метамодели

Экспериментальная установка

Набор данных

  • Источник данных: Записи пациентов Томского национального исследовательского медицинского центра Онкологического института
  • Размер данных: Для трёх проблемных фонем k, s, t по 1020 векторов признаков на каждую фонему
  • Способ разметки: Разметка логопедами-экспертами (0 — нечёткая, 1 — чёткая)
  • Размерность признаков: Семимерные векторы признаков (соответствующие семи метрикам расстояния)

Метрики оценки

  • Основная метрика: Точность классификации (Accuracy)
  • Способ оценки: Оценка эффективности ансамблевой модели на независимом тестовом наборе

Методы сравнения

  • Пять отдельных классификаторов в качестве базовых методов
  • Различные комбинации методов ансамбля для внутреннего сравнения

Детали реализации

  • Реализация с использованием библиотек машинного обучения Python
  • Отдельная обработка наборов данных по фонемам
  • Стандартное разделение на обучающий, валидационный и тестовый наборы

Результаты экспериментов

Основные результаты

Набор данных фонемы k

  • Лучший отдельный классификатор: Случайный лес, точность 77,2%
  • Лучший результат ансамбля: Точность 78,6%
  • Лучшая комбинация: Основной классификатор SVC + вспомогательные классификаторы (KNN, SVC, RandomForest, DecisionTree)
  • Величина улучшения: 1,4 процентных пункта

Набор данных фонемы t

  • Лучший отдельный классификатор: Дерево решений, точность 86,3%
  • Лучший результат ансамбля: Точность 87,0%
  • Количество улучшенных случаев: Результаты улучшены в 24 случаях
  • Количество достижений лучшего результата: 5 раз достигнута максимальная точность 87,0%
  • Величина улучшения: 0,7 процентных пункта

Набор данных фонемы s

  • Лучший отдельный классификатор: Метод опорных векторов, точность 86,4%
  • Лучший результат ансамбля: Точность 87,0%
  • Лучшие комбинации:
    • Основной классификатор DecisionTree + вспомогательные классификаторы (KNN, SVC, LogisticRegression)
    • Основной классификатор RandomForest + вспомогательные классификаторы (KNN, SVC, LogisticRegression)
  • Величина улучшения: 0,6 процентных пункта

Экспериментальные выводы

  1. Согласованное улучшение: Методы ансамбля обеспечили повышение производительности на всех трёх наборах данных фонем
  2. Умеренная величина улучшения: Диапазон повышения точности составляет 0,6–1,4 процентных пункта
  3. Разнообразие комбинаций: Оптимальные комбинации ансамбля различаются для разных фонем, что указывает на необходимость целевой оптимизации
  4. Повышенная стабильность: Методы ансамбля обеспечивают более стабильные результаты предсказания по сравнению с отдельными классификаторами

Связанные работы

Применение ансамблевого обучения в медицине

В статье упоминается применение ансамбля классификаторов в медицине, экономике и информационной безопасности, в частности отмечается, что комбинация двух или более классификаторов при обнаружении DDoS-атак в среднем повышает точность на 5%.

Развитие технологий анализа речи

  • Традиционные методы, основанные на экспертной оценке по стандартам ГОСТ
  • Всё более широкое применение методов машинного обучения в анализе речевых сигналов
  • Важная роль алгоритмов, таких как динамическое временное деформирование, в обработке речи

Позиционирование вклада данной работы

По сравнению с существующими работами, в данной статье впервые систематически применено ансамблевое обучение к оценке медицинской речевой реабилитации, предоставляя полное решение от извлечения признаков до ансамбля классификаторов.

Заключение и обсуждение

Основные выводы

  1. Эффективность методов: Методы ансамбля действительно повышают точность классификации при оценке качества речи
  2. Универсальность: Согласованное улучшение наблюдается на различных фонемах
  3. Практическая ценность: Предоставляет объективный и автоматизированный инструмент оценки для медицинской речевой реабилитации

Ограничения

  1. Ограниченная величина улучшения: Повышение точности относительно невелико (0,6–1,4 процентных пункта)
  2. Размер набора данных: Только 1020 образцов на каждую фонему, что может ограничить обобщающую способность модели
  3. Простая инженерия признаков: Использованы только семь традиционных метрик расстояния, что может привести к недостаточному представлению признаков
  4. Единственный метод ансамбля: Протестирован только метод Blending, не исследованы другие стратегии ансамбля

Направления будущих исследований

В статье явно указано на намерение исследовать другие методы построения ансамбля для дальнейшего повышения точности классификации и качества оценки анализа речи.

Глубокая оценка

Преимущества

  1. Высокая практическая ценность: Ориентирована на реальные медицинские потребности с чётким сценарием применения
  2. Строгая методология: Систематическое сравнение нескольких методов классификации с применением стандартных процедур предварительной обработки данных
  3. Разумный дизайн экспериментов: Применены надлежащие методы обработки проблемы дисбаланса данных
  4. Воспроизводимость результатов: Предоставлены подробные параметры экспериментальной установки и конфигурации

Недостатки

  1. Ограниченная новизна: Главным образом применение существующих методов, отсутствие значительных методологических инноваций
  2. Микроскопическое улучшение производительности: Хотя согласованность хорошая, величина улучшения мала, практическая ценность требует проверки
  3. Простая инженерия признаков: Недостаточное использование современных методов, таких как глубокое обучение, для извлечения признаков
  4. Единственная метрика оценки: Использована только точность, отсутствуют другие важные метрики, такие как точность, полнота и т. д.
  5. Отсутствие проверки статистической значимости: Не сообщена статистическая значимость результатов

Влияние

  1. Вклад в область: Предоставляет новый технический путь для медицинской оценки речи
  2. Практическая ценность: Может быть непосредственно применена в клинической практике речевой реабилитации
  3. Воспроизводимость: Методология описана ясно, легко воспроизводится и совершенствуется
  4. Ограничения: Влияние может быть ограничено микроскопической величиной улучшения производительности

Применимые сценарии

  1. Медицинская речевая реабилитация: Оценка качества речи и отслеживание реабилитации пациентов с заболеваниями голосового тракта
  2. Логопедия: Предоставление логопедам объективного инструмента оценки
  3. Мониторинг качества речи: Автоматизированная оценка качества крупномасштабных речевых данных
  4. Исследовательская платформа: Основа для дальнейших исследований методов оценки речи

Список литературы

В статье цитируется 12 соответствующих источников, охватывающих следующие важные направления:

  1. Статистические данные по опухолевым заболеваниям и стандарты ГОСТ
  2. Применение машинного обучения в анализе речи
  3. Применение ансамблевого обучения в сетевой безопасности
  4. Алгоритмы динамического временного деформирования и различные метрики расстояния
  5. Методы выравнивания временных рядов и измерения сходства

Эти источники обеспечивают прочную теоретическую основу и техническую поддержку исследования.


Общая оценка: Это прикладная исследовательская работа, которая, хотя и имеет ограниченную методологическую новизну, предоставляет систематическое решение реальных медицинских потребностей. Методология исследования строга, дизайн экспериментов разумен, результаты имеют определённую практическую ценность. Рекомендуется, чтобы будущие работы проводили более глубокие исследования в области инженерии признаков и методов ансамбля.