The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
- ID статьи: 2501.00067
- Название: Ensemble of classifiers for speech evaluation
- Авторы: Г. Белокрылов, А. Коренев, Б. Лодонова, А. Новохрестов
- Классификация: cs.SD cs.AI eess.AS
- Дата публикации/конференция: 2025 (препринт)
- Ссылка на статью: https://arxiv.org/abs/2501.00067
В данной статье описывается применение методов ансамбля бинарных классификаторов к задаче медицинской оценки речи. Набор данных был составлен на основе количественной и экспертной оценки качества произношения слогов. В качестве признаков использовалась количественная оценка с применением семи выбранных метрик: расстояние динамического временного деформирования (DTW), расстояние Минковского, коэффициент корреляции, самая длинная общая подпоследовательность (LCSS), расстояние редактирования вещественной последовательности (EDR), расстояние редактирования вещественной последовательности с штрафом (ERP) и объединённое разделение (MSM). Экспертная оценка качества произношения использовалась в качестве меток классов: класс 1 обозначает высококачественную речь, класс 0 обозначает искажённую речь. Проведено сравнение результатов обучения пяти методов классификации: логистическая регрессия (LR), метод опорных векторов (SVM), наивный байесовский классификатор (NB), дерево решений (DT) и метод k-ближайших соседей (KNN). Также представлены результаты построения ансамбля классификаторов с использованием гибридного метода. Методы ансамбля показали незначительное повышение точности классификации на исследуемом наборе данных по сравнению с использованием отдельных бинарных классификаторов.
Основная проблема, которую решает данное исследование, заключается в автоматизации и стандартизации медицинской оценки речи. В частности, при реабилитации пациентов с опухолевыми заболеваниями голосового тракта необходимо проводить объективную и точную оценку качества произношения слогов пациентом.
- Медицинская необходимость: Статистические данные по опухолевым заболеваниям голосового тракта демонстрируют возрастающую важность методов анализа речи в медицине
- Потребности реабилитации: Реабилитационные мероприятия должны корректироваться с учётом индивидуальных характеристик пациента; традиционные методы субъективной оценки имеют ограничения
- Требование стандартизации: Существующие официально рекомендуемые методы экспертной оценки речи на основе стандартов ГОСТ требуют более объективных альтернатив
Традиционные методы экспертной оценки речи имеют следующие недостатки:
- Высокая субъективность, отсутствие объективных количественных критериев
- Результаты оценки могут варьироваться в зависимости от оценивающего специалиста
- Сложность применения в крупномасштабных стандартизированных приложениях
- Отсутствие точного отслеживания процесса реабилитации пациента
На основе методов машинного обучения, в частности методов ансамбля классификаторов, возможно реализовать более эффективный анализ речевых сигналов, обеспечивающий объективную и согласованную оценку качества речи, что улучшит эффективность речевой реабилитации.
- Предложен метод оценки речи на основе ансамбля классификаторов: Применение метода Blending к задаче оценки медицинского качества речи
- Построен набор данных для оценки качества многофонемной речи: На основе записей пациентов Томского национального исследовательского медицинского центра Онкологического института
- Проведено систематическое сравнение нескольких алгоритмов классификации: Полная оценка и сравнение пяти основных методов классификации
- Достигнуто повышение точности классификации: Методы ансамбля обеспечили улучшение производительности по сравнению с отдельными классификаторами на всех тестируемых фонемах
- Предоставлен полный процесс предварительной обработки данных: Систематический подход, включающий очистку шума и переуравновешивание данных
Входные данные: Аудиозаписи произношения слогов пациентом
Выходные данные: Результат бинарной классификации (0 — искажённая речь, 1 — высококачественная речь)
Ограничения: Обучающие данные на основе семи количественных метрик и экспертной разметки
В исследовании использовались семь ключевых метрик сходства и расстояния:
- Расстояние DTW: Оценка стоимости пути в алгоритме динамического временного деформирования
- Коэффициент корреляции: Измерение линейной корреляции между последовательностями
- Расстояние Минковского: Обобщённая метрика расстояния
- EDR: Расстояние редактирования вещественной последовательности
- ERP: Расстояние редактирования вещественной последовательности с штрафом
- LCSS: Длина самой длинной общей подпоследовательности
- MSM: Расстояние объединённого разделения, вычисляющее количество операций, необходимых для преобразования последовательности
Для решения проблемы дисбаланса набора данных применялись следующие методы предварительной обработки:
- Очистка шума: Использование алгоритма анализа квартилей
- Переуравновешивание данных: Применение метода KMeansSMOTE (комбинация K-Means и SMOTE)
- Построение набора данных: Для каждой проблемной фонемы построены четыре варианта набора данных:
- Исходный набор данных
- Набор данных после очистки шума
- Переуравновешенный набор данных
- Переуравновешенный и очищенный от шума набор данных
Выбраны пять распространённых методов бинарной классификации:
- Метод k-ближайших соседей (KNN)
- Случайный лес (RF)
- Метод опорных векторов (SVC)
- Логистическая регрессия (LR)
- Дерево решений (DT)
Применён метод смешивания (Blending) для построения ансамбля классификаторов:
Этап 1: Создание нескольких базовых моделей
Этап 2: Обучение смешивающей модели
- Базовые модели обучаются на обучающем наборе данных
- Метамодель обучается на результатах предсказаний базовых моделей
Этап 3: Построение матрицы метапризнаков meta_X
- Каждый столбец представляет выход одной базовой модели
- Каждая строка представляет один образец из независимого набора данных
Этап 4: Обучение метамодели
Этап 5: Предсказание ансамбля
- Двухэтапный процесс: предсказание базовых моделей → финальное предсказание метамодели
- Источник данных: Записи пациентов Томского национального исследовательского медицинского центра Онкологического института
- Размер данных: Для трёх проблемных фонем k, s, t по 1020 векторов признаков на каждую фонему
- Способ разметки: Разметка логопедами-экспертами (0 — нечёткая, 1 — чёткая)
- Размерность признаков: Семимерные векторы признаков (соответствующие семи метрикам расстояния)
- Основная метрика: Точность классификации (Accuracy)
- Способ оценки: Оценка эффективности ансамблевой модели на независимом тестовом наборе
- Пять отдельных классификаторов в качестве базовых методов
- Различные комбинации методов ансамбля для внутреннего сравнения
- Реализация с использованием библиотек машинного обучения Python
- Отдельная обработка наборов данных по фонемам
- Стандартное разделение на обучающий, валидационный и тестовый наборы
- Лучший отдельный классификатор: Случайный лес, точность 77,2%
- Лучший результат ансамбля: Точность 78,6%
- Лучшая комбинация: Основной классификатор SVC + вспомогательные классификаторы (KNN, SVC, RandomForest, DecisionTree)
- Величина улучшения: 1,4 процентных пункта
- Лучший отдельный классификатор: Дерево решений, точность 86,3%
- Лучший результат ансамбля: Точность 87,0%
- Количество улучшенных случаев: Результаты улучшены в 24 случаях
- Количество достижений лучшего результата: 5 раз достигнута максимальная точность 87,0%
- Величина улучшения: 0,7 процентных пункта
- Лучший отдельный классификатор: Метод опорных векторов, точность 86,4%
- Лучший результат ансамбля: Точность 87,0%
- Лучшие комбинации:
- Основной классификатор DecisionTree + вспомогательные классификаторы (KNN, SVC, LogisticRegression)
- Основной классификатор RandomForest + вспомогательные классификаторы (KNN, SVC, LogisticRegression)
- Величина улучшения: 0,6 процентных пункта
- Согласованное улучшение: Методы ансамбля обеспечили повышение производительности на всех трёх наборах данных фонем
- Умеренная величина улучшения: Диапазон повышения точности составляет 0,6–1,4 процентных пункта
- Разнообразие комбинаций: Оптимальные комбинации ансамбля различаются для разных фонем, что указывает на необходимость целевой оптимизации
- Повышенная стабильность: Методы ансамбля обеспечивают более стабильные результаты предсказания по сравнению с отдельными классификаторами
В статье упоминается применение ансамбля классификаторов в медицине, экономике и информационной безопасности, в частности отмечается, что комбинация двух или более классификаторов при обнаружении DDoS-атак в среднем повышает точность на 5%.
- Традиционные методы, основанные на экспертной оценке по стандартам ГОСТ
- Всё более широкое применение методов машинного обучения в анализе речевых сигналов
- Важная роль алгоритмов, таких как динамическое временное деформирование, в обработке речи
По сравнению с существующими работами, в данной статье впервые систематически применено ансамблевое обучение к оценке медицинской речевой реабилитации, предоставляя полное решение от извлечения признаков до ансамбля классификаторов.
- Эффективность методов: Методы ансамбля действительно повышают точность классификации при оценке качества речи
- Универсальность: Согласованное улучшение наблюдается на различных фонемах
- Практическая ценность: Предоставляет объективный и автоматизированный инструмент оценки для медицинской речевой реабилитации
- Ограниченная величина улучшения: Повышение точности относительно невелико (0,6–1,4 процентных пункта)
- Размер набора данных: Только 1020 образцов на каждую фонему, что может ограничить обобщающую способность модели
- Простая инженерия признаков: Использованы только семь традиционных метрик расстояния, что может привести к недостаточному представлению признаков
- Единственный метод ансамбля: Протестирован только метод Blending, не исследованы другие стратегии ансамбля
В статье явно указано на намерение исследовать другие методы построения ансамбля для дальнейшего повышения точности классификации и качества оценки анализа речи.
- Высокая практическая ценность: Ориентирована на реальные медицинские потребности с чётким сценарием применения
- Строгая методология: Систематическое сравнение нескольких методов классификации с применением стандартных процедур предварительной обработки данных
- Разумный дизайн экспериментов: Применены надлежащие методы обработки проблемы дисбаланса данных
- Воспроизводимость результатов: Предоставлены подробные параметры экспериментальной установки и конфигурации
- Ограниченная новизна: Главным образом применение существующих методов, отсутствие значительных методологических инноваций
- Микроскопическое улучшение производительности: Хотя согласованность хорошая, величина улучшения мала, практическая ценность требует проверки
- Простая инженерия признаков: Недостаточное использование современных методов, таких как глубокое обучение, для извлечения признаков
- Единственная метрика оценки: Использована только точность, отсутствуют другие важные метрики, такие как точность, полнота и т. д.
- Отсутствие проверки статистической значимости: Не сообщена статистическая значимость результатов
- Вклад в область: Предоставляет новый технический путь для медицинской оценки речи
- Практическая ценность: Может быть непосредственно применена в клинической практике речевой реабилитации
- Воспроизводимость: Методология описана ясно, легко воспроизводится и совершенствуется
- Ограничения: Влияние может быть ограничено микроскопической величиной улучшения производительности
- Медицинская речевая реабилитация: Оценка качества речи и отслеживание реабилитации пациентов с заболеваниями голосового тракта
- Логопедия: Предоставление логопедам объективного инструмента оценки
- Мониторинг качества речи: Автоматизированная оценка качества крупномасштабных речевых данных
- Исследовательская платформа: Основа для дальнейших исследований методов оценки речи
В статье цитируется 12 соответствующих источников, охватывающих следующие важные направления:
- Статистические данные по опухолевым заболеваниям и стандарты ГОСТ
- Применение машинного обучения в анализе речи
- Применение ансамблевого обучения в сетевой безопасности
- Алгоритмы динамического временного деформирования и различные метрики расстояния
- Методы выравнивания временных рядов и измерения сходства
Эти источники обеспечивают прочную теоретическую основу и техническую поддержку исследования.
Общая оценка: Это прикладная исследовательская работа, которая, хотя и имеет ограниченную методологическую новизну, предоставляет систематическое решение реальных медицинских потребностей. Методология исследования строга, дизайн экспериментов разумен, результаты имеют определённую практическую ценность. Рекомендуется, чтобы будущие работы проводили более глубокие исследования в области инженерии признаков и методов ансамбля.