2025-11-21T02:49:15.516345

Ensemble of classifiers for speech evaluation

Belokrylov, Korenev, Lodonova et al.
The article describes an attempt to apply an ensemble of binary classifiers to solve the problem of speech assessment in medicine. A dataset was compiled based on quantitative and expert assessments of syllable pronunciation quality. Quantitative assessments of 7 selected metrics were used as features: dynamic time warp distance, Minkowski distance, correlation coefficient, longest common subsequence (LCSS), edit distance of real se-quence (EDR), edit distance with real penalty (ERP), and merge split (MSM). Expert as-sessment of pronunciation quality was used as a class label: class 1 means high-quality speech, class 0 means distorted. A comparison of training results was carried out for five classification methods: logistic regression (LR), support vector machine (SVM), naive Bayes (NB), decision trees (DT), and K-nearest neighbors (KNN). The results of using the mixture method to build an ensemble of classifiers are also presented. The use of an en-semble for the studied data sets allowed us to slightly increase the classification accuracy compared to the use of individual binary classifiers.
academic

Ensemble von Klassifikatoren zur Sprachbewertung

Grundlegende Informationen

  • Paper-ID: 2501.00067
  • Titel: Ensemble of classifiers for speech evaluation
  • Autoren: G. Belokrylov, A. Korenev, B. Lodonova, A. Novokhrestov
  • Klassifizierung: cs.SD cs.AI eess.AS
  • Veröffentlichungszeitpunkt/Konferenz: 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.00067

Zusammenfassung

Dieser Artikel beschreibt einen Versuch, Ensemble-Methoden binärer Klassifikatoren auf das Problem der medizinischen Sprachbewertung anzuwenden. Ein Datensatz wurde auf der Grundlage quantitativer und Expertenbewertungen der Silbenaussprachequalität zusammengestellt. Die quantitative Bewertung unter Verwendung von 7 ausgewählten Metriken dient als Merkmale: Dynamic Time Warping (DTW)-Distanz, Minkowski-Distanz, Korrelationskoeffizient, Longest Common Subsequence (LCSS), Edit Distance on Real sequence (EDR), Edit distance with Real Penalty (ERP) und Move-Split-Merge (MSM). Die Expertenbewertung der Aussprachequalität wird als Klassenlabel verwendet: Klasse 1 für hochwertige Sprache, Klasse 0 für verzerrte Sprache. Fünf Klassifizierungsmethoden wurden verglichen: Logistische Regression (LR), Support Vector Machine (SVM), Naive Bayes (NB), Entscheidungsbaum (DT) und K-Nearest Neighbors (KNN). Darüber hinaus werden Ergebnisse zur Konstruktion von Klassifikator-Ensembles unter Verwendung von Hybrid-Methoden präsentiert. Im Vergleich zu einzelnen binären Klassifikatoren verbessern Ensemble-Methoden die Klassifizierungsgenauigkeit auf dem untersuchten Datensatz leicht.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die Automatisierung und Standardisierung der medizinischen Sprachbewertung. Konkret geht es darum, die Qualität der Silbenaussprache von Patienten mit Stimmtrakt-Tumorerkrankungen während des Sprachrehabilitationsprozesses objektiv und genau zu bewerten.

Bedeutung des Problems

  1. Medizinischer Bedarf: Statistiken zu Stimmtrakt-Tumorerkrankungen zeigen die wachsende Bedeutung von Sprachanalysemethoden in der Medizin
  2. Rehabilitationsbedarf: Rehabilitationsmaßnahmen müssen an die individuellen Merkmale der Patienten angepasst werden; traditionelle subjektive Bewertungsmethoden haben Grenzen
  3. Standardisierungsbedarf: Die derzeit offiziell empfohlene Expertenbewertung von Sprache nach GOST-Standard benötigt objektivere Alternativen

Grenzen bestehender Methoden

Traditionelle Expertenbewertungsmethoden für Sprache weisen folgende Probleme auf:

  • Hohe Subjektivität, fehlende objektive Quantifizierungsstandards
  • Bewertungsergebnisse können zwischen Bewertern variieren
  • Schwierig für großflächige standardisierte Anwendungen
  • Mangelnde präzise Verfolgung des Rehabilitationsprozesses von Patienten

Forschungsmotivation

Auf der Grundlage von Machine-Learning-Methoden, insbesondere Klassifikator-Ensemble-Techniken, können effizientere Sprachsignalanalysen realisiert werden, die objektive und konsistente Sprachqualitätsbewertungen bieten und damit die Wirksamkeit der Sprachrehabilitation verbessern.

Kernbeiträge

  1. Vorschlag einer auf Klassifikator-Ensembles basierenden Sprachbewertungsmethode: Anwendung der Blending-Ensemble-Methode auf die Aufgabe der medizinischen Sprachqualitätsbewertung
  2. Konstruktion eines Datensatzes zur Bewertung der Mehrphoneme-Sprachqualität: Basierend auf Patientenaufnahmen des Instituts für Krebsforschung des Nationalen Forschungsmedizinischen Zentrums Tomsk
  3. Systematischer Vergleich mehrerer Klassifizierungsalgorithmen: Umfassende Bewertung und Vergleich von 5 gängigen Klassifizierungsmethoden
  4. Verbesserung der Klassifizierungsgenauigkeit: Ensemble-Methoden zeigen Leistungsverbesserungen gegenüber einzelnen Klassifikatoren auf allen getesteten Phonemen
  5. Bereitstellung eines vollständigen Datenvorverarbeitungsflusses: Systematische Methoden einschließlich Rauschbereinigung und Datenausgleich

Methodische Details

Aufgabendefinition

Eingabe: Audioaufnahmen der Silbenaussprache von Patienten Ausgabe: Binäres Klassifizierungsergebnis (0-verzerrte Sprache, 1-hochwertige Sprache) Einschränkungen: Trainingsdaten basierend auf 7 quantitativen Metriken und Expertenbewertung

Merkmalsextraktionsmethode

Die Forschung verwendet 7 wichtige Ähnlichkeits- und Distanzmaßmetriken:

  1. DTW-Distanz: Pfadkostenschätzung im Dynamic Time Warping-Algorithmus
  2. Korrelationskoeffizient: Messung der linearen Korrelation zwischen Sequenzen
  3. Minkowski-Distanz: Verallgemeinertes Distanzmaß
  4. EDR: Edit Distance on Real sequence
  5. ERP: Edit distance with Real Penalty
  6. LCSS: Länge der längsten gemeinsamen Teilsequenz
  7. MSM: Move-Split-Merge-Distanz, berechnet die Anzahl der Operationen, die für die Sequenztransformation erforderlich sind

Datenvorverarbeitungsstrategie

Zur Bewältigung der Unausgeglichenheit des Datensatzes wurden folgende Vorverarbeitungsmethoden angewendet:

  1. Rauschbereinigung: Verwendung des Quartilanalyse-Algorithmus
  2. Datenausgleich: Anwendung der KMeansSMOTE-Methode (Kombination von K-Means und SMOTE)
  3. Datensatzkonstruktion: Für jedes problematische Phonem wurden 4 Datensatzvarianten konstruiert:
    • Originaldatensatz
    • Datensatz nach Rauschbereinigung
    • Ausgeglichener Datensatz
    • Ausgeglichener und bereinigter Datensatz

Klassifikatorauswahl

Es wurden 5 gängige binäre Klassifizierungsmethoden ausgewählt:

  1. K-Nearest Neighbors (KNN)
  2. Random Forest (RF)
  3. Support Vector Machine (SVC)
  4. Logistische Regression (LR)
  5. Entscheidungsbaum (DT)

Ensemble-Methode: Blending

Die Blending-Methode (Hybrid-Modell) wurde zur Konstruktion des Klassifikator-Ensembles verwendet:

Schritt 1: Erstellung mehrerer Basismodelle Schritt 2: Training des Blending-Modells

  • Basismodelle werden auf dem Trainingsdatensatz trainiert
  • Metamodell wird auf den Vorhersageergebnissen der Basismodelle trainiert

Schritt 3: Konstruktion der Meta-Feature-Matrix meta_X

  • Jede Spalte stellt die Ausgabe eines Basismodells dar
  • Jede Zeile stellt eine Stichprobe aus dem unabhängigen Datensatz dar

Schritt 4: Training des Metamodells Schritt 5: Ensemble-Vorhersage

  • Zweistufiger Prozess: Basismodell-Vorhersage → Metamodell-Endvorhersage

Experimentelle Einrichtung

Datensatz

  • Datenquelle: Patientenaufnahmen des Instituts für Krebsforschung des Nationalen Forschungsmedizinischen Zentrums Tomsk
  • Datengröße: Für 3 problematische Phoneme k, s, t jeweils 1020 Merkmalsvektoren pro Phonem
  • Annotationsmethode: Expertenbewertung durch Sprachpathologen (0-unklar, 1-klar)
  • Merkmalsdimension: 7-dimensionale Merkmalsvektoren (entsprechend 7 Distanzmaßmetriken)

Bewertungsmetriken

  • Primäre Metrik: Klassifizierungsgenauigkeit (Accuracy)
  • Bewertungsmethode: Bewertung der Ensemble-Modellleistung auf unabhängigem Testdatensatz

Vergleichsmethoden

  • 5 einzelne Klassifikatoren als Baseline-Methoden
  • Verschiedene Kombinationen von Ensemble-Methoden für interne Vergleiche

Implementierungsdetails

  • Implementierung mit Python-Machine-Learning-Bibliotheken
  • Separate Verarbeitung von Datensätzen nach Phonemen
  • Standardisierte Aufteilung in Training-Validierung-Test

Experimentelle Ergebnisse

Hauptergebnisse

Datensatz für Phonem k

  • Bester einzelner Klassifikator: Random Forest, Genauigkeit 77,2%
  • Bestes Ensemble-Ergebnis: 78,6% Genauigkeit
  • Beste Kombination: Haupt-Klassifikator SVC + Hilfs-Klassifikatoren (KNN, SVC, RandomForest, DecisionTree)
  • Verbesserungsspanne: 1,4 Prozentpunkte

Datensatz für Phonem t

  • Bester einzelner Klassifikator: Entscheidungsbaum, Genauigkeit 86,3%
  • Bestes Ensemble-Ergebnis: 87,0% Genauigkeit
  • Verbesserte Fälle: Ergebnisse in 24 Fällen verbessert
  • Häufigkeit bester Ergebnisse: 5-mal 87,0% höchste Genauigkeit erreicht
  • Verbesserungsspanne: 0,7 Prozentpunkte

Datensatz für Phonem s

  • Bester einzelner Klassifikator: Support Vector Machine, Genauigkeit 86,4%
  • Bestes Ensemble-Ergebnis: 87,0% Genauigkeit
  • Beste Kombinationen:
    • Haupt-Klassifikator DecisionTree + Hilfs-Klassifikatoren (KNN, SVC, LogisticRegression)
    • Haupt-Klassifikator RandomForest + Hilfs-Klassifikatoren (KNN, SVC, LogisticRegression)
  • Verbesserungsspanne: 0,6 Prozentpunkte

Experimentelle Erkenntnisse

  1. Konsistente Verbesserung: Ensemble-Methoden zeigen Leistungsverbesserungen auf allen 3 Phonem-Datensätzen
  2. Moderate Verbesserungsspanne: Genauigkeitssteigerung im Bereich von 0,6-1,4 Prozentpunkten
  3. Kombinationsdiversität: Optimale Ensemble-Kombinationen unterscheiden sich zwischen Phonemen, was auf die Notwendigkeit gezielter Optimierung hindeutet
  4. Erhöhte Stabilität: Ensemble-Methoden bieten stabilere Vorhersageergebnisse als einzelne Klassifikatoren

Verwandte Arbeiten

Anwendung von Ensemble-Learning in der Medizin

Der Artikel erwähnt Anwendungen von Ensemble-Klassifikatoren in Medizin, Wirtschaft und Informationssicherheit, insbesondere bei der DDoS-Angriffserkennung, wo Kombinationen von 2 oder mehr Klassifikatoren durchschnittlich eine Genauigkeitssteigerung von 5% erreichen können.

Entwicklung der Sprachanalysestechnologie

  • Traditionelle Methoden basierend auf GOST-Standard-Expertenbewertung
  • Zunehmende Anwendung von Machine-Learning-Methoden in der Sprachsignalanalyse
  • Wichtige Rolle von Algorithmen wie Dynamic Time Warping in der Sprachverarbeitung

Positionierung des Beitrags dieser Arbeit

Im Vergleich zu bestehenden Arbeiten wendet dieser Artikel systematisch Ensemble-Learning auf die medizinische Sprachrehabilitationsbewertung an und bietet eine umfassende Lösung von der Merkmalsextraktion bis zur Klassifikator-Ensemble-Konstruktion.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodische Wirksamkeit: Ensemble-Methoden können die Klassifizierungsgenauigkeit bei Sprachqualitätsbewertungsaufgaben tatsächlich verbessern
  2. Universalität: Konsistente Verbesserungseffekte wurden auf mehreren verschiedenen Phonemen beobachtet
  3. Praktischer Wert: Bietet objektive, automatisierte Bewertungswerkzeuge für medizinische Sprachrehabilitation

Einschränkungen

  1. Begrenzte Verbesserungsspanne: Genauigkeitssteigerung ist relativ klein (0,6-1,4 Prozentpunkte)
  2. Datensatzgröße: Nur 1020 Stichproben pro Phonem, was die Generalisierungsfähigkeit des Modells möglicherweise einschränkt
  3. Feature Engineering: Nur 7 traditionelle Distanzmaßmetriken verwendet, möglicherweise unzureichende Merkmaldarstellung
  4. Einzelne Ensemble-Methode: Nur Blending-Methode getestet, andere Ensemble-Strategien nicht erforscht

Zukünftige Richtungen

Der Artikel schlägt explizit vor, andere Ensemble-Konstruktionsmethoden zu untersuchen, um die Klassifizierungsgenauigkeit und die Bewertungseffektivität der Sprachanalyse weiter zu verbessern.

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Anwendungswert: Adressiert echte medizinische Anforderungen mit klarem Anwendungsszenario
  2. Rigorose Methodik: Systematischer Vergleich mehrerer Klassifizierungsmethoden, Anwendung standardisierter Datenvorverarbeitungsverfahren
  3. Angemessenes Experimentdesign: Geeignete Behandlung von Datenunausgeglichenheit
  4. Reproduzierbarkeit: Detaillierte experimentelle Einrichtung und Parameterkonfiguration

Schwächen

  1. Begrenzte Innovativität: Hauptsächlich Anwendung bestehender Techniken, fehlende bedeutende methodische Innovationen
  2. Minimale Leistungsverbesserung: Obwohl konsistent, ist die Verbesserungsspanne klein, praktischer Wert fraglich
  3. Einfaches Feature Engineering: Unzureichende Nutzung moderner Methoden wie Deep Learning zur Merkmalsextraktion
  4. Einzelne Bewertungsmetrik: Nur Genauigkeit verwendet, fehlende wichtige Metriken wie Präzision und Recall
  5. Fehlende statistische Signifikanztests: Statistische Signifikanz der Ergebnisse nicht berichtet

Einfluss

  1. Bereichsbeitrag: Bietet neuen technischen Weg für medizinische Sprachbewertung
  2. Praktischer Wert: Direkt anwendbar auf klinische Sprachrehabilitationspraxis
  3. Reproduzierbarkeit: Klare Methodenbeschreibung, leicht zu reproduzieren und zu verbessern
  4. Einschränkung: Einfluss möglicherweise durch minimale Leistungsverbesserung begrenzt

Anwendungsszenarien

  1. Medizinische Sprachrehabilitation: Sprachqualitätsbewertung und Rehabilitationsverfolgung bei Stimmtrakt-Erkrankungspatienten
  2. Sprachtherapie: Bereitstellung objektiver Bewertungswerkzeuge für Sprachpathologen
  3. Sprachqualitätsüberwachung: Automatisierte Qualitätsbewertung großer Sprachdatenmengen
  4. Forschungsplattform: Grundlage für weitere Forschung zu Sprachbewertungsmethoden

Literaturverzeichnis

Der Artikel zitiert 12 relevante Arbeiten, die folgende wichtige Richtungen abdecken:

  1. Statistiken zu Tumorerkrankungen und GOST-Standard
  2. Anwendung von Machine Learning in der Sprachanalyse
  3. Ensemble-Learning in der Netzwerksicherheit
  4. Dynamic Time Warping und verschiedene Distanzmaßalgorithmen
  5. Zeitreihen-Alignment und Ähnlichkeitsmaßmethoden

Diese Referenzen bieten eine solide theoretische Grundlage und technische Unterstützung für die Forschung.


Gesamtbewertung: Dies ist eine anwendungsorientierte Forschungsarbeit, die zwar in methodischer Innovation relativ begrenzt ist, aber eine systematische Lösung für echte medizinische Anforderungen bietet. Die Forschungsmethodik ist rigoros, das Experimentdesign angemessen, und die Ergebnisse haben einen gewissen praktischen Wert. Es wird empfohlen, zukünftige Arbeiten in Feature Engineering und Ensemble-Methoden zu vertiefen.