Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic
Automatische Generierung von Text-Aussprache-Korrelationen und Anwendung für kontextuelle Verzerrung
Die effektive Unterscheidung von Aussprachekorrelationen zwischen verschiedenen schriftlichen Texten ist ein wichtiges Problem in der Sprachakoustik. Traditionell werden diese Aussprachekorrelationen durch manuell gestaltete Aussprachwörterbücher gewonnen. Dieses Papier schlägt einen datengesteuerten Ansatz zur automatischen Erfassung dieser Aussprachekorrelationen vor, genannt Automatische Text-Aussprache-Korrelation (ATPC). Die für diese Methode erforderliche Überwachung ist identisch mit der Überwachung beim Training von End-to-End-Automatischer Spracherkennung (E2E-ASR), nämlich Sprache und entsprechende Textannotationen. Zunächst wird der Iterative Training Timestamp Estimator (ITSE)-Algorithmus verwendet, um Sprache mit ihren entsprechenden annotierten Textsymbolen auszurichten. Dann wird ein Sprachencoder verwendet, um Sprache in Spracheinbettungen umzuwandeln. Schließlich wird ATPC durch Vergleich der Spracheinbettungsdistanzen verschiedener Textsymbole gewonnen. Experimentelle Ergebnisse im Chinesischen zeigen, dass ATPC die Leistung von E2E-ASR bei kontextueller Verzerrung verbessert und Hoffnung für Dialekte oder Sprachen bietet, denen manuelle Aussprachwörterbücher fehlen.
Das Kernproblem dieser Forschung ist die Frage, wie Aussprachekorrelationen zwischen Textsymbolen automatisch erfasst werden können – eine wichtige Herausforderung in der Sprachakoustik. Traditionelle Methoden verlassen sich auf manuell gestaltete Aussprachwörterbücher zur Etablierung dieser Korrelationen, aber dieser Ansatz hat offensichtliche Einschränkungen.
Obwohl E2E-ASR-Modelle erhebliche Fortschritte in der Sprach-zu-Text-Modellierung erzielt haben, weisen sie immer noch Mängel bei der effektiven Modellierung von Text-zu-Text-Aussprachekorrelationen auf, besonders in Szenarien mit kontextueller Verzerrung, die ein feines Verständnis der Aussprache erfordern.
Vorschlag der ATPC-Methode: Erstmalige Vorstellung einer datengesteuerten Methode zur automatischen Generierung von Text-Aussprache-Korrelationen ohne manuelle Aussprachwörterbücher
Einheitlicher Überwachungsrahmen: Verwendung der gleichen Überwachungssignale wie E2E-ASR (Sprach-Text-Paare), wodurch zusätzliche Annotationskosten gesenkt werden
Dreistufiger Generierungsprozess: Gestaltung einer vollständigen ATPC-Generierungspipeline mit Ausrichtung, Einbettungsextraktion und Korrelationsberechnung
Experimentelle Validierung: Validierung der Wirksamkeit von ATPC bei Aufgaben mit kontextueller Verzerrung auf chinesischen Datensätzen
Open-Source-Ressourcen: Bereitstellung einer chinesischen ATPC-Matrix als öffentliche Ressource
Eingabe: Sprachsignal und entsprechende Textannotation Ausgabe: Aussprachekorrelationsmatrix zwischen Textsymbolen Einschränkung: Keine zusätzlichen Aussprachwörterbücher oder Fachkenntnisse erforderlich
Experimente zeigen, dass Schicht-15-Einbettung bei der Aussprache-Unterscheidungsaufgabe optimal abschneidet, möglicherweise weil diese Schicht ein optimales Gleichgewicht zwischen akustischen Merkmalen, Sprachmerkmalen, lexikalischer Identität und lexikalischer semantischer Information erreicht.
Kosinusdistanz übertrifft in allen Konfigurationen die euklidische Distanz, mit signifikanter Verbesserung der relativen Disparität (z. B. IPA-layer15 von 21,1% auf 28,8%).
Sprachübergreifende Transferfähigkeit: Auf mehrsprachigen Daten vortrainierte Modelle können effektiv auf Chinesisch übertragen werden
Unterschiede in der Schicht-Repräsentation: Verschiedene Schichten kodieren verschiedene Informationstypen, mittlere Schichten sind besser für Aussprachemodellierung geeignet
Bedeutung der Distanzmetrik: Kosinusdistanz ist besser geeignet, um Aussprächeähnlichkeit zu erfassen
Praktische Validierung: ATPC als Plug-and-Play-Modul kann die ASR-Leistung effektiv verbessern
Die traditionelle Aussprachemodellierung stützt sich hauptsächlich auf:
HMM-GMM-Systeme: Erfordern detaillierte Aussprachwörterbücher und Phonem-Ausrichtung
Deep-Learning-Methoden: Verlassen sich immer noch auf manuell erstellte Ausspracheressourcen
End-to-End-Systeme: Obwohl die Abhängigkeit von Zwischendarstellungen verringert wird, bestehen immer noch Mängel bei der Aussprachekorrelations-Modellierung
Das Papier zitiert 26 wichtige Literaturquellen, die folgende Bereiche abdecken:
Klassische Arbeiten zu Spracherkennung und TTS
Neueste Fortschritte in End-to-End-ASR
Verwandte Forschung zur kontextuellen Verzerrung
Vorderste Ergebnisse des Sprachrepräsentationslernens
Wichtige Beiträge zur mehrsprachigen Sprachverarbeitung
Gesamtbewertung: Dies ist eine Forschungsarbeit mit wichtigem praktischem Wert, die eine innovative datengesteuerte Methode zur Lösung des praktischen Problems der Aussprachekorrelations-Modellierung vorschlägt. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und mehrsprachiger Validierung gibt, machen die Einfachheit und Praktikabilität der Methode sie zu guten Anwendungsaussichten.