2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.

Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.

academic

Automatische Generierung von Text-Aussprache-Korrelationen und Anwendung für kontextuelle Verzerrung

Grundlegende Informationen

Papier-ID: 2501.00804
Titel: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Autoren: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
Klassifizierung: eess.AS (Audio- und Sprachverarbeitung), cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 1. Januar 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2501.00804

Zusammenfassung

Die effektive Unterscheidung von Aussprachekorrelationen zwischen verschiedenen schriftlichen Texten ist ein wichtiges Problem in der Sprachakoustik. Traditionell werden diese Aussprachekorrelationen durch manuell gestaltete Aussprachwörterbücher gewonnen. Dieses Papier schlägt einen datengesteuerten Ansatz zur automatischen Erfassung dieser Aussprachekorrelationen vor, genannt Automatische Text-Aussprache-Korrelation (ATPC). Die für diese Methode erforderliche Überwachung ist identisch mit der Überwachung beim Training von End-to-End-Automatischer Spracherkennung (E2E-ASR), nämlich Sprache und entsprechende Textannotationen. Zunächst wird der Iterative Training Timestamp Estimator (ITSE)-Algorithmus verwendet, um Sprache mit ihren entsprechenden annotierten Textsymbolen auszurichten. Dann wird ein Sprachencoder verwendet, um Sprache in Spracheinbettungen umzuwandeln. Schließlich wird ATPC durch Vergleich der Spracheinbettungsdistanzen verschiedener Textsymbole gewonnen. Experimentelle Ergebnisse im Chinesischen zeigen, dass ATPC die Leistung von E2E-ASR bei kontextueller Verzerrung verbessert und Hoffnung für Dialekte oder Sprachen bietet, denen manuelle Aussprachwörterbücher fehlen.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die Frage, wie Aussprachekorrelationen zwischen Textsymbolen automatisch erfasst werden können – eine wichtige Herausforderung in der Sprachakoustik. Traditionelle Methoden verlassen sich auf manuell gestaltete Aussprachwörterbücher zur Etablierung dieser Korrelationen, aber dieser Ansatz hat offensichtliche Einschränkungen.

Bedeutung des Problems

Aussprachekorrelationen spielen eine Schlüsselrolle in mehreren Sprachverarbeitungsaufgaben:

Automatische Spracherkennung (ASR): Genaue Aussprachemodellierung ist für die Erkennungsgenauigkeit entscheidend
Text-zu-Sprache (TTS): Erfordert genaue Ausspracheninformationen zur Erzeugung natürlicher Sprache
Kontextuelle Verzerrungserkennung: Erfordert ein feines Verständnis von Aussprachekorrelationen zur Verarbeitung spezifischer Vokabeln

Einschränkungen bestehender Methoden

Abhängigkeit von manuellen Wörterbüchern: Traditionelle Methoden erfordern umfangreiche manuell erstellte Aussprachwörterbücher
Sprachspezifität: Jede Sprache erfordert spezialisierte Wörterbuchgestaltung
Arbeitsintensiv: Der manuelle Konstruktionsprozess ist zeitaufwändig und mühsam
Unzureichende Abdeckung: Schwierig, Dialektvarianten und Fachvokabeln zu erfassen

Forschungsmotivation

Obwohl E2E-ASR-Modelle erhebliche Fortschritte in der Sprach-zu-Text-Modellierung erzielt haben, weisen sie immer noch Mängel bei der effektiven Modellierung von Text-zu-Text-Aussprachekorrelationen auf, besonders in Szenarien mit kontextueller Verzerrung, die ein feines Verständnis der Aussprache erfordern.

Kernbeiträge

Vorschlag der ATPC-Methode: Erstmalige Vorstellung einer datengesteuerten Methode zur automatischen Generierung von Text-Aussprache-Korrelationen ohne manuelle Aussprachwörterbücher
Einheitlicher Überwachungsrahmen: Verwendung der gleichen Überwachungssignale wie E2E-ASR (Sprach-Text-Paare), wodurch zusätzliche Annotationskosten gesenkt werden
Dreistufiger Generierungsprozess: Gestaltung einer vollständigen ATPC-Generierungspipeline mit Ausrichtung, Einbettungsextraktion und Korrelationsberechnung
Experimentelle Validierung: Validierung der Wirksamkeit von ATPC bei Aufgaben mit kontextueller Verzerrung auf chinesischen Datensätzen
Open-Source-Ressourcen: Bereitstellung einer chinesischen ATPC-Matrix als öffentliche Ressource

Methodische Details

Aufgabendefinition

Eingabe: Sprachsignal und entsprechende Textannotation
Ausgabe: Aussprachekorrelationsmatrix zwischen Textsymbolen
Einschränkung: Keine zusätzlichen Aussprachwörterbücher oder Fachkenntnisse erforderlich

Modellarchitektur

Die ATPC-Generierung umfasst drei Hauptphasen:

1. ITSE-basierte Text-Sprach-Ausrichtung

Zweck: Erfassung präziser Start- und Endzeit-Zeitstempel für jedes Zeichen
Methode: Verwendung des Iterative Training Timestamp Estimator (ITSE)-Algorithmus
Vorteile:
- Bietet präzise Start- und Endzeit-Zeitstempel im Vergleich zu CTC
- Erfordert kein Aussprachwörterbuch im Vergleich zu GMM-HMM
- Token-Level-Ausrichtung basierend auf E2E-ASR

2. Spracheinbettungsextraktion und Segmentierung

Einbettungsextraktion: Verwendung eines mehrsprachigen Sprachrepräsentationsmodells zur Extraktion von Satzeinbettungen
Modellauswahl: Experimentieren mit verschiedenen Schichten von XLSR-53 und IPA-abgestimmter Version
Segmentierungsstrategie: Segmentierung von Einbettungen basierend auf Ausrichtungsergebnissen statt Audiosegmentierung
Häufigkeitseinstellung: 50-Hz-Extraktionshäufigkeit (ein Frame alle 20 ms)

3. Aussprachekorrelationsberechnung

Distanzmetrik: Verwendung des Dynamic Time Warping (DTW)-Algorithmus
Einbettungssatzkonstruktion: Zufällige Auswahl von E=100 Einbettungen pro Zeichen
Filterstrategie: Löschen von Zeichen mit weniger als 3 Vorkommen
Distanzberechnung:

Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

wobei cj und ck das j-te bzw. k-te Zeichen darstellen, und M und N die entsprechende Anzahl von Einbettungen sind.

Technische Innovationspunkte

Wörterbuchfreie Ausrichtung: ITSE-Algorithmus ermöglicht präzise Ausrichtung ohne Aussprachwörterbuch
Einbettungssegmentierungsstrategie: Segmentierung im Einbettungsraum statt im Audioraum, Beibehaltung von Kontextinformationen
DTW-Distanzmetrik: Effektive Verarbeitung der Distanzberechnung zwischen Einbettungen unterschiedlicher Länge
Mehrsprachiges Vortraining: Nutzung der sprachübergreifenden Darstellungsfähigkeiten mehrsprachiger Modelle

Experimentelle Einrichtung

Datensätze

BABEL-Teilmenge: Zur Schulung von Sprachrepräsentationsmodellen
- Enthält mehrsprachige Dialog-Telefon-Sprachkorpora in 23 Sprachen
- Sprachen umfassen: Kantonesisch, Assamesisch, Bengalisch, Paschtunisch usw.
Aishell-2-Trainingssatz: Zur Schulung von ITSE und Generierung von ATPC
- Chinesisches Sprachkorpus
- Validierung der sprachübergreifenden Leistung
Aishell-1-Datensatz mit kontextueller Verzerrung: Zur Bewertung der ATPC-Wirksamkeit
- Entwicklungssatz: 1334 Sätze, 600 Hot-Words
- Testsatz: 235 Sätze, 161 Hot-Words

Bewertungsmetriken

Aussprache-Unterscheidungsfähigkeit:
- DTW-Distanz zwischen Homophonen und Nicht-Homophonen
- Relative Disparität (Relative Disparity)
Leistung bei kontextueller Verzerrung:
- Zeichenfehlerrate (CER)
- Verzerrte Zeichenfehlerrate (B-CER)
- Nicht-verzerrte Zeichenfehlerrate (U-CER)
- Hot-Word-Rückruf/Präzision/F1-Score (R/P/F)

Vergleichsmethoden

Flache Fusion: WFST-basierte kontextuelle Dekodierungsgraph-Methode
Tiefe Verzerrung: Kontextuelle Phrasen-Vorhersage-Netzwerk (CPPN) basierend auf AED-CTC-Struktur
Manuelles Wörterbuch: Methode mit handgefertigtem Aussprachwörterbuch

Implementierungsdetails

Backbone-Modell: XLSR-53, abgestimmt auf BABEL IPA-Erkennungsaufgabe
Einbettungsschicht-Auswahl: Schicht-15-Einbettung zeigt beste Leistung
Distanzfunktion: Kosinusdistanz übertrifft euklidische Distanz
Schwellenwerteinstellung: Kontextueller Verzerrungsschwellenwert von 1,07
Matrixgröße: 3711×3711 ATPC-Matrix

Experimentelle Ergebnisse

Hauptergebnisse

Bewertung der Aussprache-Unterscheidungsfähigkeit

Modell	Euklidische Distanz	Kosinusdistanz	Relative Disparität
XLSR-layer15	Homophones:105,67, Nicht-Homophones:131,66	Homophones:0,183, Nicht-Homophones:0,258	19,7% / 29,1%
IPA-layer15	Homophones:394,47, Nicht-Homophones:499,87	Homophones:0,136, Nicht-Homophones:0,191	21,1% / 28,8%

Wichtigste Erkenntnisse:

Das IPA-abgestimmte Modell übertrifft XLSR-53 konsistent bei der Aussprache-Unterscheidung
Schicht-15-Einbettung zeigt in den meisten Fällen die beste Leistung
Kosinusdistanz übertrifft konsistent die euklidische Distanz

Effekt der kontextuellen Verzerrung

Methode	CER (U-CER/B-CER)	F1-Score (Rückruf/Präzision)
Baseline	13,8 (7,3/41,8)	44 (28/99)
ATPC	12,0 (7,3/32,4)	68 (53/96)
C-g + ATPC	10,3 (7,7/21,5)	80 (70/94)
C-g + Manuelles Wörterbuch	8,9 (7,4/15,3)	86 (77/98)

Leistungsverbesserungen:

CER-Reduktion von 13,0% im Vergleich zur Baseline
B-CER-Reduktion von 22,5%
Hot-Word-Rückruf-Verbesserung von 25%
F1-Score-Verbesserung von 24%

Ablationsstudien

Vergleich verschiedener Schicht-Einbettungen

Experimente zeigen, dass Schicht-15-Einbettung bei der Aussprache-Unterscheidungsaufgabe optimal abschneidet, möglicherweise weil diese Schicht ein optimales Gleichgewicht zwischen akustischen Merkmalen, Sprachmerkmalen, lexikalischer Identität und lexikalischer semantischer Information erreicht.

Vergleich von Distanzfunktionen

Kosinusdistanz übertrifft in allen Konfigurationen die euklidische Distanz, mit signifikanter Verbesserung der relativen Disparität (z. B. IPA-layer15 von 21,1% auf 28,8%).

Fallstudienanalyse

ATPC-Matrix-Visualisierung

Durch Visualisierungsanalyse wurde festgestellt:

Die DTW-Distanz zwischen Homophonen "刮" (gua1) und "瓜" (gua1) ist relativ niedrig
Die DTW-Distanz zwischen Nicht-Homophonen "爱" (ai4) und "途" (tu2) ist relativ hoch
Die Matrix insgesamt spiegelt die Aussprachekorrelationen zwischen chinesischen Zeichen wider

Experimentelle Erkenntnisse

Sprachübergreifende Transferfähigkeit: Auf mehrsprachigen Daten vortrainierte Modelle können effektiv auf Chinesisch übertragen werden
Unterschiede in der Schicht-Repräsentation: Verschiedene Schichten kodieren verschiedene Informationstypen, mittlere Schichten sind besser für Aussprachemodellierung geeignet
Bedeutung der Distanzmetrik: Kosinusdistanz ist besser geeignet, um Aussprächeähnlichkeit zu erfassen
Praktische Validierung: ATPC als Plug-and-Play-Modul kann die ASR-Leistung effektiv verbessern

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Methodische Wirksamkeit: ATPC realisiert erfolgreich die automatische Generierung von Aussprachekorrelationen ohne manuelle Wörterbücher
Leistungsverbesserung: Erzielte signifikante Verbesserungen bei Aufgaben mit kontextueller Verzerrung
Praktischer Wert: Bietet Lösungen für Sprachen/Dialekte, denen Ausspracheressourcen fehlen
Plug-and-Play: Leicht als Plugin-Modul in bestehende ASR-Systeme integrierbar

Einschränkungen

Leistungslücke: Immer noch Leistungslücke im Vergleich zu manuellen Wörterbüchern
Datenabhängigkeit: Erfordert ausreichende Trainingsdaten, um Korrelationsqualität zu gewährleisten
Rechenkomplexität: Overhead von DTW-Berechnung und großflächiger Matrixspeicherung
Sprachspezifität: Hauptsächlich auf Chinesisch validiert, Generalisierungsfähigkeit auf andere Sprachen bleibt zu überprüfen

Zukünftige Richtungen

Mehrsprachige Erweiterung: Generierung und Anwendung von ATPC auf mehr Sprachen und Dialekte
OOV-Verarbeitung: Bewältigung von Herausforderungen bei Zeichen oder Wörtern außerhalb des Vokabulars
Datenskalierung: Nutzung größerer Datensätze zur Verbesserung der ATPC-Robustheit
Ressourcenstandardisierung: Förderung der Standardisierung und kontinuierlichen Aktualisierung von ATPC als öffentliche Sprachressource

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erstmalige Vorstellung einer vollständig datengesteuerten Methode zur Aussprachekorrelations-Generierung
Hoher praktischer Wert: Löst praktische Probleme bei ressourcenknappen Sprachen
Vollständige Methode: Bietet eine End-to-End-Lösung
Umfangreiche Experimente: Validierung der Methodenwirksamkeit aus mehreren Perspektiven
Open-Source-Beitrag: Bereitstellung reproduzierbarer Implementierung und öffentlicher Ressourcen

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum die Methode wirksam ist
Bewertungsbeschränkungen: Hauptsächlich auf Chinesisch bewertet, mehrsprachige Generalisierungsfähigkeit nicht vollständig validiert
Rechnereffizienz: Zeitkomplexität der DTW-Berechnung ist relativ hoch
Fehlende Fehleranalyse: Keine tiefgreifende Analyse von Fehlerfällen und Fehlermustern

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für Aussprachemodellierungsbereich
Praktische Anwendung: Von großem Wert für ASR-Systeme ressourcenknapper Sprachen
Technologische Verbreitung: Methode ist einfach und leicht zu implementieren, leicht zu verbreiten
Ressourcenteilung: Open-Source-ATPC-Matrix bietet wertvolle Ressource für die Gemeinschaft

Anwendungsszenarien

Ressourcenknappen Sprachen: Sprachen oder Dialekte, denen Aussprachwörterbücher fehlen
Schnelle Bereitstellung: Szenarien, die schnelle Konstruktion von ASR-Systemen erfordern
Kontextuelle Verzerrung: Anwendungen, die Verarbeitung von Fachvokabeln oder Hot-Words erfordern
Mehrsprachige Systeme: Konstruktion einheitlicher mehrsprachiger Sprachverarbeitungssysteme

Literaturverzeichnis

Das Papier zitiert 26 wichtige Literaturquellen, die folgende Bereiche abdecken:

Klassische Arbeiten zu Spracherkennung und TTS
Neueste Fortschritte in End-to-End-ASR
Verwandte Forschung zur kontextuellen Verzerrung
Vorderste Ergebnisse des Sprachrepräsentationslernens
Wichtige Beiträge zur mehrsprachigen Sprachverarbeitung

Gesamtbewertung: Dies ist eine Forschungsarbeit mit wichtigem praktischem Wert, die eine innovative datengesteuerte Methode zur Lösung des praktischen Problems der Aussprachekorrelations-Modellierung vorschlägt. Obwohl es noch Raum für Verbesserungen in theoretischer Tiefe und mehrsprachiger Validierung gibt, machen die Einfachheit und Praktikabilität der Methode sie zu guten Anwendungsaussichten.