Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic
Génération Automatique de Corrélations de Prononciation Texte et Application pour le Biais Contextuel
La distinction efficace des corrélations de prononciation entre différents textes écrits constitue un problème important en acoustique linguistique. Traditionnellement, ces corrélations de prononciation sont obtenues via des dictionnaires de prononciation conçus manuellement. Cet article propose une approche basée sur les données pour acquérir automatiquement ces corrélations de prononciation, appelée Corrélation Automatique Texte-Prononciation (ATPC). La supervision requise par cette méthode est cohérente avec celle nécessaire pour entraîner un système de reconnaissance automatique de la parole (ASR) de bout en bout (E2E-ASR), à savoir la parole et les annotations textuelles correspondantes. Premièrement, l'algorithme d'Estimateur Itératif d'Horodatage (ITSE) est utilisé pour aligner la parole avec les symboles textuels annotés correspondants. Ensuite, un encodeur de parole convertit la parole en plongements de parole. Enfin, les corrélations ATPC sont obtenues en comparant les distances de plongement de parole entre différents symboles textuels. Les résultats expérimentaux en chinois démontrent que l'ATPC améliore les performances de l'E2E-ASR dans le biais contextuel et offre des perspectives pour les dialectes ou langues dépourvus de dictionnaires de prononciation manuels.
Le problème fondamental abordé par cette recherche est comment acquérir automatiquement les corrélations de prononciation entre symboles textuels, ce qui constitue un défi important en acoustique linguistique. Les méthodes traditionnelles s'appuient sur des dictionnaires de prononciation conçus manuellement pour établir ces corrélations, mais cette approche présente des limitations évidentes.
Bien que les modèles E2E-ASR aient réalisé des progrès significatifs dans la modélisation de la parole vers le texte, ils présentent toujours des insuffisances dans la modélisation efficace des corrélations de prononciation texte-texte, particulièrement dans les scénarios de biais contextuel nécessitant une compréhension fine de la prononciation.
Proposition de la Méthode ATPC : Première proposition d'une méthode de génération de corrélations de prononciation texte entièrement basée sur les données, sans nécessiter de dictionnaire de prononciation manuel
Cadre de Supervision Unifié : Utilisation des mêmes signaux de supervision que l'E2E-ASR (paires parole-texte), réduisant les coûts d'annotation supplémentaires
Pipeline de Génération en Trois Étapes : Conception d'un pipeline complet de génération ATPC, incluant l'alignement, l'extraction d'plongement et le calcul de corrélation
Validation Expérimentale : Vérification de l'efficacité de l'ATPC dans les tâches de biais contextuel sur des ensembles de données en chinois
Ressources Open Source : Fourniture de la matrice ATPC en chinois comme ressource publique
Entrée : Signal de parole et annotation textuelle correspondante Sortie : Matrice de corrélation de prononciation entre symboles textuels Contrainte : Pas besoin de dictionnaire de prononciation supplémentaire ou de connaissances d'experts
Métrique de Distance : Utilisation de l'algorithme Dynamic Time Warping (DTW)
Construction d'Ensemble d'Plongements : Sélection aléatoire de E=100 plongements pour chaque caractère
Stratégie de Filtrage : Suppression des caractères apparaissant moins de 3 fois
Calcul de Distance :
Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)
où cj et ck représentent respectivement le j-ème et le k-ème caractère, et M et N sont respectivement le nombre de plongements pour les caractères correspondants.
Alignement sans Dictionnaire : L'algorithme ITSE réalise un alignement précis sans nécessiter de dictionnaire de prononciation
Stratégie de Segmentation d'Plongement : Segmentation dans l'espace d'plongement plutôt que dans l'espace audio, préservant les informations contextuelles
Métrique de Distance DTW : Traitement efficace du calcul de distance entre plongements de longueurs différentes
Préentraînement Multilingue : Exploitation de la capacité de représentation cross-linguale des modèles multilingues
Les expériences démontrent que l'plongement de la 15ème couche offre les meilleures performances dans la tâche de distinction de prononciation, probablement parce que cette couche atteint un équilibre optimal entre les caractéristiques acoustiques, les caractéristiques de parole, l'identité lexicale et les informations sémantiques lexicales.
La distance cosinus surpasse la distance euclidienne dans toutes les configurations, avec une amélioration significative de la disparité relative (par exemple, IPA-layer15 passant de 21.1% à 28.8%).
Capacité de Transfert Cross-Lingale : Les modèles préentraînés sur données multilingues peuvent se transférer efficacement au chinois
Différences de Représentation Hiérarchique : Différentes couches encodent différents types d'informations, les couches intermédiaires étant plus appropriées pour la modélisation de prononciation
Importance de la Métrique de Distance : La distance cosinus est plus appropriée pour capturer la similarité de prononciation
Vérification de Praticité : L'ATPC en tant que module plug-and-play peut améliorer efficacement les performances de l'ASR
La modélisation traditionnelle de prononciation s'appuie principalement sur :
Systèmes HMM-GMM : Nécessitent des dictionnaires de prononciation détaillés et un alignement phonémique
Méthodes d'Apprentissage Profond : Dépendent toujours de ressources de prononciation construites manuellement
Systèmes Bout en Bout : Bien que réduisant la dépendance aux représentations intermédiaires, présentent toujours des insuffisances dans la modélisation des corrélations de prononciation
Les travaux classiques en reconnaissance de parole et TTS
Les progrès récents de l'ASR de bout en bout
Les recherches connexes sur le biais contextuel
Les résultats de pointe en apprentissage de représentation de parole
Les contributions importantes au traitement de parole multilingue
Évaluation Globale : Ceci est un travail de recherche d'importance pratique significative, proposant une méthode innovante basée sur les données pour résoudre le problème pratique de la modélisation des corrélations de prononciation. Bien qu'il y ait de la place pour l'amélioration en profondeur théorique et en vérification multilingue, la simplicité et la praticité de la méthode lui confèrent de bonnes perspectives d'application.