2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic

Génération Automatique de Corrélations de Prononciation Texte et Application pour le Biais Contextuel

Informations Fondamentales

  • ID de l'article : 2501.00804
  • Titre : Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
  • Auteurs : Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
  • Classification : eess.AS (Traitement Audio et Parole), cs.CL (Linguistique Computationnelle)
  • Date de publication : 1er janvier 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2501.00804

Résumé

La distinction efficace des corrélations de prononciation entre différents textes écrits constitue un problème important en acoustique linguistique. Traditionnellement, ces corrélations de prononciation sont obtenues via des dictionnaires de prononciation conçus manuellement. Cet article propose une approche basée sur les données pour acquérir automatiquement ces corrélations de prononciation, appelée Corrélation Automatique Texte-Prononciation (ATPC). La supervision requise par cette méthode est cohérente avec celle nécessaire pour entraîner un système de reconnaissance automatique de la parole (ASR) de bout en bout (E2E-ASR), à savoir la parole et les annotations textuelles correspondantes. Premièrement, l'algorithme d'Estimateur Itératif d'Horodatage (ITSE) est utilisé pour aligner la parole avec les symboles textuels annotés correspondants. Ensuite, un encodeur de parole convertit la parole en plongements de parole. Enfin, les corrélations ATPC sont obtenues en comparant les distances de plongement de parole entre différents symboles textuels. Les résultats expérimentaux en chinois démontrent que l'ATPC améliore les performances de l'E2E-ASR dans le biais contextuel et offre des perspectives pour les dialectes ou langues dépourvus de dictionnaires de prononciation manuels.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est comment acquérir automatiquement les corrélations de prononciation entre symboles textuels, ce qui constitue un défi important en acoustique linguistique. Les méthodes traditionnelles s'appuient sur des dictionnaires de prononciation conçus manuellement pour établir ces corrélations, mais cette approche présente des limitations évidentes.

Importance du Problème

Les corrélations de prononciation jouent un rôle crucial dans plusieurs tâches de traitement linguistique :

  1. Reconnaissance Automatique de la Parole (ASR) : La modélisation précise de la prononciation est essentielle pour la précision de la reconnaissance
  2. Synthèse Vocale (TTS) : Nécessite des informations de prononciation précises pour générer une parole naturelle
  3. Reconnaissance avec Biais Contextuel : Requiert une compréhension fine des corrélations de prononciation pour traiter les vocabulaires spécifiques

Limitations des Méthodes Existantes

  1. Dépendance aux Dictionnaires Manuels : Les méthodes traditionnelles nécessitent des dictionnaires de prononciation largement construits manuellement
  2. Spécificité Linguistique : Chaque langue nécessite une conception de dictionnaire spécialisée
  3. Intensité de Main-d'œuvre : Le processus de construction manuelle est chronophage et laborieux
  4. Couverture Insuffisante : Difficile de couvrir les variantes dialectales et les vocabulaires spécialisés

Motivation de la Recherche

Bien que les modèles E2E-ASR aient réalisé des progrès significatifs dans la modélisation de la parole vers le texte, ils présentent toujours des insuffisances dans la modélisation efficace des corrélations de prononciation texte-texte, particulièrement dans les scénarios de biais contextuel nécessitant une compréhension fine de la prononciation.

Contributions Fondamentales

  1. Proposition de la Méthode ATPC : Première proposition d'une méthode de génération de corrélations de prononciation texte entièrement basée sur les données, sans nécessiter de dictionnaire de prononciation manuel
  2. Cadre de Supervision Unifié : Utilisation des mêmes signaux de supervision que l'E2E-ASR (paires parole-texte), réduisant les coûts d'annotation supplémentaires
  3. Pipeline de Génération en Trois Étapes : Conception d'un pipeline complet de génération ATPC, incluant l'alignement, l'extraction d'plongement et le calcul de corrélation
  4. Validation Expérimentale : Vérification de l'efficacité de l'ATPC dans les tâches de biais contextuel sur des ensembles de données en chinois
  5. Ressources Open Source : Fourniture de la matrice ATPC en chinois comme ressource publique

Détails de la Méthode

Définition de la Tâche

Entrée : Signal de parole et annotation textuelle correspondante
Sortie : Matrice de corrélation de prononciation entre symboles textuels
Contrainte : Pas besoin de dictionnaire de prononciation supplémentaire ou de connaissances d'experts

Architecture du Modèle

La génération ATPC comprend trois étapes principales :

1. Alignement Texte-Parole Basé sur ITSE

  • Objectif : Obtenir les horodatages précis de début et fin pour chaque caractère
  • Méthode : Utilisation de l'algorithme d'Estimateur Itératif d'Horodatage (ITSE)
  • Avantages :
    • Fournit des horodatages précis de début et fin par rapport à CTC
    • N'exige pas de dictionnaire de prononciation contrairement à GMM-HMM
    • Basé sur l'alignement au niveau des tokens de l'E2E-ASR

2. Extraction et Segmentation d'Plongements de Parole

  • Extraction d'Plongement : Utilisation d'un modèle de représentation de parole multilingue pour extraire les plongements de phrases entières
  • Sélection du Modèle : Expérimentation de différentes couches de XLSR-53 et de la version affinée en IPA
  • Stratégie de Segmentation : Segmentation des plongements selon les résultats d'alignement plutôt que la segmentation audio
  • Paramètre de Fréquence : Fréquence d'extraction de 50 Hz (une trame tous les 20 ms)

3. Calcul de Corrélation de Prononciation

  • Métrique de Distance : Utilisation de l'algorithme Dynamic Time Warping (DTW)
  • Construction d'Ensemble d'Plongements : Sélection aléatoire de E=100 plongements pour chaque caractère
  • Stratégie de Filtrage : Suppression des caractères apparaissant moins de 3 fois
  • Calcul de Distance :
Dist(cj, ck) = (1/(M×N)) × Σ(m=1 to M)Σ(n=1 to N) DTW(V^m_j, W^n_k)

où cj et ck représentent respectivement le j-ème et le k-ème caractère, et M et N sont respectivement le nombre de plongements pour les caractères correspondants.

Points d'Innovation Technique

  1. Alignement sans Dictionnaire : L'algorithme ITSE réalise un alignement précis sans nécessiter de dictionnaire de prononciation
  2. Stratégie de Segmentation d'Plongement : Segmentation dans l'espace d'plongement plutôt que dans l'espace audio, préservant les informations contextuelles
  3. Métrique de Distance DTW : Traitement efficace du calcul de distance entre plongements de longueurs différentes
  4. Préentraînement Multilingue : Exploitation de la capacité de représentation cross-linguale des modèles multilingues

Configuration Expérimentale

Ensembles de Données

  1. Sous-ensemble BABEL : Utilisé pour entraîner le modèle de représentation de parole
    • Contient des corpus de parole téléphonique conversationnelle multilingue de 23 langues
    • Langues incluant : cantonais, assamais, bengali, pachto, etc.
  2. Ensemble d'Entraînement Aishell-2 : Utilisé pour entraîner ITSE et générer ATPC
    • Corpus de parole en chinois
    • Vérification des performances cross-lingales
  3. Ensemble de Données de Biais Contextuel Aishell-1 : Utilisé pour évaluer l'efficacité de l'ATPC
    • Ensemble de développement : 1334 phrases, 600 mots-clés
    • Ensemble de test : 235 phrases, 161 mots-clés

Métriques d'Évaluation

  1. Capacité de Distinction de Prononciation :
    • Distance DTW entre homophones et non-homophones
    • Disparité Relative (Relative Disparity)
  2. Performance de Biais Contextuel :
    • Taux d'Erreur de Caractère (CER)
    • Taux d'Erreur de Caractère Biaisé (B-CER)
    • Taux d'Erreur de Caractère Non-Biaisé (U-CER)
    • Rappel/Précision/Score F1 des Mots-Clés (R/P/F)

Méthodes de Comparaison

  1. Fusion Superficielle : Méthode de graphe de décodage contextuel basée sur WFST
  2. Biais Profond : Réseau de Prédiction de Phrases Contextuelles (CPPN) basé sur la structure AED-CTC
  3. Dictionnaire Manuel : Méthode utilisant un dictionnaire de prononciation conçu manuellement

Détails d'Implémentation

  • Modèle Backbone : XLSR-53, affiné sur la tâche de reconnaissance IPA BABEL
  • Sélection de Couche d'Plongement : La 15ème couche d'plongement offre les meilleures performances
  • Fonction de Distance : La distance cosinus surpasse la distance euclidienne
  • Paramètre de Seuil : Seuil de biais contextuel de 1,07
  • Taille de Matrice : Matrice ATPC de 3711×3711

Résultats Expérimentaux

Résultats Principaux

Évaluation de la Capacité de Distinction de Prononciation

ModèleDistance EuclidienneDistance CosinusDisparité Relative
XLSR-layer15Homophones:105.67, Non-homophones:131.66Homophones:0.183, Non-homophones:0.25819.7% / 29.1%
IPA-layer15Homophones:394.47, Non-homophones:499.87Homophones:0.136, Non-homophones:0.19121.1% / 28.8%

Découvertes Clés :

  • Le modèle affiné en IPA surpasse systématiquement XLSR-53 dans la distinction de prononciation
  • L'plongement de la 15ème couche offre les meilleures performances dans la plupart des cas
  • La distance cosinus surpasse systématiquement la distance euclidienne

Effet du Biais Contextuel

MéthodeCER (U-CER/B-CER)Score F1 (Rappel/Précision)
Baseline13.8 (7.3/41.8)44 (28/99)
ATPC12.0 (7.3/32.4)68 (53/96)
C-g + ATPC10.3 (7.7/21.5)80 (70/94)
C-g + Dictionnaire Manuel8.9 (7.4/15.3)86 (77/98)

Améliorations de Performance :

  • Réduction relative du CER de 13.0% par rapport à la baseline
  • Réduction relative du B-CER de 22.5%
  • Augmentation du rappel des mots-clés de 25%
  • Augmentation du score F1 de 24%

Études d'Ablation

Comparaison d'Plongements de Différentes Couches

Les expériences démontrent que l'plongement de la 15ème couche offre les meilleures performances dans la tâche de distinction de prononciation, probablement parce que cette couche atteint un équilibre optimal entre les caractéristiques acoustiques, les caractéristiques de parole, l'identité lexicale et les informations sémantiques lexicales.

Comparaison de Fonctions de Distance

La distance cosinus surpasse la distance euclidienne dans toutes les configurations, avec une amélioration significative de la disparité relative (par exemple, IPA-layer15 passant de 21.1% à 28.8%).

Analyse de Cas

Visualisation de la Matrice ATPC

L'analyse de visualisation révèle :

  • La distance DTW entre les homophones "刮" (gua1) et "瓜" (gua1) est relativement faible
  • La distance DTW entre les non-homophones "爱" (ai4) et "途" (tu2) est relativement élevée
  • La matrice globale reflète les corrélations de prononciation entre caractères chinois

Découvertes Expérimentales

  1. Capacité de Transfert Cross-Lingale : Les modèles préentraînés sur données multilingues peuvent se transférer efficacement au chinois
  2. Différences de Représentation Hiérarchique : Différentes couches encodent différents types d'informations, les couches intermédiaires étant plus appropriées pour la modélisation de prononciation
  3. Importance de la Métrique de Distance : La distance cosinus est plus appropriée pour capturer la similarité de prononciation
  4. Vérification de Praticité : L'ATPC en tant que module plug-and-play peut améliorer efficacement les performances de l'ASR

Travaux Connexes

Recherche en Modélisation de Prononciation

La modélisation traditionnelle de prononciation s'appuie principalement sur :

  1. Systèmes HMM-GMM : Nécessitent des dictionnaires de prononciation détaillés et un alignement phonémique
  2. Méthodes d'Apprentissage Profond : Dépendent toujours de ressources de prononciation construites manuellement
  3. Systèmes Bout en Bout : Bien que réduisant la dépendance aux représentations intermédiaires, présentent toujours des insuffisances dans la modélisation des corrélations de prononciation

Méthodes de Biais Contextuel

  1. Fusion Superficielle : Fusion d'informations contextuelles au stade du décodage
  2. Biais Profond : Intégration de mécanismes conscients du contexte à l'intérieur du modèle
  3. Contribution de cet Article : Fourniture d'une nouvelle approche de modélisation des corrélations de prononciation

Apprentissage de Représentation de Parole

  1. Apprentissage Auto-Supervisé : Les modèles wav2vec et XLSR fournissent des représentations de parole robustes
  2. Modèles Multilingues : Fournissent une base pour la modélisation de prononciation cross-lingale
  3. Analyse Hiérarchique : Différentes couches capturent différents niveaux d'abstraction d'informations

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la Méthode : L'ATPC réalise avec succès la génération automatique de corrélations de prononciation sans dictionnaire manuel
  2. Amélioration de Performance : Réalise des améliorations significatives dans les tâches de biais contextuel
  3. Valeur Pratique : Fournit une solution pour les langues/dialectes dépourvus de ressources de prononciation
  4. Plug-and-Play : En tant que module plugin, facile à intégrer dans les systèmes ASR existants

Limitations

  1. Écart de Performance : Présente toujours un écart de performance par rapport aux dictionnaires manuels
  2. Dépendance aux Données : Nécessite des données d'entraînement suffisantes pour assurer la qualité des corrélations
  3. Complexité Computationnelle : Surcharge du calcul DTW et du stockage de matrices à grande échelle
  4. Spécificité Linguistique : Principalement validé en chinois, la capacité de généralisation à d'autres langues reste à vérifier

Directions Futures

  1. Extension Multilingue : Génération et application de l'ATPC dans plus de langues et dialectes
  2. Traitement OOV : Traitement des défis des caractères ou vocabulaires hors vocabulaire
  3. Échelle de Données : Utilisation d'ensembles de données plus volumineux pour renforcer la robustesse de l'ATPC
  4. Normalisation des Ressources : Promotion de la normalisation et de la mise à jour continue de l'ATPC en tant que ressource de parole publique

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Première proposition d'une méthode entièrement basée sur les données pour la génération de corrélations de prononciation
  2. Valeur Pratique Élevée : Résout les problèmes pratiques des langues à ressources rares
  3. Méthode Complète : Fournit une solution de bout en bout
  4. Expérimentation Suffisante : Vérification multi-angles de l'efficacité de la méthode
  5. Contribution Open Source : Fourniture d'une implémentation reproductible et de ressources publiques

Insuffisances

  1. Analyse Théorique Insuffisante : Manque d'explication théorique approfondie sur les raisons de l'efficacité de la méthode
  2. Limitations d'Évaluation : Évaluation principalement en chinois, capacité de généralisation multilingue insuffisamment vérifiée
  3. Efficacité Computationnelle : La complexité temporelle du calcul DTW est relativement élevée
  4. Analyse d'Erreurs Manquante : Analyse insuffisante des cas d'échec et des modèles d'erreur

Impact

  1. Contribution Académique : Fournit une nouvelle direction de recherche pour le domaine de la modélisation de prononciation
  2. Application Pratique : Valeur importante pour les systèmes ASR des langues à ressources rares
  3. Promotion Technologique : La méthode est simple à implémenter, facilitant la promotion et l'application
  4. Partage de Ressources : La matrice ATPC open source fournit une ressource précieuse à la communauté

Scénarios d'Application

  1. Langues à Ressources Rares : Langues ou dialectes dépourvus de dictionnaire de prononciation
  2. Déploiement Rapide : Scénarios nécessitant une construction rapide de systèmes ASR
  3. Biais Contextuel : Applications nécessitant le traitement de vocabulaires spécialisés ou de mots-clés
  4. Systèmes Multilingues : Construction de systèmes unifiés de traitement de parole multilingue

Références

L'article cite 26 références importantes, couvrant :

  • Les travaux classiques en reconnaissance de parole et TTS
  • Les progrès récents de l'ASR de bout en bout
  • Les recherches connexes sur le biais contextuel
  • Les résultats de pointe en apprentissage de représentation de parole
  • Les contributions importantes au traitement de parole multilingue

Évaluation Globale : Ceci est un travail de recherche d'importance pratique significative, proposant une méthode innovante basée sur les données pour résoudre le problème pratique de la modélisation des corrélations de prononciation. Bien qu'il y ait de la place pour l'amélioration en profondeur théorique et en vérification multilingue, la simplicité et la praticité de la méthode lui confèrent de bonnes perspectives d'application.