Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic
Generazione Automatica di Correlazioni Pronuncia-Testo e Applicazione per Distorsione Contestuale
La distinzione efficace delle correlazioni di pronuncia tra diversi testi scritti rappresenta un problema importante nell'acustica linguistica. Tradizionalmente, queste correlazioni di pronuncia vengono ottenute attraverso dizionari di pronuncia progettati manualmente. Questo articolo propone un approccio guidato dai dati per acquisire automaticamente queste correlazioni di pronuncia, denominato Correlazione Automatica Testo-Pronuncia (ATPC). Il metodo richiede una supervisione coerente con quella necessaria per addestrare sistemi di riconoscimento automatico del parlato end-to-end (E2E-ASR), ovvero segnali vocali e annotazioni testuali corrispondenti. In primo luogo, viene applicato l'algoritmo Iterative Training Timestamp Estimator (ITSE) per allineare il segnale vocale con i simboli testuali annotati corrispondenti. Successivamente, viene utilizzato un codificatore vocale per convertire il segnale vocale in embedding vocali. Infine, le correlazioni ATPC vengono ottenute confrontando le distanze degli embedding vocali tra diversi simboli testuali. I risultati sperimentali sul cinese dimostrano che ATPC migliora le prestazioni dell'E2E-ASR nella distorsione contestuale e offre prospettive promettenti per dialetti o lingue che mancano di dizionari di pronuncia costruiti manualmente.
Il problema centrale affrontato da questa ricerca riguarda come acquisire automaticamente le correlazioni di pronuncia tra simboli testuali, una sfida importante nell'acustica linguistica. I metodi tradizionali si basano su dizionari di pronuncia progettati manualmente per stabilire queste correlazioni, ma questo approccio presenta limitazioni evidenti.
Sebbene i modelli E2E-ASR abbiano raggiunto progressi significativi nella modellazione da voce a testo, presentano ancora insufficienze nella modellazione efficace delle correlazioni di pronuncia da testo a testo, in particolare in scenari di distorsione contestuale che richiedono una comprensione sofisticata della pronuncia.
Proposta del Metodo ATPC: Primo metodo data-driven per la generazione automatica di correlazioni di pronuncia testo senza necessità di dizionari di pronuncia manuali
Framework di Supervisione Unificato: Utilizza gli stessi segnali di supervisione dell'E2E-ASR (coppie voce-testo), riducendo i costi di annotazione aggiuntivi
Pipeline di Generazione in Tre Fasi: Progettazione di una pipeline ATPC completa che include allineamento, estrazione di embedding e calcolo delle correlazioni
Verifica Sperimentale: Validazione dell'efficacia di ATPC nel compito di distorsione contestuale su dataset in cinese
Risorse Open-Source: Fornitura della matrice ATPC cinese come risorsa pubblica
Input: Segnale vocale e annotazione testuale corrispondente Output: Matrice di correlazione di pronuncia tra simboli testuali Vincoli: Nessuna necessità di dizionari di pronuncia aggiuntivi o conoscenza specializzata
Allineamento Senza Dizionario: L'algoritmo ITSE realizza allineamento preciso senza necessità di dizionari di pronuncia
Strategia di Segmentazione di Embedding: Segmentazione nello spazio degli embedding piuttosto che nello spazio audio, preservando informazioni contestuali
Metrica di Distanza DTW: Gestisce efficacemente il calcolo della distanza tra embedding di lunghezza diversa
Pre-addestramento Multilingue: Sfrutta la capacità di rappresentazione cross-linguistica dei modelli multilingui
Gli esperimenti dimostrano che l'embedding del 15° strato mostra prestazioni ottimali nel compito di distinzione di pronuncia, probabilmente perché questo strato raggiunge il miglior equilibrio tra caratteristiche acustiche, caratteristiche vocali, identità lessicale e informazioni semantiche lessicali.
La distanza del coseno supera la distanza euclidea in tutte le configurazioni, con miglioramenti significativi nella disparità relativa (ad esempio, da 21.1% a 28.8% per IPA-layer15).
Capacità di Trasferimento Cross-Linguistico: I modelli pre-addestrati su dati multilingui possono trasferirsi efficacemente al cinese
Differenze di Rappresentazione Gerarchica: Diversi strati codificano diversi tipi di informazioni, con strati intermedi più adatti alla modellazione di pronuncia
Importanza della Metrica di Distanza: La distanza del coseno è più adatta a catturare la somiglianza di pronuncia
Validazione Pratica: ATPC come modulo plug-and-play può migliorare efficacemente le prestazioni dell'ASR
La modellazione tradizionale di pronuncia si basa principalmente su:
Sistemi HMM-GMM: Richiedono dizionari di pronuncia dettagliati e allineamento fonetico
Metodi di Apprendimento Profondo: Dipendono ancora da risorse di pronuncia costruite manualmente
Sistemi End-to-End: Sebbene riducano la dipendenza da rappresentazioni intermedie, presentano ancora insufficienze nella modellazione delle correlazioni di pronuncia
L'articolo cita 27 importanti riferimenti bibliografici, che coprono:
Lavori classici nel riconoscimento vocale e TTS
Progressi recenti nell'ASR end-to-end
Ricerca correlata sulla distorsione contestuale
Risultati all'avanguardia nell'apprendimento di rappresentazioni vocali
Importanti contributi nell'elaborazione vocale multilingue
Valutazione Complessiva: Questo è un lavoro di ricerca con importante valore pratico che propone un metodo innovativo data-driven per risolvere il problema pratico della modellazione delle correlazioni di pronuncia. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nella verifica multilingue, la semplicità e la praticità del metodo gli conferiscono buone prospettive di applicazione.