Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic
Generación Automática de Correlaciones de Pronunciación de Texto y Aplicación para Sesgo Contextual
La distinción efectiva de correlaciones de pronunciación entre diferentes textos escritos es un problema importante en la acústica del lenguaje. Tradicionalmente, estas correlaciones de pronunciación se obtienen mediante diccionarios de pronunciación diseñados manualmente. Este artículo propone un enfoque impulsado por datos para obtener automáticamente estas correlaciones de pronunciación, denominado Correlación Automática de Pronunciación de Texto (ATPC). La supervisión requerida por este método es consistente con la supervisión necesaria para entrenar sistemas de Reconocimiento Automático de Habla Extremo a Extremo (E2E-ASR), es decir, señales de habla y anotaciones de texto correspondientes. En primer lugar, se utiliza el algoritmo Estimador Iterativo de Marcas de Tiempo (ITSE) para alinear el habla con sus símbolos de texto anotados correspondientes. Luego, se utiliza un codificador de habla para convertir el habla en incrustaciones de habla. Finalmente, se obtiene ATPC comparando las distancias de incrustación de habla de diferentes símbolos de texto. Los resultados experimentales en chino demuestran que ATPC mejora el rendimiento del E2E-ASR en sesgo contextual y ofrece esperanza para dialectos o idiomas que carecen de diccionarios de pronunciación manual.
El problema central que esta investigación aborda es cómo obtener automáticamente las correlaciones de pronunciación entre símbolos de texto, lo cual es un desafío importante en la acústica del lenguaje. Los métodos tradicionales dependen de diccionarios de pronunciación diseñados manualmente para establecer estas correlaciones, pero este enfoque presenta limitaciones evidentes.
Aunque los modelos E2E-ASR han logrado avances significativos en el modelado de habla a texto, aún presentan deficiencias en el modelado efectivo de correlaciones de pronunciación de texto a texto, particularmente en escenarios de sesgo contextual que requieren una comprensión detallada de la pronunciación.
Propuesta del Método ATPC: Primera propuesta de un método de generación de correlaciones de pronunciación de texto impulsado por datos, sin necesidad de diccionarios de pronunciación manuales
Marco de Supervisión Unificado: Utiliza las mismas señales de supervisión que E2E-ASR (pares habla-texto), reduciendo los costos de anotación adicional
Proceso de Generación de Tres Etapas: Diseña un pipeline completo de generación ATPC, incluyendo alineación, extracción de incrustaciones y cálculo de correlaciones
Verificación Experimental: Verifica la efectividad de ATPC en tareas de sesgo contextual en conjuntos de datos en chino
Recursos de Código Abierto: Proporciona la matriz ATPC en chino como recurso público
Entrada: Señal de habla y anotación de texto correspondiente Salida: Matriz de correlación de pronunciación entre símbolos de texto Restricciones: Sin necesidad de diccionarios de pronunciación adicionales o conocimiento de expertos
Alineación sin Diccionario: El algoritmo ITSE logra alineación precisa sin necesidad de diccionarios de pronunciación
Estrategia de Segmentación de Incrustaciones: Realiza segmentación en el espacio de incrustaciones en lugar del espacio de audio, preservando información contextual
Métrica de Distancia DTW: Maneja efectivamente el cálculo de distancia entre incrustaciones de diferentes longitudes
Preentrenamiento Multilingüe: Aprovecha la capacidad de representación multilingüe de modelos preentrenados
Los experimentos demuestran que la incrustación de capa 15 mostró el mejor rendimiento en la tarea de distinción de pronunciación, posiblemente porque esta capa logra el equilibrio óptimo entre características acústicas, características de habla, identidad léxica e información semántica léxica.
La distancia de coseno superó a la distancia euclidiana en todas las configuraciones, con mejoras significativas en disparidad relativa (por ejemplo, de 21.1% a 28.8% para IPA-layer15).
Capacidad de Transferencia Multilingüe: Los modelos preentrenados en datos multilingües pueden transferirse efectivamente al chino
Diferencias de Representación por Capas: Diferentes capas codifican diferentes tipos de información, siendo las capas intermedias más adecuadas para modelado de pronunciación
Importancia de la Métrica de Distancia: La distancia de coseno es más adecuada para capturar similitud de pronunciación
Verificación de Practicidad: ATPC como módulo plug-and-play puede mejorar efectivamente el rendimiento de ASR
El modelado de pronunciación tradicional depende principalmente de:
Sistemas HMM-GMM: Requieren diccionarios de pronunciación detallados y alineación de fonemas
Métodos de Aprendizaje Profundo: Aún dependen de recursos de pronunciación construidos manualmente
Sistemas Extremo a Extremo: Aunque reducen la dependencia de representaciones intermedias, aún presentan deficiencias en modelado de correlaciones de pronunciación
El artículo cita 26 referencias importantes, que abarcan:
Trabajos clásicos en reconocimiento de habla y TTS
Avances recientes en ASR extremo a extremo
Investigación relacionada en sesgo contextual
Logros de vanguardia en aprendizaje de representación de habla
Contribuciones importantes en procesamiento de habla multilingüe
Evaluación General: Este es un trabajo de investigación con importante valor práctico que propone un método innovador impulsado por datos para resolver el problema práctico del modelado de correlaciones de pronunciación. Aunque hay espacio para mejora en profundidad teórica y verificación multilingüe, la simplicidad y practicidad del método le confieren buenas perspectivas de aplicación.