2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.

Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.

academic

Generación Automática de Correlaciones de Pronunciación de Texto y Aplicación para Sesgo Contextual

Información Básica

ID del Artículo: 2501.00804
Título: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
Autores: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
Clasificación: eess.AS (Procesamiento de Audio y Habla), cs.CL (Lingüística Computacional)
Fecha de Publicación: 1 de enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00804

Resumen

La distinción efectiva de correlaciones de pronunciación entre diferentes textos escritos es un problema importante en la acústica del lenguaje. Tradicionalmente, estas correlaciones de pronunciación se obtienen mediante diccionarios de pronunciación diseñados manualmente. Este artículo propone un enfoque impulsado por datos para obtener automáticamente estas correlaciones de pronunciación, denominado Correlación Automática de Pronunciación de Texto (ATPC). La supervisión requerida por este método es consistente con la supervisión necesaria para entrenar sistemas de Reconocimiento Automático de Habla Extremo a Extremo (E2E-ASR), es decir, señales de habla y anotaciones de texto correspondientes. En primer lugar, se utiliza el algoritmo Estimador Iterativo de Marcas de Tiempo (ITSE) para alinear el habla con sus símbolos de texto anotados correspondientes. Luego, se utiliza un codificador de habla para convertir el habla en incrustaciones de habla. Finalmente, se obtiene ATPC comparando las distancias de incrustación de habla de diferentes símbolos de texto. Los resultados experimentales en chino demuestran que ATPC mejora el rendimiento del E2E-ASR en sesgo contextual y ofrece esperanza para dialectos o idiomas que carecen de diccionarios de pronunciación manual.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es cómo obtener automáticamente las correlaciones de pronunciación entre símbolos de texto, lo cual es un desafío importante en la acústica del lenguaje. Los métodos tradicionales dependen de diccionarios de pronunciación diseñados manualmente para establecer estas correlaciones, pero este enfoque presenta limitaciones evidentes.

Importancia del Problema

Las correlaciones de pronunciación desempeñan un papel clave en múltiples tareas de procesamiento del lenguaje:

Reconocimiento Automático de Habla (ASR): El modelado preciso de pronunciación es crucial para la precisión del reconocimiento
Síntesis de Texto a Habla (TTS): Requiere información de pronunciación precisa para generar habla natural
Reconocimiento con Sesgo Contextual: Requiere una comprensión detallada de las correlaciones de pronunciación para manejar vocabulario específico

Limitaciones de Métodos Existentes

Dependencia de Diccionarios Manuales: Los métodos tradicionales requieren diccionarios de pronunciación construidos manualmente en gran escala
Especificidad del Idioma: Cada idioma requiere un diseño de diccionario especializado
Intensivo en Mano de Obra: El proceso de construcción manual es consumidor de tiempo y recursos
Cobertura Insuficiente: Es difícil abarcar variantes dialectales y vocabulario especializado

Motivación de la Investigación

Aunque los modelos E2E-ASR han logrado avances significativos en el modelado de habla a texto, aún presentan deficiencias en el modelado efectivo de correlaciones de pronunciación de texto a texto, particularmente en escenarios de sesgo contextual que requieren una comprensión detallada de la pronunciación.

Contribuciones Principales

Propuesta del Método ATPC: Primera propuesta de un método de generación de correlaciones de pronunciación de texto impulsado por datos, sin necesidad de diccionarios de pronunciación manuales
Marco de Supervisión Unificado: Utiliza las mismas señales de supervisión que E2E-ASR (pares habla-texto), reduciendo los costos de anotación adicional
Proceso de Generación de Tres Etapas: Diseña un pipeline completo de generación ATPC, incluyendo alineación, extracción de incrustaciones y cálculo de correlaciones
Verificación Experimental: Verifica la efectividad de ATPC en tareas de sesgo contextual en conjuntos de datos en chino
Recursos de Código Abierto: Proporciona la matriz ATPC en chino como recurso público

Explicación Detallada del Método

Definición de la Tarea

Entrada: Señal de habla y anotación de texto correspondiente
Salida: Matriz de correlación de pronunciación entre símbolos de texto
Restricciones: Sin necesidad de diccionarios de pronunciación adicionales o conocimiento de expertos

Arquitectura del Modelo

La generación de ATPC contiene tres etapas principales:

1. Alineación de Texto-Habla Basada en ITSE

Objetivo: Obtener marcas de tiempo precisas de inicio y fin para cada carácter
Método: Utiliza el algoritmo Estimador Iterativo de Marcas de Tiempo (ITSE)
Ventajas:
- Proporciona marcas de tiempo precisas de inicio y fin en comparación con CTC
- No requiere diccionarios de pronunciación en comparación con GMM-HMM
- Realiza alineación a nivel de token basada en E2E-ASR

2. Extracción y Segmentación de Incrustaciones de Habla

Extracción de Incrustaciones: Utiliza un modelo de representación de habla multilingüe para extraer incrustaciones de oración completa
Selección de Modelo: Experimentó con diferentes capas de XLSR-53 y versión ajustada con IPA
Estrategia de Segmentación: Segmenta incrustaciones según resultados de alineación en lugar de segmentar audio
Configuración de Frecuencia: Frecuencia de extracción de 50Hz (un fotograma cada 20ms)

3. Cálculo de Correlación de Pronunciación

Métrica de Distancia: Utiliza el algoritmo Deformación Temporal Dinámica (DTW)
Construcción de Conjunto de Incrustaciones: Selecciona aleatoriamente E=100 incrustaciones para cada carácter
Estrategia de Filtrado: Elimina caracteres que aparecen menos de 3 veces
Cálculo de Distancia:

Dist(cj, ck) = (1/(M×N)) × Σ(m=1 a M)Σ(n=1 a N) DTW(V^m_j, W^n_k)

Donde cj y ck representan el j-ésimo y k-ésimo carácter, y M y N son respectivamente el número de incrustaciones de los caracteres correspondientes.

Puntos de Innovación Técnica

Alineación sin Diccionario: El algoritmo ITSE logra alineación precisa sin necesidad de diccionarios de pronunciación
Estrategia de Segmentación de Incrustaciones: Realiza segmentación en el espacio de incrustaciones en lugar del espacio de audio, preservando información contextual
Métrica de Distancia DTW: Maneja efectivamente el cálculo de distancia entre incrustaciones de diferentes longitudes
Preentrenamiento Multilingüe: Aprovecha la capacidad de representación multilingüe de modelos preentrenados

Configuración Experimental

Conjuntos de Datos

Subconjunto BABEL: Utilizado para entrenar el modelo de representación de habla
- Contiene corpus de habla telefónica conversacional multilingüe de 23 idiomas
- Los idiomas incluyen: cantonés, asamés, bengalí, pastún, etc.
Conjunto de Entrenamiento Aishell-2: Utilizado para entrenar ITSE y generar ATPC
- Corpus de habla en chino
- Verifica el rendimiento multilingüe
Conjunto de Datos de Sesgo Contextual Aishell-1: Utilizado para evaluar la efectividad de ATPC
- Conjunto de desarrollo: 1334 oraciones, 600 palabras clave
- Conjunto de prueba: 235 oraciones, 161 palabras clave

Indicadores de Evaluación

Capacidad de Distinción de Pronunciación:
- Distancia DTW entre palabras homófonas y no homófonas
- Disparidad Relativa (Relative Disparity)
Rendimiento de Sesgo Contextual:
- Tasa de Error de Carácter (CER)
- Tasa de Error de Carácter Sesgado (B-CER)
- Tasa de Error de Carácter No Sesgado (U-CER)
- Puntuaciones de Recuperación/Precisión/F1 de Palabras Clave (R/P/F)

Métodos de Comparación

Fusión Superficial: Método de gráfico de decodificación contextual basado en WFST
Sesgo Profundo: Red de Predicción de Frases Contextuales (CPPN) basada en estructura AED-CTC
Diccionario Manual: Método utilizando diccionarios de pronunciación construidos manualmente

Detalles de Implementación

Modelo Backbone: XLSR-53, ajustado en la tarea de reconocimiento IPA de BABEL
Selección de Capa de Incrustación: La incrustación de capa 15 mostró el mejor rendimiento
Función de Distancia: La distancia de coseno superó a la distancia euclidiana
Configuración de Umbral: Umbral de sesgo contextual de 1.07
Escala de Matriz: Matriz ATPC de 3711×3711

Resultados Experimentales

Resultados Principales

Evaluación de Capacidad de Distinción de Pronunciación

Modelo	Distancia Euclidiana	Distancia de Coseno	Disparidad Relativa
XLSR-layer15	Homófonas:105.67, No homófonas:131.66	Homófonas:0.183, No homófonas:0.258	19.7% / 29.1%
IPA-layer15	Homófonas:394.47, No homófonas:499.87	Homófonas:0.136, No homófonas:0.191	21.1% / 28.8%

Hallazgos Clave:

El modelo ajustado con IPA superó consistentemente a XLSR-53 en distinción de pronunciación
La incrustación de capa 15 mostró el mejor rendimiento en la mayoría de casos
La distancia de coseno fue consistentemente superior a la distancia euclidiana

Efecto de Sesgo Contextual

Método	CER (U-CER/B-CER)	Puntuación F1 (Recuperación/Precisión)
Línea Base	13.8 (7.3/41.8)	44 (28/99)
ATPC	12.0 (7.3/32.4)	68 (53/96)
C-g + ATPC	10.3 (7.7/21.5)	80 (70/94)
C-g + Diccionario Manual	8.9 (7.4/15.3)	86 (77/98)

Mejoras de Rendimiento:

Reducción relativa de CER del 13.0% en comparación con la línea base
Reducción relativa de B-CER del 22.5%
Aumento de recuperación de palabras clave del 25%
Aumento de puntuación F1 del 24%

Experimentos de Ablación

Comparación de Incrustaciones de Diferentes Capas

Los experimentos demuestran que la incrustación de capa 15 mostró el mejor rendimiento en la tarea de distinción de pronunciación, posiblemente porque esta capa logra el equilibrio óptimo entre características acústicas, características de habla, identidad léxica e información semántica léxica.

Comparación de Funciones de Distancia

La distancia de coseno superó a la distancia euclidiana en todas las configuraciones, con mejoras significativas en disparidad relativa (por ejemplo, de 21.1% a 28.8% para IPA-layer15).

Análisis de Casos

Visualización de Matriz ATPC

El análisis de visualización reveló:

La distancia DTW entre palabras homófonas "刮" (gua1) y "瓜" (gua1) es relativamente baja
La distancia DTW entre palabras no homófonas "爱" (ai4) y "途" (tu2) es relativamente alta
La matriz en general refleja las correlaciones de pronunciación entre caracteres chinos

Hallazgos Experimentales

Capacidad de Transferencia Multilingüe: Los modelos preentrenados en datos multilingües pueden transferirse efectivamente al chino
Diferencias de Representación por Capas: Diferentes capas codifican diferentes tipos de información, siendo las capas intermedias más adecuadas para modelado de pronunciación
Importancia de la Métrica de Distancia: La distancia de coseno es más adecuada para capturar similitud de pronunciación
Verificación de Practicidad: ATPC como módulo plug-and-play puede mejorar efectivamente el rendimiento de ASR

Trabajo Relacionado

Investigación en Modelado de Pronunciación

El modelado de pronunciación tradicional depende principalmente de:

Sistemas HMM-GMM: Requieren diccionarios de pronunciación detallados y alineación de fonemas
Métodos de Aprendizaje Profundo: Aún dependen de recursos de pronunciación construidos manualmente
Sistemas Extremo a Extremo: Aunque reducen la dependencia de representaciones intermedias, aún presentan deficiencias en modelado de correlaciones de pronunciación

Métodos de Sesgo Contextual

Fusión Superficial: Fusiona información contextual en la etapa de decodificación
Sesgo Profundo: Integra mecanismos conscientes del contexto dentro del modelo
Contribución de Este Trabajo: Proporciona una nueva forma de modelar correlaciones de pronunciación

Aprendizaje de Representación de Habla

Aprendizaje Autosupervisado: Modelos como wav2vec y XLSR proporcionan representaciones de habla poderosas
Modelos Multilingües: Proporcionan la base para modelado de pronunciación multilingüe
Análisis por Capas: Diferentes capas capturan información en diferentes niveles de abstracción

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: ATPC logra exitosamente la generación automática de correlaciones de pronunciación sin diccionarios manuales
Mejora de Rendimiento: Logra mejoras significativas en tareas de sesgo contextual
Valor Práctico: Proporciona una solución para idiomas/dialectos que carecen de recursos de pronunciación
Plug-and-Play: Como módulo complementario, es fácil de integrar en sistemas ASR existentes

Limitaciones

Brecha de Rendimiento: Aún existe una brecha de rendimiento en comparación con diccionarios manuales
Dependencia de Datos: Requiere datos de entrenamiento suficientes para garantizar la calidad de las correlaciones
Complejidad Computacional: Sobrecarga del cálculo DTW y almacenamiento de matrices a gran escala
Especificidad del Idioma: Principalmente verificado en chino, la capacidad de generalización a otros idiomas requiere verificación

Direcciones Futuras

Extensión Multilingüe: Generar y aplicar ATPC en más idiomas y dialectos
Manejo de OOV: Abordar el desafío de caracteres o palabras fuera del vocabulario
Escala de Datos: Utilizar conjuntos de datos más grandes para mejorar la robustez de ATPC
Estandarización de Recursos: Promover la estandarización y actualización continua de ATPC como recurso de habla público

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera propuesta de un método completamente impulsado por datos para generación de correlaciones de pronunciación
Alto Valor Práctico: Resuelve problemas prácticos de idiomas con recursos escasos
Método Completo: Proporciona una solución extremo a extremo
Experimentación Suficiente: Verifica la efectividad del método desde múltiples ángulos
Contribución de Código Abierto: Proporciona implementación reproducible y recursos públicos

Insuficiencias

Análisis Teórico Limitado: Carece de explicación teórica profunda sobre por qué el método es efectivo
Limitaciones de Evaluación: Principalmente evaluado en chino, la capacidad de generalización multilingüe no está completamente verificada
Eficiencia Computacional: La complejidad temporal del cálculo DTW es relativamente alta
Análisis de Errores Faltante: Falta análisis profundo de casos de fallo y patrones de error

Impacto

Contribución Académica: Proporciona una nueva dirección de investigación para el campo del modelado de pronunciación
Aplicación Práctica: Tiene valor importante para sistemas ASR de idiomas con recursos escasos
Promoción Tecnológica: El método es simple de implementar, facilitando su promoción y aplicación
Intercambio de Recursos: La matriz ATPC de código abierto proporciona un recurso valioso para la comunidad

Escenarios Aplicables

Idiomas con Recursos Escasos: Idiomas o dialectos que carecen de diccionarios de pronunciación
Despliegue Rápido: Escenarios que requieren construcción rápida de sistemas ASR
Sesgo Contextual: Aplicaciones que necesitan manejar vocabulario especializado o palabras clave
Sistemas Multilingües: Construcción de sistemas unificados de procesamiento de habla multilingüe

Referencias

El artículo cita 26 referencias importantes, que abarcan:

Trabajos clásicos en reconocimiento de habla y TTS
Avances recientes en ASR extremo a extremo
Investigación relacionada en sesgo contextual
Logros de vanguardia en aprendizaje de representación de habla
Contribuciones importantes en procesamiento de habla multilingüe

Evaluación General: Este es un trabajo de investigación con importante valor práctico que propone un método innovador impulsado por datos para resolver el problema práctico del modelado de correlaciones de pronunciación. Aunque hay espacio para mejora en profundidad teórica y verificación multilingüe, la simplicidad y practicidad del método le confieren buenas perspectivas de aplicación.