2025-11-18T18:10:21.509375

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing

Cheng, Lu, Yang et al.
Effectively distinguishing the pronunciation correlations between different written texts is a significant issue in linguistic acoustics. Traditionally, such pronunciation correlations are obtained through manually designed pronunciation lexicons. In this paper, we propose a data-driven method to automatically acquire these pronunciation correlations, called automatic text pronunciation correlation (ATPC). The supervision required for this method is consistent with the supervision needed for training end-to-end automatic speech recognition (E2E-ASR) systems, i.e., speech and corresponding text annotations. First, the iteratively-trained timestamp estimator (ITSE) algorithm is employed to align the speech with their corresponding annotated text symbols. Then, a speech encoder is used to convert the speech into speech embeddings. Finally, we compare the speech embeddings distances of different text symbols to obtain ATPC. Experimental results on Mandarin show that ATPC enhances E2E-ASR performance in contextual biasing and holds promise for dialects or languages lacking artificial pronunciation lexicons.
academic

Generación Automática de Correlaciones de Pronunciación de Texto y Aplicación para Sesgo Contextual

Información Básica

  • ID del Artículo: 2501.00804
  • Título: Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing
  • Autores: Gaofeng Cheng, Haitian Lu, Chengxu Yang, Xuyang Wang, Ta Li, Yonghong Yan
  • Clasificación: eess.AS (Procesamiento de Audio y Habla), cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 1 de enero de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00804

Resumen

La distinción efectiva de correlaciones de pronunciación entre diferentes textos escritos es un problema importante en la acústica del lenguaje. Tradicionalmente, estas correlaciones de pronunciación se obtienen mediante diccionarios de pronunciación diseñados manualmente. Este artículo propone un enfoque impulsado por datos para obtener automáticamente estas correlaciones de pronunciación, denominado Correlación Automática de Pronunciación de Texto (ATPC). La supervisión requerida por este método es consistente con la supervisión necesaria para entrenar sistemas de Reconocimiento Automático de Habla Extremo a Extremo (E2E-ASR), es decir, señales de habla y anotaciones de texto correspondientes. En primer lugar, se utiliza el algoritmo Estimador Iterativo de Marcas de Tiempo (ITSE) para alinear el habla con sus símbolos de texto anotados correspondientes. Luego, se utiliza un codificador de habla para convertir el habla en incrustaciones de habla. Finalmente, se obtiene ATPC comparando las distancias de incrustación de habla de diferentes símbolos de texto. Los resultados experimentales en chino demuestran que ATPC mejora el rendimiento del E2E-ASR en sesgo contextual y ofrece esperanza para dialectos o idiomas que carecen de diccionarios de pronunciación manual.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es cómo obtener automáticamente las correlaciones de pronunciación entre símbolos de texto, lo cual es un desafío importante en la acústica del lenguaje. Los métodos tradicionales dependen de diccionarios de pronunciación diseñados manualmente para establecer estas correlaciones, pero este enfoque presenta limitaciones evidentes.

Importancia del Problema

Las correlaciones de pronunciación desempeñan un papel clave en múltiples tareas de procesamiento del lenguaje:

  1. Reconocimiento Automático de Habla (ASR): El modelado preciso de pronunciación es crucial para la precisión del reconocimiento
  2. Síntesis de Texto a Habla (TTS): Requiere información de pronunciación precisa para generar habla natural
  3. Reconocimiento con Sesgo Contextual: Requiere una comprensión detallada de las correlaciones de pronunciación para manejar vocabulario específico

Limitaciones de Métodos Existentes

  1. Dependencia de Diccionarios Manuales: Los métodos tradicionales requieren diccionarios de pronunciación construidos manualmente en gran escala
  2. Especificidad del Idioma: Cada idioma requiere un diseño de diccionario especializado
  3. Intensivo en Mano de Obra: El proceso de construcción manual es consumidor de tiempo y recursos
  4. Cobertura Insuficiente: Es difícil abarcar variantes dialectales y vocabulario especializado

Motivación de la Investigación

Aunque los modelos E2E-ASR han logrado avances significativos en el modelado de habla a texto, aún presentan deficiencias en el modelado efectivo de correlaciones de pronunciación de texto a texto, particularmente en escenarios de sesgo contextual que requieren una comprensión detallada de la pronunciación.

Contribuciones Principales

  1. Propuesta del Método ATPC: Primera propuesta de un método de generación de correlaciones de pronunciación de texto impulsado por datos, sin necesidad de diccionarios de pronunciación manuales
  2. Marco de Supervisión Unificado: Utiliza las mismas señales de supervisión que E2E-ASR (pares habla-texto), reduciendo los costos de anotación adicional
  3. Proceso de Generación de Tres Etapas: Diseña un pipeline completo de generación ATPC, incluyendo alineación, extracción de incrustaciones y cálculo de correlaciones
  4. Verificación Experimental: Verifica la efectividad de ATPC en tareas de sesgo contextual en conjuntos de datos en chino
  5. Recursos de Código Abierto: Proporciona la matriz ATPC en chino como recurso público

Explicación Detallada del Método

Definición de la Tarea

Entrada: Señal de habla y anotación de texto correspondiente
Salida: Matriz de correlación de pronunciación entre símbolos de texto
Restricciones: Sin necesidad de diccionarios de pronunciación adicionales o conocimiento de expertos

Arquitectura del Modelo

La generación de ATPC contiene tres etapas principales:

1. Alineación de Texto-Habla Basada en ITSE

  • Objetivo: Obtener marcas de tiempo precisas de inicio y fin para cada carácter
  • Método: Utiliza el algoritmo Estimador Iterativo de Marcas de Tiempo (ITSE)
  • Ventajas:
    • Proporciona marcas de tiempo precisas de inicio y fin en comparación con CTC
    • No requiere diccionarios de pronunciación en comparación con GMM-HMM
    • Realiza alineación a nivel de token basada en E2E-ASR

2. Extracción y Segmentación de Incrustaciones de Habla

  • Extracción de Incrustaciones: Utiliza un modelo de representación de habla multilingüe para extraer incrustaciones de oración completa
  • Selección de Modelo: Experimentó con diferentes capas de XLSR-53 y versión ajustada con IPA
  • Estrategia de Segmentación: Segmenta incrustaciones según resultados de alineación en lugar de segmentar audio
  • Configuración de Frecuencia: Frecuencia de extracción de 50Hz (un fotograma cada 20ms)

3. Cálculo de Correlación de Pronunciación

  • Métrica de Distancia: Utiliza el algoritmo Deformación Temporal Dinámica (DTW)
  • Construcción de Conjunto de Incrustaciones: Selecciona aleatoriamente E=100 incrustaciones para cada carácter
  • Estrategia de Filtrado: Elimina caracteres que aparecen menos de 3 veces
  • Cálculo de Distancia:
Dist(cj, ck) = (1/(M×N)) × Σ(m=1 a M)Σ(n=1 a N) DTW(V^m_j, W^n_k)

Donde cj y ck representan el j-ésimo y k-ésimo carácter, y M y N son respectivamente el número de incrustaciones de los caracteres correspondientes.

Puntos de Innovación Técnica

  1. Alineación sin Diccionario: El algoritmo ITSE logra alineación precisa sin necesidad de diccionarios de pronunciación
  2. Estrategia de Segmentación de Incrustaciones: Realiza segmentación en el espacio de incrustaciones en lugar del espacio de audio, preservando información contextual
  3. Métrica de Distancia DTW: Maneja efectivamente el cálculo de distancia entre incrustaciones de diferentes longitudes
  4. Preentrenamiento Multilingüe: Aprovecha la capacidad de representación multilingüe de modelos preentrenados

Configuración Experimental

Conjuntos de Datos

  1. Subconjunto BABEL: Utilizado para entrenar el modelo de representación de habla
    • Contiene corpus de habla telefónica conversacional multilingüe de 23 idiomas
    • Los idiomas incluyen: cantonés, asamés, bengalí, pastún, etc.
  2. Conjunto de Entrenamiento Aishell-2: Utilizado para entrenar ITSE y generar ATPC
    • Corpus de habla en chino
    • Verifica el rendimiento multilingüe
  3. Conjunto de Datos de Sesgo Contextual Aishell-1: Utilizado para evaluar la efectividad de ATPC
    • Conjunto de desarrollo: 1334 oraciones, 600 palabras clave
    • Conjunto de prueba: 235 oraciones, 161 palabras clave

Indicadores de Evaluación

  1. Capacidad de Distinción de Pronunciación:
    • Distancia DTW entre palabras homófonas y no homófonas
    • Disparidad Relativa (Relative Disparity)
  2. Rendimiento de Sesgo Contextual:
    • Tasa de Error de Carácter (CER)
    • Tasa de Error de Carácter Sesgado (B-CER)
    • Tasa de Error de Carácter No Sesgado (U-CER)
    • Puntuaciones de Recuperación/Precisión/F1 de Palabras Clave (R/P/F)

Métodos de Comparación

  1. Fusión Superficial: Método de gráfico de decodificación contextual basado en WFST
  2. Sesgo Profundo: Red de Predicción de Frases Contextuales (CPPN) basada en estructura AED-CTC
  3. Diccionario Manual: Método utilizando diccionarios de pronunciación construidos manualmente

Detalles de Implementación

  • Modelo Backbone: XLSR-53, ajustado en la tarea de reconocimiento IPA de BABEL
  • Selección de Capa de Incrustación: La incrustación de capa 15 mostró el mejor rendimiento
  • Función de Distancia: La distancia de coseno superó a la distancia euclidiana
  • Configuración de Umbral: Umbral de sesgo contextual de 1.07
  • Escala de Matriz: Matriz ATPC de 3711×3711

Resultados Experimentales

Resultados Principales

Evaluación de Capacidad de Distinción de Pronunciación

ModeloDistancia EuclidianaDistancia de CosenoDisparidad Relativa
XLSR-layer15Homófonas:105.67, No homófonas:131.66Homófonas:0.183, No homófonas:0.25819.7% / 29.1%
IPA-layer15Homófonas:394.47, No homófonas:499.87Homófonas:0.136, No homófonas:0.19121.1% / 28.8%

Hallazgos Clave:

  • El modelo ajustado con IPA superó consistentemente a XLSR-53 en distinción de pronunciación
  • La incrustación de capa 15 mostró el mejor rendimiento en la mayoría de casos
  • La distancia de coseno fue consistentemente superior a la distancia euclidiana

Efecto de Sesgo Contextual

MétodoCER (U-CER/B-CER)Puntuación F1 (Recuperación/Precisión)
Línea Base13.8 (7.3/41.8)44 (28/99)
ATPC12.0 (7.3/32.4)68 (53/96)
C-g + ATPC10.3 (7.7/21.5)80 (70/94)
C-g + Diccionario Manual8.9 (7.4/15.3)86 (77/98)

Mejoras de Rendimiento:

  • Reducción relativa de CER del 13.0% en comparación con la línea base
  • Reducción relativa de B-CER del 22.5%
  • Aumento de recuperación de palabras clave del 25%
  • Aumento de puntuación F1 del 24%

Experimentos de Ablación

Comparación de Incrustaciones de Diferentes Capas

Los experimentos demuestran que la incrustación de capa 15 mostró el mejor rendimiento en la tarea de distinción de pronunciación, posiblemente porque esta capa logra el equilibrio óptimo entre características acústicas, características de habla, identidad léxica e información semántica léxica.

Comparación de Funciones de Distancia

La distancia de coseno superó a la distancia euclidiana en todas las configuraciones, con mejoras significativas en disparidad relativa (por ejemplo, de 21.1% a 28.8% para IPA-layer15).

Análisis de Casos

Visualización de Matriz ATPC

El análisis de visualización reveló:

  • La distancia DTW entre palabras homófonas "刮" (gua1) y "瓜" (gua1) es relativamente baja
  • La distancia DTW entre palabras no homófonas "爱" (ai4) y "途" (tu2) es relativamente alta
  • La matriz en general refleja las correlaciones de pronunciación entre caracteres chinos

Hallazgos Experimentales

  1. Capacidad de Transferencia Multilingüe: Los modelos preentrenados en datos multilingües pueden transferirse efectivamente al chino
  2. Diferencias de Representación por Capas: Diferentes capas codifican diferentes tipos de información, siendo las capas intermedias más adecuadas para modelado de pronunciación
  3. Importancia de la Métrica de Distancia: La distancia de coseno es más adecuada para capturar similitud de pronunciación
  4. Verificación de Practicidad: ATPC como módulo plug-and-play puede mejorar efectivamente el rendimiento de ASR

Trabajo Relacionado

Investigación en Modelado de Pronunciación

El modelado de pronunciación tradicional depende principalmente de:

  1. Sistemas HMM-GMM: Requieren diccionarios de pronunciación detallados y alineación de fonemas
  2. Métodos de Aprendizaje Profundo: Aún dependen de recursos de pronunciación construidos manualmente
  3. Sistemas Extremo a Extremo: Aunque reducen la dependencia de representaciones intermedias, aún presentan deficiencias en modelado de correlaciones de pronunciación

Métodos de Sesgo Contextual

  1. Fusión Superficial: Fusiona información contextual en la etapa de decodificación
  2. Sesgo Profundo: Integra mecanismos conscientes del contexto dentro del modelo
  3. Contribución de Este Trabajo: Proporciona una nueva forma de modelar correlaciones de pronunciación

Aprendizaje de Representación de Habla

  1. Aprendizaje Autosupervisado: Modelos como wav2vec y XLSR proporcionan representaciones de habla poderosas
  2. Modelos Multilingües: Proporcionan la base para modelado de pronunciación multilingüe
  3. Análisis por Capas: Diferentes capas capturan información en diferentes niveles de abstracción

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Método: ATPC logra exitosamente la generación automática de correlaciones de pronunciación sin diccionarios manuales
  2. Mejora de Rendimiento: Logra mejoras significativas en tareas de sesgo contextual
  3. Valor Práctico: Proporciona una solución para idiomas/dialectos que carecen de recursos de pronunciación
  4. Plug-and-Play: Como módulo complementario, es fácil de integrar en sistemas ASR existentes

Limitaciones

  1. Brecha de Rendimiento: Aún existe una brecha de rendimiento en comparación con diccionarios manuales
  2. Dependencia de Datos: Requiere datos de entrenamiento suficientes para garantizar la calidad de las correlaciones
  3. Complejidad Computacional: Sobrecarga del cálculo DTW y almacenamiento de matrices a gran escala
  4. Especificidad del Idioma: Principalmente verificado en chino, la capacidad de generalización a otros idiomas requiere verificación

Direcciones Futuras

  1. Extensión Multilingüe: Generar y aplicar ATPC en más idiomas y dialectos
  2. Manejo de OOV: Abordar el desafío de caracteres o palabras fuera del vocabulario
  3. Escala de Datos: Utilizar conjuntos de datos más grandes para mejorar la robustez de ATPC
  4. Estandarización de Recursos: Promover la estandarización y actualización continua de ATPC como recurso de habla público

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera propuesta de un método completamente impulsado por datos para generación de correlaciones de pronunciación
  2. Alto Valor Práctico: Resuelve problemas prácticos de idiomas con recursos escasos
  3. Método Completo: Proporciona una solución extremo a extremo
  4. Experimentación Suficiente: Verifica la efectividad del método desde múltiples ángulos
  5. Contribución de Código Abierto: Proporciona implementación reproducible y recursos públicos

Insuficiencias

  1. Análisis Teórico Limitado: Carece de explicación teórica profunda sobre por qué el método es efectivo
  2. Limitaciones de Evaluación: Principalmente evaluado en chino, la capacidad de generalización multilingüe no está completamente verificada
  3. Eficiencia Computacional: La complejidad temporal del cálculo DTW es relativamente alta
  4. Análisis de Errores Faltante: Falta análisis profundo de casos de fallo y patrones de error

Impacto

  1. Contribución Académica: Proporciona una nueva dirección de investigación para el campo del modelado de pronunciación
  2. Aplicación Práctica: Tiene valor importante para sistemas ASR de idiomas con recursos escasos
  3. Promoción Tecnológica: El método es simple de implementar, facilitando su promoción y aplicación
  4. Intercambio de Recursos: La matriz ATPC de código abierto proporciona un recurso valioso para la comunidad

Escenarios Aplicables

  1. Idiomas con Recursos Escasos: Idiomas o dialectos que carecen de diccionarios de pronunciación
  2. Despliegue Rápido: Escenarios que requieren construcción rápida de sistemas ASR
  3. Sesgo Contextual: Aplicaciones que necesitan manejar vocabulario especializado o palabras clave
  4. Sistemas Multilingües: Construcción de sistemas unificados de procesamiento de habla multilingüe

Referencias

El artículo cita 26 referencias importantes, que abarcan:

  • Trabajos clásicos en reconocimiento de habla y TTS
  • Avances recientes en ASR extremo a extremo
  • Investigación relacionada en sesgo contextual
  • Logros de vanguardia en aprendizaje de representación de habla
  • Contribuciones importantes en procesamiento de habla multilingüe

Evaluación General: Este es un trabajo de investigación con importante valor práctico que propone un método innovador impulsado por datos para resolver el problema práctico del modelado de correlaciones de pronunciación. Aunque hay espacio para mejora en profundidad teórica y verificación multilingüe, la simplicidad y practicidad del método le confieren buenas perspectivas de aplicación.