2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.
CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
academic

CJST: Entrenamiento Conjunto de Habla y Texto Basado en Compresor CTC para ASR Solo Decodificador

Información Básica

  • ID del Artículo: 2411.07607
  • Título: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
  • Autores: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
  • Clasificación: eess.AS cs.LG cs.SD
  • Fecha de Publicación: Noviembre de 2024 (Preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2411.07607

Resumen

El compresor CTC puede servir como un método efectivo para integrar codificadores de audio en modelos solo decodificador, habiendo recibido una atención cada vez mayor en diferentes aplicaciones de habla. Este artículo propone un marco novedoso de entrenamiento conjunto de habla y texto (CJST) basado en compresor CTC para ASR solo decodificador. CJST logra la coincidencia de modalidades de habla y texto desde dos direcciones explorando adaptadores modales simples y varias características del compresor CTC, incluyendo compresión de secuencias, alineación de picos forzada en línea e incrustaciones de clases CTC. Los resultados experimentales en los corpus Librispeech y TED-LIUM2 demuestran que el CJST propuesto logra una inyección de texto efectiva sin necesidad de procesar duraciones, alcanzando el mejor rendimiento tanto en escenarios dentro del dominio como entre dominios.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el enorme éxito de los modelos de lenguaje grandes (LLM), las arquitecturas solo decodificador se han aplicado ampliamente en diversas aplicaciones de habla. Sin embargo, cómo integrar efectivamente la información de habla en modelos solo decodificador y cómo realizar entrenamiento conjunto de habla y texto para mejorar el rendimiento de ASR sigue siendo un problema desafiante.

Motivación de la Investigación

  1. Desafío de Integración: Integrar efectivamente incrustaciones acústicas continuas en modelos solo decodificador requiere métodos de adaptador apropiados
  2. Coincidencia de Modalidades: Las modalidades de habla y texto presentan diferencias significativas en longitud de secuencia y espacio de representación, requiriendo mecanismos de alineación efectivos
  3. Inyección de Texto: En modelos ASR de nivel de producción, cómo utilizar efectivamente datos de texto para mejorar el rendimiento sin usar modelos de lenguaje externos

Limitaciones de Métodos Existentes

  1. Adaptadores Simples: Los métodos tradicionales de reducción temporal + proyección lineal carecen de capacidad de compresión consciente del contenido
  2. Métodos RNN-T: Los métodos de entrenamiento conjunto existentes se orientan principalmente a modelos RNN-T, requiriendo procesamiento complejo de duraciones
  3. Sensibilidad del Compresor CTC: Los métodos existentes de compresor CTC muestran rendimiento inestable en datos ruidosos

Contribuciones Principales

  1. Marco CJST Propuesto: Nuevo marco de entrenamiento conjunto de habla y texto basado en compresor CTC, logrando coincidencia bidireccional de modalidades
  2. Extensión del Compresor CTC: Investigación exhaustiva de varios modos de compresión del compresor CTC, manejo de casos límite y comportamiento en datos limpios/ruidosos
  3. Sin Procesamiento de Duraciones: Logra inyección de texto efectiva mediante alineación de picos forzada en línea e incrustaciones de clases CTC, sin necesidad de modelado complejo de duraciones
  4. Mejora de Rendimiento: Logra el mejor rendimiento tanto en escenarios dentro del dominio como entre dominios, con aproximadamente 6% de mejora relativa respecto a la línea base

Explicación Detallada del Método

Definición de Tarea

Este artículo estudia la tarea de reconocimiento automático de habla para arquitecturas solo decodificador, con entrada de secuencias de características de habla y salida de transcripciones de texto correspondientes. También considera cómo utilizar datos de habla-texto emparejados y datos de texto puro para entrenamiento conjunto.

Compresor CTC Extendido

Modos de Compresión

El artículo estudia cuatro modos de compresión del compresor CTC:

  1. Eliminación de Predicción en Blanco: Basada en predicción CTC codicioso, elimina todos los fotogramas en blanco
  2. Promedio de Predicciones Idénticas: Promedia fotogramas adyacentes con predicciones idénticas
  3. Eliminación de Probabilidad en Blanco: Elimina todos los fotogramas con probabilidad en blanco superior a un umbral predefinido
  4. Modo Combinado: Primero aplica eliminación de probabilidad en blanco, luego aplica promedio de predicciones idénticas

Manejo de Casos Límite

Para abordar el problema de que el compresor CTC puede producir salidas vacías, se proponen dos soluciones:

  • Omisión Vacía: Omite estos enunciados durante el entrenamiento, salida directa de EOS durante la inferencia
  • Retorno Vacío: Promedia todas las salidas del codificador en un único fotograma, luego procede con entrenamiento e inferencia normales

Compartición de Incrustaciones

Explora mecanismos de compartición entre incrustaciones de clases CTC e incrustaciones de texto, haciendo que la salida del codificador de audio sea más cercana a las incrustaciones de texto a través de la función objetivo CTC.

Marco CJST

Procesamiento de Datos Emparejados

Para datos de habla-texto emparejados:

  1. Entrenamiento ASR regular mediante propagación hacia adelante del modelo
  2. Utiliza incrustaciones acústicas comprimidas h' y probabilidades CTC para alineación de picos forzada
  3. Entrena el adaptador modal mediante pérdida MSE, alineando h' con incrustaciones acústicas seudónimas h'_text

Procesamiento de Datos de Texto Puro

Para datos de texto puro:

  1. Inserta aleatoriamente símbolos en blanco basándose en la relación de longitud registrada R_len(h', y)
  2. Genera indicaciones acústicas seudónimas h'_text mediante incrustaciones CTC y adaptador modal
  3. Entrena el modelo decodificador usando la función objetivo ASR
  4. Aplica enmascaramiento aleatorio del 20% a h'_text para mantener la dificultad de aprendizaje

Adaptador Modal

Utiliza una capa Conformer simple como adaptador modal, que incluye una única cabeza de atención, tamaño de núcleo de convolución de 3, sin amplificación de dimensión en módulos de retroalimentación.

Configuración Experimental

Conjuntos de Datos

  1. Librispeech: 960 horas de datos de habla limpia
  2. Datos Internos: 2M horas de datos de audio diversificados, incluyendo perturbación de velocidad, reverberación simulada y ruido de fondo aleatorio
  3. Datos de Texto: Datos de entrenamiento LM de Librispeech y TED-LIUM2

Configuración del Modelo

  • Decodificador: 12 capas de decodificador LLaMA, dimensión oculta de 768, 12 cabezas de atención
  • Codificador de Audio: 24 capas Conformer, dimensión oculta de 512, 8 cabezas de atención
  • Vocabulario: 4k unidades SentencePiece por conjunto de datos

Estrategia de Entrenamiento

  • Preentrenamiento del codificador de audio: 200k pasos
  • Entrenamiento de modelo completo: 200k pasos en Librispeech, 500k pasos en datos internos
  • Pesos de pérdida de habla y texto en entrenamiento conjunto: ambos 1.0
  • Peso de pérdida CTC auxiliar: 0.5

Métricas de Evaluación

Utiliza la tasa de error de palabras (WER) como métrica de evaluación principal, reportando rendimiento en conjuntos de prueba.

Resultados Experimentales

Evaluación Integral del Compresor CTC

Resultados en Librispeech (Tabla I)

  • Todos los métodos de compresor CTC superan el método de adaptador simple
  • Eliminación de probabilidad en blanco (umbral 0.95) muestra mejor rendimiento: test-clean 2.17%, test-other 4.94%
  • La compartición de incrustaciones ayuda en algunos casos, pero no es suficientemente consistente

Resultados en Datos Internos (Tabla II)

  • Los métodos basados en predicción codicioso muestran peor rendimiento en datos ruidosos
  • Eliminación de probabilidad en blanco (umbral 0.95) es más robusto: 12.85% WER
  • El esquema de retorno vacío supera al de omisión vacía

Resultados de Entrenamiento Conjunto

Entrenamiento desde Cero (Tabla III)

Resultados en Librispeech:

  • Adaptador de línea base: test-clean 3.38%, test-other 5.63%
  • Inyección de texto tipo LM: test-clean 2.54%, test-other 5.26%
  • CJST: test-clean 2.09%, test-other 4.71%

Entrenamiento Continuo (Tabla IV)

Utilizando datos de texto dentro del dominio y entre dominios:

  • CJST logra el mejor rendimiento en todos los escenarios
  • Conjunto de prueba TED-LIUM2 entre dominios: de 11.45% a 10.14%
  • Aproximadamente 6% de mejora relativa respecto a la línea base

Hallazgos Clave

  1. Eliminación de probabilidad en blanco es el modo de compresión más robusto
  2. Entrenamiento tipo LM ya es bastante efectivo, sirviendo como línea base sólida
  3. CJST proporciona mejora adicional en todos los escenarios
  4. El compresor CTC es sensible a la calidad de datos, requiriendo configuración apropiada

Trabajo Relacionado

Modelos de Habla Solo Decodificador

  • Trabajos tempranos utilizan adaptadores simples para integrar codificadores de audio
  • Investigaciones recientes exploran métodos de tokens de audio discretos
  • Este artículo se enfoca en tareas ASR con representaciones continuas

Compresor CTC

  • Originalmente utilizado para traducción de habla con mecanismo de atención
  • Extendido a traducción de habla en modelos solo decodificador
  • Este artículo es el primero en estudiar sistemáticamente su aplicación en ASR

Entrenamiento Conjunto de Habla y Texto

  • Los métodos tradicionales se orientan principalmente a modelos RNN-T
  • Incluyen métodos como JOIST, textogram, MAESTRO, etc.
  • Este artículo es el primero en proponer una solución efectiva para ASR solo decodificador

Conclusiones y Discusión

Conclusiones Principales

  1. Marco CJST Efectivo: Logra inyección de texto efectiva mediante coincidencia bidireccional de modalidades
  2. Configuración del Compresor CTC Crítica: La eliminación de probabilidad en blanco (umbral alto) es más robusta
  3. Sin Procesamiento de Duraciones: Evita modelado complejo de duraciones mediante alineación forzada e incrustaciones CTC
  4. Mejora Consistente: Logra mejora significativa tanto en escenarios dentro del dominio como entre dominios

Limitaciones

  1. Costo Computacional: La alineación forzada en línea aumenta el costo computacional durante el entrenamiento
  2. Dependencia de Datos: El rendimiento del compresor CTC depende altamente de la calidad de datos
  3. Sensibilidad de Parámetros: Requiere ajuste cuidadoso de hiperparámetros como el umbral de probabilidad en blanco
  4. Alcance de Evaluación: Principalmente evaluado en datos en inglés, la generalización multilingüe es desconocida

Direcciones Futuras

  1. Explorar métodos de alineación en línea más eficientes
  2. Investigar el rendimiento en escenarios multilingües y de recursos limitados
  3. Combinar métodos híbridos con tokens de audio discretos
  4. Optimizar la robustez del compresor CTC

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Primer uso del compresor CTC para entrenamiento conjunto de habla y texto en ASR solo decodificador
  2. Investigación Sistemática: Análisis experimental exhaustivo del compresor CTC
  3. Valor Práctico: Sin necesidad de procesamiento de duraciones, simplificando la complejidad de implementación
  4. Experimentación Suficiente: Validación del método en múltiples conjuntos de datos y escenarios
  5. Escritura Clara: Estructura de artículo clara, descripción detallada de detalles técnicos

Deficiencias

  1. Análisis Teórico Insuficiente: Falta análisis teórico profundo sobre por qué CJST es efectivo
  2. Costo Computacional: No analiza detalladamente el costo computacional en entrenamiento e inferencia
  3. Sensibilidad de Hiperparámetros: El método involucra múltiples hiperparámetros, complejidad de ajuste relativamente alta
  4. Limitaciones de Evaluación: Principalmente evaluado en datos en inglés, falta validación multilingüe

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para inyección de texto en ASR solo decodificador
  2. Valor Práctico: El método es relativamente simple, fácil de desplegar en entornos de producción
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
  4. Inspiración: Proporciona información valiosa para investigación adicional del compresor CTC

Escenarios Aplicables

  1. ASR de Nivel de Producción: Apropiado para escenarios donde no se pueden usar modelos de lenguaje externos
  2. Adaptación Entre Dominios: Particularmente apropiado para aplicaciones que requieren adaptación rápida a nuevos dominios
  3. Recursos Limitados: Más eficiente que métodos complejos de modelado de duraciones
  4. Entrenamiento Conjunto: Apropiado para escenarios con abundantes datos de texto pero datos de habla relativamente limitados

Referencias

El artículo cita 32 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo modelos de lenguaje grandes, arquitecturas solo decodificador, métodos CTC, reconocimiento de habla y entrenamiento conjunto, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo técnico de alta calidad que propone el marco CJST innovador, resolviendo el importante problema del entrenamiento conjunto de habla y texto en ASR solo decodificador. El diseño experimental del artículo es suficiente, los resultados son convincentes y tiene valor académico y práctico significativo para el campo.