2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.

CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.

academic

CJST: Entrenamiento Conjunto de Habla y Texto Basado en Compresor CTC para ASR Solo Decodificador

Información Básica

ID del Artículo: 2411.07607
Título: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
Autores: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
Clasificación: eess.AS cs.LG cs.SD
Fecha de Publicación: Noviembre de 2024 (Preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2411.07607

Resumen

El compresor CTC puede servir como un método efectivo para integrar codificadores de audio en modelos solo decodificador, habiendo recibido una atención cada vez mayor en diferentes aplicaciones de habla. Este artículo propone un marco novedoso de entrenamiento conjunto de habla y texto (CJST) basado en compresor CTC para ASR solo decodificador. CJST logra la coincidencia de modalidades de habla y texto desde dos direcciones explorando adaptadores modales simples y varias características del compresor CTC, incluyendo compresión de secuencias, alineación de picos forzada en línea e incrustaciones de clases CTC. Los resultados experimentales en los corpus Librispeech y TED-LIUM2 demuestran que el CJST propuesto logra una inyección de texto efectiva sin necesidad de procesar duraciones, alcanzando el mejor rendimiento tanto en escenarios dentro del dominio como entre dominios.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el enorme éxito de los modelos de lenguaje grandes (LLM), las arquitecturas solo decodificador se han aplicado ampliamente en diversas aplicaciones de habla. Sin embargo, cómo integrar efectivamente la información de habla en modelos solo decodificador y cómo realizar entrenamiento conjunto de habla y texto para mejorar el rendimiento de ASR sigue siendo un problema desafiante.

Motivación de la Investigación

Desafío de Integración: Integrar efectivamente incrustaciones acústicas continuas en modelos solo decodificador requiere métodos de adaptador apropiados
Coincidencia de Modalidades: Las modalidades de habla y texto presentan diferencias significativas en longitud de secuencia y espacio de representación, requiriendo mecanismos de alineación efectivos
Inyección de Texto: En modelos ASR de nivel de producción, cómo utilizar efectivamente datos de texto para mejorar el rendimiento sin usar modelos de lenguaje externos

Limitaciones de Métodos Existentes

Adaptadores Simples: Los métodos tradicionales de reducción temporal + proyección lineal carecen de capacidad de compresión consciente del contenido
Métodos RNN-T: Los métodos de entrenamiento conjunto existentes se orientan principalmente a modelos RNN-T, requiriendo procesamiento complejo de duraciones
Sensibilidad del Compresor CTC: Los métodos existentes de compresor CTC muestran rendimiento inestable en datos ruidosos

Contribuciones Principales

Marco CJST Propuesto: Nuevo marco de entrenamiento conjunto de habla y texto basado en compresor CTC, logrando coincidencia bidireccional de modalidades
Extensión del Compresor CTC: Investigación exhaustiva de varios modos de compresión del compresor CTC, manejo de casos límite y comportamiento en datos limpios/ruidosos
Sin Procesamiento de Duraciones: Logra inyección de texto efectiva mediante alineación de picos forzada en línea e incrustaciones de clases CTC, sin necesidad de modelado complejo de duraciones
Mejora de Rendimiento: Logra el mejor rendimiento tanto en escenarios dentro del dominio como entre dominios, con aproximadamente 6% de mejora relativa respecto a la línea base

Explicación Detallada del Método

Definición de Tarea

Este artículo estudia la tarea de reconocimiento automático de habla para arquitecturas solo decodificador, con entrada de secuencias de características de habla y salida de transcripciones de texto correspondientes. También considera cómo utilizar datos de habla-texto emparejados y datos de texto puro para entrenamiento conjunto.

Compresor CTC Extendido

Modos de Compresión

El artículo estudia cuatro modos de compresión del compresor CTC:

Eliminación de Predicción en Blanco: Basada en predicción CTC codicioso, elimina todos los fotogramas en blanco
Promedio de Predicciones Idénticas: Promedia fotogramas adyacentes con predicciones idénticas
Eliminación de Probabilidad en Blanco: Elimina todos los fotogramas con probabilidad en blanco superior a un umbral predefinido
Modo Combinado: Primero aplica eliminación de probabilidad en blanco, luego aplica promedio de predicciones idénticas

Manejo de Casos Límite

Para abordar el problema de que el compresor CTC puede producir salidas vacías, se proponen dos soluciones:

Omisión Vacía: Omite estos enunciados durante el entrenamiento, salida directa de EOS durante la inferencia
Retorno Vacío: Promedia todas las salidas del codificador en un único fotograma, luego procede con entrenamiento e inferencia normales

Compartición de Incrustaciones

Explora mecanismos de compartición entre incrustaciones de clases CTC e incrustaciones de texto, haciendo que la salida del codificador de audio sea más cercana a las incrustaciones de texto a través de la función objetivo CTC.

Marco CJST

Procesamiento de Datos Emparejados

Para datos de habla-texto emparejados:

Entrenamiento ASR regular mediante propagación hacia adelante del modelo
Utiliza incrustaciones acústicas comprimidas h' y probabilidades CTC para alineación de picos forzada
Entrena el adaptador modal mediante pérdida MSE, alineando h' con incrustaciones acústicas seudónimas h'_text

Procesamiento de Datos de Texto Puro

Para datos de texto puro:

Inserta aleatoriamente símbolos en blanco basándose en la relación de longitud registrada R_len(h', y)
Genera indicaciones acústicas seudónimas h'_text mediante incrustaciones CTC y adaptador modal
Entrena el modelo decodificador usando la función objetivo ASR
Aplica enmascaramiento aleatorio del 20% a h'_text para mantener la dificultad de aprendizaje

Utiliza una capa Conformer simple como adaptador modal, que incluye una única cabeza de atención, tamaño de núcleo de convolución de 3, sin amplificación de dimensión en módulos de retroalimentación.

Configuración Experimental

Conjuntos de Datos

Librispeech: 960 horas de datos de habla limpia
Datos Internos: 2M horas de datos de audio diversificados, incluyendo perturbación de velocidad, reverberación simulada y ruido de fondo aleatorio
Datos de Texto: Datos de entrenamiento LM de Librispeech y TED-LIUM2

Configuración del Modelo

Decodificador: 12 capas de decodificador LLaMA, dimensión oculta de 768, 12 cabezas de atención
Codificador de Audio: 24 capas Conformer, dimensión oculta de 512, 8 cabezas de atención
Vocabulario: 4k unidades SentencePiece por conjunto de datos

Estrategia de Entrenamiento

Preentrenamiento del codificador de audio: 200k pasos
Entrenamiento de modelo completo: 200k pasos en Librispeech, 500k pasos en datos internos
Pesos de pérdida de habla y texto en entrenamiento conjunto: ambos 1.0
Peso de pérdida CTC auxiliar: 0.5

Métricas de Evaluación

Utiliza la tasa de error de palabras (WER) como métrica de evaluación principal, reportando rendimiento en conjuntos de prueba.

Resultados Experimentales

Evaluación Integral del Compresor CTC

Resultados en Librispeech (Tabla I)

Todos los métodos de compresor CTC superan el método de adaptador simple
Eliminación de probabilidad en blanco (umbral 0.95) muestra mejor rendimiento: test-clean 2.17%, test-other 4.94%
La compartición de incrustaciones ayuda en algunos casos, pero no es suficientemente consistente

Resultados en Datos Internos (Tabla II)

Los métodos basados en predicción codicioso muestran peor rendimiento en datos ruidosos
Eliminación de probabilidad en blanco (umbral 0.95) es más robusto: 12.85% WER
El esquema de retorno vacío supera al de omisión vacía

Resultados de Entrenamiento Conjunto

Entrenamiento desde Cero (Tabla III)

Resultados en Librispeech:

Adaptador de línea base: test-clean 3.38%, test-other 5.63%
Inyección de texto tipo LM: test-clean 2.54%, test-other 5.26%
CJST: test-clean 2.09%, test-other 4.71%

Entrenamiento Continuo (Tabla IV)

Utilizando datos de texto dentro del dominio y entre dominios:

CJST logra el mejor rendimiento en todos los escenarios
Conjunto de prueba TED-LIUM2 entre dominios: de 11.45% a 10.14%
Aproximadamente 6% de mejora relativa respecto a la línea base

Hallazgos Clave

Eliminación de probabilidad en blanco es el modo de compresión más robusto
Entrenamiento tipo LM ya es bastante efectivo, sirviendo como línea base sólida
CJST proporciona mejora adicional en todos los escenarios
El compresor CTC es sensible a la calidad de datos, requiriendo configuración apropiada

Trabajo Relacionado

Modelos de Habla Solo Decodificador

Trabajos tempranos utilizan adaptadores simples para integrar codificadores de audio
Investigaciones recientes exploran métodos de tokens de audio discretos
Este artículo se enfoca en tareas ASR con representaciones continuas

Compresor CTC

Originalmente utilizado para traducción de habla con mecanismo de atención
Extendido a traducción de habla en modelos solo decodificador
Este artículo es el primero en estudiar sistemáticamente su aplicación en ASR

Entrenamiento Conjunto de Habla y Texto

Los métodos tradicionales se orientan principalmente a modelos RNN-T
Incluyen métodos como JOIST, textogram, MAESTRO, etc.
Este artículo es el primero en proponer una solución efectiva para ASR solo decodificador

Conclusiones y Discusión

Conclusiones Principales

Marco CJST Efectivo: Logra inyección de texto efectiva mediante coincidencia bidireccional de modalidades
Configuración del Compresor CTC Crítica: La eliminación de probabilidad en blanco (umbral alto) es más robusta
Sin Procesamiento de Duraciones: Evita modelado complejo de duraciones mediante alineación forzada e incrustaciones CTC
Mejora Consistente: Logra mejora significativa tanto en escenarios dentro del dominio como entre dominios

Limitaciones

Costo Computacional: La alineación forzada en línea aumenta el costo computacional durante el entrenamiento
Dependencia de Datos: El rendimiento del compresor CTC depende altamente de la calidad de datos
Sensibilidad de Parámetros: Requiere ajuste cuidadoso de hiperparámetros como el umbral de probabilidad en blanco
Alcance de Evaluación: Principalmente evaluado en datos en inglés, la generalización multilingüe es desconocida

Direcciones Futuras

Explorar métodos de alineación en línea más eficientes
Investigar el rendimiento en escenarios multilingües y de recursos limitados
Combinar métodos híbridos con tokens de audio discretos
Optimizar la robustez del compresor CTC

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primer uso del compresor CTC para entrenamiento conjunto de habla y texto en ASR solo decodificador
Investigación Sistemática: Análisis experimental exhaustivo del compresor CTC
Valor Práctico: Sin necesidad de procesamiento de duraciones, simplificando la complejidad de implementación
Experimentación Suficiente: Validación del método en múltiples conjuntos de datos y escenarios
Escritura Clara: Estructura de artículo clara, descripción detallada de detalles técnicos

Deficiencias

Análisis Teórico Insuficiente: Falta análisis teórico profundo sobre por qué CJST es efectivo
Costo Computacional: No analiza detalladamente el costo computacional en entrenamiento e inferencia
Sensibilidad de Hiperparámetros: El método involucra múltiples hiperparámetros, complejidad de ajuste relativamente alta
Limitaciones de Evaluación: Principalmente evaluado en datos en inglés, falta validación multilingüe

Impacto

Contribución Académica: Proporciona nuevas perspectivas para inyección de texto en ASR solo decodificador
Valor Práctico: El método es relativamente simple, fácil de desplegar en entornos de producción
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
Inspiración: Proporciona información valiosa para investigación adicional del compresor CTC

Escenarios Aplicables

ASR de Nivel de Producción: Apropiado para escenarios donde no se pueden usar modelos de lenguaje externos
Adaptación Entre Dominios: Particularmente apropiado para aplicaciones que requieren adaptación rápida a nuevos dominios
Recursos Limitados: Más eficiente que métodos complejos de modelado de duraciones
Entrenamiento Conjunto: Apropiado para escenarios con abundantes datos de texto pero datos de habla relativamente limitados

Referencias

El artículo cita 32 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo modelos de lenguaje grandes, arquitecturas solo decodificador, métodos CTC, reconocimiento de habla y entrenamiento conjunto, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo técnico de alta calidad que propone el marco CJST innovador, resolviendo el importante problema del entrenamiento conjunto de habla y texto en ASR solo decodificador. El diseño experimental del artículo es suficiente, los resultados son convincentes y tiene valor académico y práctico significativo para el campo.