Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
- ID del Artículo: 2501.00805
- Título: SLIDE: Integración de Modelo de Lenguaje de Voz con LLM para Generación de Diálogos Hablados Espontáneos
- Autores: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
- Clasificación: eess.AS cs.CL cs.SD
- Fecha de Publicación: 1 de enero de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.00805
En años recientes, los modelos de lenguaje de voz (SLM) basados en unidades de voz "sin texto" han logrado avances significativos en la generación de voz natural, incluyendo vocalizaciones no verbales. Sin embargo, las muestras de voz generadas frecuentemente carecen de coherencia semántica. Este artículo propone el método SLIDE (Generación de Diálogos Hablados Espontáneos mediante Integración de SLM y LLM). Específicamente, primero se utiliza un LLM para generar el contenido textual del diálogo hablado, luego se convierte el diálogo textual en una secuencia de fonemas, se utiliza un predictor de duración basado en transformer de doble torre para predecir la duración de cada fonema, y finalmente se utiliza un SLM condicionado en la secuencia de fonemas hablados para vocalizar el diálogo textual. Los resultados experimentales en el conjunto de datos Fisher demuestran que el sistema puede generar diálogos hablados naturales mientras mantiene una alta coherencia semántica.
Esta investigación tiene como objetivo resolver la contradicción central en la generación de diálogos hablados espontáneos: cómo garantizar la coherencia semántica mientras se mantiene la naturalidad del habla. Los diálogos hablados comprenden dos aspectos clave:
- Aspecto Semántico: La significancia del contenido del diálogo, crucial para transmitir información precisa y relevante
- Aspecto de Naturalidad: La fluidez en los cambios de turno, incluyendo unidades de pausa entre turnos (IPUs), solapamientos, pausas, silencios, así como eventos naturales de diálogo como risas y retroalimentación
- Sistemas Cascada Tradicionales: Aunque poseen fuerte coherencia semántica (gracias a LLMs entrenados en cientos de miles de millones de palabras), tienen capacidad limitada para generar diálogos naturales, porque:
- No consideran eventos de cambio de turno dentro de ningún componente
- Tienen dificultad para generar diálogos naturales que contengan risas y retroalimentación
- La codificación de voz a texto en etapas intermedias pierde información paralingüística
- Métodos Basados en SLM (como dGSLM): Pueden capturar efectivamente elementos de diálogo y patrones de cambio de turno, pero enfrentan desafíos de coherencia semántica:
- La granularidad de las unidades de voz es demasiado fina (típicamente solo 20ms), inadecuada para modelar contenido semántico en contextos extendidos
- Las características de granularidad fina aumentan significativamente la necesidad de conjuntos de datos de entrenamiento grandes
Este artículo propone un enfoque híbrido que aprovecha el texto para capturar contexto semántico, mientras utiliza unidades de voz para preservar información paralingüística (como vocalizaciones no verbales y patrones de cambio de turno), con el objetivo de combinar las ventajas de sistemas cascada tradicionales y sistemas basados en SLM.
- Incorporación de LLM en el Marco de Generación de Diálogos Hablados: Utilización de LLM para generar diálogos textuales, aprovechando plenamente las capacidades avanzadas de generación textual del LLM
- Propuesta de Predicción de Duración de Fonemas Basada en Transformer de Doble Torre: Uso de un modelo transformer de doble torre para predecir la duración de cada fonema en la secuencia de fonemas escritos, asegurando la preservación de la fluidez en los cambios de turno
- dGSLM Condicionado en Secuencia de Fonemas Hablados: Utilización de la secuencia de fonemas hablados derivada del diálogo textual como entrada de condicionamiento para dGSLM, integrando efectivamente eventos de diálogo natural en la voz generada mientras se mantiene la coherencia semántica
Entrada: Audio de diálogo de indicación
Salida: Continuación de diálogo hablado semánticamente coherente y natural
Restricciones: El diálogo generado debe satisfacer simultáneamente coherencia semántica y naturalidad (incluyendo cambios de turno, vocalizaciones no verbales, etc.)
El modelo SLIDE contiene tres componentes principales:
- Utilización de un modelo de reconocimiento de voz (Whisper-v3) para transcribir el audio del diálogo de indicación a texto
- Aprovechamiento de un LLM (GPT-4o) para generar la continuación del diálogo, guiándolo para generar diálogos de estilo hablado
- Exclusión de etiquetas de eventos de diálogo (como laughter, sigh), enfocándose en retroalimentación verbal como "yeah", "right", "okay"
- Utilización de un modelo de alineación forzada para obtener datos de entrenamiento de alineaciones texto-voz a nivel de fonema de transcripciones reales en el conjunto de datos de entrenamiento
- Introducción de fonemas de silencio adicionales, repitiendo cada fonema según la duración determinada por alineación forzada
- Fase de entrenamiento: Utilización del método de fuerza de maestro, función de pérdida que combina pérdida de unidad marginal y pérdida de duración marginal
- Fase de inferencia: Ejecución de generación incondicional, asegurando correspondencia con la secuencia de fonemas escritos mediante mecanismo de sustitución
- Fase de entrenamiento: Utilización del codificador HuBERT para codificar diálogos hablados en tokens de audio, secuencia de fonemas hablados concatenada y tokens de audio como entrada y objetivo de entrenamiento
- Cada muestra de diálogo se divide en intervalos de 80 segundos, conteniendo 8000 tokens discretos (primeros 4000 como secuencia de fonemas hablados, últimos 4000 como tokens de audio)
- Fase de inferencia: Ajuste de la secuencia de fonemas hablados a longitud fija de 4000 tokens, generación autorregresiva de tokens de audio
- Estrategia de Representación Híbrida: Combinación innovadora de la capacidad de modelado semántico del texto y la capacidad de modelado prosódico/paralingüístico de las unidades de voz
- Mecanismo de Generación Condicionada: Condicionamiento de la salida de dGSLM mediante secuencia de fonemas hablados para asegurar coherencia semántica del diálogo generado
- Procesamiento de Alineación Temporal: Mantenimiento de la correspondencia temporal entre secuencia de fonemas y audio mediante predicción de duración y mecanismo de repetición
- Conjunto de Datos Fisher: 2000 horas de audio de diálogos telefónicos estéreo, frecuencia de muestreo 8kHz, remuestreado a 16kHz
- Cada muestra de diálogo se divide en intervalos de 80 segundos para entrenamiento
- Evaluación de Naturalidad:
- Estadísticas de distribución temporal de eventos de cambio de turno (IPUs, solapamientos, pausas, silencios)
- Utilización de pyannote.audio para calcular datos estadísticos relevantes
- Evaluación de Coherencia Semántica:
- Transcripción de diálogos hablados generados utilizando Whisper-v3
- Cálculo de perplejidad de transcripciones textuales utilizando DialoGPT
- N-MOS (Puntuación de Naturalidad): Evaluación de eventos de diálogo natural y fluidez de cambios de turno
- M-MOS (Puntuación de Significancia): Evaluación de consistencia lógica y significancia del diálogo
- Rango de puntuación: 1-5 puntos, mínimo 5 evaluadores por muestra
- Sistema Cascada: Método cascada tradicional (ASR+LLM+TTS)
- dGSLM: Modelo de lenguaje de diálogo hablado generativo original
- SLIDE-1: Utilización directa de diálogo textual del conjunto de datos de prueba
- SLIDE-2: Utilización de diálogo textual generado por LLM
- Entrenamiento utilizando 6 GPUs A100 de 40GB
- Predictor de duración: tamaño de lote 48, 50000 pasos de entrenamiento
- dGSLM condicionado: tamaño de lote 96, 250000 pasos de entrenamiento
- Temperatura de generación establecida en 1
| Modelo | IPUs/minuto | Pausas/minuto | Silencios/minuto | Solapamientos/minuto |
|---|
| Cascada | 17.5 | 0.0 | 14.9 | 0.0 |
| dGSLM | 30.6 | 12.0 | 9.0 | 8.7 |
| SLIDE-1 | 25.6 | 9.4 | 5.6 | 9.5 |
| SLIDE-2 | 31.3 | 6.3 | 7.6 | 15.8 |
| Verdad Base | 27.3 | 9.9 | 8.9 | 8.2 |
| Modelo | Perplejidad ↓ | N-MOS ↑ | M-MOS ↑ |
|---|
| Cascada | - | 2.38±0.63 | 2.70±0.38 |
| dGSLM | 1228.82 | 4.14±0.78 | 1.52±0.40 |
| SLIDE-1 | 532.81 | 4.37±0.46 | 3.94±0.81 |
| SLIDE-2 | 421.29 | 4.06±0.41 | 4.08±0.49 |
| Verdad Base | 371.16 | 4.72±0.40 | 4.63±0.44 |
- Mejora Significativa en Coherencia Semántica: SLIDE-2 en comparación con dGSLM reduce la perplejidad en 65.8% (de 1228.82 a 421.29), acercándose al nivel de diálogo real (371.16)
- Preservación de Naturalidad: SLIDE muestra desempeño comparable a dGSLM en estadísticas de eventos de cambio de turno, significativamente superior al sistema cascada
- Mejora Sustancial en Significancia: M-MOS de SLIDE-2 mejora 270.0% en comparación con dGSLM, con solo 11.9% de brecha relativa respecto al diálogo real
La comparación entre SLIDE-1 y SLIDE-2 valida la efectividad de la generación textual de diálogos por LLM, demostrando que incluso utilizando texto generado por LLM (en lugar de transcripciones reales), se mantiene buena coherencia semántica.
- Métodos Cascada Tradicionales: Tubería ASR→LLM→TTS, fuerte en semántica pero débil en naturalidad
- Métodos Basados en SLM: Como dGSLM, fuerte en naturalidad pero débil en coherencia semántica
- Métodos Híbridos: SLIDE pertenece a esta dirección emergente
En comparación con trabajos existentes, SLIDE logra por primera vez un equilibrio efectivo entre coherencia semántica y naturalidad, resolviendo el compromiso entre ambas mediante un mecanismo de condicionamiento ingenioso.
SLIDE combina exitosamente la capacidad de modelado semántico del LLM y la capacidad de modelado prosódico del SLM, mejorando significativamente la coherencia semántica mientras se mantiene la naturalidad del diálogo hablado, proporcionando una nueva solución para la generación de diálogos hablados espontáneos.
- Complejidad Computacional: Requiere entrenamiento de múltiples componentes de modelo, con costo computacional relativamente alto
- Dependencia de Datos: Aún requiere datos de diálogos hablados a gran escala para entrenamiento
- Adaptabilidad de Dominio: Entrenado en el conjunto de datos Fisher, la capacidad de generalización a otros dominios requiere validación
- Tiempo Real: El procesamiento multietapa puede afectar la velocidad de respuesta de la generación de diálogos en tiempo real
- Exploración de estrategias de entrenamiento conjunto end-to-end
- Investigación de arquitecturas de modelo más ligeras
- Extensión a escenarios multilingües y transdominios
- Mejora de la eficiencia para generación de diálogos en tiempo real
- Fuerte Innovación: Primera propuesta de arquitectura híbrida combinando LLM y SLM, resolviendo el problema de equilibrio de larga data entre coherencia semántica y naturalidad
- Diseño de Método Razonable: Diseño de tubería de tres etapas claro, función de cada componente explícita, ruta técnica viable
- Experimentación Completa: Incluye evaluación objetiva y subjetiva, métodos de comparación exhaustivos, experimentos de ablación que validan la efectividad del diseño
- Resultados Significativos: Logra mejora significativa en coherencia semántica (reducción de perplejidad de 65.8%), manteniendo naturalidad
- Complejidad del Sistema: La tubería multietapa aumenta la complejidad del sistema, potencialmente afectando practicidad y robustez
- Eficiencia Computacional: Requiere ejecución de múltiples modelos grandes, costo computacional alto, desafíos en aplicaciones en tiempo real
- Propagación de Errores: La arquitectura de tubería puede presentar problemas de acumulación de errores, donde errores en etapas anteriores afectan procesamiento posterior
- Capacidad de Generalización: Validado solo en conjunto de datos Fisher, capacidad de generalización transdominios y multilingüe desconocida
- Valor Académico: Proporciona nueva dirección de investigación para el campo de generación de diálogos hablados, equilibrando modelado semántico y prosódico
- Potencial Práctico: Posee valor práctico en asistentes virtuales, sistemas de diálogo y otras aplicaciones
- Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción y mejora
- Sistemas de Diálogo: Asistentes inteligentes que requieren generar respuestas habladas naturales y significativas
- Síntesis de Voz: Sistemas TTS de estilo conversacional que requieren alto grado de naturalidad
- Educación y Capacitación: Aplicaciones de entrenamiento de diálogos orales y aprendizaje de idiomas
- Entretenimiento y Medios: Escenarios como juegos y personajes virtuales que requieren diálogos naturales
Este artículo cita 34 referencias relacionadas, abarcando múltiples campos relevantes incluyendo modelos de lenguaje de voz, modelos de lenguaje grande, generación de diálogos, síntesis de voz y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación de alta calidad que resuelve innovadoramente problemas clave en la generación de diálogos hablados. Aunque presenta desafíos en complejidad del sistema y eficiencia computacional, sus contribuciones técnicas y resultados experimentales son muy convincentes, proporcionando nuevas perspectivas valiosas para el desarrollo del campo.