2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.

Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.

academic

SLIDE: Integración de Modelo de Lenguaje de Voz con LLM para Generación de Diálogos Hablados Espontáneos

Información Básica

ID del Artículo: 2501.00805
Título: SLIDE: Integración de Modelo de Lenguaje de Voz con LLM para Generación de Diálogos Hablados Espontáneos
Autores: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
Clasificación: eess.AS cs.CL cs.SD
Fecha de Publicación: 1 de enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00805

Resumen

En años recientes, los modelos de lenguaje de voz (SLM) basados en unidades de voz "sin texto" han logrado avances significativos en la generación de voz natural, incluyendo vocalizaciones no verbales. Sin embargo, las muestras de voz generadas frecuentemente carecen de coherencia semántica. Este artículo propone el método SLIDE (Generación de Diálogos Hablados Espontáneos mediante Integración de SLM y LLM). Específicamente, primero se utiliza un LLM para generar el contenido textual del diálogo hablado, luego se convierte el diálogo textual en una secuencia de fonemas, se utiliza un predictor de duración basado en transformer de doble torre para predecir la duración de cada fonema, y finalmente se utiliza un SLM condicionado en la secuencia de fonemas hablados para vocalizar el diálogo textual. Los resultados experimentales en el conjunto de datos Fisher demuestran que el sistema puede generar diálogos hablados naturales mientras mantiene una alta coherencia semántica.

Contexto de Investigación y Motivación

Definición del Problema

Esta investigación tiene como objetivo resolver la contradicción central en la generación de diálogos hablados espontáneos: cómo garantizar la coherencia semántica mientras se mantiene la naturalidad del habla. Los diálogos hablados comprenden dos aspectos clave:

Aspecto Semántico: La significancia del contenido del diálogo, crucial para transmitir información precisa y relevante
Aspecto de Naturalidad: La fluidez en los cambios de turno, incluyendo unidades de pausa entre turnos (IPUs), solapamientos, pausas, silencios, así como eventos naturales de diálogo como risas y retroalimentación

Limitaciones de Métodos Existentes

Sistemas Cascada Tradicionales: Aunque poseen fuerte coherencia semántica (gracias a LLMs entrenados en cientos de miles de millones de palabras), tienen capacidad limitada para generar diálogos naturales, porque:
- No consideran eventos de cambio de turno dentro de ningún componente
- Tienen dificultad para generar diálogos naturales que contengan risas y retroalimentación
- La codificación de voz a texto en etapas intermedias pierde información paralingüística
Métodos Basados en SLM (como dGSLM): Pueden capturar efectivamente elementos de diálogo y patrones de cambio de turno, pero enfrentan desafíos de coherencia semántica:
- La granularidad de las unidades de voz es demasiado fina (típicamente solo 20ms), inadecuada para modelar contenido semántico en contextos extendidos
- Las características de granularidad fina aumentan significativamente la necesidad de conjuntos de datos de entrenamiento grandes

Motivación de la Investigación

Este artículo propone un enfoque híbrido que aprovecha el texto para capturar contexto semántico, mientras utiliza unidades de voz para preservar información paralingüística (como vocalizaciones no verbales y patrones de cambio de turno), con el objetivo de combinar las ventajas de sistemas cascada tradicionales y sistemas basados en SLM.

Contribuciones Principales

Incorporación de LLM en el Marco de Generación de Diálogos Hablados: Utilización de LLM para generar diálogos textuales, aprovechando plenamente las capacidades avanzadas de generación textual del LLM
Propuesta de Predicción de Duración de Fonemas Basada en Transformer de Doble Torre: Uso de un modelo transformer de doble torre para predecir la duración de cada fonema en la secuencia de fonemas escritos, asegurando la preservación de la fluidez en los cambios de turno
dGSLM Condicionado en Secuencia de Fonemas Hablados: Utilización de la secuencia de fonemas hablados derivada del diálogo textual como entrada de condicionamiento para dGSLM, integrando efectivamente eventos de diálogo natural en la voz generada mientras se mantiene la coherencia semántica

Explicación Detallada del Método

Definición de la Tarea

Entrada: Audio de diálogo de indicación Salida: Continuación de diálogo hablado semánticamente coherente y natural Restricciones: El diálogo generado debe satisfacer simultáneamente coherencia semántica y naturalidad (incluyendo cambios de turno, vocalizaciones no verbales, etc.)

Arquitectura del Modelo

El modelo SLIDE contiene tres componentes principales:

1. Generación de Diálogo Textual Impulsada por LLM

Utilización de un modelo de reconocimiento de voz (Whisper-v3) para transcribir el audio del diálogo de indicación a texto
Aprovechamiento de un LLM (GPT-4o) para generar la continuación del diálogo, guiándolo para generar diálogos de estilo hablado
Exclusión de etiquetas de eventos de diálogo (como laughter, sigh), enfocándose en retroalimentación verbal como "yeah", "right", "okay"

2. Predicción de Duración de Secuencia de Fonemas Escritos Basada en Transformer de Doble Torre

Utilización de un modelo de alineación forzada para obtener datos de entrenamiento de alineaciones texto-voz a nivel de fonema de transcripciones reales en el conjunto de datos de entrenamiento
Introducción de fonemas de silencio adicionales, repitiendo cada fonema según la duración determinada por alineación forzada
Fase de entrenamiento: Utilización del método de fuerza de maestro, función de pérdida que combina pérdida de unidad marginal y pérdida de duración marginal
Fase de inferencia: Ejecución de generación incondicional, asegurando correspondencia con la secuencia de fonemas escritos mediante mecanismo de sustitución

3. Generación de Diálogo de Voz dGSLM Condicionada en Secuencia de Fonemas Hablados

Fase de entrenamiento: Utilización del codificador HuBERT para codificar diálogos hablados en tokens de audio, secuencia de fonemas hablados concatenada y tokens de audio como entrada y objetivo de entrenamiento
Cada muestra de diálogo se divide en intervalos de 80 segundos, conteniendo 8000 tokens discretos (primeros 4000 como secuencia de fonemas hablados, últimos 4000 como tokens de audio)
Fase de inferencia: Ajuste de la secuencia de fonemas hablados a longitud fija de 4000 tokens, generación autorregresiva de tokens de audio

Puntos de Innovación Técnica

Estrategia de Representación Híbrida: Combinación innovadora de la capacidad de modelado semántico del texto y la capacidad de modelado prosódico/paralingüístico de las unidades de voz
Mecanismo de Generación Condicionada: Condicionamiento de la salida de dGSLM mediante secuencia de fonemas hablados para asegurar coherencia semántica del diálogo generado
Procesamiento de Alineación Temporal: Mantenimiento de la correspondencia temporal entre secuencia de fonemas y audio mediante predicción de duración y mecanismo de repetición

Configuración Experimental

Conjunto de Datos

Conjunto de Datos Fisher: 2000 horas de audio de diálogos telefónicos estéreo, frecuencia de muestreo 8kHz, remuestreado a 16kHz
Cada muestra de diálogo se divide en intervalos de 80 segundos para entrenamiento

Métricas de Evaluación

Evaluación Objetiva

Evaluación de Naturalidad:
- Estadísticas de distribución temporal de eventos de cambio de turno (IPUs, solapamientos, pausas, silencios)
- Utilización de pyannote.audio para calcular datos estadísticos relevantes
Evaluación de Coherencia Semántica:
- Transcripción de diálogos hablados generados utilizando Whisper-v3
- Cálculo de perplejidad de transcripciones textuales utilizando DialoGPT

Evaluación Subjetiva

N-MOS (Puntuación de Naturalidad): Evaluación de eventos de diálogo natural y fluidez de cambios de turno
M-MOS (Puntuación de Significancia): Evaluación de consistencia lógica y significancia del diálogo
Rango de puntuación: 1-5 puntos, mínimo 5 evaluadores por muestra

Métodos de Comparación

Sistema Cascada: Método cascada tradicional (ASR+LLM+TTS)
dGSLM: Modelo de lenguaje de diálogo hablado generativo original
SLIDE-1: Utilización directa de diálogo textual del conjunto de datos de prueba
SLIDE-2: Utilización de diálogo textual generado por LLM

Detalles de Implementación

Entrenamiento utilizando 6 GPUs A100 de 40GB
Predictor de duración: tamaño de lote 48, 50000 pasos de entrenamiento
dGSLM condicionado: tamaño de lote 96, 250000 pasos de entrenamiento
Temperatura de generación establecida en 1

Resultados Experimentales

Resultados Principales

Estadísticas de Eventos de Cambio de Turno

Modelo	IPUs/minuto	Pausas/minuto	Silencios/minuto	Solapamientos/minuto
Cascada	17.5	0.0	14.9	0.0
dGSLM	30.6	12.0	9.0	8.7
SLIDE-1	25.6	9.4	5.6	9.5
SLIDE-2	31.3	6.3	7.6	15.8
Verdad Base	27.3	9.9	8.9	8.2

Coherencia Semántica y Evaluación Subjetiva

Modelo	Perplejidad ↓	N-MOS ↑	M-MOS ↑
Cascada	-	2.38±0.63	2.70±0.38
dGSLM	1228.82	4.14±0.78	1.52±0.40
SLIDE-1	532.81	4.37±0.46	3.94±0.81
SLIDE-2	421.29	4.06±0.41	4.08±0.49
Verdad Base	371.16	4.72±0.40	4.63±0.44

Hallazgos Clave

Mejora Significativa en Coherencia Semántica: SLIDE-2 en comparación con dGSLM reduce la perplejidad en 65.8% (de 1228.82 a 421.29), acercándose al nivel de diálogo real (371.16)
Preservación de Naturalidad: SLIDE muestra desempeño comparable a dGSLM en estadísticas de eventos de cambio de turno, significativamente superior al sistema cascada
Mejora Sustancial en Significancia: M-MOS de SLIDE-2 mejora 270.0% en comparación con dGSLM, con solo 11.9% de brecha relativa respecto al diálogo real

Experimentos de Ablación

La comparación entre SLIDE-1 y SLIDE-2 valida la efectividad de la generación textual de diálogos por LLM, demostrando que incluso utilizando texto generado por LLM (en lugar de transcripciones reales), se mantiene buena coherencia semántica.

Trabajo Relacionado

Direcciones Principales en Generación de Diálogos Hablados

Métodos Cascada Tradicionales: Tubería ASR→LLM→TTS, fuerte en semántica pero débil en naturalidad
Métodos Basados en SLM: Como dGSLM, fuerte en naturalidad pero débil en coherencia semántica
Métodos Híbridos: SLIDE pertenece a esta dirección emergente

Ventajas de Este Artículo

En comparación con trabajos existentes, SLIDE logra por primera vez un equilibrio efectivo entre coherencia semántica y naturalidad, resolviendo el compromiso entre ambas mediante un mecanismo de condicionamiento ingenioso.

Conclusiones y Discusión

Conclusiones Principales

SLIDE combina exitosamente la capacidad de modelado semántico del LLM y la capacidad de modelado prosódico del SLM, mejorando significativamente la coherencia semántica mientras se mantiene la naturalidad del diálogo hablado, proporcionando una nueva solución para la generación de diálogos hablados espontáneos.

Limitaciones

Complejidad Computacional: Requiere entrenamiento de múltiples componentes de modelo, con costo computacional relativamente alto
Dependencia de Datos: Aún requiere datos de diálogos hablados a gran escala para entrenamiento
Adaptabilidad de Dominio: Entrenado en el conjunto de datos Fisher, la capacidad de generalización a otros dominios requiere validación
Tiempo Real: El procesamiento multietapa puede afectar la velocidad de respuesta de la generación de diálogos en tiempo real

Direcciones Futuras

Exploración de estrategias de entrenamiento conjunto end-to-end
Investigación de arquitecturas de modelo más ligeras
Extensión a escenarios multilingües y transdominios
Mejora de la eficiencia para generación de diálogos en tiempo real

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera propuesta de arquitectura híbrida combinando LLM y SLM, resolviendo el problema de equilibrio de larga data entre coherencia semántica y naturalidad
Diseño de Método Razonable: Diseño de tubería de tres etapas claro, función de cada componente explícita, ruta técnica viable
Experimentación Completa: Incluye evaluación objetiva y subjetiva, métodos de comparación exhaustivos, experimentos de ablación que validan la efectividad del diseño
Resultados Significativos: Logra mejora significativa en coherencia semántica (reducción de perplejidad de 65.8%), manteniendo naturalidad

Insuficiencias

Complejidad del Sistema: La tubería multietapa aumenta la complejidad del sistema, potencialmente afectando practicidad y robustez
Eficiencia Computacional: Requiere ejecución de múltiples modelos grandes, costo computacional alto, desafíos en aplicaciones en tiempo real
Propagación de Errores: La arquitectura de tubería puede presentar problemas de acumulación de errores, donde errores en etapas anteriores afectan procesamiento posterior
Capacidad de Generalización: Validado solo en conjunto de datos Fisher, capacidad de generalización transdominios y multilingüe desconocida

Impacto

Valor Académico: Proporciona nueva dirección de investigación para el campo de generación de diálogos hablados, equilibrando modelado semántico y prosódico
Potencial Práctico: Posee valor práctico en asistentes virtuales, sistemas de diálogo y otras aplicaciones
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción y mejora

Escenarios Aplicables

Sistemas de Diálogo: Asistentes inteligentes que requieren generar respuestas habladas naturales y significativas
Síntesis de Voz: Sistemas TTS de estilo conversacional que requieren alto grado de naturalidad
Educación y Capacitación: Aplicaciones de entrenamiento de diálogos orales y aprendizaje de idiomas
Entretenimiento y Medios: Escenarios como juegos y personajes virtuales que requieren diálogos naturales

Referencias

Este artículo cita 34 referencias relacionadas, abarcando múltiples campos relevantes incluyendo modelos de lenguaje de voz, modelos de lenguaje grande, generación de diálogos, síntesis de voz y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que resuelve innovadoramente problemas clave en la generación de diálogos hablados. Aunque presenta desafíos en complejidad del sistema y eficiencia computacional, sus contribuciones técnicas y resultados experimentales son muy convincentes, proporcionando nuevas perspectivas valiosas para el desarrollo del campo.