2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.
Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
academic

SLIDE: Integración de Modelo de Lenguaje de Voz con LLM para Generación de Diálogos Hablados Espontáneos

Información Básica

  • ID del Artículo: 2501.00805
  • Título: SLIDE: Integración de Modelo de Lenguaje de Voz con LLM para Generación de Diálogos Hablados Espontáneos
  • Autores: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
  • Clasificación: eess.AS cs.CL cs.SD
  • Fecha de Publicación: 1 de enero de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00805

Resumen

En años recientes, los modelos de lenguaje de voz (SLM) basados en unidades de voz "sin texto" han logrado avances significativos en la generación de voz natural, incluyendo vocalizaciones no verbales. Sin embargo, las muestras de voz generadas frecuentemente carecen de coherencia semántica. Este artículo propone el método SLIDE (Generación de Diálogos Hablados Espontáneos mediante Integración de SLM y LLM). Específicamente, primero se utiliza un LLM para generar el contenido textual del diálogo hablado, luego se convierte el diálogo textual en una secuencia de fonemas, se utiliza un predictor de duración basado en transformer de doble torre para predecir la duración de cada fonema, y finalmente se utiliza un SLM condicionado en la secuencia de fonemas hablados para vocalizar el diálogo textual. Los resultados experimentales en el conjunto de datos Fisher demuestran que el sistema puede generar diálogos hablados naturales mientras mantiene una alta coherencia semántica.

Contexto de Investigación y Motivación

Definición del Problema

Esta investigación tiene como objetivo resolver la contradicción central en la generación de diálogos hablados espontáneos: cómo garantizar la coherencia semántica mientras se mantiene la naturalidad del habla. Los diálogos hablados comprenden dos aspectos clave:

  1. Aspecto Semántico: La significancia del contenido del diálogo, crucial para transmitir información precisa y relevante
  2. Aspecto de Naturalidad: La fluidez en los cambios de turno, incluyendo unidades de pausa entre turnos (IPUs), solapamientos, pausas, silencios, así como eventos naturales de diálogo como risas y retroalimentación

Limitaciones de Métodos Existentes

  1. Sistemas Cascada Tradicionales: Aunque poseen fuerte coherencia semántica (gracias a LLMs entrenados en cientos de miles de millones de palabras), tienen capacidad limitada para generar diálogos naturales, porque:
    • No consideran eventos de cambio de turno dentro de ningún componente
    • Tienen dificultad para generar diálogos naturales que contengan risas y retroalimentación
    • La codificación de voz a texto en etapas intermedias pierde información paralingüística
  2. Métodos Basados en SLM (como dGSLM): Pueden capturar efectivamente elementos de diálogo y patrones de cambio de turno, pero enfrentan desafíos de coherencia semántica:
    • La granularidad de las unidades de voz es demasiado fina (típicamente solo 20ms), inadecuada para modelar contenido semántico en contextos extendidos
    • Las características de granularidad fina aumentan significativamente la necesidad de conjuntos de datos de entrenamiento grandes

Motivación de la Investigación

Este artículo propone un enfoque híbrido que aprovecha el texto para capturar contexto semántico, mientras utiliza unidades de voz para preservar información paralingüística (como vocalizaciones no verbales y patrones de cambio de turno), con el objetivo de combinar las ventajas de sistemas cascada tradicionales y sistemas basados en SLM.

Contribuciones Principales

  1. Incorporación de LLM en el Marco de Generación de Diálogos Hablados: Utilización de LLM para generar diálogos textuales, aprovechando plenamente las capacidades avanzadas de generación textual del LLM
  2. Propuesta de Predicción de Duración de Fonemas Basada en Transformer de Doble Torre: Uso de un modelo transformer de doble torre para predecir la duración de cada fonema en la secuencia de fonemas escritos, asegurando la preservación de la fluidez en los cambios de turno
  3. dGSLM Condicionado en Secuencia de Fonemas Hablados: Utilización de la secuencia de fonemas hablados derivada del diálogo textual como entrada de condicionamiento para dGSLM, integrando efectivamente eventos de diálogo natural en la voz generada mientras se mantiene la coherencia semántica

Explicación Detallada del Método

Definición de la Tarea

Entrada: Audio de diálogo de indicación Salida: Continuación de diálogo hablado semánticamente coherente y natural Restricciones: El diálogo generado debe satisfacer simultáneamente coherencia semántica y naturalidad (incluyendo cambios de turno, vocalizaciones no verbales, etc.)

Arquitectura del Modelo

El modelo SLIDE contiene tres componentes principales:

1. Generación de Diálogo Textual Impulsada por LLM

  • Utilización de un modelo de reconocimiento de voz (Whisper-v3) para transcribir el audio del diálogo de indicación a texto
  • Aprovechamiento de un LLM (GPT-4o) para generar la continuación del diálogo, guiándolo para generar diálogos de estilo hablado
  • Exclusión de etiquetas de eventos de diálogo (como laughter, sigh), enfocándose en retroalimentación verbal como "yeah", "right", "okay"

2. Predicción de Duración de Secuencia de Fonemas Escritos Basada en Transformer de Doble Torre

  • Utilización de un modelo de alineación forzada para obtener datos de entrenamiento de alineaciones texto-voz a nivel de fonema de transcripciones reales en el conjunto de datos de entrenamiento
  • Introducción de fonemas de silencio adicionales, repitiendo cada fonema según la duración determinada por alineación forzada
  • Fase de entrenamiento: Utilización del método de fuerza de maestro, función de pérdida que combina pérdida de unidad marginal y pérdida de duración marginal
  • Fase de inferencia: Ejecución de generación incondicional, asegurando correspondencia con la secuencia de fonemas escritos mediante mecanismo de sustitución

3. Generación de Diálogo de Voz dGSLM Condicionada en Secuencia de Fonemas Hablados

  • Fase de entrenamiento: Utilización del codificador HuBERT para codificar diálogos hablados en tokens de audio, secuencia de fonemas hablados concatenada y tokens de audio como entrada y objetivo de entrenamiento
  • Cada muestra de diálogo se divide en intervalos de 80 segundos, conteniendo 8000 tokens discretos (primeros 4000 como secuencia de fonemas hablados, últimos 4000 como tokens de audio)
  • Fase de inferencia: Ajuste de la secuencia de fonemas hablados a longitud fija de 4000 tokens, generación autorregresiva de tokens de audio

Puntos de Innovación Técnica

  1. Estrategia de Representación Híbrida: Combinación innovadora de la capacidad de modelado semántico del texto y la capacidad de modelado prosódico/paralingüístico de las unidades de voz
  2. Mecanismo de Generación Condicionada: Condicionamiento de la salida de dGSLM mediante secuencia de fonemas hablados para asegurar coherencia semántica del diálogo generado
  3. Procesamiento de Alineación Temporal: Mantenimiento de la correspondencia temporal entre secuencia de fonemas y audio mediante predicción de duración y mecanismo de repetición

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos Fisher: 2000 horas de audio de diálogos telefónicos estéreo, frecuencia de muestreo 8kHz, remuestreado a 16kHz
  • Cada muestra de diálogo se divide en intervalos de 80 segundos para entrenamiento

Métricas de Evaluación

Evaluación Objetiva

  1. Evaluación de Naturalidad:
    • Estadísticas de distribución temporal de eventos de cambio de turno (IPUs, solapamientos, pausas, silencios)
    • Utilización de pyannote.audio para calcular datos estadísticos relevantes
  2. Evaluación de Coherencia Semántica:
    • Transcripción de diálogos hablados generados utilizando Whisper-v3
    • Cálculo de perplejidad de transcripciones textuales utilizando DialoGPT

Evaluación Subjetiva

  • N-MOS (Puntuación de Naturalidad): Evaluación de eventos de diálogo natural y fluidez de cambios de turno
  • M-MOS (Puntuación de Significancia): Evaluación de consistencia lógica y significancia del diálogo
  • Rango de puntuación: 1-5 puntos, mínimo 5 evaluadores por muestra

Métodos de Comparación

  • Sistema Cascada: Método cascada tradicional (ASR+LLM+TTS)
  • dGSLM: Modelo de lenguaje de diálogo hablado generativo original
  • SLIDE-1: Utilización directa de diálogo textual del conjunto de datos de prueba
  • SLIDE-2: Utilización de diálogo textual generado por LLM

Detalles de Implementación

  • Entrenamiento utilizando 6 GPUs A100 de 40GB
  • Predictor de duración: tamaño de lote 48, 50000 pasos de entrenamiento
  • dGSLM condicionado: tamaño de lote 96, 250000 pasos de entrenamiento
  • Temperatura de generación establecida en 1

Resultados Experimentales

Resultados Principales

Estadísticas de Eventos de Cambio de Turno

ModeloIPUs/minutoPausas/minutoSilencios/minutoSolapamientos/minuto
Cascada17.50.014.90.0
dGSLM30.612.09.08.7
SLIDE-125.69.45.69.5
SLIDE-231.36.37.615.8
Verdad Base27.39.98.98.2

Coherencia Semántica y Evaluación Subjetiva

ModeloPerplejidad ↓N-MOS ↑M-MOS ↑
Cascada-2.38±0.632.70±0.38
dGSLM1228.824.14±0.781.52±0.40
SLIDE-1532.814.37±0.463.94±0.81
SLIDE-2421.294.06±0.414.08±0.49
Verdad Base371.164.72±0.404.63±0.44

Hallazgos Clave

  1. Mejora Significativa en Coherencia Semántica: SLIDE-2 en comparación con dGSLM reduce la perplejidad en 65.8% (de 1228.82 a 421.29), acercándose al nivel de diálogo real (371.16)
  2. Preservación de Naturalidad: SLIDE muestra desempeño comparable a dGSLM en estadísticas de eventos de cambio de turno, significativamente superior al sistema cascada
  3. Mejora Sustancial en Significancia: M-MOS de SLIDE-2 mejora 270.0% en comparación con dGSLM, con solo 11.9% de brecha relativa respecto al diálogo real

Experimentos de Ablación

La comparación entre SLIDE-1 y SLIDE-2 valida la efectividad de la generación textual de diálogos por LLM, demostrando que incluso utilizando texto generado por LLM (en lugar de transcripciones reales), se mantiene buena coherencia semántica.

Trabajo Relacionado

Direcciones Principales en Generación de Diálogos Hablados

  1. Métodos Cascada Tradicionales: Tubería ASR→LLM→TTS, fuerte en semántica pero débil en naturalidad
  2. Métodos Basados en SLM: Como dGSLM, fuerte en naturalidad pero débil en coherencia semántica
  3. Métodos Híbridos: SLIDE pertenece a esta dirección emergente

Ventajas de Este Artículo

En comparación con trabajos existentes, SLIDE logra por primera vez un equilibrio efectivo entre coherencia semántica y naturalidad, resolviendo el compromiso entre ambas mediante un mecanismo de condicionamiento ingenioso.

Conclusiones y Discusión

Conclusiones Principales

SLIDE combina exitosamente la capacidad de modelado semántico del LLM y la capacidad de modelado prosódico del SLM, mejorando significativamente la coherencia semántica mientras se mantiene la naturalidad del diálogo hablado, proporcionando una nueva solución para la generación de diálogos hablados espontáneos.

Limitaciones

  1. Complejidad Computacional: Requiere entrenamiento de múltiples componentes de modelo, con costo computacional relativamente alto
  2. Dependencia de Datos: Aún requiere datos de diálogos hablados a gran escala para entrenamiento
  3. Adaptabilidad de Dominio: Entrenado en el conjunto de datos Fisher, la capacidad de generalización a otros dominios requiere validación
  4. Tiempo Real: El procesamiento multietapa puede afectar la velocidad de respuesta de la generación de diálogos en tiempo real

Direcciones Futuras

  1. Exploración de estrategias de entrenamiento conjunto end-to-end
  2. Investigación de arquitecturas de modelo más ligeras
  3. Extensión a escenarios multilingües y transdominios
  4. Mejora de la eficiencia para generación de diálogos en tiempo real

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primera propuesta de arquitectura híbrida combinando LLM y SLM, resolviendo el problema de equilibrio de larga data entre coherencia semántica y naturalidad
  2. Diseño de Método Razonable: Diseño de tubería de tres etapas claro, función de cada componente explícita, ruta técnica viable
  3. Experimentación Completa: Incluye evaluación objetiva y subjetiva, métodos de comparación exhaustivos, experimentos de ablación que validan la efectividad del diseño
  4. Resultados Significativos: Logra mejora significativa en coherencia semántica (reducción de perplejidad de 65.8%), manteniendo naturalidad

Insuficiencias

  1. Complejidad del Sistema: La tubería multietapa aumenta la complejidad del sistema, potencialmente afectando practicidad y robustez
  2. Eficiencia Computacional: Requiere ejecución de múltiples modelos grandes, costo computacional alto, desafíos en aplicaciones en tiempo real
  3. Propagación de Errores: La arquitectura de tubería puede presentar problemas de acumulación de errores, donde errores en etapas anteriores afectan procesamiento posterior
  4. Capacidad de Generalización: Validado solo en conjunto de datos Fisher, capacidad de generalización transdominios y multilingüe desconocida

Impacto

  1. Valor Académico: Proporciona nueva dirección de investigación para el campo de generación de diálogos hablados, equilibrando modelado semántico y prosódico
  2. Potencial Práctico: Posee valor práctico en asistentes virtuales, sistemas de diálogo y otras aplicaciones
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto, facilitando reproducción y mejora

Escenarios Aplicables

  1. Sistemas de Diálogo: Asistentes inteligentes que requieren generar respuestas habladas naturales y significativas
  2. Síntesis de Voz: Sistemas TTS de estilo conversacional que requieren alto grado de naturalidad
  3. Educación y Capacitación: Aplicaciones de entrenamiento de diálogos orales y aprendizaje de idiomas
  4. Entretenimiento y Medios: Escenarios como juegos y personajes virtuales que requieren diálogos naturales

Referencias

Este artículo cita 34 referencias relacionadas, abarcando múltiples campos relevantes incluyendo modelos de lenguaje de voz, modelos de lenguaje grande, generación de diálogos, síntesis de voz y otros trabajos importantes, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que resuelve innovadoramente problemas clave en la generación de diálogos hablados. Aunque presenta desafíos en complejidad del sistema y eficiencia computacional, sus contribuciones técnicas y resultados experimentales son muy convincentes, proporcionando nuevas perspectivas valiosas para el desarrollo del campo.