2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.
Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
academic

SLIDE: Integrazione del Modello di Linguaggio Vocale con LLM per la Generazione di Dialoghi Spontanei Parlati

Informazioni Fondamentali

  • ID Articolo: 2501.00805
  • Titolo: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
  • Autori: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
  • Classificazione: eess.AS cs.CL cs.SD
  • Data di Pubblicazione: 1 gennaio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.00805

Riassunto

Negli ultimi anni, i modelli di linguaggio vocale (SLM) basati su unità vocali "senza testo" hanno compiuto progressi significativi nella generazione di discorsi naturali, incluse le emissioni non verbali. Tuttavia, i campioni vocali generati spesso mancano di coerenza semantica. Questo articolo propone il metodo SLIDE (Generazione di Dialoghi Parlati Spontanei mediante Integrazione di SLM e LLM). Nello specifico, si utilizza innanzitutto un LLM per generare il contenuto testuale del dialogo parlato, quindi si converte il dialogo testuale in una sequenza di fonemi, si utilizza un predittore di durata basato su transformer a doppia torre per prevedere la durata di ogni fonema, e infine si utilizza un SLM condizionato da sequenze di fonemi parlati per vocalizzare il dialogo testuale. I risultati sperimentali sul dataset Fisher dimostrano che il sistema è in grado di generare dialoghi parlati naturali mantenendo al contempo un'elevata coerenza semantica.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca mira a risolvere la contraddizione centrale nella generazione di dialoghi parlati spontanei: come garantire la coerenza semantica mantenendo la naturalezza del discorso. I dialoghi parlati comprendono due aspetti chiave:

  1. Aspetto Semantico: Il significato del contenuto del dialogo, essenziale per trasmettere informazioni accurate e rilevanti
  2. Aspetto di Naturalezza: La fluidità delle transizioni di turno, incluse le unità di pausa tra enunciati (IPU), sovrapposizioni, pause, silenzi, nonché risate e feedback naturali della conversazione

Limitazioni dei Metodi Esistenti

  1. Sistemi Tradizionali a Cascata: Sebbene presentino forte coerenza semantica (grazie all'addestramento su centinaia di miliardi di parole da parte di LLM), hanno capacità limitate nel generare dialoghi naturali, poiché:
    • Non considerano gli eventi di transizione di turno all'interno di alcun componente
    • Difficoltà nel generare dialoghi naturali contenenti risate e feedback
    • La codifica intermedia del discorso in testo comporta la perdita di informazioni paralinguistiche
  2. Metodi Basati su SLM (come dGSLM): Catturano efficacemente gli elementi di dialogo e i modelli di transizione di turno, ma affrontano sfide di coerenza semantica:
    • La granularità delle unità vocali è troppo fine (tipicamente solo 20ms), inadatta per modellare contenuti semantici in contesti estesi
    • La natura a grana fine aumenta significativamente la necessità di grandi dataset di addestramento

Motivazione della Ricerca

Questo articolo propone un approccio ibrido che sfrutta il testo per catturare il contesto semantico, mentre utilizza unità vocali per preservare le informazioni paralinguistiche (come emissioni non verbali e modelli di transizione di turno), mirando a combinare i vantaggi dei sistemi a cascata tradizionali e dei sistemi basati su SLM.

Contributi Principali

  1. Integrazione di LLM nel Framework di Generazione di Dialoghi Parlati: Utilizzo di LLM per generare dialoghi testuali, sfruttando pienamente le capacità avanzate di generazione testuale dell'LLM
  2. Proposta di Predizione della Durata dei Fonemi basata su Transformer a Doppia Torre: Utilizzo di un modello transformer a doppia torre per prevedere la durata di ogni fonema in sequenze di fonemi scritti, garantendo il mantenimento della fluidità delle transizioni di turno
  3. dGSLM Condizionato da Sequenze di Fonemi Parlati: Utilizzo di sequenze di fonemi parlati derivate da dialoghi testuali come input condizionante per dGSLM, integrando efficacemente gli eventi di dialogo naturale nel discorso generato mantenendo la coerenza semantica

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Audio di dialogo di prompt Output: Continuazione di dialogo parlato semanticamente coerente e naturale Vincoli: Il dialogo generato deve soddisfare sia la coerenza semantica che la naturalezza (incluse transizioni di turno, emissioni non verbali, ecc.)

Architettura del Modello

Il modello SLIDE comprende tre componenti principali:

1. Generazione di Dialogo Testuale Guidata da LLM

  • Utilizzo di un modello di riconoscimento vocale (Whisper-v3) per trascrivere l'audio del dialogo di prompt in testo
  • Utilizzo di un LLM (GPT-4o) per generare la continuazione del dialogo, guidandolo a generare dialoghi in stile parlato
  • Esclusione dei marcatori di eventi di dialogo (come laughter, sigh), concentrandosi su feedback verbali come "yeah", "right", "okay"

2. Predizione della Durata della Sequenza di Fonemi Scritti basata su Transformer a Doppia Torre

  • Utilizzo di un modello di allineamento forzato per ottenere dati di addestramento da trascrizioni vere nel dataset di addestramento con allineamento testo-vocale a livello di fonema
  • Introduzione di fonemi di silenzio aggiuntivi, ripetendo ogni fonema secondo la durata determinata dall'allineamento forzato
  • Fase di addestramento: utilizzo del metodo di insegnamento forzato, con funzione di perdita che combina perdita di unità marginale e perdita di durata marginale
  • Fase di inferenza: esecuzione di generazione non condizionata, garantendo la corrispondenza con la sequenza di fonemi scritti attraverso un meccanismo di sostituzione

3. Generazione di Dialogo Vocale dGSLM Condizionato da Sequenza di Fonemi Parlati

  • Fase di addestramento: utilizzo dell'encoder HuBERT per codificare il dialogo parlato in token audio, con sequenza di fonemi parlati concatenata e token audio come input e obiettivo di addestramento
  • Ogni campione di dialogo è suddiviso in intervalli di 80 secondi, contenenti 8000 token discreti (i primi 4000 sono sequenze di fonemi parlati, gli ultimi 4000 sono token audio)
  • Fase di inferenza: regolazione della sequenza di fonemi parlati a una lunghezza fissa di 4000 token, generazione autoregressiva di token audio

Punti di Innovazione Tecnica

  1. Strategia di Rappresentazione Ibrida: Combinazione innovativa della capacità di modellazione semantica del testo e della capacità di modellazione prosodica/paralinguistica delle unità vocali
  2. Meccanismo di Generazione Condizionata: Condizionamento dell'output dGSLM mediante sequenza di fonemi parlati, garantendo la coerenza semantica del dialogo generato
  3. Gestione dell'Allineamento Temporale: Mantenimento della corrispondenza temporale tra sequenza di fonemi e audio attraverso predizione di durata e meccanismo di ripetizione

Configurazione Sperimentale

Dataset

  • Dataset Fisher: 2000 ore di audio di conversazioni telefoniche stereo, frequenza di campionamento 8kHz, ricampionato a 16kHz
  • Ogni campione di dialogo è suddiviso in intervalli di 80 secondi per l'addestramento

Metriche di Valutazione

Valutazione Oggettiva

  1. Valutazione della Naturalezza:
    • Statistiche sulla distribuzione temporale degli eventi di transizione di turno (IPU, sovrapposizioni, pause, silenzi)
    • Utilizzo di pyannote.audio per il calcolo dei dati statistici correlati
  2. Valutazione della Coerenza Semantica:
    • Trascrizione del dialogo parlato generato utilizzando Whisper-v3
    • Calcolo della perplessità della trascrizione testuale utilizzando DialoGPT

Valutazione Soggettiva

  • N-MOS (Punteggio di Naturalezza): Valutazione degli eventi di dialogo naturale e della fluidità delle transizioni di turno
  • M-MOS (Punteggio di Significatività): Valutazione della coerenza logica e del significato del dialogo
  • Intervallo di punteggio: 1-5, almeno 5 valutatori per campione

Metodi di Confronto

  • Sistema a Cascata: Metodo a cascata tradizionale (ASR+LLM+TTS)
  • dGSLM: Modello di linguaggio di dialogo parlato generativo originale
  • SLIDE-1: Utilizzo diretto del dialogo testuale dal dataset di test
  • SLIDE-2: Utilizzo del dialogo testuale generato da LLM

Dettagli di Implementazione

  • Addestramento con 6 GPU A100 da 40GB
  • Predittore di durata: dimensione batch 48, 50000 step di addestramento
  • dGSLM condizionato: dimensione batch 96, 250000 step di addestramento
  • Temperatura di generazione impostata a 1

Risultati Sperimentali

Risultati Principali

Statistiche degli Eventi di Transizione di Turno

ModelloIPU/minPause/minPause/minSovrapposizioni/min
Cascata17.50.014.90.0
dGSLM30.612.09.08.7
SLIDE-125.69.45.69.5
SLIDE-231.36.37.615.8
Ground Truth27.39.98.98.2

Coerenza Semantica e Valutazione Soggettiva

ModelloPerplessità ↓N-MOS ↑M-MOS ↑
Cascata-2.38±0.632.70±0.38
dGSLM1228.824.14±0.781.52±0.40
SLIDE-1532.814.37±0.463.94±0.81
SLIDE-2421.294.06±0.414.08±0.49
Ground Truth371.164.72±0.404.63±0.44

Scoperte Chiave

  1. Miglioramento Significativo della Coerenza Semantica: SLIDE-2 rispetto a dGSLM riduce la perplessità del 65.8% (da 1228.82 a 421.29), avvicinandosi al livello di dialogo reale (371.16)
  2. Mantenimento della Naturalezza: SLIDE mostra prestazioni comparabili a dGSLM nelle statistiche degli eventi di transizione di turno, significativamente superiore al sistema a cascata
  3. Miglioramento Sostanziale della Significatività: M-MOS di SLIDE-2 migliora del 270.0% rispetto a dGSLM, con un divario relativo del solo 11.9% rispetto al dialogo reale

Esperimenti di Ablazione

Attraverso il confronto tra SLIDE-1 e SLIDE-2, viene verificata l'efficacia della generazione testuale da parte di LLM, dimostrando che anche utilizzando testo generato da LLM (anziché trascrizioni reali), si mantiene una buona coerenza semantica.

Lavori Correlati

Direzioni Principali nella Generazione di Dialoghi Parlati

  1. Metodi a Cascata Tradizionali: Pipeline ASR→LLM→TTS, forte semantica ma scarsa naturalezza
  2. Metodi Basati su SLM: Come dGSLM, forte naturalezza ma scarsa coerenza semantica
  3. Metodi Ibridi: SLIDE proposto in questo articolo appartiene a questa direzione emergente

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, SLIDE realizza per la prima volta un equilibrio efficace tra coerenza semantica e naturalezza, risolvendo il compromesso tra i due attraverso un meccanismo di condizionamento intelligente.

Conclusioni e Discussione

Conclusioni Principali

SLIDE combina con successo la capacità di modellazione semantica dell'LLM e la capacità di modellazione prosodica dell'SLM, migliorando significativamente la coerenza semantica mantenendo la naturalezza dei dialoghi parlati, fornendo una nuova soluzione per la generazione di dialoghi parlati spontanei.

Limitazioni

  1. Complessità Computazionale: Richiede l'addestramento di più componenti di modello, con costi computazionali elevati
  2. Dipendenza dai Dati: Richiede ancora dati di dialogo parlato su larga scala per l'addestramento
  3. Adattabilità di Dominio: Addestrato sul dataset Fisher, la capacità di generalizzazione ad altri domini rimane da verificare
  4. Tempo Reale: L'elaborazione multistadio potrebbe influire sulla velocità di risposta della generazione di dialoghi in tempo reale

Direzioni Future

  1. Esplorazione di strategie di addestramento congiunto end-to-end
  2. Ricerca di architetture di modello più leggere
  3. Estensione a scenari multilingue e cross-domain
  4. Miglioramento dell'efficienza per la generazione di dialoghi in tempo reale

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima proposta di un'architettura ibrida che combina LLM e SLM, risolvendo il problema di lunga data del compromesso tra coerenza semantica e naturalezza
  2. Progettazione Metodologica Razionale: La progettazione della pipeline a tre stadi è chiara, la funzione di ogni componente è ben definita, il percorso tecnico è fattibile
  3. Esperimenti Completi: Include valutazione oggettiva e soggettiva, metodi di confronto completi, esperimenti di ablazione che verificano l'efficacia della progettazione
  4. Risultati Significativi: Raggiunge miglioramenti significativi nella coerenza semantica (riduzione della perplessità del 65.8%), mantenendo al contempo la naturalezza

Insufficienze

  1. Complessità del Sistema: La pipeline multistadio aumenta la complessità del sistema, potendo influire sulla praticità e robustezza
  2. Efficienza Computazionale: Richiede l'esecuzione di più modelli di grandi dimensioni, con costi computazionali elevati e sfide per le applicazioni in tempo reale
  3. Propagazione degli Errori: L'architettura pipeline potrebbe presentare problemi di accumulo di errori, con errori della fase precedente che influiscono sull'elaborazione successiva
  4. Capacità di Generalizzazione: Verificato solo sul dataset Fisher, la capacità di generalizzazione cross-domain e multilingue rimane sconosciuta

Impatto

  1. Valore Accademico: Fornisce una nuova direzione di ricerca nel campo della generazione di dialoghi parlati, bilanciando la modellazione semantica e prosodica
  2. Potenziale Pratico: Ha valore pratico in assistenti virtuali, sistemi di dialogo e altre applicazioni
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source, facilitando la riproduzione e il miglioramento

Scenari Applicabili

  1. Sistemi di Dialogo: Assistenti intelligenti che richiedono la generazione di risposte parlate naturali e significative
  2. Sintesi Vocale: Sistemi TTS conversazionali che richiedono elevata naturalezza
  3. Educazione e Formazione: Applicazioni di allenamento del dialogo parlato e apprendimento linguistico
  4. Intrattenimento e Media: Giochi, personaggi virtuali e altri scenari che richiedono dialoghi naturali

Bibliografia

Questo articolo cita 34 articoli correlati, coprendo importanti lavori in più campi correlati come modelli di linguaggio vocale, grandi modelli di linguaggio, generazione di dialoghi e sintesi vocale, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che risolve in modo innovativo i problemi chiave nella generazione di dialoghi parlati. Sebbene presenti sfide in termini di complessità del sistema ed efficienza computazionale, i suoi contributi tecnici e risultati sperimentali sono molto convincenti, fornendo nuove prospettive preziose per lo sviluppo del campo.