2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.

Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.

academic

SLIDE: Integrazione del Modello di Linguaggio Vocale con LLM per la Generazione di Dialoghi Spontanei Parlati

Informazioni Fondamentali

ID Articolo: 2501.00805
Titolo: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
Autori: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
Classificazione: eess.AS cs.CL cs.SD
Data di Pubblicazione: 1 gennaio 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2501.00805

Riassunto

Negli ultimi anni, i modelli di linguaggio vocale (SLM) basati su unità vocali "senza testo" hanno compiuto progressi significativi nella generazione di discorsi naturali, incluse le emissioni non verbali. Tuttavia, i campioni vocali generati spesso mancano di coerenza semantica. Questo articolo propone il metodo SLIDE (Generazione di Dialoghi Parlati Spontanei mediante Integrazione di SLM e LLM). Nello specifico, si utilizza innanzitutto un LLM per generare il contenuto testuale del dialogo parlato, quindi si converte il dialogo testuale in una sequenza di fonemi, si utilizza un predittore di durata basato su transformer a doppia torre per prevedere la durata di ogni fonema, e infine si utilizza un SLM condizionato da sequenze di fonemi parlati per vocalizzare il dialogo testuale. I risultati sperimentali sul dataset Fisher dimostrano che il sistema è in grado di generare dialoghi parlati naturali mantenendo al contempo un'elevata coerenza semantica.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca mira a risolvere la contraddizione centrale nella generazione di dialoghi parlati spontanei: come garantire la coerenza semantica mantenendo la naturalezza del discorso. I dialoghi parlati comprendono due aspetti chiave:

Aspetto Semantico: Il significato del contenuto del dialogo, essenziale per trasmettere informazioni accurate e rilevanti
Aspetto di Naturalezza: La fluidità delle transizioni di turno, incluse le unità di pausa tra enunciati (IPU), sovrapposizioni, pause, silenzi, nonché risate e feedback naturali della conversazione

Limitazioni dei Metodi Esistenti

Sistemi Tradizionali a Cascata: Sebbene presentino forte coerenza semantica (grazie all'addestramento su centinaia di miliardi di parole da parte di LLM), hanno capacità limitate nel generare dialoghi naturali, poiché:
- Non considerano gli eventi di transizione di turno all'interno di alcun componente
- Difficoltà nel generare dialoghi naturali contenenti risate e feedback
- La codifica intermedia del discorso in testo comporta la perdita di informazioni paralinguistiche
Metodi Basati su SLM (come dGSLM): Catturano efficacemente gli elementi di dialogo e i modelli di transizione di turno, ma affrontano sfide di coerenza semantica:
- La granularità delle unità vocali è troppo fine (tipicamente solo 20ms), inadatta per modellare contenuti semantici in contesti estesi
- La natura a grana fine aumenta significativamente la necessità di grandi dataset di addestramento

Motivazione della Ricerca

Questo articolo propone un approccio ibrido che sfrutta il testo per catturare il contesto semantico, mentre utilizza unità vocali per preservare le informazioni paralinguistiche (come emissioni non verbali e modelli di transizione di turno), mirando a combinare i vantaggi dei sistemi a cascata tradizionali e dei sistemi basati su SLM.

Contributi Principali

Integrazione di LLM nel Framework di Generazione di Dialoghi Parlati: Utilizzo di LLM per generare dialoghi testuali, sfruttando pienamente le capacità avanzate di generazione testuale dell'LLM
Proposta di Predizione della Durata dei Fonemi basata su Transformer a Doppia Torre: Utilizzo di un modello transformer a doppia torre per prevedere la durata di ogni fonema in sequenze di fonemi scritti, garantendo il mantenimento della fluidità delle transizioni di turno
dGSLM Condizionato da Sequenze di Fonemi Parlati: Utilizzo di sequenze di fonemi parlati derivate da dialoghi testuali come input condizionante per dGSLM, integrando efficacemente gli eventi di dialogo naturale nel discorso generato mantenendo la coerenza semantica

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Audio di dialogo di prompt Output: Continuazione di dialogo parlato semanticamente coerente e naturale Vincoli: Il dialogo generato deve soddisfare sia la coerenza semantica che la naturalezza (incluse transizioni di turno, emissioni non verbali, ecc.)

Architettura del Modello

Il modello SLIDE comprende tre componenti principali:

1. Generazione di Dialogo Testuale Guidata da LLM

Utilizzo di un modello di riconoscimento vocale (Whisper-v3) per trascrivere l'audio del dialogo di prompt in testo
Utilizzo di un LLM (GPT-4o) per generare la continuazione del dialogo, guidandolo a generare dialoghi in stile parlato
Esclusione dei marcatori di eventi di dialogo (come laughter, sigh), concentrandosi su feedback verbali come "yeah", "right", "okay"

2. Predizione della Durata della Sequenza di Fonemi Scritti basata su Transformer a Doppia Torre

Utilizzo di un modello di allineamento forzato per ottenere dati di addestramento da trascrizioni vere nel dataset di addestramento con allineamento testo-vocale a livello di fonema
Introduzione di fonemi di silenzio aggiuntivi, ripetendo ogni fonema secondo la durata determinata dall'allineamento forzato
Fase di addestramento: utilizzo del metodo di insegnamento forzato, con funzione di perdita che combina perdita di unità marginale e perdita di durata marginale
Fase di inferenza: esecuzione di generazione non condizionata, garantendo la corrispondenza con la sequenza di fonemi scritti attraverso un meccanismo di sostituzione

3. Generazione di Dialogo Vocale dGSLM Condizionato da Sequenza di Fonemi Parlati

Fase di addestramento: utilizzo dell'encoder HuBERT per codificare il dialogo parlato in token audio, con sequenza di fonemi parlati concatenata e token audio come input e obiettivo di addestramento
Ogni campione di dialogo è suddiviso in intervalli di 80 secondi, contenenti 8000 token discreti (i primi 4000 sono sequenze di fonemi parlati, gli ultimi 4000 sono token audio)
Fase di inferenza: regolazione della sequenza di fonemi parlati a una lunghezza fissa di 4000 token, generazione autoregressiva di token audio

Punti di Innovazione Tecnica

Strategia di Rappresentazione Ibrida: Combinazione innovativa della capacità di modellazione semantica del testo e della capacità di modellazione prosodica/paralinguistica delle unità vocali
Meccanismo di Generazione Condizionata: Condizionamento dell'output dGSLM mediante sequenza di fonemi parlati, garantendo la coerenza semantica del dialogo generato
Gestione dell'Allineamento Temporale: Mantenimento della corrispondenza temporale tra sequenza di fonemi e audio attraverso predizione di durata e meccanismo di ripetizione

Configurazione Sperimentale

Dataset

Dataset Fisher: 2000 ore di audio di conversazioni telefoniche stereo, frequenza di campionamento 8kHz, ricampionato a 16kHz
Ogni campione di dialogo è suddiviso in intervalli di 80 secondi per l'addestramento

Metriche di Valutazione

Valutazione Oggettiva

Valutazione della Naturalezza:
- Statistiche sulla distribuzione temporale degli eventi di transizione di turno (IPU, sovrapposizioni, pause, silenzi)
- Utilizzo di pyannote.audio per il calcolo dei dati statistici correlati
Valutazione della Coerenza Semantica:
- Trascrizione del dialogo parlato generato utilizzando Whisper-v3
- Calcolo della perplessità della trascrizione testuale utilizzando DialoGPT

Valutazione Soggettiva

N-MOS (Punteggio di Naturalezza): Valutazione degli eventi di dialogo naturale e della fluidità delle transizioni di turno
M-MOS (Punteggio di Significatività): Valutazione della coerenza logica e del significato del dialogo
Intervallo di punteggio: 1-5, almeno 5 valutatori per campione

Metodi di Confronto

Sistema a Cascata: Metodo a cascata tradizionale (ASR+LLM+TTS)
dGSLM: Modello di linguaggio di dialogo parlato generativo originale
SLIDE-1: Utilizzo diretto del dialogo testuale dal dataset di test
SLIDE-2: Utilizzo del dialogo testuale generato da LLM

Dettagli di Implementazione

Addestramento con 6 GPU A100 da 40GB
Predittore di durata: dimensione batch 48, 50000 step di addestramento
dGSLM condizionato: dimensione batch 96, 250000 step di addestramento
Temperatura di generazione impostata a 1

Risultati Sperimentali

Risultati Principali

Statistiche degli Eventi di Transizione di Turno

Modello	IPU/min	Pause/min	Pause/min	Sovrapposizioni/min
Cascata	17.5	0.0	14.9	0.0
dGSLM	30.6	12.0	9.0	8.7
SLIDE-1	25.6	9.4	5.6	9.5
SLIDE-2	31.3	6.3	7.6	15.8
Ground Truth	27.3	9.9	8.9	8.2

Coerenza Semantica e Valutazione Soggettiva

Modello	Perplessità ↓	N-MOS ↑	M-MOS ↑
Cascata	-	2.38±0.63	2.70±0.38
dGSLM	1228.82	4.14±0.78	1.52±0.40
SLIDE-1	532.81	4.37±0.46	3.94±0.81
SLIDE-2	421.29	4.06±0.41	4.08±0.49
Ground Truth	371.16	4.72±0.40	4.63±0.44

Scoperte Chiave

Miglioramento Significativo della Coerenza Semantica: SLIDE-2 rispetto a dGSLM riduce la perplessità del 65.8% (da 1228.82 a 421.29), avvicinandosi al livello di dialogo reale (371.16)
Mantenimento della Naturalezza: SLIDE mostra prestazioni comparabili a dGSLM nelle statistiche degli eventi di transizione di turno, significativamente superiore al sistema a cascata
Miglioramento Sostanziale della Significatività: M-MOS di SLIDE-2 migliora del 270.0% rispetto a dGSLM, con un divario relativo del solo 11.9% rispetto al dialogo reale

Esperimenti di Ablazione

Attraverso il confronto tra SLIDE-1 e SLIDE-2, viene verificata l'efficacia della generazione testuale da parte di LLM, dimostrando che anche utilizzando testo generato da LLM (anziché trascrizioni reali), si mantiene una buona coerenza semantica.

Lavori Correlati

Direzioni Principali nella Generazione di Dialoghi Parlati

Metodi a Cascata Tradizionali: Pipeline ASR→LLM→TTS, forte semantica ma scarsa naturalezza
Metodi Basati su SLM: Come dGSLM, forte naturalezza ma scarsa coerenza semantica
Metodi Ibridi: SLIDE proposto in questo articolo appartiene a questa direzione emergente

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, SLIDE realizza per la prima volta un equilibrio efficace tra coerenza semantica e naturalezza, risolvendo il compromesso tra i due attraverso un meccanismo di condizionamento intelligente.

Conclusioni e Discussione

Conclusioni Principali

SLIDE combina con successo la capacità di modellazione semantica dell'LLM e la capacità di modellazione prosodica dell'SLM, migliorando significativamente la coerenza semantica mantenendo la naturalezza dei dialoghi parlati, fornendo una nuova soluzione per la generazione di dialoghi parlati spontanei.

Limitazioni

Complessità Computazionale: Richiede l'addestramento di più componenti di modello, con costi computazionali elevati
Dipendenza dai Dati: Richiede ancora dati di dialogo parlato su larga scala per l'addestramento
Adattabilità di Dominio: Addestrato sul dataset Fisher, la capacità di generalizzazione ad altri domini rimane da verificare
Tempo Reale: L'elaborazione multistadio potrebbe influire sulla velocità di risposta della generazione di dialoghi in tempo reale

Direzioni Future

Esplorazione di strategie di addestramento congiunto end-to-end
Ricerca di architetture di modello più leggere
Estensione a scenari multilingue e cross-domain
Miglioramento dell'efficienza per la generazione di dialoghi in tempo reale

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima proposta di un'architettura ibrida che combina LLM e SLM, risolvendo il problema di lunga data del compromesso tra coerenza semantica e naturalezza
Progettazione Metodologica Razionale: La progettazione della pipeline a tre stadi è chiara, la funzione di ogni componente è ben definita, il percorso tecnico è fattibile
Esperimenti Completi: Include valutazione oggettiva e soggettiva, metodi di confronto completi, esperimenti di ablazione che verificano l'efficacia della progettazione
Risultati Significativi: Raggiunge miglioramenti significativi nella coerenza semantica (riduzione della perplessità del 65.8%), mantenendo al contempo la naturalezza

Insufficienze

Complessità del Sistema: La pipeline multistadio aumenta la complessità del sistema, potendo influire sulla praticità e robustezza
Efficienza Computazionale: Richiede l'esecuzione di più modelli di grandi dimensioni, con costi computazionali elevati e sfide per le applicazioni in tempo reale
Propagazione degli Errori: L'architettura pipeline potrebbe presentare problemi di accumulo di errori, con errori della fase precedente che influiscono sull'elaborazione successiva
Capacità di Generalizzazione: Verificato solo sul dataset Fisher, la capacità di generalizzazione cross-domain e multilingue rimane sconosciuta

Impatto

Valore Accademico: Fornisce una nuova direzione di ricerca nel campo della generazione di dialoghi parlati, bilanciando la modellazione semantica e prosodica
Potenziale Pratico: Ha valore pratico in assistenti virtuali, sistemi di dialogo e altre applicazioni
Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source, facilitando la riproduzione e il miglioramento

Scenari Applicabili

Sistemi di Dialogo: Assistenti intelligenti che richiedono la generazione di risposte parlate naturali e significative
Sintesi Vocale: Sistemi TTS conversazionali che richiedono elevata naturalezza
Educazione e Formazione: Applicazioni di allenamento del dialogo parlato e apprendimento linguistico
Intrattenimento e Media: Giochi, personaggi virtuali e altri scenari che richiedono dialoghi naturali

Bibliografia

Questo articolo cita 34 articoli correlati, coprendo importanti lavori in più campi correlati come modelli di linguaggio vocale, grandi modelli di linguaggio, generazione di dialoghi e sintesi vocale, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che risolve in modo innovativo i problemi chiave nella generazione di dialoghi parlati. Sebbene presenti sfide in termini di complessità del sistema ed efficienza computazionale, i suoi contributi tecnici e risultati sperimentali sono molto convincenti, fornendo nuove prospettive preziose per lo sviluppo del campo.