2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.

Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.

academic

SLIDE : Intégration d'un Modèle de Langage Parlé avec un LLM pour la Génération de Dialogue Parlé Spontané

Informations Fondamentales

ID de l'article : 2501.00805
Titre : SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
Auteurs : Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
Classification : eess.AS cs.CL cs.SD
Date de publication : 1er janvier 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.00805

Résumé

Ces dernières années, les modèles de langage parlé (SLM) basés sur des unités vocales « sans texte » ont réalisé des progrès considérables dans la génération de parole naturelle, y compris les vocalisations non verbales. Cependant, les échantillons de parole générés manquent souvent de cohérence sémantique. Cet article propose la méthode SLIDE (Spontaneous Spoken Dialogue Generation with SLM and LLM Integration). Concrètement, on utilise d'abord un LLM pour générer le contenu textuel du dialogue parlé, puis on convertit le dialogue textuel en séquence de phonèmes, on utilise un prédicteur de durée basé sur un transformateur à double tour pour prédire la durée de chaque phonème, et enfin on utilise un SLM conditionné par une séquence de phonèmes parlés pour vocaliser le dialogue textuel. Les résultats expérimentaux sur l'ensemble de données Fisher montrent que le système peut générer des dialogues parlés naturels tout en maintenant une cohérence sémantique élevée.

Contexte de Recherche et Motivation

Définition du Problème

Cette recherche vise à résoudre la contradiction fondamentale dans la génération de dialogue parlé spontané : comment maintenir la naturalité de la parole tout en assurant la cohérence sémantique. Le dialogue parlé comprend deux aspects clés :

Aspect sémantique : la signification du contenu du dialogue, essentielle pour transmettre des informations précises et pertinentes
Aspect de naturalité : la fluidité des changements de tour, incluant les unités de pause inter-énoncés (IPU), les chevauchements, les lacunes, les pauses ainsi que les rires et les retours d'information naturels

Limitations des Méthodes Existantes

Systèmes en cascade traditionnels : bien que la cohérence sémantique soit forte (grâce à l'entraînement sur des centaines de milliards de mots par les LLM), la capacité à générer des dialogues naturels est limitée, car :
- Les événements de changement de tour au sein d'aucun composant ne sont pris en compte
- Il est difficile de générer des dialogues naturels contenant des rires et des retours d'information
- L'étape intermédiaire d'encodage de la parole en texte perd les informations paralinguistiques
Méthodes basées sur SLM (comme dGSLM) : peuvent capturer efficacement les éléments de dialogue et les modèles de changement de tour, mais font face à des défis de cohérence sémantique :
- La granularité des unités vocales est trop fine (généralement seulement 20 ms), inadéquate pour modéliser le contenu sémantique du contexte étendu
- Les caractéristiques à granularité fine augmentent considérablement les besoins en ensembles de données d'entraînement volumineux

Motivation de la Recherche

Cet article propose une approche hybride qui exploite le texte pour capturer le contexte sémantique, tout en utilisant des unités vocales pour préserver les informations paralinguistiques (telles que les vocalisations non verbales et les modèles de changement de tour), visant à combiner les avantages des systèmes en cascade traditionnels et des systèmes basés sur SLM.

Contributions Principales

Intégration du LLM dans le cadre de génération de dialogue parlé : utilisation d'un LLM pour générer des dialogues textuels, exploitant pleinement les capacités avancées de génération de texte du LLM
Proposition d'une prédiction de durée de phonème basée sur un transformateur à double tour : utilisation d'un modèle de transformateur à double tour pour prédire la durée de chaque phonème dans la séquence de phonèmes écrits, assurant le maintien de la fluidité des changements de tour
dGSLM conditionné par une séquence de phonèmes parlés : utilisation de la séquence de phonèmes parlés dérivée du dialogue textuel comme entrée conditionnelle au dGSLM, intégrant efficacement les événements de dialogue naturels dans la parole générée tout en maintenant la cohérence sémantique

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : audio de dialogue d'amorce Sortie : continuation de dialogue parlé sémantiquement cohérente et naturelle Contraintes : le dialogue généré doit satisfaire à la fois la cohérence sémantique et la naturalité (incluant les changements de tour, les vocalisations non verbales, etc.)

Architecture du Modèle

Le modèle SLIDE comprend trois composants principaux :

1. Génération de Dialogue Textuel Pilotée par LLM

Utilisation d'un modèle de reconnaissance vocale (Whisper-v3) pour transcrire l'audio de dialogue d'amorce en texte
Utilisation d'un LLM (GPT-4o) pour générer la continuation du dialogue, le guidant pour générer un dialogue de style parlé
Exclusion des marqueurs d'événements de dialogue (tels que laughter, sigh), en se concentrant sur les retours d'information verbaux tels que « yeah », « right », « okay »

2. Prédiction de Durée de Séquence de Phonèmes Écrits Basée sur Transformateur à Double Tour

Utilisation d'un modèle d'alignement forcé pour obtenir les données d'entraînement d'alignement texte-parole au niveau des phonèmes des transcriptions réelles
Introduction de phonèmes de silence supplémentaires, répétition de chaque phonème selon la durée déterminée par l'alignement forcé
Phase d'entraînement : utilisation de la méthode de forçage d'enseignant, fonction de perte combinant la perte d'unité marginale et la perte de durée marginale
Phase d'inférence : exécution de la génération inconditionnelle, assurance de la correspondance avec la séquence de phonèmes écrits par un mécanisme de remplacement

3. Génération de Dialogue Parlé dGSLM Conditionné par Séquence de Phonèmes Parlés

Phase d'entraînement : utilisation de l'encodeur HuBERT pour encoder le dialogue parlé en jetons audio, la séquence de phonèmes parlés connectée et les jetons audio comme entrée et cible d'entraînement
Chaque échantillon de dialogue est divisé en intervalles de 80 secondes, contenant 8000 jetons discrets (les 4000 premiers étant la séquence de phonèmes parlés, les 4000 derniers étant les jetons audio)
Phase d'inférence : ajustement de la séquence de phonèmes parlés à une longueur fixe de 4000 jetons, génération autorégrédive de jetons audio

Points d'Innovation Technique

Stratégie de Représentation Hybride : combinaison innovante des capacités de modélisation sémantique du texte et des capacités de modélisation prosodique/paralinguistique des unités vocales
Mécanisme de Génération Conditionnée : conditionnement de la sortie dGSLM par la séquence de phonèmes parlés pour assurer la cohérence sémantique du dialogue généré
Traitement de l'Alignement Temporel : maintien de la correspondance temporelle entre la séquence de phonèmes et l'audio par la prédiction de durée et le mécanisme de répétition

Configuration Expérimentale

Ensemble de Données

Ensemble de données Fisher : 2000 heures d'audio de dialogue téléphonique stéréo, fréquence d'échantillonnage 8 kHz, rééchantillonné à 16 kHz
Chaque échantillon de dialogue est divisé en intervalles de 80 secondes pour l'entraînement

Métriques d'Évaluation

Évaluation Objective

Évaluation de la Naturalité :
- Statistiques de distribution temporelle des événements de changement de tour (IPU, chevauchements, lacunes, pauses)
- Utilisation de pyannote.audio pour calculer les données statistiques pertinentes
Évaluation de la Cohérence Sémantique :
- Transcription du dialogue parlé généré à l'aide de Whisper-v3
- Calcul de la perplexité des transcriptions textuelles à l'aide de DialoGPT

Évaluation Subjective

N-MOS (Score de Naturalité) : évaluation des événements de dialogue naturels et de la fluidité des changements de tour
M-MOS (Score de Signification) : évaluation de la cohérence logique et de la signification du dialogue
Plage de notation : 1-5 points, au moins 5 évaluateurs par échantillon

Méthodes de Comparaison

Système en Cascade : approche en cascade traditionnelle (ASR+LLM+TTS)
dGSLM : modèle de langage de dialogue parlé génératif original
SLIDE-1 : utilisation directe du dialogue textuel de l'ensemble de données de test
SLIDE-2 : utilisation du dialogue textuel généré par LLM

Détails d'Implémentation

Entraînement utilisant 6 GPU A100 40GB
Prédicteur de durée : taille de lot 48, 50000 étapes d'entraînement
dGSLM conditionné : taille de lot 96, 250000 étapes d'entraînement
Température de génération définie à 1

Résultats Expérimentaux

Résultats Principaux

Statistiques des Événements de Changement de Tour

Modèle	IPU/min	Pauses/min	Lacunes/min	Chevauchements/min
Cascade	17,5	0,0	14,9	0,0
dGSLM	30,6	12,0	9,0	8,7
SLIDE-1	25,6	9,4	5,6	9,5
SLIDE-2	31,3	6,3	7,6	15,8
Vérité Terrain	27,3	9,9	8,9	8,2

Cohérence Sémantique et Évaluation Subjective

Modèle	Perplexité ↓	N-MOS ↑	M-MOS ↑
Cascade	-	2,38±0,63	2,70±0,38
dGSLM	1228,82	4,14±0,78	1,52±0,40
SLIDE-1	532,81	4,37±0,46	3,94±0,81
SLIDE-2	421,29	4,06±0,41	4,08±0,49
Vérité Terrain	371,16	4,72±0,40	4,63±0,44

Résultats Clés

Amélioration Significative de la Cohérence Sémantique : SLIDE-2 réduit la perplexité de 65,8% par rapport à dGSLM (de 1228,82 à 421,29), se rapprochant du niveau du dialogue réel (371,16)
Maintien de la Naturalité : SLIDE fonctionne de manière comparable à dGSLM dans les statistiques des événements de changement de tour, surpassant significativement le système en cascade
Amélioration Considérable de la Signification : le M-MOS de SLIDE-2 améliore de 270,0% par rapport à dGSLM, avec seulement 11,9% d'écart relatif par rapport au dialogue réel

Expériences d'Ablation

La comparaison entre SLIDE-1 et SLIDE-2 valide l'efficacité de la génération de dialogue textuel par LLM, maintenant une bonne cohérence sémantique même en utilisant du texte généré par LLM (plutôt que des transcriptions réelles).

Travaux Connexes

Directions Principales de la Génération de Dialogue Parlé

Méthodes en Cascade Traditionnelles : pipeline ASR→LLM→TTS, forte sémantique mais faible naturalité
Méthodes Basées sur SLM : comme dGSLM, forte naturalité mais faible cohérence sémantique
Méthodes Hybrides : SLIDE proposé dans cet article appartient à cette direction émergente

Avantages de Cet Article

Par rapport aux travaux existants, SLIDE réalise pour la première fois un équilibre efficace entre la cohérence sémantique et la naturalité, résolvant le compromis entre les deux par un mécanisme de conditionnement ingénieux.

Conclusion et Discussion

Conclusions Principales

SLIDE combine avec succès les capacités de modélisation sémantique du LLM et les capacités de modélisation prosodique du SLM, améliorant significativement la cohérence sémantique tout en maintenant la naturalité du dialogue parlé, fournissant une nouvelle solution pour la génération de dialogue parlé spontané.

Limitations

Complexité Computationnelle : nécessite l'entraînement de plusieurs composants de modèle, coûts de calcul élevés
Dépendance aux Données : nécessite toujours de grandes quantités de données de dialogue parlé pour l'entraînement
Adaptabilité Domaine : entraîné sur l'ensemble de données Fisher, la capacité de généralisation à d'autres domaines reste à vérifier
Temps Réel : le traitement multi-étapes peut affecter la vitesse de réponse de la génération de dialogue en temps réel

Directions Futures

Exploration de stratégies d'entraînement conjoint de bout en bout
Recherche d'architectures de modèle plus légères
Extension à des scénarios multilingues et inter-domaines
Amélioration de l'efficacité de la génération de dialogue en temps réel

Évaluation Approfondie

Points Forts

Innovation Forte : première proposition d'une architecture hybride combinant LLM et SLM, résolvant le problème de compromis longtemps existant entre cohérence sémantique et naturalité
Conception Méthodologique Raisonnable : conception claire du pipeline en trois étapes, fonction explicite de chaque composant, approche technique viable
Expériences Complètes : incluant évaluations objectives et subjectives, méthodes de comparaison complètes, expériences d'ablation validant l'efficacité de la conception
Résultats Significatifs : amélioration significative de la cohérence sémantique (réduction de perplexité de 65,8%), maintenant simultanément la naturalité

Insuffisances

Complexité du Système : le pipeline multi-étapes augmente la complexité du système, pouvant affecter l'applicabilité pratique et la robustesse
Efficacité Computationnelle : nécessite l'exécution de plusieurs grands modèles, coûts de calcul élevés, défis pour les applications en temps réel
Propagation d'Erreurs : l'architecture en pipeline peut présenter des problèmes d'accumulation d'erreurs, les erreurs d'une étape antérieure affectant le traitement ultérieur
Capacité de Généralisation : validé uniquement sur l'ensemble de données Fisher, la capacité de généralisation inter-domaines et multilingues est inconnue

Impact

Valeur Académique : fournit une nouvelle direction de recherche pour le domaine de la génération de dialogue parlé, équilibrant la modélisation sémantique et prosodique
Potentiel Pratique : possède une valeur pratique dans les assistants virtuels, les systèmes de dialogue et autres applications
Reproductibilité : fournit des détails d'implémentation détaillés et du code open source, facilitant la reproduction et l'amélioration

Scénarios Applicables

Systèmes de Dialogue : assistants intelligents nécessitant de générer des réponses parlées naturelles et significatives
Synthèse Vocale : systèmes TTS conversationnels exigeant une haute naturalité
Éducation et Formation : applications d'entraînement au dialogue parlé et d'apprentissage des langues
Médias et Divertissement : jeux, personnages virtuels et autres scénarios nécessitant des dialogues naturels

Références

Cet article cite 34 références pertinentes, couvrant plusieurs domaines connexes incluant les modèles de langage parlé, les grands modèles de langage, la génération de dialogue, la synthèse vocale et autres travaux importants, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité qui résout de manière innovante les problèmes clés de la génération de dialogue parlé. Bien qu'il présente des défis en termes de complexité du système et d'efficacité computationnelle, ses contributions techniques et résultats expérimentaux sont très convaincants, fournissant des perspectives nouvelles et précieuses pour le développement du domaine.