2025-11-16T10:07:12.234140

SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation

Lu, Cheng, Luo et al.
Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
academic

SLIDE: Integration von Sprachsprachmodell mit LLM zur Generierung spontaner gesprochener Dialoge

Grundinformationen

  • Paper-ID: 2501.00805
  • Titel: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
  • Autoren: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang
  • Klassifizierung: eess.AS cs.CL cs.SD
  • Veröffentlichungsdatum: 1. Januar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.00805

Zusammenfassung

In den letzten Jahren haben auf Spracheinheiten basierende "textfreie" Sprachsprachmodelle (SLM) erhebliche Fortschritte bei der Generierung natürlicher Sprache, einschließlich nichtverbaler Laute, erzielt. Allerdings weisen die generierten Sprachproben häufig mangelnde semantische Kohärenz auf. Dieser Artikel schlägt die SLIDE-Methode (Spontaneous Spoken Dialogue Generation durch Integration von SLM und LLM) vor. Konkret wird zunächst ein LLM zur Generierung von Textinhalten für gesprochene Dialoge verwendet, dann wird der Textdialog in eine Phonemsequenz umgewandelt, ein auf Dual-Tower-Transformer basierender Dauer-Prädiktor wird zur Vorhersage der Dauer jedes Phonems verwendet, und schließlich wird ein SLM mit bedingter gesprochener Phonemsequenz zur Vokalisierung des Textdialogs eingesetzt. Experimentelle Ergebnisse auf dem Fisher-Datensatz zeigen, dass das System natürliche gesprochene Dialoge generieren kann, während gleichzeitig eine hohe semantische Kohärenz gewährleistet wird.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, den Kernwiderspruch bei der Generierung spontaner gesprochener Dialoge zu lösen: Wie kann man Sprachnaturalität bewahren und gleichzeitig semantische Kohärenz sicherstellen? Gesprochene Dialoge umfassen zwei Schlüsselaspekte:

  1. Semantischer Aspekt: Die Bedeutung des Dialoginhalts, die für die Vermittlung genauer und relevanter Informationen entscheidend ist
  2. Naturalitätsaspekt: Die Flüssigkeit von Sprecherwechseln, einschließlich Pausen zwischen Äußerungen (IPUs), Überlappungen, Lücken, Pausen sowie natürliche Dialogereignisse wie Lachen und Rückmeldungen

Einschränkungen bestehender Methoden

  1. Traditionelle Kaskadiersysteme: Obwohl sie starke semantische Kohärenz aufweisen (dank Training auf Hunderten von Milliarden Wörtern durch LLMs), ist ihre Fähigkeit, natürliche Dialoge zu generieren, begrenzt, da:
    • Sprecherwechselereignisse in keiner Komponente berücksichtigt werden
    • Es schwierig ist, natürliche Dialoge mit Lachen und Rückmeldungen zu generieren
    • Die Zwischenstufe der Kodierung von Sprache als Text paralinguistische Informationen verliert
  2. SLM-basierte Methoden (wie dGSLM): Können Dialogelemente und Sprecherwechselmuster effektiv erfassen, sind aber mit Herausforderungen der semantischen Kohärenz konfrontiert:
    • Die Granularität von Spracheinheiten ist zu fein (typischerweise nur 20 ms), was sich nicht für die Modellierung semantischer Inhalte in erweitertem Kontext eignet
    • Die Feingranularität erhöht erheblich die Anforderungen an große Trainingsdatensätze

Forschungsmotivation

Dieser Artikel schlägt einen hybriden Ansatz vor, der Text zur Erfassung semantischer Kontexte nutzt, während gleichzeitig Spracheinheiten zur Beibehaltung paralinguistischer Informationen (wie nichtverbale Laute und Sprecherwechselmuster) verwendet werden, mit dem Ziel, die Vorteile traditioneller Kaskadiersysteme und SLM-basierter Systeme zu kombinieren.

Kernbeiträge

  1. Integration von LLM in den Rahmen der Dialoggenerierung: Nutzung von LLM zur Generierung von Textdialogen, um die fortgeschrittenen Textgenerierungsfähigkeiten von LLMs vollständig zu nutzen
  2. Vorschlag eines auf Dual-Tower-Transformer basierenden Phonem-Dauer-Prädiktors: Verwendung eines Dual-Tower-Transformer-Modells zur Vorhersage der Dauer jedes Phonems in geschriebenen Phonemsequenzen, um die Flüssigkeit von Sprecherwechseln zu gewährleisten
  3. Bedingtes dGSLM basierend auf gesprochener Phonemsequenz: Verwendung von aus Textdialogen abgeleiteten gesprochenen Phonemsequenzen als bedingte Eingabe für dGSLM, um natürliche Dialogereignisse effektiv in die generierte Sprache zu integrieren, während gleichzeitig semantische Kohärenz bewahrt wird

Methodische Erläuterung

Aufgabendefinition

Eingabe: Prompt-Dialogaudio Ausgabe: Semantisch kohärenter und natürlicher gesprochener Dialog-Fortsetzung Einschränkungen: Der generierte Dialog muss sowohl semantische Kohärenz als auch Naturalität (einschließlich Sprecherwechsel, nichtverbale Laute usw.) erfüllen

Modellarchitektur

Das SLIDE-Modell besteht aus drei Hauptkomponenten:

1. LLM-gesteuerte Textdialog-Generierung

  • Verwendung eines Spracherkennungsmodells (Whisper-v3) zur Transkription des Prompt-Dialogaudios in Text
  • Nutzung eines LLM (GPT-4o) zur Generierung von Dialog-Fortsetzungen mit Anleitung zur Generierung von umgangssprachlichen Dialogen
  • Ausschluss von Dialog-Ereignismarkierungen (wie laughter, sigh) mit Fokus auf verbale Rückmeldungen wie "yeah", "right", "okay"

2. Auf Dual-Tower-Transformer basierte Dauer-Vorhersage für geschriebene Phonemsequenzen

  • Verwendung eines erzwungenen Alignment-Modells zur Gewinnung von Trainingsdaten für echte Text-Sprache-Alignments auf Phonem-Ebene aus dem Trainingsdatensatz
  • Einführung zusätzlicher Stille-Phoneme, wobei jedes Phonem entsprechend der durch erzwungenes Alignment bestimmten Dauer wiederholt wird
  • Trainingsphase: Verwendung von Teacher-Forcing-Methoden, Verlustfunktion kombiniert Margin-Unit-Verlust und Margin-Duration-Verlust
  • Inferenzphase: Durchführung unbedingter Generierung, wobei durch Ersetzungsmechanismen die Entsprechung mit der geschriebenen Phonemsequenz gewährleistet wird

3. dGSLM-Sprachdialog-Generierung mit bedingter gesprochener Phonemsequenz

  • Trainingsphase: Verwendung eines HuBERT-Encoders zur Kodierung gesprochener Dialoge in Audio-Token, wobei verbundene gesprochene Phonemsequenzen und Audio-Token als Eingabe und Trainingsziel dienen
  • Jedes Dialog-Sample wird in 80-Sekunden-Intervalle unterteilt, enthält 8000 diskrete Token (erste 4000 sind gesprochene Phonemsequenzen, letzte 4000 sind Audio-Token)
  • Inferenzphase: Anpassung der gesprochenen Phonemsequenz auf eine feste Länge von 4000 Token, autoregressives Generieren von Audio-Token

Technische Innovationen

  1. Hybrid-Repräsentationsstrategie: Innovative Kombination der semantischen Modellierungsfähigkeiten von Text und der prosodischen/paralinguistischen Modellierungsfähigkeiten von Spracheinheiten
  2. Bedingter Generierungsmechanismus: Durch bedingte Einschränkung der dGSLM-Ausgabe mittels gesprochener Phonemsequenzen wird semantische Kohärenz des generierten Dialogs gewährleistet
  3. Zeitliche Alignment-Verarbeitung: Durch Dauer-Vorhersage und Wiederholungsmechanismen wird die zeitliche Entsprechung zwischen Phonemsequenz und Audio gewährleistet

Experimentelle Einrichtung

Datensatz

  • Fisher-Datensatz: 2000 Stunden Stereo-Telefondialog-Audio, Abtastrate 8 kHz, neu abgetastet auf 16 kHz
  • Jedes Dialog-Sample wird für das Training in 80-Sekunden-Intervalle unterteilt

Bewertungsmetriken

Objektive Bewertung

  1. Naturalitätsbewertung:
    • Zeitliche Verteilungsstatistiken von Sprecherwechselereignissen (IPUs, Überlappungen, Lücken, Pausen)
    • Berechnung relevanter Statistiken mit pyannote.audio
  2. Bewertung der semantischen Kohärenz:
    • Transkription generierter gesprochener Dialoge mit Whisper-v3
    • Berechnung der Verwirrung von Text-Transkriptionen mit DialoGPT

Subjektive Bewertung

  • N-MOS (Naturalness Mean Opinion Score): Bewertung natürlicher Dialogereignisse und Flüssigkeit von Sprecherwechseln
  • M-MOS (Meaningfulness Mean Opinion Score): Bewertung logischer Konsistenz und Bedeutung des Dialogs
  • Bewertungsskala: 1-5 Punkte, mindestens 5 Bewerter pro Sample

Vergleichsmethoden

  • Kaskadiersystem: Traditionelle Kaskadiermethode (ASR+LLM+TTS)
  • dGSLM: Originales generatives Sprachdialog-Sprachmodell
  • SLIDE-1: Direkte Verwendung von Textdialogen aus dem Testdatensatz
  • SLIDE-2: Verwendung von LLM-generierten Textdialogen

Implementierungsdetails

  • Training mit 6 A100-40GB-GPUs
  • Dauer-Prädiktor: Batch-Größe 48, 50.000 Trainingsschritte
  • Bedingtes dGSLM: Batch-Größe 96, 250.000 Trainingsschritte
  • Generierungstemperatur auf 1 eingestellt

Experimentelle Ergebnisse

Hauptergebnisse

Statistiken von Sprecherwechselereignissen

ModellIPUs/MinutePausen/MinuteLücken/MinuteÜberlappungen/Minute
Kaskadiersystem17,50,014,90,0
dGSLM30,612,09,08,7
SLIDE-125,69,45,69,5
SLIDE-231,36,37,615,8
Ground Truth27,39,98,98,2

Semantische Kohärenz und subjektive Bewertung

ModellVerwirrung ↓N-MOS ↑M-MOS ↑
Kaskadiersystem-2,38±0,632,70±0,38
dGSLM1228,824,14±0,781,52±0,40
SLIDE-1532,814,37±0,463,94±0,81
SLIDE-2421,294,06±0,414,08±0,49
Ground Truth371,164,72±0,404,63±0,44

Wichtigste Erkenntnisse

  1. Signifikante Verbesserung der semantischen Kohärenz: SLIDE-2 zeigt eine Verwirrungsreduktion von 65,8% gegenüber dGSLM (von 1228,82 auf 421,29), nahe am Niveau echter Dialoge (371,16)
  2. Beibehaltung der Naturalität: SLIDE zeigt bei der Statistik von Sprecherwechselereignissen vergleichbare Leistungen mit dGSLM, deutlich überlegen gegenüber dem Kaskadiersystem
  3. Erhebliche Verbesserung der Bedeutsamkeit: SLIDE-2 zeigt eine M-MOS-Verbesserung von 270,0% gegenüber dGSLM, mit nur 11,9% relativem Unterschied zu echten Dialogen

Ablationsstudien

Der Vergleich zwischen SLIDE-1 und SLIDE-2 validiert die Effektivität der LLM-generierten Textdialoge, wobei selbst die Verwendung von LLM-generiertem Text (anstelle echter Transkriptionen) gute semantische Kohärenz bewahrt.

Verwandte Arbeiten

Hauptrichtungen der Dialoggenerierung

  1. Traditionelle Kaskadiermethoden: ASR→LLM→TTS-Pipeline, starke Semantik aber schlechte Naturalität
  2. SLM-basierte Methoden: Wie dGSLM, starke Naturalität aber schlechte semantische Kohärenz
  3. Hybridmethoden: SLIDE gehört zu dieser neuen Richtung

Vorteile dieses Artikels

Im Vergleich zu bestehenden Arbeiten erreicht SLIDE erstmals ein effektives Gleichgewicht zwischen semantischer Kohärenz und Naturalität, wobei ein ausgeklügelter Bedingungsmechanismus den Kompromiss zwischen beiden löst.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

SLIDE kombiniert erfolgreich die semantischen Modellierungsfähigkeiten von LLM und die prosodischen Modellierungsfähigkeiten von SLM, verbessert signifikant die semantische Kohärenz, während die Naturalität gesprochener Dialoge bewahrt wird, und bietet eine neue Lösung für die Generierung spontaner gesprochener Dialoge.

Einschränkungen

  1. Rechenkomplexität: Erfordert Training mehrerer Modellkomponenten mit hohen Rechenkosten
  2. Datenabhängigkeit: Benötigt immer noch große Mengen an Dialogdaten zum Training
  3. Domänenanpassung: Training auf Fisher-Datensatz, Verallgemeinerungsfähigkeit auf andere Domänen unklar
  4. Echtzeit-Fähigkeit: Mehrstufige Verarbeitung kann die Reaktionsgeschwindigkeit für Echtzeit-Dialoggenerierung beeinträchtigen

Zukünftige Richtungen

  1. Erforschung von End-to-End-Joint-Training-Strategien
  2. Untersuchung leichtgewichtigerer Modellarchitekturen
  3. Erweiterung auf mehrsprachige und domänenübergreifende Szenarien
  4. Verbesserung der Effizienz für Echtzeit-Dialoggenerierung

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmals Vorschlag einer hybriden Architektur, die LLM und SLM kombiniert, um das langfristig bestehende Kompromiss-Problem zwischen semantischer Kohärenz und Naturalität zu lösen
  2. Vernünftige Methodengestaltung: Klare dreistufige Pipeline-Gestaltung, klare Funktionen jeder Komponente, praktikable technische Route
  3. Umfangreiche Experimente: Umfasst objektive und subjektive Bewertungen, umfassende Vergleichsmethoden, Ablationsstudien validieren die Effektivität des Designs
  4. Signifikante Ergebnisse: Signifikante Verbesserung der semantischen Kohärenz (Verwirrungsreduktion von 65,8%), während Naturalität bewahrt wird

Mängel

  1. Systemkomplexität: Mehrstufige Pipeline erhöht die Systemkomplexität, kann Praktikabilität und Robustheit beeinträchtigen
  2. Recheneffizienz: Erfordert Ausführung mehrerer großer Modelle, hohe Rechenkosten, Herausforderungen für Echtzeit-Anwendungen
  3. Fehlerfortpflanzung: Pipeline-Architektur kann Fehlerakkumulation aufweisen, Fehler in früheren Stufen beeinflussen nachfolgende Verarbeitung
  4. Verallgemeinerungsfähigkeit: Nur auf Fisher-Datensatz validiert, Verallgemeinerungsfähigkeit über Domänen und mehrsprachig unbekannt

Auswirkungen

  1. Akademischer Wert: Bietet neue Forschungsrichtung für das Feld der Dialoggenerierung, balanciert semantische und prosodische Modellierung
  2. Praktisches Potenzial: Hat praktischen Wert in virtuellen Assistenten, Dialogsystemen und anderen Anwendungen
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code für einfache Reproduktion und Verbesserung

Anwendungsszenarien

  1. Dialogsysteme: Intelligente Assistenten, die natürliche und bedeutungsvolle gesprochene Antworten generieren müssen
  2. Sprachsynthese: Dialogbasierte TTS-Systeme mit hoher Naturalität
  3. Bildung und Training: Anwendungen für Sprachdialog-Training und Sprachenlernen
  4. Unterhaltungsmedien: Spiele, virtuelle Charaktere und andere Szenarien, die natürliche Dialoge erfordern

Referenzen

Dieser Artikel zitiert 34 relevante Arbeiten, die wichtige Arbeiten in mehreren verwandten Bereichen wie Sprachsprachmodelle, große Sprachmodelle, Dialoggenerierung und Sprachsynthese abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovativ ein Schlüsselproblem bei der Generierung gesprochener Dialoge löst. Obwohl es Herausforderungen in Bezug auf Systemkomplexität und Recheneffizienz gibt, sind seine technischen Beiträge und experimentellen Ergebnisse überzeugend und bieten wertvolle neue Perspektiven für die Entwicklung des Feldes.