2025-11-17T09:16:13.954696

CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR

Zhou, Jia, Sari et al.

CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.

academic

CJST: CTC Compressor basiertes Joint Speech and Text Training für Decoder-Only ASR

Grundlegende Informationen

Papier-ID: 2411.07607
Titel: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
Autoren: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
Klassifizierung: eess.AS cs.LG cs.SD
Veröffentlichungsdatum: November 2024 (arXiv Preprint)
Papierlink: https://arxiv.org/abs/2411.07607

Zusammenfassung

Der CTC Compressor hat sich als effektive Methode zur Integration von Audio-Encodern in Decoder-Only-Modelle etabliert und erhält zunehmende Aufmerksamkeit in verschiedenen Sprachanwendungen. Dieses Papier präsentiert ein neuartiges Framework für gemeinsames Speech- und Text-Training (CJST) basierend auf CTC Compressor für Decoder-Only ASR. CJST erreicht eine bidirektionale Modalitätsanpassung zwischen Speech- und Text-Modalitäten durch die Erkundung einfacher Modalitätsadapter und mehrerer Eigenschaften des CTC Compressors, einschließlich Sequenzkompression, Online-Forced-Peak-Alignment und CTC-Klassen-Embeddings. Experimentelle Ergebnisse auf den Librispeech- und TED-LIUM2-Korpora zeigen, dass das vorgeschlagene CJST eine effektive Textinjektion ohne Dauer-Verarbeitung erreicht und optimale Leistung in sowohl In-Domain- als auch Cross-Domain-Szenarien erzielt.

Forschungshintergrund und Motivation

Problemdefinition

Mit dem enormen Erfolg großer Sprachmodelle (LLMs) werden Decoder-Only-Architekturen weit verbreitet in verschiedenen Sprachanwendungen eingesetzt. Wie man jedoch Sprachinformationen effektiv in Decoder-Only-Modelle integriert und wie man gemeinsames Speech-Text-Training zur Verbesserung der ASR-Leistung durchführt, bleibt ein herausforderndes Problem.

Forschungsmotivation

Integrationschallenges: Die effektive Integration kontinuierlicher akustischer Embeddings in Decoder-Only-Modelle erfordert geeignete Adapter-Methoden
Modalitätsanpassung: Speech- und Text-Modalitäten unterscheiden sich erheblich in Sequenzlänge und Darstellungsraum und erfordern effektive Alignmentmechanismen
Textinjektion: In produktionsreifen ASR-Modellen, wie man Textdaten effektiv nutzt, um die Leistung ohne externe Sprachmodelle zu verbessern

Einschränkungen bestehender Methoden

Einfache Adapter: Traditionelle Methoden mit zeitlicher Reduktion + linearer Projektion fehlt inhaltsabhängige Kompressionsfähigkeit
RNN-T-Methoden: Bestehende Joint-Training-Methoden konzentrieren sich hauptsächlich auf RNN-T-Modelle und erfordern komplexe Dauer-Verarbeitung
CTC Compressor Sensitivität: Bestehende CTC Compressor-Methoden zeigen instabile Leistung bei verrauschten Daten

Kernbeiträge

CJST-Framework: Neuartiges Framework für gemeinsames Speech- und Text-Training basierend auf CTC Compressor mit bidirektionaler Modalitätsanpassung
Erweiterter CTC Compressor: Umfassende Untersuchung verschiedener Kompressionsmodi, Grenzfallbehandlung und Verhalten des CTC Compressors bei sauberen/verrauschten Daten
Keine Dauer-Verarbeitung erforderlich: Effektive Textinjektion durch Online-Forced-Peak-Alignment und CTC-Klassen-Embeddings ohne komplexe Dauer-Modellierung
Leistungsverbesserung: Optimale Leistung in In-Domain- und Cross-Domain-Szenarien mit etwa 6% relativer Verbesserung gegenüber der Baseline

Methodische Details

Aufgabendefinition

Dieses Papier untersucht die automatische Spracherkennung für Decoder-Only-Architekturen, wobei die Eingabe eine Sprachfeature-Sequenz ist und die Ausgabe die entsprechende Texttranskription ist. Gleichzeitig wird berücksichtigt, wie gepaarte Speech-Text-Daten und reine Textdaten für gemeinsames Training genutzt werden können.

Erweiterter CTC Compressor

Kompressionsmodi

Das Papier untersucht vier CTC Compressor-Kompressionsmodi:

Blank Prediction Removal: Basierend auf gierigem CTC-Vorhersage, Entfernung aller Blank-Frames
Identical Prediction Averaging: Durchschnittsbildung benachbarter Frames mit identischen Vorhersagen
Blank Probability Removal: Entfernung aller Frames mit Blank-Wahrscheinlichkeit über einem vordefinierten Schwellenwert
Kombinierter Modus: Erst Blank-Wahrscheinlichkeit-Entfernung anwenden, dann identische Vorhersage-Durchschnittsbildung

Grenzfallbehandlung

Zur Behandlung des Problems, dass CTC Compressor leere Ausgaben produzieren kann, werden zwei Lösungen vorgeschlagen:

Empty Skip: Diese Utterances während des Trainings überspringen, bei Inferenz direkt EOS ausgeben
Empty Fallback: Alle Encoder-Ausgaben zu einem einzelnen Frame durchschnittlich, dann normales Training und Inferenz durchführen

Erkundung von Sharing-Mechanismen zwischen CTC-Klassen-Embeddings und Text-Embeddings, wobei die Audio-Encoder-Ausgabe durch die CTC-Zielfunktion näher an Text-Embeddings gebracht wird.

CJST-Framework

Verarbeitung gepaarter Daten

Für gepaarte Speech-Text-Daten:

Reguläres ASR-Training durch Modell-Vorwärtsdurchlauf
Nutzung komprimierter akustischer Embeddings h' und CTC-Wahrscheinlichkeiten für Forced-Peak-Alignment
Training des Modalitätsadapters durch MSE-Verlust, um h' mit pseudo-akustischen Embeddings h'_text auszurichten

Verarbeitung reiner Textdaten

Für reine Textdaten:

Zufälliges Einfügen von Blank-Symbolen basierend auf aufgezeichnetem Längenverhältnis R_len(h', y)
Generierung pseudo-akustischer Hinweise h'_text durch CTC-Embeddings und Modalitätsadapter
Training des Decoder-Modells mit ASR-Zielfunktion
Anwendung von 20% zufälligem Masking auf h'_text zur Aufrechterhaltung der Lernkomplexität

Modalitätsadapter

Verwendung einer einfachen Conformer-Schicht als Modalitätsadapter mit einzelnem Aufmerksamkeitskopf, Faltungskernelgröße von 3, ohne Dimensionserweiterung des Feed-Forward-Moduls.

Experimentelle Einrichtung

Datensätze

Librispeech: 960 Stunden sauberer Sprachdaten
Interne Daten: 2M Stunden vielfältig akustischer Bedingungsdaten mit Geschwindigkeitsstörung, simuliertem Nachhall und zufälligem Hintergrundgeräusch
Textdaten: LM-Trainingstextdaten von Librispeech und TED-LIUM2

Modellkonfiguration

Decoder: 12-schichtige LLaMA-Decoder, 768 versteckte Dimensionen, 12 Aufmerksamkeitsköpfe
Audio-Encoder: 24-schichtige Conformer, 512 versteckte Dimensionen, 8 Aufmerksamkeitsköpfe
Vokabular: 4k SentencePiece-Einheiten pro Datensatz

Trainingsstrategie

Audio-Encoder-Vortraining: 200k Schritte
Vollständiges Modelltraining: Librispeech 200k Schritte, interne Daten 500k Schritte
Gewichte für Speech- und Text-Verluste beim gemeinsamen Training: jeweils 1,0
Gewicht für Hilfs-CTC-Verlust: 0,5

Bewertungsmetriken

Wortfehlerrate (WER) als primäre Bewertungsmetrik, Leistung auf Testsets wird berichtet.

Experimentelle Ergebnisse

Umfassende CTC Compressor-Bewertung

Librispeech-Ergebnisse (Tabelle I)

Alle CTC Compressor-Methoden übertreffen die einfache Adapter-Methode
Blank-Wahrscheinlichkeit-Entfernung (Schwellenwert 0,95) zeigt beste Leistung: test-clean 2,17%, test-other 4,94%
Embedding-Sharing hilft in einigen Fällen, ist aber nicht konsistent

Ergebnisse bei internen Daten (Tabelle II)

Auf Gier-Vorhersage basierende Methoden zeigen schlechte Leistung bei verrauschten Daten
Blank-Wahrscheinlichkeit-Entfernung (Schwellenwert 0,95) ist am robustesten: 12,85% WER
Empty Fallback-Schema übertrifft Empty Skip-Schema

Gemeinsame Trainingsergebnisse

Training von Grund auf (Tabelle III)

Ergebnisse auf Librispeech:

Baseline-Adapter: test-clean 3,38%, test-other 5,63%
LM-ähnliche Textinjektion: test-clean 2,54%, test-other 5,26%
CJST: test-clean 2,09%, test-other 4,71%

Fortgesetztes Training (Tabelle IV)

Mit In-Domain- und Cross-Domain-Textdaten:

CJST erreicht optimale Leistung in allen Szenarien
Cross-Domain TED-LIUM2-Testset: von 11,45% auf 10,14% reduziert
Etwa 6% relative Verbesserung gegenüber der Baseline

Wichtigste Erkenntnisse

Blank-Wahrscheinlichkeit-Entfernung ist der robusteste Kompressionsmodus
LM-ähnliches Training ist bereits sehr effektiv und bildet eine starke Baseline
CJST bringt weitere Verbesserungen in allen Szenarien
CTC Compressor ist datenqualitätsabhängig und erfordert geeignete Konfiguration

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

CJST-Framework ist effektiv: Erreicht effektive Textinjektion durch bidirektionale Modalitätsanpassung
CTC Compressor-Konfiguration ist entscheidend: Blank-Wahrscheinlichkeit-Entfernung (hoher Schwellenwert) ist am robustesten
Keine Dauer-Verarbeitung erforderlich: Vermeidet komplexe Dauer-Modellierung durch Forced Alignment und CTC-Embeddings
Konsistente Verbesserung: Signifikante Verbesserungen in In-Domain- und Cross-Domain-Szenarien

Einschränkungen

Rechnerische Kosten: Online-Forced-Alignment erhöht die Rechenlast während des Trainings
Datenabhängigkeit: Die Leistung des CTC Compressors hängt stark von der Datenqualität ab
Parametersensitivität: Erfordert sorgfältige Anpassung von Hyperparametern wie Blank-Wahrscheinlichkeit-Schwellenwert
Bewertungsbereich: Hauptsächlich auf englischen Daten bewertet, Mehrsprachigkeit-Generalisierung unbekannt

Zukünftige Richtungen

Erkundung effizienterer Online-Alignment-Methoden
Untersuchung der Leistung in mehrsprachigen und ressourcenknappen Szenarien
Hybridmethoden mit diskreten Audio-Tokens kombinieren
Robustheit des CTC Compressors optimieren

Tiefgehende Bewertung

Stärken

Methodische Innovation: Erste Anwendung von CTC Compressor auf Decoder-Only ASR mit gemeinsamen Speech-Text-Training
Systematische Untersuchung: Umfassende experimentelle Analyse des CTC Compressors
Praktischer Wert: Keine Dauer-Verarbeitung erforderlich, vereinfacht die Implementierungskomplexität
Ausreichende Experimente: Validierung der Methodeneffektivität auf mehreren Datensätzen und Szenarien
Klare Schreibweise: Klare Papierstruktur mit detaillierten technischen Beschreibungen

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum CJST effektiv ist
Rechnerische Kosten: Keine detaillierte Analyse der Trainings- und Inferenzkosten
Hyperparameter-Sensitivität: Methode beinhaltet mehrere Hyperparameter mit komplexer Optimierung
Bewertungsbeschränkungen: Hauptsächlich auf englischen Daten bewertet, fehlende mehrsprachige Validierung

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für Textinjektion in Decoder-Only ASR
Praktischer Wert: Methode ist relativ einfach und leicht in Produktionsumgebungen einsetzbar
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
Inspirationswert: Bietet wertvolle Erkenntnisse für weitere Forschung zum CTC Compressor

Anwendungsszenarien

Produktions-ASR: Geeignet für Szenarien, in denen externe Sprachmodelle nicht verwendet werden können
Cross-Domain-Anpassung: Besonders geeignet für Anwendungen, die schnelle Anpassung an neue Domänen erfordern
Ressourcenbeschränkungen: Effizienter als komplexe Dauer-Modellierungsmethoden
Gemeinsames Training: Geeignet für Szenarien mit großen Textdatenmengen aber relativ begrenzten Sprachdaten

Referenzen

Das Papier zitiert 32 verwandte Arbeiten, die wichtige Arbeiten in mehreren verwandten Bereichen abdecken, einschließlich großer Sprachmodelle, Decoder-Only-Architekturen, CTC-Methoden, Spracherkennung und gemeinsames Training, und bietet eine solide theoretische Grundlage für die Forschung.

Gesamtbewertung: Dies ist ein hochqualitatives technisches Papier, das ein innovatives CJST-Framework vorschlägt und das wichtige Problem des gemeinsamen Speech-Text-Trainings in Decoder-Only ASR löst. Das Papier hat ein umfassendes Experimentaldesign, überzeugende Ergebnisse und bietet wichtigen akademischen und praktischen Wert für das Feld.