CTC compressor can be an effective approach to integrate audio encoders to decoder-only models, which has gained growing interest for different speech applications. In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR. CJST matches speech and text modalities from both directions by exploring a simple modality adaptor and several features of the CTC compressor, including sequence compression, on-the-fly forced peaky alignment and CTC class embeddings. Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios. We also provide a comprehensive study on CTC compressor, covering various compression modes, edge case handling and behavior under both clean and noisy data conditions, which reveals the most robust setting to use CTC compressor for decoder-only models.
CJST: CTC Compressor basiertes Joint Speech and Text Training für Decoder-Only ASR
- Papier-ID: 2411.07607
- Titel: CJST: CTC Compressor based Joint Speech and Text Training for Decoder-Only ASR
- Autoren: Wei Zhou, Junteng Jia, Leda Sari, Jay Mahadeokar, Ozlem Kalinli (Meta AI)
- Klassifizierung: eess.AS cs.LG cs.SD
- Veröffentlichungsdatum: November 2024 (arXiv Preprint)
- Papierlink: https://arxiv.org/abs/2411.07607
Der CTC Compressor hat sich als effektive Methode zur Integration von Audio-Encodern in Decoder-Only-Modelle etabliert und erhält zunehmende Aufmerksamkeit in verschiedenen Sprachanwendungen. Dieses Papier präsentiert ein neuartiges Framework für gemeinsames Speech- und Text-Training (CJST) basierend auf CTC Compressor für Decoder-Only ASR. CJST erreicht eine bidirektionale Modalitätsanpassung zwischen Speech- und Text-Modalitäten durch die Erkundung einfacher Modalitätsadapter und mehrerer Eigenschaften des CTC Compressors, einschließlich Sequenzkompression, Online-Forced-Peak-Alignment und CTC-Klassen-Embeddings. Experimentelle Ergebnisse auf den Librispeech- und TED-LIUM2-Korpora zeigen, dass das vorgeschlagene CJST eine effektive Textinjektion ohne Dauer-Verarbeitung erreicht und optimale Leistung in sowohl In-Domain- als auch Cross-Domain-Szenarien erzielt.
Mit dem enormen Erfolg großer Sprachmodelle (LLMs) werden Decoder-Only-Architekturen weit verbreitet in verschiedenen Sprachanwendungen eingesetzt. Wie man jedoch Sprachinformationen effektiv in Decoder-Only-Modelle integriert und wie man gemeinsames Speech-Text-Training zur Verbesserung der ASR-Leistung durchführt, bleibt ein herausforderndes Problem.
- Integrationschallenges: Die effektive Integration kontinuierlicher akustischer Embeddings in Decoder-Only-Modelle erfordert geeignete Adapter-Methoden
- Modalitätsanpassung: Speech- und Text-Modalitäten unterscheiden sich erheblich in Sequenzlänge und Darstellungsraum und erfordern effektive Alignmentmechanismen
- Textinjektion: In produktionsreifen ASR-Modellen, wie man Textdaten effektiv nutzt, um die Leistung ohne externe Sprachmodelle zu verbessern
- Einfache Adapter: Traditionelle Methoden mit zeitlicher Reduktion + linearer Projektion fehlt inhaltsabhängige Kompressionsfähigkeit
- RNN-T-Methoden: Bestehende Joint-Training-Methoden konzentrieren sich hauptsächlich auf RNN-T-Modelle und erfordern komplexe Dauer-Verarbeitung
- CTC Compressor Sensitivität: Bestehende CTC Compressor-Methoden zeigen instabile Leistung bei verrauschten Daten
- CJST-Framework: Neuartiges Framework für gemeinsames Speech- und Text-Training basierend auf CTC Compressor mit bidirektionaler Modalitätsanpassung
- Erweiterter CTC Compressor: Umfassende Untersuchung verschiedener Kompressionsmodi, Grenzfallbehandlung und Verhalten des CTC Compressors bei sauberen/verrauschten Daten
- Keine Dauer-Verarbeitung erforderlich: Effektive Textinjektion durch Online-Forced-Peak-Alignment und CTC-Klassen-Embeddings ohne komplexe Dauer-Modellierung
- Leistungsverbesserung: Optimale Leistung in In-Domain- und Cross-Domain-Szenarien mit etwa 6% relativer Verbesserung gegenüber der Baseline
Dieses Papier untersucht die automatische Spracherkennung für Decoder-Only-Architekturen, wobei die Eingabe eine Sprachfeature-Sequenz ist und die Ausgabe die entsprechende Texttranskription ist. Gleichzeitig wird berücksichtigt, wie gepaarte Speech-Text-Daten und reine Textdaten für gemeinsames Training genutzt werden können.
Das Papier untersucht vier CTC Compressor-Kompressionsmodi:
- Blank Prediction Removal: Basierend auf gierigem CTC-Vorhersage, Entfernung aller Blank-Frames
- Identical Prediction Averaging: Durchschnittsbildung benachbarter Frames mit identischen Vorhersagen
- Blank Probability Removal: Entfernung aller Frames mit Blank-Wahrscheinlichkeit über einem vordefinierten Schwellenwert
- Kombinierter Modus: Erst Blank-Wahrscheinlichkeit-Entfernung anwenden, dann identische Vorhersage-Durchschnittsbildung
Zur Behandlung des Problems, dass CTC Compressor leere Ausgaben produzieren kann, werden zwei Lösungen vorgeschlagen:
- Empty Skip: Diese Utterances während des Trainings überspringen, bei Inferenz direkt EOS ausgeben
- Empty Fallback: Alle Encoder-Ausgaben zu einem einzelnen Frame durchschnittlich, dann normales Training und Inferenz durchführen
Erkundung von Sharing-Mechanismen zwischen CTC-Klassen-Embeddings und Text-Embeddings, wobei die Audio-Encoder-Ausgabe durch die CTC-Zielfunktion näher an Text-Embeddings gebracht wird.
Für gepaarte Speech-Text-Daten:
- Reguläres ASR-Training durch Modell-Vorwärtsdurchlauf
- Nutzung komprimierter akustischer Embeddings h' und CTC-Wahrscheinlichkeiten für Forced-Peak-Alignment
- Training des Modalitätsadapters durch MSE-Verlust, um h' mit pseudo-akustischen Embeddings h'_text auszurichten
Für reine Textdaten:
- Zufälliges Einfügen von Blank-Symbolen basierend auf aufgezeichnetem Längenverhältnis R_len(h', y)
- Generierung pseudo-akustischer Hinweise h'_text durch CTC-Embeddings und Modalitätsadapter
- Training des Decoder-Modells mit ASR-Zielfunktion
- Anwendung von 20% zufälligem Masking auf h'_text zur Aufrechterhaltung der Lernkomplexität
Verwendung einer einfachen Conformer-Schicht als Modalitätsadapter mit einzelnem Aufmerksamkeitskopf, Faltungskernelgröße von 3, ohne Dimensionserweiterung des Feed-Forward-Moduls.
- Librispeech: 960 Stunden sauberer Sprachdaten
- Interne Daten: 2M Stunden vielfältig akustischer Bedingungsdaten mit Geschwindigkeitsstörung, simuliertem Nachhall und zufälligem Hintergrundgeräusch
- Textdaten: LM-Trainingstextdaten von Librispeech und TED-LIUM2
- Decoder: 12-schichtige LLaMA-Decoder, 768 versteckte Dimensionen, 12 Aufmerksamkeitsköpfe
- Audio-Encoder: 24-schichtige Conformer, 512 versteckte Dimensionen, 8 Aufmerksamkeitsköpfe
- Vokabular: 4k SentencePiece-Einheiten pro Datensatz
- Audio-Encoder-Vortraining: 200k Schritte
- Vollständiges Modelltraining: Librispeech 200k Schritte, interne Daten 500k Schritte
- Gewichte für Speech- und Text-Verluste beim gemeinsamen Training: jeweils 1,0
- Gewicht für Hilfs-CTC-Verlust: 0,5
Wortfehlerrate (WER) als primäre Bewertungsmetrik, Leistung auf Testsets wird berichtet.
- Alle CTC Compressor-Methoden übertreffen die einfache Adapter-Methode
- Blank-Wahrscheinlichkeit-Entfernung (Schwellenwert 0,95) zeigt beste Leistung: test-clean 2,17%, test-other 4,94%
- Embedding-Sharing hilft in einigen Fällen, ist aber nicht konsistent
- Auf Gier-Vorhersage basierende Methoden zeigen schlechte Leistung bei verrauschten Daten
- Blank-Wahrscheinlichkeit-Entfernung (Schwellenwert 0,95) ist am robustesten: 12,85% WER
- Empty Fallback-Schema übertrifft Empty Skip-Schema
Ergebnisse auf Librispeech:
- Baseline-Adapter: test-clean 3,38%, test-other 5,63%
- LM-ähnliche Textinjektion: test-clean 2,54%, test-other 5,26%
- CJST: test-clean 2,09%, test-other 4,71%
Mit In-Domain- und Cross-Domain-Textdaten:
- CJST erreicht optimale Leistung in allen Szenarien
- Cross-Domain TED-LIUM2-Testset: von 11,45% auf 10,14% reduziert
- Etwa 6% relative Verbesserung gegenüber der Baseline
- Blank-Wahrscheinlichkeit-Entfernung ist der robusteste Kompressionsmodus
- LM-ähnliches Training ist bereits sehr effektiv und bildet eine starke Baseline
- CJST bringt weitere Verbesserungen in allen Szenarien
- CTC Compressor ist datenqualitätsabhängig und erfordert geeignete Konfiguration
- Frühe Arbeiten nutzen einfache Adapter zur Integration von Audio-Encodern
- Neuere Forschung erforscht diskrete Audio-Token-Methoden
- Dieses Papier konzentriert sich auf ASR-Aufgaben mit kontinuierlichen Darstellungen
- Ursprünglich für Sprachübersetzung mit Aufmerksamkeitsmechanismus verwendet
- Erweitert auf Sprachübersetzung mit Decoder-Only-Modellen
- Dieses Papier ist das erste, das seine Anwendung in ASR systematisch untersucht
- Traditionelle Methoden konzentrieren sich hauptsächlich auf RNN-T-Modelle
- Einschließlich JOIST, Textogram, MAESTRO und anderen Methoden
- Dieses Papier ist das erste, das eine effektive Lösung für Decoder-Only ASR vorschlägt
- CJST-Framework ist effektiv: Erreicht effektive Textinjektion durch bidirektionale Modalitätsanpassung
- CTC Compressor-Konfiguration ist entscheidend: Blank-Wahrscheinlichkeit-Entfernung (hoher Schwellenwert) ist am robustesten
- Keine Dauer-Verarbeitung erforderlich: Vermeidet komplexe Dauer-Modellierung durch Forced Alignment und CTC-Embeddings
- Konsistente Verbesserung: Signifikante Verbesserungen in In-Domain- und Cross-Domain-Szenarien
- Rechnerische Kosten: Online-Forced-Alignment erhöht die Rechenlast während des Trainings
- Datenabhängigkeit: Die Leistung des CTC Compressors hängt stark von der Datenqualität ab
- Parametersensitivität: Erfordert sorgfältige Anpassung von Hyperparametern wie Blank-Wahrscheinlichkeit-Schwellenwert
- Bewertungsbereich: Hauptsächlich auf englischen Daten bewertet, Mehrsprachigkeit-Generalisierung unbekannt
- Erkundung effizienterer Online-Alignment-Methoden
- Untersuchung der Leistung in mehrsprachigen und ressourcenknappen Szenarien
- Hybridmethoden mit diskreten Audio-Tokens kombinieren
- Robustheit des CTC Compressors optimieren
- Methodische Innovation: Erste Anwendung von CTC Compressor auf Decoder-Only ASR mit gemeinsamen Speech-Text-Training
- Systematische Untersuchung: Umfassende experimentelle Analyse des CTC Compressors
- Praktischer Wert: Keine Dauer-Verarbeitung erforderlich, vereinfacht die Implementierungskomplexität
- Ausreichende Experimente: Validierung der Methodeneffektivität auf mehreren Datensätzen und Szenarien
- Klare Schreibweise: Klare Papierstruktur mit detaillierten technischen Beschreibungen
- Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum CJST effektiv ist
- Rechnerische Kosten: Keine detaillierte Analyse der Trainings- und Inferenzkosten
- Hyperparameter-Sensitivität: Methode beinhaltet mehrere Hyperparameter mit komplexer Optimierung
- Bewertungsbeschränkungen: Hauptsächlich auf englischen Daten bewertet, fehlende mehrsprachige Validierung
- Akademischer Beitrag: Bietet neue Perspektiven für Textinjektion in Decoder-Only ASR
- Praktischer Wert: Methode ist relativ einfach und leicht in Produktionsumgebungen einsetzbar
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
- Inspirationswert: Bietet wertvolle Erkenntnisse für weitere Forschung zum CTC Compressor
- Produktions-ASR: Geeignet für Szenarien, in denen externe Sprachmodelle nicht verwendet werden können
- Cross-Domain-Anpassung: Besonders geeignet für Anwendungen, die schnelle Anpassung an neue Domänen erfordern
- Ressourcenbeschränkungen: Effizienter als komplexe Dauer-Modellierungsmethoden
- Gemeinsames Training: Geeignet für Szenarien mit großen Textdatenmengen aber relativ begrenzten Sprachdaten
Das Papier zitiert 32 verwandte Arbeiten, die wichtige Arbeiten in mehreren verwandten Bereichen abdecken, einschließlich großer Sprachmodelle, Decoder-Only-Architekturen, CTC-Methoden, Spracherkennung und gemeinsames Training, und bietet eine solide theoretische Grundlage für die Forschung.
Gesamtbewertung: Dies ist ein hochqualitatives technisches Papier, das ein innovatives CJST-Framework vorschlägt und das wichtige Problem des gemeinsamen Speech-Text-Trainings in Decoder-Only ASR löst. Das Papier hat ein umfassendes Experimentaldesign, überzeugende Ergebnisse und bietet wichtigen akademischen und praktischen Wert für das Feld.