2025-11-12T02:28:29.830875

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction

Wang, Zhao, Liu et al.
Current direct speech-to-speech translation methods predominantly employ speech tokens as intermediate representations. However, a single speech token is not dense in semantics, so we generally need multiple tokens to express a complete semantic unit. To address this limitation, we introduce multi-token prediction (MTP) loss into speech-to-unit translation (S2UT) models, enabling models to predict multiple subsequent tokens at each position, thereby capturing more complete semantics and enhancing information density per position. Initial MTP implementations apply the loss at the final layer, which improves output representation but initiates information enrichment too late. We hypothesize that advancing the information enrichment process to intermediate layers can achieve earlier and more effective enhancement of hidden representation. Consequently, we propose MTP-S2UT loss, applying MTP loss to hidden representation where CTC loss is computed. Experiments demonstrate that all MTP loss variants consistently improve the quality of S2UT translation, with MTP-S2UT achieving the best performance.
academic

MTP-S2UT: Verbesserung der Qualität der Sprache-zu-Sprache-Übersetzung durch Multi-Token-Vorhersage

Grundlegende Informationen

  • Paper-ID: 2510.10003
  • Titel: MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction
  • Autoren: Jianjin Wang, Runsong Zhao, Xiaoqian Liu, Yuan Ge, Ziqiang Xu, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu
  • Klassifizierung: cs.CL, cs.SD, eess.AS
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.10003

Zusammenfassung

Aktuelle direkte Sprache-zu-Sprache-Übersetzungsmethoden verwenden hauptsächlich Sprach-Token als Zwischendarstellung. Allerdings weisen einzelne Sprach-Token eine geringe semantische Dichte auf und erfordern typischerweise mehrere Token zur Ausdrückung einer vollständigen semantischen Einheit. Um diese Einschränkung zu beheben, wird in dieser Arbeit der Multi-Token-Vorhersage-(MTP-)Verlust in das Sprache-zu-Einheit-Übersetzungs-(S2UT-)Modell eingeführt, das es dem Modell ermöglicht, an jeder Position mehrere nachfolgende Token vorherzusagen und dadurch vollständigere Semantik zu erfassen und die Informationsdichte an jeder Position zu erhöhen. Die anfängliche MTP-Implementierung wendet den Verlust auf die letzte Schicht an, was zwar die Ausgabendarstellung verbessert, aber die Informationsanreicherung zu spät startet. Diese Arbeit geht davon aus, dass die Verlagerung des Informationsanreicherungsprozesses auf mittlere Schichten eine frühere und effektivere Verbesserung der verborgenen Darstellung ermöglichen kann. Daher wird der MTP-S2UT-Verlust vorgeschlagen, der den MTP-Verlust auf die verborgene Darstellungsschicht anwendet, auf der der CTC-Verlust berechnet wird. Experimente zeigen, dass alle MTP-Verlustvarianten die S2UT-Übersetzungsqualität kontinuierlich verbessern, wobei MTP-S2UT die beste Leistung erreicht.

Forschungshintergrund und Motivation

Kernproblem

Die direkte Sprache-zu-Sprache-Übersetzung steht vor der Hauptherausforderung der semantischen Sparsität von Sprach-Token. Im Vergleich zu Text-Token ist die semantische Darstellung von Sprach-Token spärlicher, erfordert typischerweise mehrere Sprach-Token zur Ausdrückung eines einzelnen semantischen Konzepts und führt zu höherer Vorhersageentropie und Modellierungskomplexität.

Bedeutung des Problems

  1. Praktische Anwendungsanforderungen: Sprache-zu-Sprache-Übersetzung hat breite Anwendungsperspektiven in internationalen Konferenzen, grenzüberschreitender Kommunikation und Tourismus
  2. Technische Engpässe: Bestehende Methoden weisen Mängel in semantischer Darstellungsdichte und Vorhersagegenauigkeit auf
  3. Modelleffizienz: Die Sparsität von Sprach-Token erhöht die Vorhersageunsicherheit des Modells

Einschränkungen bestehender Methoden

  1. Niedrige semantische Dichte: Einzelne Sprach-Token können keine vollständigen semantischen Informationen tragen
  2. Hohe Vorhersageentropie: Mehrere Token zur Ausdrückung eines einzelnen Konzepts erhöhen die Vorhersagekomplexität
  3. Verzögerte Informationsfusion: Bestehende MTP-Methoden werden nur auf der letzten Schicht angewendet und verpassen Möglichkeiten der frühen Informationsfusion

Forschungsmotivation

Basierend auf der Beobachtung, dass Sprach-Token mehrere Token zur Ausdrückung vollständiger Semantik benötigen, wird in dieser Arbeit vorgeschlagen, die semantische Dichte durch Multi-Token-Vorhersage zu erhöhen und diese Verbesserung auf mittlere Schichten zu verlagern, um effektiveres Darstellungslernen zu erreichen.

Kernbeiträge

  1. Erstmalige Einführung des MTP-Verlusts in das S2UT-Framework: Systematische Anwendung der Multi-Token-Vorhersagetechnik auf die Sprache-zu-Sprache-Übersetzungsaufgabe
  2. Vorschlag des MTP-S2UT-Verlusts: Innovative Anwendung des MTP-Verlusts auf die CTC-Verborgene Schicht zur Realisierung früher Informationsfusion
  3. Umfassende experimentelle Validierung: Validierung der Methodeneffektivität über mehrere Sprach-Tokenizer und Sprachpaare
  4. Tiefgehende mechanistische Analyse: Offenlegung des Funktionsmechanismus des MTP-Verlusts durch CTC-Decodierungsanalyse und Entropieanalyse

Methodische Details

Aufgabendefinition

Die Sprache-zu-Sprache-Übersetzungsaufgabe wird als Viertupel-Datensatz D={(S,X,Y,T)}D = \{(S,X,Y,T)\} definiert, wobei:

  • S=(s1,,sS)S = (s_1, \cdots, s_{|S|}): Quellsprache-Sprache
  • X=(x1,,xX)X = (x_1, \cdots, x_{|X|}): Quellsprache-Text
  • Y=(y1,,yY)Y = (y_1, \cdots, y_{|Y|}): Zielsprache-Text
  • T=(t1,,tT)T = (t_1, \cdots, t_{|T|}): Zielsprache-Sprache

Modellarchitektur

S2UT-Grundarchitektur

Das S2UT-Modell besteht aus drei Hauptkomponenten:

  1. Sprach-Tokenizer: Quantisiert kontinuierliche Zielsprache in diskrete Sprach-Token-Sequenz U=(u1,,uU,e)U = (u_1, \cdots, u_{|U|}, e)
  2. Sequenz-zu-Sequenz-Modell: Konvertiert Quellsprache in Zielsprache-Token
  3. Detokenizer: Synthetisiert Zielsprache aus Sprach-Token

Der Kernberechnungsprozess des Modells:

H⁰_dec = Emb(U₊₁)                                    (1)
Hⁱ_dec = DecoderLayerᵢ(H^enc, Hⁱ⁻¹_dec)            (2)
L_NTP = -logP(U|H^L_dec)                             (3)
L_S2UT = L_NTP + L_other                             (4)

MTP-Verlustvarianten

Diese Arbeit implementiert vier MTP-Verlustvarianten:

1. MTP-Parallel-Linear Verwendet N unabhängige lineare Köpfe:

P(U₋ₖ|H^L_dec) = softmax(WᵏH^L_dec)                 (6)

2. MTP-DeepSeek-V3 Verwendet Teacher-Forcing und Transformer-Blöcke:

H⁰_out = H^L_dec                                     (7)
Hᵏ_in = Wᵏ_in[LN(Hᵏ⁻¹_out); LN(Emb(U₁₋ₖ))]         (8)
Hᵏ_out = Decoderₖ(H^enc, Hᵏ_in)                     (9)
P(U₋ₖ|H^L_dec) = softmax(W_outHᵏ_out)               (10)

3. MTP-VocalNet Entfernt Teacher-Forcing-Eingaben:

Hᵏ_in = Hᵏ⁻¹_out                                     (11)

Technische Innovationen

MTP-S2UT Kerninnnovation

Schlüsseleinsicht: Die CTC-Verborgene Schicht HdecmH^m_{dec} enthält gleichzeitig Text- und Sprach-Modalitätsinformationen und ist ein idealer Ort für die Anwendung des MTP-Verlusts.

Implementierungsmethode:

L_MTP-S2UT = -∑ᵏ⁼⁰^(N-1) logP(U₋ₖ|H^m_dec)         (13)

Hᵏ_out = Decoderₖ(H^enc, H^m_dec)                   (14)
P(U₋ₖ|H^m_dec) = softmax(W_outHᵏ_out)               (15)

Designvorteile:

  1. Frühere Informationsfusion: Anwendung des MTP-Verlusts auf mittlere Schichten statt der letzten Schicht
  2. Nutzung von Cross-Modality-Informationen: Vollständige Nutzung der Text-Sprach-Fusionsdarstellung der CTC-Schicht
  3. Semantische Vorverlagerung: Förderung der Vorwärtsbewegung semantischer Informationen in der Sequenz

Experimentelle Einrichtung

Datensätze

Verwendet den CVSS-C-Benchmark-Datensatz, einen großmaßstäblichen Sprache-zu-Sprache-Übersetzungsdatensatz:

  • Sprachpaare: Französisch→Englisch (Fr→En) und Spanisch→Englisch (Es→En)
  • Vorverarbeitung: 80-dimensionale Mel-Filterbank-Merkmale, globale Kepstral-Mittelwert- und Varianzennormalisierung

Sprach-Tokenizer

Evaluiert drei Tokenizer:

  1. Unüberwachter Tokenizer: Basierend auf k-Means-Clustering (k=1000) von mHuBERT-Merkmalen
  2. S3-Tokenizer: Überwachter Tokenizer mit Codebuch-Größe 6561
  3. GLM-4-Voice-Tokenizer: Überwachter Tokenizer mit Codebuch-Größe 16384

Modellkonfiguration

  • Encoder: 12-schichtiger Conformer, verborgene Dimension 256
  • Decoder: 6-schichtiger Transformer, verborgene Dimension 512
  • CTC-Decoder: Verbunden mit der 3. Decoder-Schicht, Gewicht 1,6
  • MTP-Konfiguration: Vorhersage der nächsten N=7 Token für jeden Sprach-Token, MTP-Verlustgewicht 1,0

Bewertungsmetriken

Verwendet ASR-BLEU zur Evaluierung der Übersetzungsqualität:

  1. Transkription synthetisierter Sprache in Text mittels ASR-Modell
  2. Berechnung des BLEU-Scores zwischen transkribiertem und Referenztext

Experimentelle Ergebnisse

Hauptergebnisse

Fr→En-Aufgabenergebnisse

TokenizerModellGreedyBeam5Beam10
S3S2UT17.7918.9819.15
S3+ MTP-S2UT24.3625.1425.16
HuBERTS2UT22.0223.1123.33
HuBERT+ MTP-S2UT23.5924.5024.53
GLM-4S2UT21.6223.0823.26
GLM-4+ MTP-S2UT23.9725.2225.26

Es→En-Aufgabenergebnisse

ModellGreedyBeam5Beam10
S2UT16.6717.9918.18
+ MTP-S2UT21.8722.5922.83

Schlüsselfunde

  1. Konsistente Verbesserung: Alle MTP-Varianten verbessern die Übersetzungsqualität
  2. Beste Leistung: MTP-S2UT erreicht unter allen Einstellungen die besten Ergebnisse
  3. Signifikante Verbesserung: ASR-BLEU mit S3-Tokenizer bei Greedy-Suche von 17.79 auf 24.36 erhöht (+37%)

Ablationsstudien

CTC-Decodier-Vorwärts-Offset-Analyse

Durch Analyse der CTC-Verborgenen-Zustände-Decodierungsergebnisse wurde festgestellt:

  • Mit MTP trainierte Modelle zeigen im Vergleich zu NTP eine Vorwärtsverschiebung von Text-Token
  • Die durchschnittliche relative Position des ersten Auftretens von Text-Token wird erheblich vorverlegt
ModellS3HuBERTGLM-4
S2UT51.011%49.628%50.363%
MTP-S2UT47.382%44.561%43.889%

Sprach-Token-Unsicherheitsanalyse

Durch Entropieanalyse wurde festgestellt:

  • Alle MTP-Varianten reduzieren die Unsicherheit der Sprach-Token-Vorhersage
  • MTP-S2UT zeigt die signifikanteste Unsicherheitsreduktion
  • Häufigkeit von Niedrig-Entropie-Regionen nimmt zu, Häufigkeit von Hoch-Entropie-Regionen nimmt ab

Verwandte Arbeiten

Sprache-zu-Sprache-Übersetzung

  • Direkte Methoden: Verwendung diskreter Sprach-Einheiten als Zwischendarstellung
  • Repräsentative Architekturen: S2UT-Modell und seine Varianten (UnitY, SeamlessM4T, etc.)
  • Technische Herausforderungen: Semantische Sparsität und Vorhersagekomplexität von Sprach-Token

Multi-Token-Vorhersage

  • Ursprung: Ursprünglich als Hilfaufgabe in großen Sprachmodellen verwendet
  • Entwicklung: Verbesserungen durch DeepSeek-V3 und Anwendung in VocalNet für Sprachdialoge
  • Vorteile: Verbesserte Darstellungsfähigkeit, beschleunigte Inferenz, Erfassung lokaler Muster

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität des MTP-Verlusts: Die Einführung des MTP-Verlusts in das S2UT-Framework kann die Übersetzungsqualität erheblich verbessern
  2. Vorteile der frühen Fusion: Die Anwendung des MTP-Verlusts auf die mittlere CTC-Schicht ist effektiver als auf der letzten Schicht
  3. Mechanistische Einsichten: MTP fördert die Vorwärtsbewegung semantischer Informationen und reduziert die Vorhersageunsicherheit

Einschränkungen

  1. Rechenkomplexität: MTP-Training führt zu zusätzlichen Parametern und Rechenkomplexität
  2. Sprachbedeckung: Experimente wurden nur auf europäischen Sprachpaaren validiert, es fehlt eine breitere Sprachvalidierung
  3. Theoretische Analyse: Das theoretische Verständnis des MTP-Funktionsmechanismus muss noch vertieft werden

Zukünftige Richtungen

  1. Erweiterung auf mehr Sprachpaare: Validierung der Methodeneffektivität zwischen verschiedenen Sprachfamilien
  2. Optimierung der Rechnereffizienz: Reduzierung der Rechenkomplexität des MTP-Trainings
  3. Theoretische Modellierung: Tieferes Verständnis des MTP-Funktionsmechanismus in der Sprachübersetzung

Tiefgehende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige systematische Einführung von MTP in die Sprache-zu-Sprache-Übersetzung
  2. Rationale Methode: Das Design von MTP-S2UT basiert auf tiefem Verständnis der CTC-Schicht-Charakteristiken
  3. Umfassende Experimente: Vollständige Validierung über mehrere Tokenizer, Sprachpaare und Decodierungsstrategien
  4. Tiefgehende Analyse: Offenlegung des Funktionsmechanismus der Methode durch CTC-Decodierung und Entropieanalyse
  5. Signifikante Ergebnisse: Konsistente und signifikante Verbesserungen unter allen Einstellungen

Mängel

  1. Sprachliche Einschränkungen: Validierung nur auf europäischen Sprachpaaren, Generalisierbarkeit zu überprüfen
  2. Fehlende Rechneranalyse: Detaillierte Analyse der Rechenkomplexität des MTP-Trainings fehlt
  3. Unzureichende Vergleiche: Mangel an Vergleichen mit anderen Sprach-Übersetzungsverbesserungsmethoden
  4. Theoretische Tiefe: Theoretische Analyse des MTP-Funktionsmechanismus ist noch nicht ausreichend

Auswirkungen

  1. Akademischer Wert: Bietet neue Verbesserungsideen für das Sprach-Übersetzungsfeld
  2. Praktischer Wert: Signifikante Leistungsverbesserungen machen es für praktische Anwendungen vielversprechend
  3. Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung
  4. Inspirationskraft: Bietet wertvolle Einsichten für Multi-Modality-Sequenzmodellierung

Anwendungsszenarien

  1. Hochqualitäts-Sprachübersetzung: Geeignet für Szenarien mit hohen Anforderungen an Übersetzungsqualität
  2. Mehrsprachige Konferenzsysteme: Anwendbar auf Echtzeit-Mehrsprachenkommunikationssysteme
  3. Sprachassistenten: Verbesserung der Übersetzungsfähigkeit von sprachübergreifenden Sprachassistenten
  4. Bildung und Training: Anwendungen in Sprachenlernen und interkulturellem Austausch

Literaturverzeichnis

Diese Arbeit zitiert wichtige Arbeiten aus den verwandten Bereichen Sprache-zu-Sprache-Übersetzung, Multi-Token-Vorhersage und Sprach-Darstellungslernen und bietet eine solide theoretische Grundlage für die Forschung. Wichtige Referenzen umfassen das ursprüngliche S2UT-Paper, MTP-verwandte Arbeiten (DeepSeek-V3, VocalNet) sowie grundlegende Sprach-Verarbeitungstechniken (HuBERT, CTC, etc.).


Gesamtbewertung: Dies ist ein hochqualitatives technisches Paper, das eine innovative und effektive Verbesserungsmethode im Bereich der Sprache-zu-Sprache-Übersetzung vorschlägt. Durch geschickte Anwendung der Multi-Token-Vorhersagetechnik auf die mittlere Schicht des S2UT-Frameworks werden signifikante Leistungsverbesserungen erreicht. Das Paper zeichnet sich durch strenge experimentelle Gestaltung, tiefgehende Analyse und wertvolle Beiträge zur Entwicklung des Feldes aus.