DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic
DPO-optimierte große Sprachmodelle für die Segmentierung in der simultanen Sprachübersetzung
Die simultane Sprachübersetzung erfordert eine genaue Segmentierung, um die Übersetzungsqualität und Latenz auszugleichen. Obwohl vortrainierte Segmentierungsmodelle wie SHAS besser abschneiden als heuristische Regeln, sind sie dennoch durch überwachte Lernziele eingeschränkt und ermangeln einer Ausrichtung an menschlichen Präferenzen. Dieser Artikel schlägt einen Segmentierungsrahmen für große Sprachmodelle vor, der auf direkter Präferenzoptimierung (DPO) basiert. Durch Präferenzausrichtung ermöglicht DPO LLMs, natürlichere Segmentierungspunkte vorherzusagen. Die Evaluierung erfolgt auf dem ACL 60/60-Korpus für drei Sprachpaare mit SeamlessM4T v2 als Übersetzungsrückgrat. Die experimentellen Ergebnisse zeigen, dass DPO-optimierte LLMs SHAS in der Segmentierungsgenauigkeit übertreffen und konsistente Verbesserungen bei der Übersetzungsqualität (BLEU, COMET) und Latenz (durchschnittliche Verzögerung) erzielen.
Die zentrale Herausforderung der simultanen Sprachübersetzung (SimulST) besteht darin, die Latenz zu minimieren und gleichzeitig die Übersetzungsqualität zu gewährleisten. Dies erfordert, dass das System genau entscheiden kann, wann der Eingabestrom segmentiert und die Übersetzung ausgegeben werden soll. Unangemessene Segmentierungen führen zu unvollständigen oder redundanten Übersetzungseinheiten und beeinträchtigen erheblich die Genauigkeit und Benutzerfreundlichkeit.
Die Segmentierung wird als Kernkomponente praktischer SimulST-Systeme betrachtet, insbesondere im Streaming-SimulST, wo unangemessene Grenzen die Übersetzungsqualität und Latenz erheblich beeinträchtigen. Traditionelle heuristische Regeln (wie Satzzeichenvorhersage, Chunking mit fester Länge) sind zwar einfach und effizient, können sich aber schlecht an vielfältige Sprachstrukturen und Sprechstile anpassen.
Heuristische Ansätze: Methoden wie die feste wait-k-Strategie sind bei der Anpassung an Sprachvariationen begrenzt
Vortrainierte Modelle: Modelle wie SHAS sind zwar robuster als heuristische Methoden, unterliegen aber dennoch den Einschränkungen überwachter Lernziele und verlassen sich nur auf akustische Merkmale
Mangelnde Präferenzausrichtung: Bestehende Methoden berücksichtigen keine Ausrichtung mit der Maschinenübersetzungsleistung, was für natürliche und zeitnahe Übersetzungen entscheidend ist
Große Sprachmodelle zeigen außergewöhnliche Verallgemeinerungsfähigkeiten bei Sprach- und Übersetzungsaufgaben, aber ihr Potenzial für SimulST-Segmentierung wurde noch nicht vollständig erforscht. Die direkte Präferenzoptimierung (DPO) bietet eine vielversprechende Richtung zur Ausrichtung von Modellen mit menschlichem Feedback und ermöglicht präferenzgesteuerte Entscheidungen, die über überwachtes Training hinausgehen.
Vorschlag eines DPO-optimierten LLM-Segmentierungsrahmens: Erstmalige Anwendung von Präferenzoptimierung auf die SimulST-Segmentierungsaufgabe
Aufbau einer umfassenden experimentellen Evaluierung: Evaluierung auf dem ACL 60/60-Datensatz für drei Sprachpaare mit SeamlessM4T v2 als Übersetzungsrückgrat
Nachweis der Überlegenheit präferenzoptimierter LLMs: Verbesserungen gegenüber dem vortrainierten Segmentierungsmodell SHAS bei Übersetzungsqualität und Latenz
Bereitstellung eines vollständigen End-to-End-Systems: Integration des Segmentierungsmoduls mit dem Übersetzungssystem zur Realisierung von Echtzeit-SimulST
Die Segmentierungsaufgabe in SimulST wird als Vorhersage von Satzgrenzen im eingehenden Sprachstrom definiert, mit dem Ziel, Übersetzungsqualität und Latenz auszugleichen. Gegeben eine Streaming-Eingabesprachsequenz x produziert das Modell eine Segmentierungsentscheidungssequenz {s₁, s₂, ..., sₜ}, wobei jedes sₜ die vorhergesagte Grenzposition darstellt. Im Gegensatz zu binären Klassifizierungsansätzen wird die Segmentierung als Vorhersageproblem der nächsten Grenze definiert.
Verwendet Qwen2.5-Omni-3B als Segmentierungsrückgrat-Modell, das im Streaming-Modus mit einem Schiebefenstermechanismus auf Sprachinput läuft. Das Modell verarbeitet direkt blockweise akustische Merkmale des Audios statt auf Token-Ebene ASR-Transkriptionen und sagt inkrementell den nächsten Segmentierungspunkt angesichts des aktuellen Sprachkontexts voraus.
Um Ausrichtungssignale mit menschlichen Präferenzen zu integrieren, werden Präferenzpaare von Kandidatensegmentierungen konstruiert:
Generierung von Kandidatengrenzen durch Kombination mehrerer heuristischer und vortrainierter Strategien (VAD, Segmentierung mit fester Länge, SHAS-Ausgabe)
Evaluierung jeder Kandidatensegmentierung anhand von Übersetzungsqualität (BLEU) und Latenz (durchschnittliche Verzögerung)
Ableitung von Rangsignalen aus diesen Metriken, wobei besser abschneidende Segmentierungen als bevorzugte Kandidaten dienen
Insgesamt etwa 8.000 Präferenzpaare für das Training gewonnen
Verwendet direkte Präferenzoptimierung zur Feinabstimmung des LLM:
Gegeben eine Eingabeutterance x werden mehrere Kandidatensegmentierungen generiert, wobei jede Segmentierung y als Sequenz von Grenzindizes auf dem Eingabestrom dargestellt wird. Präferenzpaare (y_pref, y_dispref) werden konstruiert, wobei y_pref die bevorzugte Segmentierung darstellt, die bessere Übersetzungsqualität und niedrigere Latenz erzeugt.
wobei π_θ die durch das LLM induzierte Strategie darstellt und β ein Skalierungshyperparameter ist. Training über 5 Epochen mit standardmäßiger Lernratenplanung.
Präferenzausrichtungsmechanismus: Erstmalige Anwendung von DPO auf Segmentierungsaufgaben, Anleitung des Modells durch menschliche Präferenzsignale
End-to-End-Optimierung: Direkte Optimierung des kombinierten Ziels von Übersetzungsqualität und Latenz statt nur Abhängigkeit von akustischen Merkmalen
Streaming-Verarbeitungsarchitektur: Entwurf eines Schiebefenstermechanismus für Echtzeit-Verarbeitung
Multimodale Fusion: Kombination akustischer Merkmale und Sprachmodell-Fähigkeiten für Segmentierungsentscheidungen
Die Analyse durch Latenz-Qualitäts-Kompromiss-Kurven zeigt, dass DPO-trainierte LLMs durchgehend andere Segmentierungsstrategien im gesamten Betriebsbereich übertreffen und höhere BLEU-Scores bei ähnlicher oder niedrigerer Latenz erreichen.
Große mehrsprachige multimodale Übersetzungssysteme wie SeamlessM4T bieten starke Rückgrate für Sprachübersetzungsaufgaben und zeigen modernste Leistung über mehrere Sprachen.
Nach Aussage der Autoren wurde bisher keine Arbeit durchgeführt, die präferenzbasierte Optimierung auf Segmentierungsaufgaben in SimulST anwendet. Diese Arbeit schließt diese Lücke.
DPO-Effektivität: Präferenzoptimierung ermöglicht es Modellen, Segmentierungen zu lernen, die mit menschlichen Präferenzen ausgerichtet sind, und erzeugt natürlichere Grenzen und bessere Qualitäts-Latenz-Kompromisse
Leistungssteigerung: Bei etwa 3 Sekunden Latenz konsistente Verbesserungen gegenüber SHAS in allen drei Sprachrichtungen
Praktischer Wert: Demonstriert das Potenzial präferenzoptimierter LLMs für Echtzeit-Simultanübersetzung
Begrenzte Evaluierungsreichweite: Nur drei Sprachpaare, weitere Richtungen zur Validierung der Verallgemeinerbarkeit erforderlich
Rechnerischer Overhead: 3B-Parameter-LLM führt zusätzliche Rechenlast ein, kann Bereitstellung auf ressourcenbeschränkten Geräten einschränken
Stabilitätsprobleme: BLEU-Schwankungen bei bestimmten Latenz-Schwellwerten beobachtet, deutet auf Verbesserungspotenzial bei Segmentierungsstabilität hin
Einschränkungen der Bewertungsmetriken: Abhängigkeit von BLEU und Latenz als automatische Metriken, Mangel an menschlicher Evaluierung
Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:
SHAS-Segmentierungsmodell Tsiamas et al., 2022
SeamlessM4T-Übersetzungssystem Meta AI, 2023-2024
DPO-Optimierungsmethode Rafailov et al., 2023
ACL 60/60-Evaluierungs-Benchmark Salesky et al., 2023
Gesamtbewertung: Dies ist ein technisch innovatives Papier, das erstmals Präferenzoptimierung in die SimulST-Segmentierungsaufgabe einführt. Die Methodik ist rational, die experimentellen Ergebnisse überzeugend. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Recheneffizienz gibt, leistet es einen wertvollen Beitrag zur Entwicklung des Feldes und eröffnet neue Forschungsrichtungen.