2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

DPO-optimierte große Sprachmodelle für die Segmentierung in der simultanen Sprachübersetzung

Grundinformationen

Paper-ID: 2510.12195
Titel: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Autoren: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.12195

Zusammenfassung

Die simultane Sprachübersetzung erfordert eine genaue Segmentierung, um die Übersetzungsqualität und Latenz auszugleichen. Obwohl vortrainierte Segmentierungsmodelle wie SHAS besser abschneiden als heuristische Regeln, sind sie dennoch durch überwachte Lernziele eingeschränkt und ermangeln einer Ausrichtung an menschlichen Präferenzen. Dieser Artikel schlägt einen Segmentierungsrahmen für große Sprachmodelle vor, der auf direkter Präferenzoptimierung (DPO) basiert. Durch Präferenzausrichtung ermöglicht DPO LLMs, natürlichere Segmentierungspunkte vorherzusagen. Die Evaluierung erfolgt auf dem ACL 60/60-Korpus für drei Sprachpaare mit SeamlessM4T v2 als Übersetzungsrückgrat. Die experimentellen Ergebnisse zeigen, dass DPO-optimierte LLMs SHAS in der Segmentierungsgenauigkeit übertreffen und konsistente Verbesserungen bei der Übersetzungsqualität (BLEU, COMET) und Latenz (durchschnittliche Verzögerung) erzielen.

Forschungshintergrund und Motivation

Kernproblem

Die zentrale Herausforderung der simultanen Sprachübersetzung (SimulST) besteht darin, die Latenz zu minimieren und gleichzeitig die Übersetzungsqualität zu gewährleisten. Dies erfordert, dass das System genau entscheiden kann, wann der Eingabestrom segmentiert und die Übersetzung ausgegeben werden soll. Unangemessene Segmentierungen führen zu unvollständigen oder redundanten Übersetzungseinheiten und beeinträchtigen erheblich die Genauigkeit und Benutzerfreundlichkeit.

Bedeutung des Problems

Die Segmentierung wird als Kernkomponente praktischer SimulST-Systeme betrachtet, insbesondere im Streaming-SimulST, wo unangemessene Grenzen die Übersetzungsqualität und Latenz erheblich beeinträchtigen. Traditionelle heuristische Regeln (wie Satzzeichenvorhersage, Chunking mit fester Länge) sind zwar einfach und effizient, können sich aber schlecht an vielfältige Sprachstrukturen und Sprechstile anpassen.

Einschränkungen bestehender Methoden

Heuristische Ansätze: Methoden wie die feste wait-k-Strategie sind bei der Anpassung an Sprachvariationen begrenzt
Vortrainierte Modelle: Modelle wie SHAS sind zwar robuster als heuristische Methoden, unterliegen aber dennoch den Einschränkungen überwachter Lernziele und verlassen sich nur auf akustische Merkmale
Mangelnde Präferenzausrichtung: Bestehende Methoden berücksichtigen keine Ausrichtung mit der Maschinenübersetzungsleistung, was für natürliche und zeitnahe Übersetzungen entscheidend ist

Forschungsmotivation

Große Sprachmodelle zeigen außergewöhnliche Verallgemeinerungsfähigkeiten bei Sprach- und Übersetzungsaufgaben, aber ihr Potenzial für SimulST-Segmentierung wurde noch nicht vollständig erforscht. Die direkte Präferenzoptimierung (DPO) bietet eine vielversprechende Richtung zur Ausrichtung von Modellen mit menschlichem Feedback und ermöglicht präferenzgesteuerte Entscheidungen, die über überwachtes Training hinausgehen.

Kernbeiträge

Vorschlag eines DPO-optimierten LLM-Segmentierungsrahmens: Erstmalige Anwendung von Präferenzoptimierung auf die SimulST-Segmentierungsaufgabe
Aufbau einer umfassenden experimentellen Evaluierung: Evaluierung auf dem ACL 60/60-Datensatz für drei Sprachpaare mit SeamlessM4T v2 als Übersetzungsrückgrat
Nachweis der Überlegenheit präferenzoptimierter LLMs: Verbesserungen gegenüber dem vortrainierten Segmentierungsmodell SHAS bei Übersetzungsqualität und Latenz
Bereitstellung eines vollständigen End-to-End-Systems: Integration des Segmentierungsmoduls mit dem Übersetzungssystem zur Realisierung von Echtzeit-SimulST

Methodische Details

Aufgabendefinition

Die Segmentierungsaufgabe in SimulST wird als Vorhersage von Satzgrenzen im eingehenden Sprachstrom definiert, mit dem Ziel, Übersetzungsqualität und Latenz auszugleichen. Gegeben eine Streaming-Eingabesprachsequenz x produziert das Modell eine Segmentierungsentscheidungssequenz {s₁, s₂, ..., sₜ}, wobei jedes sₜ die vorhergesagte Grenzposition darstellt. Im Gegensatz zu binären Klassifizierungsansätzen wird die Segmentierung als Vorhersageproblem der nächsten Grenze definiert.

Modellarchitektur

Basis-LLM

Verwendet Qwen2.5-Omni-3B als Segmentierungsrückgrat-Modell, das im Streaming-Modus mit einem Schiebefenstermechanismus auf Sprachinput läuft. Das Modell verarbeitet direkt blockweise akustische Merkmale des Audios statt auf Token-Ebene ASR-Transkriptionen und sagt inkrementell den nächsten Segmentierungspunkt angesichts des aktuellen Sprachkontexts voraus.

Konstruktion von Präferenzpaaren

Um Ausrichtungssignale mit menschlichen Präferenzen zu integrieren, werden Präferenzpaare von Kandidatensegmentierungen konstruiert:

Generierung von Kandidatengrenzen durch Kombination mehrerer heuristischer und vortrainierter Strategien (VAD, Segmentierung mit fester Länge, SHAS-Ausgabe)
Evaluierung jeder Kandidatensegmentierung anhand von Übersetzungsqualität (BLEU) und Latenz (durchschnittliche Verzögerung)
Ableitung von Rangsignalen aus diesen Metriken, wobei besser abschneidende Segmentierungen als bevorzugte Kandidaten dienen
Insgesamt etwa 8.000 Präferenzpaare für das Training gewonnen

DPO-Training

Verwendet direkte Präferenzoptimierung zur Feinabstimmung des LLM:

Gegeben eine Eingabeutterance x werden mehrere Kandidatensegmentierungen generiert, wobei jede Segmentierung y als Sequenz von Grenzindizes auf dem Eingabestrom dargestellt wird. Präferenzpaare (y_pref, y_dispref) werden konstruiert, wobei y_pref die bevorzugte Segmentierung darstellt, die bessere Übersetzungsqualität und niedrigere Latenz erzeugt.

Die DPO-Zielfunktion lautet:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

wobei π_θ die durch das LLM induzierte Strategie darstellt und β ein Skalierungshyperparameter ist. Training über 5 Epochen mit standardmäßiger Lernratenplanung.

Technische Innovationen

Präferenzausrichtungsmechanismus: Erstmalige Anwendung von DPO auf Segmentierungsaufgaben, Anleitung des Modells durch menschliche Präferenzsignale
End-to-End-Optimierung: Direkte Optimierung des kombinierten Ziels von Übersetzungsqualität und Latenz statt nur Abhängigkeit von akustischen Merkmalen
Streaming-Verarbeitungsarchitektur: Entwurf eines Schiebefenstermechanismus für Echtzeit-Verarbeitung
Multimodale Fusion: Kombination akustischer Merkmale und Sprachmodell-Fähigkeiten für Segmentierungsentscheidungen

Experimentelle Einrichtung

Datensätze

Trainingsdaten: CoVoST2-Korpus zur Konstruktion von Präferenzpaaren für DPO-Training
Evaluierungsdaten: ACL 60/60-Testsatz mit technischen Vorträgen von ACL 2022
Sprachpaare: Englisch→Japanisch, Englisch→Chinesisch, Englisch→Deutsch

Bewertungsmetriken

Übersetzungsqualität: BLEU-Score
Latenz: Streaming LAAL (Streaming Long Average Lagging), reflektiert Systemlatenz unter echten Streaming-Bedingungen

Vergleichsmethoden

IWSLT-Baseline: Chunking mit fester Länge und VAD-basierte Segmentierung
SHAS: Neu implementiertes vortrainiertes Segmentierungsmodell

Implementierungsdetails

Modell: Qwen2.5-Omni-3B als Segmentierungsrückgrat
Trainingseinstellungen: 5 Epochen, Batch-Größe 1, AdamW-Optimierer, Lernrate 5×10⁻⁵
Hardware: 4 NVIDIA A100 GPUs
Inferenzeinstellungen: Schiebefenstergröße 4 Sekunden, Sprungweite 2 Sekunden

Experimentelle Ergebnisse

Hauptergebnisse

Methode	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
Ours (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

Hinweis: Format ist BLEU(↑)/Latenz(ms, ↓)

Wichtigste Erkenntnisse

Konsistente Verbesserungen: Übertrifft heuristische Baselines und SHAS-Modell in allen drei Übersetzungsrichtungen
Signifikante Qualitätssteigerung: Durchschnittliche Verbesserung von etwa 1,5 BLEU gegenüber SHAS bei nur etwa 100 ms zusätzlicher Latenz
Unterschiede zwischen Sprachpaaren: En→De erreicht höchsten BLEU, En→Zh zeigt mittlere Gewinne, En→Ja bleibt am schwierigsten

Analyse des Latenz-Qualitäts-Kompromisses

Die Analyse durch Latenz-Qualitäts-Kompromiss-Kurven zeigt, dass DPO-trainierte LLMs durchgehend andere Segmentierungsstrategien im gesamten Betriebsbereich übertreffen und höhere BLEU-Scores bei ähnlicher oder niedrigerer Latenz erreichen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

DPO-Effektivität: Präferenzoptimierung ermöglicht es Modellen, Segmentierungen zu lernen, die mit menschlichen Präferenzen ausgerichtet sind, und erzeugt natürlichere Grenzen und bessere Qualitäts-Latenz-Kompromisse
Leistungssteigerung: Bei etwa 3 Sekunden Latenz konsistente Verbesserungen gegenüber SHAS in allen drei Sprachrichtungen
Praktischer Wert: Demonstriert das Potenzial präferenzoptimierter LLMs für Echtzeit-Simultanübersetzung

Einschränkungen

Begrenzte Evaluierungsreichweite: Nur drei Sprachpaare, weitere Richtungen zur Validierung der Verallgemeinerbarkeit erforderlich
Rechnerischer Overhead: 3B-Parameter-LLM führt zusätzliche Rechenlast ein, kann Bereitstellung auf ressourcenbeschränkten Geräten einschränken
Stabilitätsprobleme: BLEU-Schwankungen bei bestimmten Latenz-Schwellwerten beobachtet, deutet auf Verbesserungspotenzial bei Segmentierungsstabilität hin
Einschränkungen der Bewertungsmetriken: Abhängigkeit von BLEU und Latenz als automatische Metriken, Mangel an menschlicher Evaluierung

Zukünftige Richtungen

Erweiterung auf mehr Sprachpaare und Domänen
Optimierung der Modelleffizienz für Echtzeit-Bereitstellung
Einführung menschlicher Evaluierung zur Validierung automatischer Metriken
Erkundung komplexerer Präferenzmodellierungsmethoden

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Anwendung von DPO auf SimulST-Segmentierung, eröffnet neue Forschungsrichtung
Rationale Methodik: Der Ansatz der Präferenzausrichtung entspricht praktischen Anforderungen und löst Kernprobleme bestehender Methoden
Umfassende Experimente: Gründliche Evaluierung über mehrere Sprachpaare mit konsistenten und überzeugenden Ergebnissen
Hoher praktischer Wert: Bietet vollständiges End-to-End-System mit Potenzial für praktische Bereitstellung

Schwächen

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum DPO bei Segmentierungsaufgaben wirksam ist
Einfache Präferenzpaar-Konstruktion: Basiert nur auf BLEU und Latenz, möglicherweise nicht umfassend genug
Recheneffizienzprobleme: Echtzeit-Leistung des 3B-Parameter-Modells könnte Engpass in praktischen Anwendungen sein
Einzelne Bewertungsmetriken: Hauptsächlich Abhängigkeit von automatischen Metriken, Mangel an subjektiver Qualitätsbewertung

Auswirkungen

Akademischer Beitrag: Führt neues Optimierungsparadigma in SimulST-Segmentierungsfeld ein
Praktischer Wert: Bietet bessere Segmentierungslösung für Echtzeit-Sprachübersetzungssysteme
Inspirationswert: Demonstriert Anwendungspotenzial von Präferenzlernen bei Sequenzentscheidungsaufgaben

Anwendungsszenarien

Echtzeit-Konferenzübersetzung: Simultane Übersetzungsszenarien mit niedriger Latenz und hoher Qualität
Live-Untertitelgenerierung: Anwendungen mit hohen Anforderungen an Segmentierungsqualität
Mehrsprachige Kundendienstsysteme: Benötigen natürliche und flüssige Echtzeit-Übersetzungsinteraktion

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

SHAS-Segmentierungsmodell Tsiamas et al., 2022
SeamlessM4T-Übersetzungssystem Meta AI, 2023-2024
DPO-Optimierungsmethode Rafailov et al., 2023
ACL 60/60-Evaluierungs-Benchmark Salesky et al., 2023

Gesamtbewertung: Dies ist ein technisch innovatives Papier, das erstmals Präferenzoptimierung in die SimulST-Segmentierungsaufgabe einführt. Die Methodik ist rational, die experimentellen Ergebnisse überzeugend. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Recheneffizienz gibt, leistet es einen wertvollen Beitrag zur Entwicklung des Feldes und eröffnet neue Forschungsrichtungen.