2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic

DPO-optimierte große Sprachmodelle für die Segmentierung in der simultanen Sprachübersetzung

Grundinformationen

  • Paper-ID: 2510.12195
  • Titel: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
  • Autoren: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12195

Zusammenfassung

Die simultane Sprachübersetzung erfordert eine genaue Segmentierung, um die Übersetzungsqualität und Latenz auszugleichen. Obwohl vortrainierte Segmentierungsmodelle wie SHAS besser abschneiden als heuristische Regeln, sind sie dennoch durch überwachte Lernziele eingeschränkt und ermangeln einer Ausrichtung an menschlichen Präferenzen. Dieser Artikel schlägt einen Segmentierungsrahmen für große Sprachmodelle vor, der auf direkter Präferenzoptimierung (DPO) basiert. Durch Präferenzausrichtung ermöglicht DPO LLMs, natürlichere Segmentierungspunkte vorherzusagen. Die Evaluierung erfolgt auf dem ACL 60/60-Korpus für drei Sprachpaare mit SeamlessM4T v2 als Übersetzungsrückgrat. Die experimentellen Ergebnisse zeigen, dass DPO-optimierte LLMs SHAS in der Segmentierungsgenauigkeit übertreffen und konsistente Verbesserungen bei der Übersetzungsqualität (BLEU, COMET) und Latenz (durchschnittliche Verzögerung) erzielen.

Forschungshintergrund und Motivation

Kernproblem

Die zentrale Herausforderung der simultanen Sprachübersetzung (SimulST) besteht darin, die Latenz zu minimieren und gleichzeitig die Übersetzungsqualität zu gewährleisten. Dies erfordert, dass das System genau entscheiden kann, wann der Eingabestrom segmentiert und die Übersetzung ausgegeben werden soll. Unangemessene Segmentierungen führen zu unvollständigen oder redundanten Übersetzungseinheiten und beeinträchtigen erheblich die Genauigkeit und Benutzerfreundlichkeit.

Bedeutung des Problems

Die Segmentierung wird als Kernkomponente praktischer SimulST-Systeme betrachtet, insbesondere im Streaming-SimulST, wo unangemessene Grenzen die Übersetzungsqualität und Latenz erheblich beeinträchtigen. Traditionelle heuristische Regeln (wie Satzzeichenvorhersage, Chunking mit fester Länge) sind zwar einfach und effizient, können sich aber schlecht an vielfältige Sprachstrukturen und Sprechstile anpassen.

Einschränkungen bestehender Methoden

  1. Heuristische Ansätze: Methoden wie die feste wait-k-Strategie sind bei der Anpassung an Sprachvariationen begrenzt
  2. Vortrainierte Modelle: Modelle wie SHAS sind zwar robuster als heuristische Methoden, unterliegen aber dennoch den Einschränkungen überwachter Lernziele und verlassen sich nur auf akustische Merkmale
  3. Mangelnde Präferenzausrichtung: Bestehende Methoden berücksichtigen keine Ausrichtung mit der Maschinenübersetzungsleistung, was für natürliche und zeitnahe Übersetzungen entscheidend ist

Forschungsmotivation

Große Sprachmodelle zeigen außergewöhnliche Verallgemeinerungsfähigkeiten bei Sprach- und Übersetzungsaufgaben, aber ihr Potenzial für SimulST-Segmentierung wurde noch nicht vollständig erforscht. Die direkte Präferenzoptimierung (DPO) bietet eine vielversprechende Richtung zur Ausrichtung von Modellen mit menschlichem Feedback und ermöglicht präferenzgesteuerte Entscheidungen, die über überwachtes Training hinausgehen.

Kernbeiträge

  1. Vorschlag eines DPO-optimierten LLM-Segmentierungsrahmens: Erstmalige Anwendung von Präferenzoptimierung auf die SimulST-Segmentierungsaufgabe
  2. Aufbau einer umfassenden experimentellen Evaluierung: Evaluierung auf dem ACL 60/60-Datensatz für drei Sprachpaare mit SeamlessM4T v2 als Übersetzungsrückgrat
  3. Nachweis der Überlegenheit präferenzoptimierter LLMs: Verbesserungen gegenüber dem vortrainierten Segmentierungsmodell SHAS bei Übersetzungsqualität und Latenz
  4. Bereitstellung eines vollständigen End-to-End-Systems: Integration des Segmentierungsmoduls mit dem Übersetzungssystem zur Realisierung von Echtzeit-SimulST

Methodische Details

Aufgabendefinition

Die Segmentierungsaufgabe in SimulST wird als Vorhersage von Satzgrenzen im eingehenden Sprachstrom definiert, mit dem Ziel, Übersetzungsqualität und Latenz auszugleichen. Gegeben eine Streaming-Eingabesprachsequenz x produziert das Modell eine Segmentierungsentscheidungssequenz {s₁, s₂, ..., sₜ}, wobei jedes sₜ die vorhergesagte Grenzposition darstellt. Im Gegensatz zu binären Klassifizierungsansätzen wird die Segmentierung als Vorhersageproblem der nächsten Grenze definiert.

Modellarchitektur

Basis-LLM

Verwendet Qwen2.5-Omni-3B als Segmentierungsrückgrat-Modell, das im Streaming-Modus mit einem Schiebefenstermechanismus auf Sprachinput läuft. Das Modell verarbeitet direkt blockweise akustische Merkmale des Audios statt auf Token-Ebene ASR-Transkriptionen und sagt inkrementell den nächsten Segmentierungspunkt angesichts des aktuellen Sprachkontexts voraus.

Konstruktion von Präferenzpaaren

Um Ausrichtungssignale mit menschlichen Präferenzen zu integrieren, werden Präferenzpaare von Kandidatensegmentierungen konstruiert:

  1. Generierung von Kandidatengrenzen durch Kombination mehrerer heuristischer und vortrainierter Strategien (VAD, Segmentierung mit fester Länge, SHAS-Ausgabe)
  2. Evaluierung jeder Kandidatensegmentierung anhand von Übersetzungsqualität (BLEU) und Latenz (durchschnittliche Verzögerung)
  3. Ableitung von Rangsignalen aus diesen Metriken, wobei besser abschneidende Segmentierungen als bevorzugte Kandidaten dienen
  4. Insgesamt etwa 8.000 Präferenzpaare für das Training gewonnen

DPO-Training

Verwendet direkte Präferenzoptimierung zur Feinabstimmung des LLM:

Gegeben eine Eingabeutterance x werden mehrere Kandidatensegmentierungen generiert, wobei jede Segmentierung y als Sequenz von Grenzindizes auf dem Eingabestrom dargestellt wird. Präferenzpaare (y_pref, y_dispref) werden konstruiert, wobei y_pref die bevorzugte Segmentierung darstellt, die bessere Übersetzungsqualität und niedrigere Latenz erzeugt.

Die DPO-Zielfunktion lautet:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

wobei π_θ die durch das LLM induzierte Strategie darstellt und β ein Skalierungshyperparameter ist. Training über 5 Epochen mit standardmäßiger Lernratenplanung.

Technische Innovationen

  1. Präferenzausrichtungsmechanismus: Erstmalige Anwendung von DPO auf Segmentierungsaufgaben, Anleitung des Modells durch menschliche Präferenzsignale
  2. End-to-End-Optimierung: Direkte Optimierung des kombinierten Ziels von Übersetzungsqualität und Latenz statt nur Abhängigkeit von akustischen Merkmalen
  3. Streaming-Verarbeitungsarchitektur: Entwurf eines Schiebefenstermechanismus für Echtzeit-Verarbeitung
  4. Multimodale Fusion: Kombination akustischer Merkmale und Sprachmodell-Fähigkeiten für Segmentierungsentscheidungen

Experimentelle Einrichtung

Datensätze

  • Trainingsdaten: CoVoST2-Korpus zur Konstruktion von Präferenzpaaren für DPO-Training
  • Evaluierungsdaten: ACL 60/60-Testsatz mit technischen Vorträgen von ACL 2022
  • Sprachpaare: Englisch→Japanisch, Englisch→Chinesisch, Englisch→Deutsch

Bewertungsmetriken

  • Übersetzungsqualität: BLEU-Score
  • Latenz: Streaming LAAL (Streaming Long Average Lagging), reflektiert Systemlatenz unter echten Streaming-Bedingungen

Vergleichsmethoden

  • IWSLT-Baseline: Chunking mit fester Länge und VAD-basierte Segmentierung
  • SHAS: Neu implementiertes vortrainiertes Segmentierungsmodell

Implementierungsdetails

  • Modell: Qwen2.5-Omni-3B als Segmentierungsrückgrat
  • Trainingseinstellungen: 5 Epochen, Batch-Größe 1, AdamW-Optimierer, Lernrate 5×10⁻⁵
  • Hardware: 4 NVIDIA A100 GPUs
  • Inferenzeinstellungen: Schiebefenstergröße 4 Sekunden, Sprungweite 2 Sekunden

Experimentelle Ergebnisse

Hauptergebnisse

MethodeEn→DeEn→JaEn→Zh
Fixed18.2/~3000-/-17.0/3000
VAD21.8/303016.0/301020.5/3020
SHAS23.6/310017.2/305022.0/3090
Ours (LLM+DPO)25.5/307818.6/312023.4/3160

Hinweis: Format ist BLEU(↑)/Latenz(ms, ↓)

Wichtigste Erkenntnisse

  1. Konsistente Verbesserungen: Übertrifft heuristische Baselines und SHAS-Modell in allen drei Übersetzungsrichtungen
  2. Signifikante Qualitätssteigerung: Durchschnittliche Verbesserung von etwa 1,5 BLEU gegenüber SHAS bei nur etwa 100 ms zusätzlicher Latenz
  3. Unterschiede zwischen Sprachpaaren: En→De erreicht höchsten BLEU, En→Zh zeigt mittlere Gewinne, En→Ja bleibt am schwierigsten

Analyse des Latenz-Qualitäts-Kompromisses

Die Analyse durch Latenz-Qualitäts-Kompromiss-Kurven zeigt, dass DPO-trainierte LLMs durchgehend andere Segmentierungsstrategien im gesamten Betriebsbereich übertreffen und höhere BLEU-Scores bei ähnlicher oder niedrigerer Latenz erreichen.

Verwandte Arbeiten

Entwicklung von Segmentierungsmethoden

  • Heuristische Methoden: Strategien wie feste wait-k, aber begrenzt bei der Anpassung an Sprachvariationen
  • Trainierbare Methoden: DiSeg führt differenzierbare Segmentierungsmodule ein, gemeinsam trainiert mit Übersetzungsmodellen durch Erwartungstraining
  • Vortrainierte Modelle: Modelle wie SHAS verbessern Robustheit durch großflächiges Training

Mehrsprachige Übersetzungssysteme

Große mehrsprachige multimodale Übersetzungssysteme wie SeamlessM4T bieten starke Rückgrate für Sprachübersetzungsaufgaben und zeigen modernste Leistung über mehrere Sprachen.

Forschungslücke

Nach Aussage der Autoren wurde bisher keine Arbeit durchgeführt, die präferenzbasierte Optimierung auf Segmentierungsaufgaben in SimulST anwendet. Diese Arbeit schließt diese Lücke.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. DPO-Effektivität: Präferenzoptimierung ermöglicht es Modellen, Segmentierungen zu lernen, die mit menschlichen Präferenzen ausgerichtet sind, und erzeugt natürlichere Grenzen und bessere Qualitäts-Latenz-Kompromisse
  2. Leistungssteigerung: Bei etwa 3 Sekunden Latenz konsistente Verbesserungen gegenüber SHAS in allen drei Sprachrichtungen
  3. Praktischer Wert: Demonstriert das Potenzial präferenzoptimierter LLMs für Echtzeit-Simultanübersetzung

Einschränkungen

  1. Begrenzte Evaluierungsreichweite: Nur drei Sprachpaare, weitere Richtungen zur Validierung der Verallgemeinerbarkeit erforderlich
  2. Rechnerischer Overhead: 3B-Parameter-LLM führt zusätzliche Rechenlast ein, kann Bereitstellung auf ressourcenbeschränkten Geräten einschränken
  3. Stabilitätsprobleme: BLEU-Schwankungen bei bestimmten Latenz-Schwellwerten beobachtet, deutet auf Verbesserungspotenzial bei Segmentierungsstabilität hin
  4. Einschränkungen der Bewertungsmetriken: Abhängigkeit von BLEU und Latenz als automatische Metriken, Mangel an menschlicher Evaluierung

Zukünftige Richtungen

  1. Erweiterung auf mehr Sprachpaare und Domänen
  2. Optimierung der Modelleffizienz für Echtzeit-Bereitstellung
  3. Einführung menschlicher Evaluierung zur Validierung automatischer Metriken
  4. Erkundung komplexerer Präferenzmodellierungsmethoden

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige Anwendung von DPO auf SimulST-Segmentierung, eröffnet neue Forschungsrichtung
  2. Rationale Methodik: Der Ansatz der Präferenzausrichtung entspricht praktischen Anforderungen und löst Kernprobleme bestehender Methoden
  3. Umfassende Experimente: Gründliche Evaluierung über mehrere Sprachpaare mit konsistenten und überzeugenden Ergebnissen
  4. Hoher praktischer Wert: Bietet vollständiges End-to-End-System mit Potenzial für praktische Bereitstellung

Schwächen

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum DPO bei Segmentierungsaufgaben wirksam ist
  2. Einfache Präferenzpaar-Konstruktion: Basiert nur auf BLEU und Latenz, möglicherweise nicht umfassend genug
  3. Recheneffizienzprobleme: Echtzeit-Leistung des 3B-Parameter-Modells könnte Engpass in praktischen Anwendungen sein
  4. Einzelne Bewertungsmetriken: Hauptsächlich Abhängigkeit von automatischen Metriken, Mangel an subjektiver Qualitätsbewertung

Auswirkungen

  1. Akademischer Beitrag: Führt neues Optimierungsparadigma in SimulST-Segmentierungsfeld ein
  2. Praktischer Wert: Bietet bessere Segmentierungslösung für Echtzeit-Sprachübersetzungssysteme
  3. Inspirationswert: Demonstriert Anwendungspotenzial von Präferenzlernen bei Sequenzentscheidungsaufgaben

Anwendungsszenarien

  1. Echtzeit-Konferenzübersetzung: Simultane Übersetzungsszenarien mit niedriger Latenz und hoher Qualität
  2. Live-Untertitelgenerierung: Anwendungen mit hohen Anforderungen an Segmentierungsqualität
  3. Mehrsprachige Kundendienstsysteme: Benötigen natürliche und flüssige Echtzeit-Übersetzungsinteraktion

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

  • SHAS-Segmentierungsmodell Tsiamas et al., 2022
  • SeamlessM4T-Übersetzungssystem Meta AI, 2023-2024
  • DPO-Optimierungsmethode Rafailov et al., 2023
  • ACL 60/60-Evaluierungs-Benchmark Salesky et al., 2023

Gesamtbewertung: Dies ist ein technisch innovatives Papier, das erstmals Präferenzoptimierung in die SimulST-Segmentierungsaufgabe einführt. Die Methodik ist rational, die experimentellen Ergebnisse überzeugend. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Recheneffizienz gibt, leistet es einen wertvollen Beitrag zur Entwicklung des Feldes und eröffnet neue Forschungsrichtungen.