DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Yang, Nakamura
Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
academic
Modelli di Linguaggio di Grandi Dimensioni Ottimizzati con DPO per la Segmentazione nella Traduzione Simultanea di Parlato
La traduzione simultanea di parlato richiede una segmentazione accurata per bilanciare la qualità della traduzione e la latenza. Sebbene i modelli di segmentazione pre-addestrati come SHAS superino le regole euristiche, rimangono vincolati dagli obiettivi di apprendimento supervisionato e mancano dell'allineamento alle preferenze umane. Questo articolo propone un framework di segmentazione basato su modelli di linguaggio di grandi dimensioni (LLM) addestrati mediante ottimizzazione diretta delle preferenze (DPO), consentendo agli LLM di prevedere punti di segmentazione più naturali attraverso l'allineamento alle preferenze. La valutazione su tre coppie linguistiche nel corpus ACL 60/60, utilizzando SeamlessM4T v2 come backbone di traduzione, dimostra che gli LLM ottimizzati con DPO superano SHAS in accuratezza di segmentazione, con miglioramenti consistenti sia nella qualità della traduzione (BLEU, COMET) che nella latenza (Average Lagging medio).
La sfida fondamentale della traduzione simultanea di parlato (SimulST) consiste nel minimizzare la latenza mantenendo la qualità della traduzione, il che richiede al sistema di decidere accuratamente quando segmentare il flusso di input e produrre la traduzione. Una segmentazione inadeguata produce unità di traduzione incomplete o ridondanti, compromettendo significativamente l'accuratezza e l'esperienza dell'utente.
La segmentazione è considerata un componente critico dei sistemi SimulST pratici, in particolare nella SimulST in streaming, dove i confini inadeguati danneggiano significativamente la qualità della traduzione e la latenza. Le regole euristiche tradizionali (come la predizione della punteggiatura, il chunking a lunghezza fissa) sono semplici ed efficienti, ma spesso non si adattano alle diverse strutture linguistiche e agli stili di parlato.
Metodi euristici: Strategie come wait-k fisso hanno limitazioni nell'adattarsi ai cambiamenti linguistici
Modelli pre-addestrati: Sebbene modelli come SHAS siano più robusti dei metodi euristici, rimangono vincolati agli obiettivi di apprendimento supervisionato e dipendono solo da caratteristiche acustiche
Mancanza di allineamento alle preferenze umane: I metodi esistenti non incorporano l'allineamento alle prestazioni della traduzione automatica simultanea, cruciale per una traduzione naturale e tempestiva
I modelli di linguaggio di grandi dimensioni hanno dimostrato capacità di generalizzazione eccezionali nei compiti di parlato e traduzione, ma il loro potenziale nella segmentazione SimulST rimane inesplorato. L'ottimizzazione diretta delle preferenze (DPO) offre una direzione promettente per allineare i modelli al feedback umano, consentendo decisioni guidate dalle preferenze che vanno oltre l'addestramento supervisionato.
Propone un framework di segmentazione LLM ottimizzato con DPO: Prima applicazione dell'ottimizzazione delle preferenze al compito di segmentazione SimulST
Costruisce una valutazione sperimentale completa: Valutazione su tre coppie linguistiche nel dataset ACL 60/60, utilizzando SeamlessM4T v2 come backbone di traduzione
Dimostra la superiorità degli LLM ottimizzati con preferenze: Miglioramenti rispetto al modello di segmentazione pre-addestrato SHAS sia nella qualità della traduzione che nella latenza
Fornisce un sistema end-to-end completo: Integra il modulo di segmentazione con il sistema di traduzione per realizzare la traduzione simultanea di parlato in tempo reale
Il compito di segmentazione in SimulST è definito come la predizione dei punti di interruzione delle frasi nel flusso di parlato in arrivo, con l'obiettivo di bilanciare la qualità della traduzione e la latenza. Dato una sequenza di parlato in streaming x, il modello produce una sequenza di decisioni di segmentazione {s₁, s₂, ..., sₜ}, dove ogni sₜ rappresenta la posizione del confine previsto. A differenza degli approcci di classificazione binaria, questo articolo definisce la segmentazione come un problema di predizione del prossimo punto di interruzione.
Utilizza Qwen2.5-Omni-3B come modello backbone di segmentazione, operando in modalità streaming con un meccanismo di finestra scorrevole sugli input audio. Il modello elabora direttamente le caratteristiche acustiche a livello di chunk, anziché trascrizioni ASR a livello di token, predicendo incrementalmente il prossimo punto di segmentazione dato il contesto di parlato corrente.
Utilizza l'ottimizzazione diretta delle preferenze per fine-tuning dell'LLM:
Dato un enunciato di input x, vengono generate molteplici segmentazioni candidate, dove ogni segmentazione y è rappresentata come una sequenza di indici di confine sul flusso di input. Vengono costruite coppie di preferenze (y_pref, y_dispref), dove y_pref rappresenta la segmentazione preferita che produce qualità di traduzione migliore e latenza inferiore.
dove π_θ rappresenta la politica indotta dall'LLM e β è un iperparametro di scaling. L'addestramento viene eseguito per 5 epoch utilizzando uno schedule di learning rate standard.
Meccanismo di allineamento alle preferenze: Prima applicazione di DPO al compito di segmentazione, guidando l'apprendimento del modello attraverso segnali di preferenza umana
Ottimizzazione end-to-end: Ottimizzazione diretta dell'obiettivo combinato di qualità della traduzione e latenza, anziché dipendere solo da caratteristiche acustiche
Architettura di elaborazione in streaming: Progettazione di un meccanismo di finestra scorrevole adatto all'elaborazione in tempo reale
Fusione multimodale: Combinazione di caratteristiche acustiche e capacità di modelli linguistici per decisioni di segmentazione
L'analisi mediante curve di trade-off latenza-qualità dimostra che l'LLM addestrato con DPO supera costantemente altre strategie di segmentazione in tutto l'intervallo operativo, raggiungendo punteggi BLEU più elevati con latenza simile o inferiore.
Metodi euristici: Strategie wait-k fisse, ecc., ma con limitazioni nell'adattarsi ai cambiamenti linguistici
Metodi addestrabili: DiSeg introduce moduli di segmentazione differenziabili, addestrati congiuntamente con il modello di traduzione mediante addestramento per expectation
Modelli pre-addestrati: Modelli come SHAS migliorano la robustezza attraverso l'addestramento su larga scala
Sistemi come SeamlessM4T forniscono backbone potenti per compiti di traduzione di parlato, dimostrando prestazioni all'avanguardia su molteplici lingue.
A conoscenza degli autori, nessun lavoro precedente ha applicato l'ottimizzazione basata su preferenze al compito di segmentazione in SimulST, colmando questa lacuna.
Efficacia di DPO: L'ottimizzazione delle preferenze consente al modello di apprendere segmentazioni allineate alle preferenze umane, producendo confini più naturali e migliori trade-off qualità-latenza
Miglioramento delle prestazioni: Con latenza di circa 3 secondi, miglioramenti consistenti rispetto a SHAS in tutte e tre le direzioni linguistiche
Valore pratico: Dimostra il potenziale degli LLM ottimizzati con preferenze nell'interpretazione simultanea in tempo reale
Ambito di valutazione limitato: Limitato a tre coppie linguistiche, necessitando di direzioni più diverse per verificare la generalizzazione
Overhead computazionale: L'LLM di 3B parametri introduce overhead computazionale aggiuntivo, potenzialmente limitando il deployment su dispositivi con risorse limitate
Problemi di stabilità: Fluttuazioni di BLEU osservate a specifiche soglie di latenza, indicando che la stabilità di segmentazione può ancora essere migliorata
Limitazioni delle metriche di valutazione: Dipendenza da BLEU e latenza come metriche automatiche, mancanza di valutazione umana
Forte innovatività: Prima applicazione di DPO alla segmentazione SimulST, aprendo nuove direzioni di ricerca
Metodologia razionale: L'approccio di allineamento alle preferenze è coerente con i requisiti delle applicazioni pratiche, risolvendo i problemi centrali dei metodi esistenti
Sperimentazione completa: Valutazione completa su molteplici coppie linguistiche con risultati consistenti e convincenti
Alto valore pratico: Fornisce un sistema end-to-end completo con potenziale di deployment pratico
Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché DPO sia efficace nel compito di segmentazione
Costruzione semplice delle coppie di preferenze: Costruzione basata solo su BLEU e latenza, potenzialmente non sufficientemente completa
Problemi di efficienza computazionale: Le prestazioni in tempo reale del modello di 3B parametri potrebbero diventare un collo di bottiglia nelle applicazioni pratiche
Metriche di valutazione singolari: Dipendenza principalmente da metriche automatiche, mancanza di valutazione della qualità soggettiva
L'articolo cita lavori importanti nel campo correlato, inclusi:
Modello di segmentazione SHAS Tsiamas et al., 2022
Sistema di traduzione SeamlessM4T Meta AI, 2023-2024
Metodo di ottimizzazione DPO Rafailov et al., 2023
Benchmark di valutazione ACL 60/60 Salesky et al., 2023
Valutazione Complessiva: Questo è un articolo con forte innovatività tecnica che introduce per la prima volta l'ottimizzazione delle preferenze al compito di segmentazione SimulST, con metodologia razionale e risultati sperimentali convincenti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, fornisce contributi preziosi e nuove direzioni di ricerca per lo sviluppo del campo.