2025-11-24T06:04:17.956351

DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation

Yang, Nakamura

Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.

academic

Modelli di Linguaggio di Grandi Dimensioni Ottimizzati con DPO per la Segmentazione nella Traduzione Simultanea di Parlato

Informazioni Fondamentali

ID Articolo: 2510.12195
Titolo: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
Autori: Zeyu Yang (CUHK, Shenzhen), Satoshi Nakamura (CUHK, Shenzhen & NAIST, Japan)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.12195

Riassunto

La traduzione simultanea di parlato richiede una segmentazione accurata per bilanciare la qualità della traduzione e la latenza. Sebbene i modelli di segmentazione pre-addestrati come SHAS superino le regole euristiche, rimangono vincolati dagli obiettivi di apprendimento supervisionato e mancano dell'allineamento alle preferenze umane. Questo articolo propone un framework di segmentazione basato su modelli di linguaggio di grandi dimensioni (LLM) addestrati mediante ottimizzazione diretta delle preferenze (DPO), consentendo agli LLM di prevedere punti di segmentazione più naturali attraverso l'allineamento alle preferenze. La valutazione su tre coppie linguistiche nel corpus ACL 60/60, utilizzando SeamlessM4T v2 come backbone di traduzione, dimostra che gli LLM ottimizzati con DPO superano SHAS in accuratezza di segmentazione, con miglioramenti consistenti sia nella qualità della traduzione (BLEU, COMET) che nella latenza (Average Lagging medio).

Contesto di Ricerca e Motivazione

Problema Centrale

La sfida fondamentale della traduzione simultanea di parlato (SimulST) consiste nel minimizzare la latenza mantenendo la qualità della traduzione, il che richiede al sistema di decidere accuratamente quando segmentare il flusso di input e produrre la traduzione. Una segmentazione inadeguata produce unità di traduzione incomplete o ridondanti, compromettendo significativamente l'accuratezza e l'esperienza dell'utente.

Importanza del Problema

La segmentazione è considerata un componente critico dei sistemi SimulST pratici, in particolare nella SimulST in streaming, dove i confini inadeguati danneggiano significativamente la qualità della traduzione e la latenza. Le regole euristiche tradizionali (come la predizione della punteggiatura, il chunking a lunghezza fissa) sono semplici ed efficienti, ma spesso non si adattano alle diverse strutture linguistiche e agli stili di parlato.

Limitazioni dei Metodi Esistenti

Metodi euristici: Strategie come wait-k fisso hanno limitazioni nell'adattarsi ai cambiamenti linguistici
Modelli pre-addestrati: Sebbene modelli come SHAS siano più robusti dei metodi euristici, rimangono vincolati agli obiettivi di apprendimento supervisionato e dipendono solo da caratteristiche acustiche
Mancanza di allineamento alle preferenze umane: I metodi esistenti non incorporano l'allineamento alle prestazioni della traduzione automatica simultanea, cruciale per una traduzione naturale e tempestiva

Motivazione della Ricerca

I modelli di linguaggio di grandi dimensioni hanno dimostrato capacità di generalizzazione eccezionali nei compiti di parlato e traduzione, ma il loro potenziale nella segmentazione SimulST rimane inesplorato. L'ottimizzazione diretta delle preferenze (DPO) offre una direzione promettente per allineare i modelli al feedback umano, consentendo decisioni guidate dalle preferenze che vanno oltre l'addestramento supervisionato.

Contributi Principali

Propone un framework di segmentazione LLM ottimizzato con DPO: Prima applicazione dell'ottimizzazione delle preferenze al compito di segmentazione SimulST
Costruisce una valutazione sperimentale completa: Valutazione su tre coppie linguistiche nel dataset ACL 60/60, utilizzando SeamlessM4T v2 come backbone di traduzione
Dimostra la superiorità degli LLM ottimizzati con preferenze: Miglioramenti rispetto al modello di segmentazione pre-addestrato SHAS sia nella qualità della traduzione che nella latenza
Fornisce un sistema end-to-end completo: Integra il modulo di segmentazione con il sistema di traduzione per realizzare la traduzione simultanea di parlato in tempo reale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di segmentazione in SimulST è definito come la predizione dei punti di interruzione delle frasi nel flusso di parlato in arrivo, con l'obiettivo di bilanciare la qualità della traduzione e la latenza. Dato una sequenza di parlato in streaming x, il modello produce una sequenza di decisioni di segmentazione {s₁, s₂, ..., sₜ}, dove ogni sₜ rappresenta la posizione del confine previsto. A differenza degli approcci di classificazione binaria, questo articolo definisce la segmentazione come un problema di predizione del prossimo punto di interruzione.

Architettura del Modello

LLM di Base

Utilizza Qwen2.5-Omni-3B come modello backbone di segmentazione, operando in modalità streaming con un meccanismo di finestra scorrevole sugli input audio. Il modello elabora direttamente le caratteristiche acustiche a livello di chunk, anziché trascrizioni ASR a livello di token, predicendo incrementalmente il prossimo punto di segmentazione dato il contesto di parlato corrente.

Costruzione di Coppie di Preferenze

Per incorporare segnali di allineamento umano, vengono costruite coppie di preferenze di segmentazioni candidate:

Generazione di confini candidati combinando molteplici strategie euristiche e pre-addestrate (VAD, segmentazione a lunghezza fissa, output SHAS)
Valutazione di ogni segmentazione candidata utilizzando qualità della traduzione (BLEU) e latenza (Average Lagging)
Derivazione di segnali di ranking da queste metriche, con segmentazioni con prestazioni migliori come candidati preferiti
Acquisizione di circa 8.000 coppie di preferenze per l'addestramento

Addestramento DPO

Utilizza l'ottimizzazione diretta delle preferenze per fine-tuning dell'LLM:

Dato un enunciato di input x, vengono generate molteplici segmentazioni candidate, dove ogni segmentazione y è rappresentata come una sequenza di indici di confine sul flusso di input. Vengono costruite coppie di preferenze (y_pref, y_dispref), dove y_pref rappresenta la segmentazione preferita che produce qualità di traduzione migliore e latenza inferiore.

La funzione obiettivo DPO è:

L(θ) = -E_{(x,y_pref,y_dispref)} [log σ(β · (log π_θ(y_pref | x) - log π_θ(y_dispref | x)))]

dove π_θ rappresenta la politica indotta dall'LLM e β è un iperparametro di scaling. L'addestramento viene eseguito per 5 epoch utilizzando uno schedule di learning rate standard.

Punti di Innovazione Tecnica

Meccanismo di allineamento alle preferenze: Prima applicazione di DPO al compito di segmentazione, guidando l'apprendimento del modello attraverso segnali di preferenza umana
Ottimizzazione end-to-end: Ottimizzazione diretta dell'obiettivo combinato di qualità della traduzione e latenza, anziché dipendere solo da caratteristiche acustiche
Architettura di elaborazione in streaming: Progettazione di un meccanismo di finestra scorrevole adatto all'elaborazione in tempo reale
Fusione multimodale: Combinazione di caratteristiche acustiche e capacità di modelli linguistici per decisioni di segmentazione

Configurazione Sperimentale

Dataset

Dati di addestramento: Corpus CoVoST2, utilizzato per costruire coppie di preferenze per l'addestramento DPO
Dati di valutazione: Set di test ACL 60/60, contenente discorsi tecnici da ACL 2022
Coppie linguistiche: Inglese→Giapponese, Inglese→Cinese, Inglese→Tedesco

Metriche di Valutazione

Qualità della traduzione: Punteggio BLEU
Latenza: Streaming LAAL (Streaming Long Average Lagging), riflettendo la latenza del sistema in condizioni di streaming reali

Metodi di Confronto

Baseline IWSLT: Chunking a lunghezza fissa e segmentazione basata su VAD
SHAS: Modello di segmentazione pre-addestrato reimplementato

Dettagli di Implementazione

Modello: Qwen2.5-Omni-3B come backbone di segmentazione
Configurazione di addestramento: 5 epoch, dimensione batch 1, ottimizzatore AdamW, learning rate 5×10⁻⁵
Hardware: 4 GPU NVIDIA A100
Configurazione di inferenza: Dimensione della finestra scorrevole 4 secondi, dimensione del salto 2 secondi

Risultati Sperimentali

Risultati Principali

Metodo	En→De	En→Ja	En→Zh
Fixed	18.2/~3000	-/-	17.0/3000
VAD	21.8/3030	16.0/3010	20.5/3020
SHAS	23.6/3100	17.2/3050	22.0/3090
Ours (LLM+DPO)	25.5/3078	18.6/3120	23.4/3160

Nota: Formato BLEU(↑)/Latenza(ms, ↓)

Risultati Chiave

Miglioramenti consistenti: Superamento dei baseline euristici e del modello SHAS in tutte e tre le direzioni di traduzione
Miglioramento significativo della qualità: Miglioramento medio di circa 1.5 BLEU rispetto a SHAS, con aumento di latenza di soli ~100ms
Differenze tra coppie linguistiche: En→De raggiunge il BLEU più alto, En→Zh mostra guadagni moderati, En→Ja rimane la più impegnativa

Analisi del Trade-off Latenza-Qualità

L'analisi mediante curve di trade-off latenza-qualità dimostra che l'LLM addestrato con DPO supera costantemente altre strategie di segmentazione in tutto l'intervallo operativo, raggiungendo punteggi BLEU più elevati con latenza simile o inferiore.

Lavori Correlati

Evoluzione dei Metodi di Segmentazione

Metodi euristici: Strategie wait-k fisse, ecc., ma con limitazioni nell'adattarsi ai cambiamenti linguistici
Metodi addestrabili: DiSeg introduce moduli di segmentazione differenziabili, addestrati congiuntamente con il modello di traduzione mediante addestramento per expectation
Modelli pre-addestrati: Modelli come SHAS migliorano la robustezza attraverso l'addestramento su larga scala

Sistemi di Traduzione Multilingue

Sistemi come SeamlessM4T forniscono backbone potenti per compiti di traduzione di parlato, dimostrando prestazioni all'avanguardia su molteplici lingue.

Lacune nella Ricerca

A conoscenza degli autori, nessun lavoro precedente ha applicato l'ottimizzazione basata su preferenze al compito di segmentazione in SimulST, colmando questa lacuna.

Conclusioni e Discussione

Conclusioni Principali

Efficacia di DPO: L'ottimizzazione delle preferenze consente al modello di apprendere segmentazioni allineate alle preferenze umane, producendo confini più naturali e migliori trade-off qualità-latenza
Miglioramento delle prestazioni: Con latenza di circa 3 secondi, miglioramenti consistenti rispetto a SHAS in tutte e tre le direzioni linguistiche
Valore pratico: Dimostra il potenziale degli LLM ottimizzati con preferenze nell'interpretazione simultanea in tempo reale

Limitazioni

Ambito di valutazione limitato: Limitato a tre coppie linguistiche, necessitando di direzioni più diverse per verificare la generalizzazione
Overhead computazionale: L'LLM di 3B parametri introduce overhead computazionale aggiuntivo, potenzialmente limitando il deployment su dispositivi con risorse limitate
Problemi di stabilità: Fluttuazioni di BLEU osservate a specifiche soglie di latenza, indicando che la stabilità di segmentazione può ancora essere migliorata
Limitazioni delle metriche di valutazione: Dipendenza da BLEU e latenza come metriche automatiche, mancanza di valutazione umana

Direzioni Future

Estensione a più coppie linguistiche e domini
Ottimizzazione dell'efficienza del modello per il deployment in tempo reale
Introduzione di valutazione umana per verificare le metriche automatiche
Esplorazione di metodi di modellazione delle preferenze più complessi

Valutazione Approfondita

Punti di Forza

Forte innovatività: Prima applicazione di DPO alla segmentazione SimulST, aprendo nuove direzioni di ricerca
Metodologia razionale: L'approccio di allineamento alle preferenze è coerente con i requisiti delle applicazioni pratiche, risolvendo i problemi centrali dei metodi esistenti
Sperimentazione completa: Valutazione completa su molteplici coppie linguistiche con risultati consistenti e convincenti
Alto valore pratico: Fornisce un sistema end-to-end completo con potenziale di deployment pratico

Carenze

Analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché DPO sia efficace nel compito di segmentazione
Costruzione semplice delle coppie di preferenze: Costruzione basata solo su BLEU e latenza, potenzialmente non sufficientemente completa
Problemi di efficienza computazionale: Le prestazioni in tempo reale del modello di 3B parametri potrebbero diventare un collo di bottiglia nelle applicazioni pratiche
Metriche di valutazione singolari: Dipendenza principalmente da metriche automatiche, mancanza di valutazione della qualità soggettiva

Impatto

Contributo accademico: Introduce un nuovo paradigma di ottimizzazione nel campo della segmentazione SimulST
Valore pratico: Fornisce una soluzione di segmentazione migliore per sistemi di traduzione di parlato in tempo reale
Significato ispirativo: Dimostra il potenziale dell'apprendimento delle preferenze in compiti di decisione sequenziale

Scenari Applicabili

Traduzione simultanea di conferenze: Scenari che richiedono traduzione simultanea a bassa latenza e alta qualità
Generazione di sottotitoli in diretta: Applicazioni con requisiti elevati sulla qualità della segmentazione
Sistemi di customer service multilingue: Necessità di interazione di traduzione in tempo reale naturale e fluida

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo correlato, inclusi:

Modello di segmentazione SHAS Tsiamas et al., 2022
Sistema di traduzione SeamlessM4T Meta AI, 2023-2024
Metodo di ottimizzazione DPO Rafailov et al., 2023
Benchmark di valutazione ACL 60/60 Salesky et al., 2023

Valutazione Complessiva: Questo è un articolo con forte innovatività tecnica che introduce per la prima volta l'ottimizzazione delle preferenze al compito di segmentazione SimulST, con metodologia razionale e risultati sperimentali convincenti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'efficienza computazionale, fornisce contributi preziosi e nuove direzioni di ricerca per lo sviluppo del campo.